12
ОБ АВТОМАТИЗИРОВАННОМ ИЗВЛЕЧЕНИИ ОНТОЛОГИЧЕСКОЙ ИНФОРМАЦИИ ИЗ ВЕРБАЛЬНОГО ТЕРМИНОЛОГИЧЕСКОГО СЛОВАРЯ Г. В. Лезин Санкт-Петербургский экономико-математический институт РАН

лезин

Embed Size (px)

Citation preview

Page 1: лезин

ОБ АВТОМАТИЗИРОВАННОМ ИЗВЛЕЧЕНИИ ОНТОЛОГИЧЕСКОЙ ИНФОРМАЦИИ ИЗ ВЕРБАЛЬНОГО

ТЕРМИНОЛОГИЧЕСКОГО СЛОВАРЯ

Г. В. Лезин Санкт-Петербургский экономико-математический институт РАН

Page 2: лезин

Цели эксперимента

• “Онтологическая” информативность определений в терминологическом словаре ?

• Уровень формальных знаний, достаточных для решения задачи ?

• Технология построения терминологического словаря как источника информации для спецификации предметной области ?

• Продукционные правила как средство описания процесса извлечения информации из текстов определений?

Page 3: лезин

Ограничения

Определение ограничено одним предложением. Из него исключены анафорические отношения.

Общий контекст терминологического словаря образован

исключительно списком определяемых терминов. Получаемый

формальный результат анализа не зависит от порядка обработки

определений.

Термином всегда обозначен класс, причем никак не связанный

с общей системой понятий естественного языка.

В качестве формального языка для представления целевой

онтологии использован OWL в упрощенном L-диалекте

Page 4: лезин

Структура системы извлечения онтологической информации из терминологического словаря

Текст определения

Сем.-синтаксич. анализ определения

Интерпретатор правил

Фрагменты онтологии

Семантический словарь (синтактика)

Семантический. словарь (онтология)

Дерево разбора

Правила

Функции и предикаты

Page 5: лезин

Этапы анализа

1. Синтаксический разбор

2. Общая постсинтаксическая обработка

3. Получение тезауруса

4. Преобразование тезауруса в онтологию

Page 6: лезин

Галактическая широта - одна из двух галактических координат, измеренная от плоскости галактики к объекту».

Галактическая широта

!ЭтоЕсть

одна_из !Какой

измеренная

двух

от_плоскости

!Ото

!Род

галактических координат!Род

галактики

к_объекту

!Род

!кДат

Page 7: лезин

Результат трасформации дерева разбора

Галактический широта

Это

Class

Галактический координата

subClassOfОбъект

этоПараметр

Page 8: лезин

OWL-результат анализа определения

<owl:Class rdf:about = "#ГАЛАКТИЧЕСКИЙ_ШИРОТА"> <rdfs:subClassOf><owl:Class rdf:about = "#ГАЛАКТИЧЕСКИЙ_КООРДИНАТА"/> </rdfs:subClassOf></owl:Class><owl:Class rdf:about = "#ОБЪЕКТ"> <rdfs:subClassOf> <owl:Restriction> <owl:onProperty> <owl:ObjectProperty rdf:about =

"#_галактический_широта"/> </owl:onProperty> <owl:allValuesFrom> <owl:Class rdf:about = "#ГАЛАКТИЧЕСКИЙ_ШИРОТА"/> </owl:allValuesFrom> </owl:Restriction> </rdfs:subClassOf></owl:Class>

Page 9: лезин

Виды правил

T-правила, применяются к очередному не обработанному исходящему триплету анализируемого узла дерева разбора;

N-правила, применяются к анализируемому узлу только после того, как все исходящие триплеты этого узла оказались обработанными T-правилами.

Структура правил:<имя_правила ТИП={T|N} >

решающая часть правила => исполнительная часть

</ имя_правила>

Page 10: лезин

Пример правила

<ЧислРодРод ТИП = "T">

#W1 Род #W2 & #W3 Род #W1 &

ЧАСТЬРЕЧИ(#W1)= Числ &

ЧАСТЬРЕЧИ(#W3)= Сущ &

СЛОВО(#W3)=*_из &

ЗНАЧАЩИЙ(#W2) != 0 =>

ВСТАВИТЬ(#W3 Род #W2);

УДАЛИТЬ(#W1 Род #W2)

</ЧислРодРод>

Page 11: лезин

Общие оценки

1. Оценка объема необходимой лексикографической

информации, поставляемой семантическим словарем Морфологическа информация – в полной мере Семантическая информация – в значительно меньшей

степени

2. Оценка объема и состава правил Ориентированность на общую задачу извлечения

онтологии из терминологического словаря Независимость от специализации предметой области Неполнота

Page 12: лезин

Общий вывод

От разрабатываемого метода автоматизированного извлечения онтологической информации из определений терминологического словаря можно ожидать, по-видимому, качественного изменения технологии разработки как собственно словаря, так и сопутствующей ему онтологии. Исходная версия онтологии может быть получена полностью автоматически. Скорее всего, полученная версия будет нуждаться в дальнейшей правке, но эта правка уже будет осуществляться в режиме интерактивного взаимодействия с программной системой. При этом правке могут подвергаться в равной степени как исходные тексты, так и выводимая из них онтология.