лезин

Preview:

Citation preview

ОБ АВТОМАТИЗИРОВАННОМ ИЗВЛЕЧЕНИИ ОНТОЛОГИЧЕСКОЙ ИНФОРМАЦИИ ИЗ ВЕРБАЛЬНОГО

ТЕРМИНОЛОГИЧЕСКОГО СЛОВАРЯ

Г. В. Лезин Санкт-Петербургский экономико-математический институт РАН

Цели эксперимента

• “Онтологическая” информативность определений в терминологическом словаре ?

• Уровень формальных знаний, достаточных для решения задачи ?

• Технология построения терминологического словаря как источника информации для спецификации предметной области ?

• Продукционные правила как средство описания процесса извлечения информации из текстов определений?

Ограничения

Определение ограничено одним предложением. Из него исключены анафорические отношения.

Общий контекст терминологического словаря образован

исключительно списком определяемых терминов. Получаемый

формальный результат анализа не зависит от порядка обработки

определений.

Термином всегда обозначен класс, причем никак не связанный

с общей системой понятий естественного языка.

В качестве формального языка для представления целевой

онтологии использован OWL в упрощенном L-диалекте

Структура системы извлечения онтологической информации из терминологического словаря

Текст определения

Сем.-синтаксич. анализ определения

Интерпретатор правил

Фрагменты онтологии

Семантический словарь (синтактика)

Семантический. словарь (онтология)

Дерево разбора

Правила

Функции и предикаты

Этапы анализа

1. Синтаксический разбор

2. Общая постсинтаксическая обработка

3. Получение тезауруса

4. Преобразование тезауруса в онтологию

Галактическая широта - одна из двух галактических координат, измеренная от плоскости галактики к объекту».

Галактическая широта

!ЭтоЕсть

одна_из !Какой

измеренная

двух

от_плоскости

!Ото

!Род

галактических координат!Род

галактики

к_объекту

!Род

!кДат

Результат трасформации дерева разбора

Галактический широта

Это

Class

Галактический координата

subClassOfОбъект

этоПараметр

OWL-результат анализа определения

<owl:Class rdf:about = "#ГАЛАКТИЧЕСКИЙ_ШИРОТА"> <rdfs:subClassOf><owl:Class rdf:about = "#ГАЛАКТИЧЕСКИЙ_КООРДИНАТА"/> </rdfs:subClassOf></owl:Class><owl:Class rdf:about = "#ОБЪЕКТ"> <rdfs:subClassOf> <owl:Restriction> <owl:onProperty> <owl:ObjectProperty rdf:about =

"#_галактический_широта"/> </owl:onProperty> <owl:allValuesFrom> <owl:Class rdf:about = "#ГАЛАКТИЧЕСКИЙ_ШИРОТА"/> </owl:allValuesFrom> </owl:Restriction> </rdfs:subClassOf></owl:Class>

Виды правил

T-правила, применяются к очередному не обработанному исходящему триплету анализируемого узла дерева разбора;

N-правила, применяются к анализируемому узлу только после того, как все исходящие триплеты этого узла оказались обработанными T-правилами.

Структура правил:<имя_правила ТИП={T|N} >

решающая часть правила => исполнительная часть

</ имя_правила>

Пример правила

<ЧислРодРод ТИП = "T">

#W1 Род #W2 & #W3 Род #W1 &

ЧАСТЬРЕЧИ(#W1)= Числ &

ЧАСТЬРЕЧИ(#W3)= Сущ &

СЛОВО(#W3)=*_из &

ЗНАЧАЩИЙ(#W2) != 0 =>

ВСТАВИТЬ(#W3 Род #W2);

УДАЛИТЬ(#W1 Род #W2)

</ЧислРодРод>

Общие оценки

1. Оценка объема необходимой лексикографической

информации, поставляемой семантическим словарем Морфологическа информация – в полной мере Семантическая информация – в значительно меньшей

степени

2. Оценка объема и состава правил Ориентированность на общую задачу извлечения

онтологии из терминологического словаря Независимость от специализации предметой области Неполнота

Общий вывод

От разрабатываемого метода автоматизированного извлечения онтологической информации из определений терминологического словаря можно ожидать, по-видимому, качественного изменения технологии разработки как собственно словаря, так и сопутствующей ему онтологии. Исходная версия онтологии может быть получена полностью автоматически. Скорее всего, полученная версия будет нуждаться в дальнейшей правке, но эта правка уже будет осуществляться в режиме интерактивного взаимодействия с программной системой. При этом правке могут подвергаться в равной степени как исходные тексты, так и выводимая из них онтология.