20
Опыт использования продукционных правил в задач извлечения онтологической нформации из терминологическ словарей Е.Н. Клименко Е.Ф. Силина анкт-Петербургский экономико-математическ институт РАН

силина2010

Embed Size (px)

Citation preview

Page 1: силина2010

Опыт использования продукционных правил в задаче извлечения

онтологической информации из терминологических словарей

Е.Н. Клименко

Е.Ф. СилинаСанкт-Петербургский экономико-математический

институт РАН

Page 2: силина2010

Три этапа решения задачи

1. Семантико-синтаксический анализ исходного варианта вербальных определений. В основе системы лежит анализатор и семантический словарь В. А. Тузова.

2. Разработка системы правил, вычленяющих из вербального определения онтологически значимую информацию.

3. Применение правил к вербальным определениям.

Page 3: силина2010

Список структурных связей между терминами

1. Это – субъект этой связи объявляется классом.

2. subClassOf – субъект этой связи объявляется подклассом класса, заданного объектом.

3. этоПараметр – субъект этой связи является параметром некоторого далее конкретизируемого свойства класса, заданного объектом связи.

4. с_Параметром – объект этой связи является параметром субъекта.

Page 4: силина2010

Продукционные правила

Продукционное правило - правило вида

"УСЛОВИЕ – ДЕЙСТВИЕ".

Структура правил состоит из двух частей:

– условие, которому должен удовлетворять фрагмент дерева синтаксического разбора;

– действие, выполняемое над заданным фрагментом дерева, если правило оказалось применимым к этому фрагменту.

Page 5: силина2010

Основные приемы определения правил УСЛОВИЕ содержит: – указание опорного узла дерева разбора, к которому применимо данное правило; – указание, если это необходимо, контекста этого

опорного узла, – указание, если это необходимо, свойств

(морфологических и семантических) которым должны удовлетворять узлы (все или некоторые) из заданного контекста.

ДЕЙСТВИЕ содержит инструкции о вставке, уничтожении или преобразовании триплетов и узлов.

Page 6: силина2010

Синтаксически правило оформляется в виде именованного блока информации, атрибутом которого определяется T- или N-тип этого правила:

<имя_правила ТИП={T|N} >

условие => действие

</ имя_правила>

Page 7: силина2010
Page 8: силина2010
Page 9: силина2010
Page 10: силина2010
Page 11: силина2010
Page 12: силина2010
Page 13: силина2010

Склонение - одна из двух координат экваториальной системы координат.

{СКЛОНЕНИЕ - Это - Class

СКЛОНЕНИЕ - этоПараметр - ЭКВАТОРИАЛЬНЫЙ_СИСТЕМА_КООРДИНАТА

СКЛОНЕНИЕ - subClassOf - КООРДИНАТА}

Page 14: силина2010

Правило РодЗн

<РодЗн ТИП = "T">

#W1 Род #W2 & ЗНАЧАЩИЙ (#W1) != 0 & ЗНАЧАЩИЙ (#W2) != 0 =>

ВСТАВИТЬ (#W1 этоПараметр #W2);

УДАЛИТЬ (#W1 Род #W2)

</РодЗн>

Page 15: силина2010

Правило РодНезн

<РодНезн ТИП = "T">

#W1 Род #W2 & ЧАСТЬРЕЧИ (#W1) = Сущ &

ЧАСТЬРЕЧИ (#W2) = Сущ &

ЗНАЧАЩИЙ (#W2) = 0 =>

УДАЛИТЬ (#W1 Род #W2)

</РодНезн>

Page 16: силина2010

Правило РодПар2

<РодПар2 ТИП = "T">

#W1 Род #W2 & (КЛАСС(#W1) = Параметры & ЗНАЧАЩИЙ(#W2) != 0) =>

ЗАМЕНИТЬ (#W1 Род #W2,

#W1 этоПараметр #W2)

</РодПар2>

Page 17: силина2010

Результаты эксперимента

• Всего в определениях терминологического словаря использовано 237 различных слов. Указание класса потребовалось для 48 слов. Общее количество востребованных классов равно 16.

• В определениях терминологического словаря (после применения программы унификации связей) используется 38 различных типов связей.

• Для построения онтологии по исходному терминологическому словарю пришлось определить 123 правила. Из них 51 правило использовано два и более раз; 72 правила были использованы однократно.

Page 18: силина2010

Общее количество связей в «эталонной онтологии» - 93:

связи вида класс/подкласс - 62,связи вида свойства классов - 31.

Общее количество выявленных связей - 61:связи класс/подкласс – 29,связи свойства классов - 32.

Конечным результатом этой работы является формальный текст онтологии, связывающей исходный набор терминов в сеть отношений между терминами.

Page 19: силина2010

• Подтвердилась зависимость семантической интерпретации синтаксических связей от контекста на дереве разбора.

• Важной характеристикой является степень общности правил и возможность их многократного использования.

• Все правила, будучи ориентированными на задачу онтологического анализа терминологических словарей, вместе с тем имеют достаточно общий характер и не зависят от специфики конкретной предметной области (в нашем случае это задача межзвездного поглощения).

Page 20: силина2010

• Спасибо за внимание !!!