силина2010

Preview:

Citation preview

Опыт использования продукционных правил в задаче извлечения

онтологической информации из терминологических словарей

Е.Н. Клименко

Е.Ф. СилинаСанкт-Петербургский экономико-математический

институт РАН

Три этапа решения задачи

1. Семантико-синтаксический анализ исходного варианта вербальных определений. В основе системы лежит анализатор и семантический словарь В. А. Тузова.

2. Разработка системы правил, вычленяющих из вербального определения онтологически значимую информацию.

3. Применение правил к вербальным определениям.

Список структурных связей между терминами

1. Это – субъект этой связи объявляется классом.

2. subClassOf – субъект этой связи объявляется подклассом класса, заданного объектом.

3. этоПараметр – субъект этой связи является параметром некоторого далее конкретизируемого свойства класса, заданного объектом связи.

4. с_Параметром – объект этой связи является параметром субъекта.

Продукционные правила

Продукционное правило - правило вида

"УСЛОВИЕ – ДЕЙСТВИЕ".

Структура правил состоит из двух частей:

– условие, которому должен удовлетворять фрагмент дерева синтаксического разбора;

– действие, выполняемое над заданным фрагментом дерева, если правило оказалось применимым к этому фрагменту.

Основные приемы определения правил УСЛОВИЕ содержит: – указание опорного узла дерева разбора, к которому применимо данное правило; – указание, если это необходимо, контекста этого

опорного узла, – указание, если это необходимо, свойств

(морфологических и семантических) которым должны удовлетворять узлы (все или некоторые) из заданного контекста.

ДЕЙСТВИЕ содержит инструкции о вставке, уничтожении или преобразовании триплетов и узлов.

Синтаксически правило оформляется в виде именованного блока информации, атрибутом которого определяется T- или N-тип этого правила:

<имя_правила ТИП={T|N} >

условие => действие

</ имя_правила>

Склонение - одна из двух координат экваториальной системы координат.

{СКЛОНЕНИЕ - Это - Class

СКЛОНЕНИЕ - этоПараметр - ЭКВАТОРИАЛЬНЫЙ_СИСТЕМА_КООРДИНАТА

СКЛОНЕНИЕ - subClassOf - КООРДИНАТА}

Правило РодЗн

<РодЗн ТИП = "T">

#W1 Род #W2 & ЗНАЧАЩИЙ (#W1) != 0 & ЗНАЧАЩИЙ (#W2) != 0 =>

ВСТАВИТЬ (#W1 этоПараметр #W2);

УДАЛИТЬ (#W1 Род #W2)

</РодЗн>

Правило РодНезн

<РодНезн ТИП = "T">

#W1 Род #W2 & ЧАСТЬРЕЧИ (#W1) = Сущ &

ЧАСТЬРЕЧИ (#W2) = Сущ &

ЗНАЧАЩИЙ (#W2) = 0 =>

УДАЛИТЬ (#W1 Род #W2)

</РодНезн>

Правило РодПар2

<РодПар2 ТИП = "T">

#W1 Род #W2 & (КЛАСС(#W1) = Параметры & ЗНАЧАЩИЙ(#W2) != 0) =>

ЗАМЕНИТЬ (#W1 Род #W2,

#W1 этоПараметр #W2)

</РодПар2>

Результаты эксперимента

• Всего в определениях терминологического словаря использовано 237 различных слов. Указание класса потребовалось для 48 слов. Общее количество востребованных классов равно 16.

• В определениях терминологического словаря (после применения программы унификации связей) используется 38 различных типов связей.

• Для построения онтологии по исходному терминологическому словарю пришлось определить 123 правила. Из них 51 правило использовано два и более раз; 72 правила были использованы однократно.

Общее количество связей в «эталонной онтологии» - 93:

связи вида класс/подкласс - 62,связи вида свойства классов - 31.

Общее количество выявленных связей - 61:связи класс/подкласс – 29,связи свойства классов - 32.

Конечным результатом этой работы является формальный текст онтологии, связывающей исходный набор терминов в сеть отношений между терминами.

• Подтвердилась зависимость семантической интерпретации синтаксических связей от контекста на дереве разбора.

• Важной характеристикой является степень общности правил и возможность их многократного использования.

• Все правила, будучи ориентированными на задачу онтологического анализа терминологических словарей, вместе с тем имеют достаточно общий характер и не зависят от специфики конкретной предметной области (в нашем случае это задача межзвездного поглощения).

• Спасибо за внимание !!!