Опыт использования продукционных правил в задаче извлечения
онтологической информации из терминологических словарей
Е.Н. Клименко
Е.Ф. СилинаСанкт-Петербургский экономико-математический
институт РАН
Три этапа решения задачи
1. Семантико-синтаксический анализ исходного варианта вербальных определений. В основе системы лежит анализатор и семантический словарь В. А. Тузова.
2. Разработка системы правил, вычленяющих из вербального определения онтологически значимую информацию.
3. Применение правил к вербальным определениям.
Список структурных связей между терминами
1. Это – субъект этой связи объявляется классом.
2. subClassOf – субъект этой связи объявляется подклассом класса, заданного объектом.
3. этоПараметр – субъект этой связи является параметром некоторого далее конкретизируемого свойства класса, заданного объектом связи.
4. с_Параметром – объект этой связи является параметром субъекта.
Продукционные правила
Продукционное правило - правило вида
"УСЛОВИЕ – ДЕЙСТВИЕ".
Структура правил состоит из двух частей:
– условие, которому должен удовлетворять фрагмент дерева синтаксического разбора;
– действие, выполняемое над заданным фрагментом дерева, если правило оказалось применимым к этому фрагменту.
Основные приемы определения правил УСЛОВИЕ содержит: – указание опорного узла дерева разбора, к которому применимо данное правило; – указание, если это необходимо, контекста этого
опорного узла, – указание, если это необходимо, свойств
(морфологических и семантических) которым должны удовлетворять узлы (все или некоторые) из заданного контекста.
ДЕЙСТВИЕ содержит инструкции о вставке, уничтожении или преобразовании триплетов и узлов.
Синтаксически правило оформляется в виде именованного блока информации, атрибутом которого определяется T- или N-тип этого правила:
<имя_правила ТИП={T|N} >
условие => действие
</ имя_правила>
Склонение - одна из двух координат экваториальной системы координат.
{СКЛОНЕНИЕ - Это - Class
СКЛОНЕНИЕ - этоПараметр - ЭКВАТОРИАЛЬНЫЙ_СИСТЕМА_КООРДИНАТА
СКЛОНЕНИЕ - subClassOf - КООРДИНАТА}
Правило РодЗн
<РодЗн ТИП = "T">
#W1 Род #W2 & ЗНАЧАЩИЙ (#W1) != 0 & ЗНАЧАЩИЙ (#W2) != 0 =>
ВСТАВИТЬ (#W1 этоПараметр #W2);
УДАЛИТЬ (#W1 Род #W2)
</РодЗн>
Правило РодНезн
<РодНезн ТИП = "T">
#W1 Род #W2 & ЧАСТЬРЕЧИ (#W1) = Сущ &
ЧАСТЬРЕЧИ (#W2) = Сущ &
ЗНАЧАЩИЙ (#W2) = 0 =>
УДАЛИТЬ (#W1 Род #W2)
</РодНезн>
Правило РодПар2
<РодПар2 ТИП = "T">
#W1 Род #W2 & (КЛАСС(#W1) = Параметры & ЗНАЧАЩИЙ(#W2) != 0) =>
ЗАМЕНИТЬ (#W1 Род #W2,
#W1 этоПараметр #W2)
</РодПар2>
Результаты эксперимента
• Всего в определениях терминологического словаря использовано 237 различных слов. Указание класса потребовалось для 48 слов. Общее количество востребованных классов равно 16.
• В определениях терминологического словаря (после применения программы унификации связей) используется 38 различных типов связей.
• Для построения онтологии по исходному терминологическому словарю пришлось определить 123 правила. Из них 51 правило использовано два и более раз; 72 правила были использованы однократно.
Общее количество связей в «эталонной онтологии» - 93:
связи вида класс/подкласс - 62,связи вида свойства классов - 31.
Общее количество выявленных связей - 61:связи класс/подкласс – 29,связи свойства классов - 32.
Конечным результатом этой работы является формальный текст онтологии, связывающей исходный набор терминов в сеть отношений между терминами.
• Подтвердилась зависимость семантической интерпретации синтаксических связей от контекста на дереве разбора.
• Важной характеристикой является степень общности правил и возможность их многократного использования.
• Все правила, будучи ориентированными на задачу онтологического анализа терминологических словарей, вместе с тем имеют достаточно общий характер и не зависят от специфики конкретной предметной области (в нашем случае это задача межзвездного поглощения).
• Спасибо за внимание !!!
Recommended