24
Методы интеграции разнородных онтологий Панасенко Алексей, 525 группа Научный руководитель Большакова Е.И.

Методы интеграции разнородных онтологий

  • Upload
    -

  • View
    502

  • Download
    2

Embed Size (px)

DESCRIPTION

Панасенко Алексей

Citation preview

Методы интеграции разнородных онтологий

Панасенко Алексей, 525 группаНаучный руководитель Большакова Е.И.

2

Понятие онтологии

Онтология — это точная спецификация концептуализации. (Т. Грубер)

Концептуализация — это структура реальности, рассматриваемая независимо от словаря предметной области и конкретной ситуации.

3

Пример онтологии

Классификация вин– Вино

• Красное вино– Красное бургундское– …

• Белое вино– Белое бургундское– …

• Розовое вино– …

4

Применение онтологий

• Информационный поиск (Information retrieval)– Обеспечение концептуального

индексирования

• Семантический Веб (Semantic Web)– Автоматизация «интеллектуальных» задач

обработки значения ресурсов сети

5

Информационный поиск

Индексирование по

набору слов• Избыточность

• Независимость слов

• Многозначность слов

Концептуальное

индексирование• Синонимы объединены

• Есть связи между понятиями

• Многозначные слова разнесены по разным понятиям

6

Semantic Web

Основные концепции

• Расширяемый язык разметки XML.

• RDF – формат описания ресурсов.

• Формализация и обработка знаний на основе онтологического подхода.

7

Существующие проекты

• Автоматическое получение знаний– KnowItAll– TextRunner

• Ручное получение знаний– WordNet, Cyc, OpenCyc – построение экспертами– Freebase – построение сообществом– Semantic Wikipedia – добавление семантических

ссылок в существующие статьи

• Получение знаний из структурированных данных

8

YAGO

• Авторы – Fabian M. Suchanek, Gerhard Weikum

• Автоматическое получение знаний из WordNet и Wikipedia

• 1.7 миллиона сущностей

• 15 миллионов фактов

• Совместимость с RDFS

9

Особенности YAGO

• Используются данные из панелей информации (infoboxes) Wikipedia

• Используется таксономия WordNet

• Используются различные методики контроля качества

• Вводятся n-арные отношения

10

N-арные отношения

RDFSGrammyAward prize

elvisGetsGrammyElvis winner

elvisGetsGrammy1921 year

elvisGetsGrammy

YAGO#1 : Elvis hasWonPrize

GrammyAward#2 : #1 inYear 1967

Системавоспринимает:

Elvis hasWonPrizeGrammyAward inYear1967

11

Контроль качества

• Проверка на уникальность – добиваемся единственности всех сущностей и фактов

• Проверка на соответствие типу – добиваемся наличия у всех сущностей классов и удовлетворения всеми сущностями ограничений своих классов

12

Проверка на уникальность

• Проверка перенаправления – для каждой сущности в Wikipedia текст ссылки в панели информации может отличаться от названия статьи, на которую она ссылается.

• Удаление повторяющихся фактов и сущностей. Более точный факт необходимо оставить, менее точный – удалить.

13

Проверка на соответствие типу

• Редуцирующая проверка – если сущности невозможно сопоставить класс, то такую сущность необходимо исключить из онтологии.

• Индуцирующая проверка – если из имеющихся данных о сущности можно вывести какой-либо факт, то его необходимо включить в онтологию.

14

Эвристики YAGO

Для автоматизации слияния онтологий

используются следующие эвристики:

• Эвристики определения типа

• Эвристики определения сущностей

• Эвристики определения категории

15

Эвристики определения типа

• Категории Wikipedia объединены в ацикличный ориентированный граф, но используются только листья этого графа.

• Каждый synset WordNet становится классом онтологии, за исключением известных персон/мест

Synset – группа синонимов и синонимичных словосочетаний

16

Связь synset и категорий

• Каждую категорию разбивают на пре-модификатор, основу и пост-модификатор.

• Ищется лучший synset для пре-модификатора и основы. Если нашли – то наша категория – подкласс этого класса.

17

Связь synset и категорий 2

• Если synset не найден – то ищем лучший synset только для основы.

• Лучший synset – тот, к которому сам WordNet относит слово с максимальной вероятностью.

• Существует ограниченное число исключений – например слово capital (столица) WordNet с максимальной вероятностью принимает как финансовый термин

18

Пример связи категории и synset

American people in JapanПре-модификатор Основа Пост-модификатор

Основу привели в форму единственного числа

American person

Данному словосочетанию не соответствует ни

один synset. Значит ищем synset только для

основы.

Person – synset person/human, и значит

American people in Japan – подкласс person/human

19

Эвристики определения сущностей

• Активное использование списков синонимов из WordNet

• Использование перенаправлений Wikipedia

• Определение имен собственных – Эйнштейн означает то же, что и Альберт Эйнштейн

20

Эвристики определения категории

• Использование категорий Wikipedia – если статья имеет категорию «Реки Германии», то сущность isLocated Германия

• Эвристики определения категории могут быть не слишком строгими – лишние факты будут отброшены

21

Русскоязычный вариант

• Исходные онтологии– Русская Wikipedia– Онтология научных терминов НИВЦ МГУ

• 55 000 сущностей• 200 000 фактов• 140 000 синонимов

• Цель – дополнить онтологию НИВЦ МГУ данными из Wikipedia, сохранив преимущества экспертной классификации

22

Технические аспекты

• Онтология НИВЦ – база данных dBase• Русская Wikipedia – html-код• Результат – XML-схема онтологии в

формате RDFS• Провести полное тестирование

результирующей онтологии не представляется возможным, необходима система выборочного тестирования

23

Особенности эвристик

• Выборка идет не по всем категориям Wikipedia

• Более сложный лексический анализ при определении класса категории Wikipedia

• Нет вероятностей соответствия слова разным synset

24

Спасибо за внимание

Вопросы?