31
Роль онтологий в извлечении фактографической информации Санкт-Петербургский государственный университет Филологический факультет Лаборатория информационных систем в искусстве и гуманитарных науках Лидия Пивоварова

Ontologies for Information Extraction

Embed Size (px)

Citation preview

Page 1: Ontologies for Information Extraction

Роль онтологий в извлечении

фактографической информации

Санкт-Петербургский государственный университет

Филологический факультетЛаборатория информационных систем в

искусстве и гуманитарных науках

Лидия Пивоварова

Page 2: Ontologies for Information Extraction

Прикладные онтологии

Information Extraction

Page 3: Ontologies for Information Extraction

Прикладные онтологии

Page 4: Ontologies for Information Extraction

Варианты определенийОнтология – прикладная, инженерная,

вычислительная... даже когда мы опускаем эпитет, мы не имеем в виду философию.

Онтология – спецификация концептуализации (Т. Gruber, 1992).

Онтология – это формальное описание концептов и отношений предметной области, для которой разрабатывается интеллектуальная система.

Онтология – это «понятийный словарь», т. е. такой словарь, где единицей описания являются не слова, а понятия.

Page 5: Ontologies for Information Extraction

Классификации1. Словарные vs. Энциклопедические (Т-

часть и А-часть)

2. Открытые vs. Закрытые

3. По охвату универсума знаний– Мета-онтологии и top-level онтологии– Универсальные– Отраслевые (ориентированные на

предметную область)– Узкоспециализированные

(ориентированные на конкретную задачу)

Page 6: Ontologies for Information Extraction

Общепринятые подходы• Top-level

НЕЧТО

ПроцессОбъект Отношение

• SUMO (IEEE)

• DOLCE (Nicola Guarino)

• Mikrokosmos (Nirenburg & Raskin)

• Онтология John Sowa

Page 7: Ontologies for Information Extraction

Общепринятые подходы• Мета-онтологияОнтология может Онтология может принимать различные формы, принимать различные формы, но она с необходимостью но она с необходимостью включает включает словарь терминовсловарь терминов и некоторую и некоторую спецификацию спецификацию ихих значений значений. Спецификация . Спецификация включает включает определенияопределения и и указания на указания на отношенияотношения между концептами, что между концептами, что позволяет структурировать позволяет структурировать предметную область и предметную область и ограничить возможную ограничить возможную интерпретацию терминов интерпретацию терминов ((Jasper RJasper R., ., Uschold MUschold M., ., A Framework A Framework for Understanding and Classifying for Understanding and Classifying Ontology Applications Ontology Applications 1999)1999) Noy N., McGuiness D. Ontology Development 101

Page 8: Ontologies for Information Extraction

Наш подход

Рубашкин В. Ш. Признак и значение // Научно-техническая информация Сер. 2 Информационные процессы и системы – 1976 - №3 – с. 3 – 10

Рубашкин В. Ш. Представление и анализ смысла в интеллектуальных информационных системах – М.: Наука Гл. ред. Физ.-мат. Лит., 1989 – 192 с. – (Проблемы искусственного интеллекта) – ISBN – 5-02-01-4213-1

Page 9: Ontologies for Information Extraction

Дерево применимости признаковУзлы двух типов:• T-термин – наименование

признака• F-термин – значение признака

Связи• F→T – принадлежность

голубой → цвет глаз• T→F – условие применимости

форма → твердое тело →

→ агрегатное состояние

Page 10: Ontologies for Information Extraction

Объемные отношения понятий

Page 11: Ontologies for Information Extraction

Дерево признаков содержит информацию об:

Условиях применимостиэлектрон… лампочка… зеленый

Объемных отношенияхохотник…бизнесмен…слон

- частный случай - IS-A:охотник…бизнесмен…человек

Семантические примитивы

Методология

Page 12: Ontologies for Information Extraction

Information Extraction

– извлечение из текста информации определенного типа и представление ее в заданном формате (чаще всего БД)

Page 13: Ontologies for Information Extraction

Историческая справка1960е – 80е• Linguistic String Project (Нью-Йоркский

университет)• Система FRUMP (Йельский

университет)1980-е• Первые коммерческие системы:

ATRANS, JASPER, SCISOR.

Gaizauskas, R., Wilks, Y., 1998. Information Extraction: Beyond Document Retrieval

Page 14: Ontologies for Information Extraction

1987-1997

• MUC (Message Understanding Conference) – выработка общих подходов к методологии и способам оценки систем извлечения информации из текста.

Год Источники Предметная область

MUC-1 1987 военные сводки военно-морские операции

MUC-2 1989 военные сводки военно-морские операции

MUC-3 1991 новости Террористическая активность

MUC-4 1992 новости Террористическая активность

MUC-5 1993 новости совместные предприятия, производство

MUC-6 1995 новости смена лидеров на рынке

MUC-7 1997 новости крушения самолетов, запуски ракет

Page 15: Ontologies for Information Extraction

Виды Information Extraction • Named Entity recognition - выделение

именованных сущностей• Coreference resolution - разрешение

кореференции• Template Element construction - добавление

атрибутов к сущностям, найденным на этапе NE, с использованием CO

• Template Relation construction – выявление связей между отдельными сущностями

• Scenario Template production – построение полного описания события (факта) путем объединения результатов TE и TR

Page 16: Ontologies for Information Extraction

Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед. (Cunningham H.)

Named Entity recognition:

ракета, вторник, доктор Биг Хед, Хед, Билд Рокет Инкорпорейтед

Сoreference resolution:

доктор Биг Хед Хедэто → ракета

Template Element construction:

Ключ Объект Цвет Светоотражательные свойства

0267 Ракета Красная Блестящая

Page 17: Ontologies for Information Extraction

Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед.

Template Element construction:

Scenario Template production:

Ключ Объект Цвет Светоотражательные свойства

Изобретен

0267 Ракета Красная Блестящая 7824

Ключ ФИО Степень Работает Должность

7824 Биг Хед Красная 2345 452

Ключ Тип события

Объект Дата

18 Запуск 0267 Вторник

Page 18: Ontologies for Information Extraction

Оценка корректности поиска информации

Recall = Ncorrect /Nall-correct

Precision = Ncorrect /(Ncorrect + Nincorrect )

F-mera = (β2+1 )*r*p/(β2 * r+p)

• Named Entity recognition F<94%

• Coreference resolution F<62%

• Template Element construction F<87%

• Template Relation construction F<76%

• Scenario Template production F<51%

Page 19: Ontologies for Information Extraction

Роль онтологий в извлечении

фактографической информации

Page 20: Ontologies for Information Extraction

Методология Information ExtractionОсновной метод: поиск на основе текстовых

образцов (patterns).

Построение образцов – два подхода:

- основанный на знаниях (написание правил)

- основанный на машинном обучении (автоматическое порождение правил)

Наше решение: концептуальные образцы

Chai J. Y. et al. Two dimensional generalization in information extraction, 1999

Page 21: Ontologies for Information Extraction

Система Factors

Page 22: Ontologies for Information Extraction

Постановка задачиЗадача: извлечение из текстов СМИ

информации общественно-политической тематики.

Факторы - различные характеристики общественно-политической ситуации(около 100).

Значения факторов: • Количественные - число пенсионеров;

средний уровень заработной платы • Оценочные - социальная

напряженность; военные угрозы

Page 23: Ontologies for Information Extraction

Система Factors: - интеллектуальная среда для поддержки

работы эксперта-аналитика с текстами.

Режимы работы:• Автоматический• Диалоговый

ТЕКСТЫ FACTORS

Фактор Значение

Page 24: Ontologies for Information Extraction

Функциональность:1.Последовательное наращивание

распознаваемых аспектов содержания в процессе работы эксперта-аналитика с системой.

2.Легкость и простота редактирования и пополнения; визуальное представление информации.

3.Функциональная расширяемость и переносимость на другие проблемные и предметные области.

Page 25: Ontologies for Information Extraction

Образцы1. Текстовые – выделение в тексте

релевантных фрагментов (при анализе может проверяться совпадение синтаксических связей)

2. Концептуальные – сборка образца из концептов онтологии (при анализе осуществляется поиск с учетом отношения «общее-частное»)

3. Смешанные

Page 26: Ontologies for Information Extraction

Образцы• Фактор + значение

В основном для оценочных факторов социальная напряженность →

стихийный митинг

• Только фактор

Для количественных образцов:

уровень инфляции →

инфляция составила 4%

Page 27: Ontologies for Information Extraction

Поиск образцов в тексте

население ... право на труд ... ограничение

1) Поиск опорного элементанаселение ... право на труд ... ограничение

2) Поиск в окрестности других элементовнаселение ... право на труд ... ограничение

Для концептов образца – учет синонимовограничение = ограниченный, ограничить, ущемление

Параметры поиска предполагают отладку и настройку

Page 28: Ontologies for Information Extraction

Только фактор: поиск значенияСобственный признак фактора – концепт,

отвечающий на вопрос «количество (величина) чего?»

Уровень зарплаты → заработная платаТранспортные издержки → тратыЧисло пенсионеров → пенсионеры

Онтология: собственный признак ↔ единица измерениязаработная плата ↔ денежная единицапенсионеры ↔ без единиц

Page 29: Ontologies for Information Extraction

Общий алгоритм поиска

1) Поиск образца2) Определение собственного признака и

единиц измерения3) Поиск числа с единицей измерения4) Проверка соответствия единиц

измерения5) Если число не найдено – поиск слов

большой, маленький, растет, падает и их синонимов

6) Определение достоверности

Page 30: Ontologies for Information Extraction

Отладка алгоритма

- размеры релевантного фрагмента

- наличие в тексте собственного признака

- уровни достоверности

- подключение синтаксиса

DEMO

Page 31: Ontologies for Information Extraction

ОСНОВНЫЕ ССЫЛКИ• Gruber T. What is Ontology? - http://www-ksl.stanford.edu/kst/what-is-an-ontology.html

• SUMO - http://www.ontologyportal.org/

• DOLCE - http://www.loa-cnr.it/DOLCE.html

• Nirenburg S., Raskin V. Ontological Semantics -http://crl.nmsu.edu/Staff.pages/Technical/sergei/book/

• Sowa J. F. Knowledge Representation - http://www.jfsowa.com/krbook/index.htm

• Jasper R., Uschold M. A Framework for Understanding and Classifying Ontology Applications http://www.cs.man.ac.uk/~horrocks/Teaching/cs646/Papers/uschold99.pdf

• Noy N., McGuiness D. Ontology Development 101: A Guide to Creating Your First Ontology - http://protege.stanford.edu/publications/ontology_development/ontology101.html

• Рубашкин В. Ш. Некоторые работы на сайте ВИНИТИ - http://www.viniti.ru/cgi-bin/nti/nti.pl?action=search&query=%D0%F3%E1%E0%F8%EA%E8%ED&logic=1

• Gaizauskas, R., Wilks, Y., 1998. Information Extraction: Beyond Document Retrieval - http://www.aclclp.org.tw/clclp/v3n2/v3n2a2.pdf

• MUC-7 Proceding - http://www-nlpir.nist.gov/related_projects/muc/proceedings/muc_7_toc.html

• Cunningham, H. Information Extraction, Automatic - http://gate.ac.uk/sale/ell2/ie/main.pdf