9
Автоматическое извлечение фактографической информации их текстов на естественном языке Лидия Пивоварова Институт филологических исследований СПбГУ Specially for QD

IEforQD

Embed Size (px)

Citation preview

Page 1: IEforQD

Автоматическое извлечение фактографической

информации их текстов на естественном языке

Лидия ПивовароваИнститут филологических исследований СПбГУ

Specially for QD

Page 2: IEforQD

Factors

- система извлечения фактографической информации из текстов свободного стиля, разрабатываемая в лаборатории информационных систем ИФИ СПбГУ группой под руководством д. техн. наук Рубашкина В. Ш.

Page 3: IEforQD

Что

Зачем

Как

План

Page 4: IEforQD

Что мы понимаем под извлечением фактов

Получение информации из текста: спектр

- извлечение из текста информации определенного типа и представление ее в заданном формате

InformationRetrieval

TextUnderstanding

InformationExtraction

Page 5: IEforQD

Зачем извлекать факты из текста

• Пополнение баз данных

• Получение входных данных для работы других систем

• Привлечение внимания эксперта к значимым аспектам информации

Page 6: IEforQD

Как: методология Information Extraction

Извлечение информации на основе образцов – стандартных фрагментов текста.

НО: синонимия, омонимия, парафраз…

Образцов требуется слишком много!

Page 7: IEforQD

Два подхода к построению образцов

• Подход, основанный на машинном обучении

• Подход, основанный на знанияхНаш подход: использование онтологии

Онтология – формальное описание концептов и отношений предметной области, для которой разрабатывается система

Page 8: IEforQD

IE & ONTO

• Обработка синонимов

• Обобщение образцов

• Снятие кореференции

• Извлечение количественной информации

Page 9: IEforQD

Литература1. Рубашкин В. Ш., Чуприн Б. Ю. Распознавание количественной

информации в ЕЯ-текстах -http://www.dialog-21.ru/dialog2006/materials/html/Rubashkin.htm

2. Рубашкин В. Ш. Семантический компонент в системах понимания текста - www.raai.org/resurs/papers/kii-2006/doklad/Rubashkin.doc

3. Рубашкин В. Ш. Онтологии - проблемы и решения. Точка зрения разработчика - http://www.dialog-21.ru/dialog2007/materials/html/74.htm

4. R. Grishman (1997) Information Extraction: Techniques and Challenges – http://www.ru.is/faculty/hrafn/Papers/grishman97information.pdf

5. J. Cowie and Y. Wilks. Information Extraction - http://www.dcs.shef.ac.uk/~yorick/papers/infoext.pdf

6. D. E. Appelt Introduction to Information Extraction Technology: tutorial - http://www.ai.sri.com/~appelt/ie-tutorial/IJCAI99.pdf