Автоматическое извлечение фактографической
информации их текстов на естественном языке
Лидия ПивовароваИнститут филологических исследований СПбГУ
Specially for QD
Factors
- система извлечения фактографической информации из текстов свободного стиля, разрабатываемая в лаборатории информационных систем ИФИ СПбГУ группой под руководством д. техн. наук Рубашкина В. Ш.
Что
Зачем
Как
План
Что мы понимаем под извлечением фактов
Получение информации из текста: спектр
- извлечение из текста информации определенного типа и представление ее в заданном формате
InformationRetrieval
TextUnderstanding
InformationExtraction
Зачем извлекать факты из текста
• Пополнение баз данных
• Получение входных данных для работы других систем
• Привлечение внимания эксперта к значимым аспектам информации
Как: методология Information Extraction
Извлечение информации на основе образцов – стандартных фрагментов текста.
НО: синонимия, омонимия, парафраз…
Образцов требуется слишком много!
Два подхода к построению образцов
• Подход, основанный на машинном обучении
• Подход, основанный на знанияхНаш подход: использование онтологии
Онтология – формальное описание концептов и отношений предметной области, для которой разрабатывается система
IE & ONTO
• Обработка синонимов
• Обобщение образцов
• Снятие кореференции
• Извлечение количественной информации
Литература1. Рубашкин В. Ш., Чуприн Б. Ю. Распознавание количественной
информации в ЕЯ-текстах -http://www.dialog-21.ru/dialog2006/materials/html/Rubashkin.htm
2. Рубашкин В. Ш. Семантический компонент в системах понимания текста - www.raai.org/resurs/papers/kii-2006/doklad/Rubashkin.doc
3. Рубашкин В. Ш. Онтологии - проблемы и решения. Точка зрения разработчика - http://www.dialog-21.ru/dialog2007/materials/html/74.htm
4. R. Grishman (1997) Information Extraction: Techniques and Challenges – http://www.ru.is/faculty/hrafn/Papers/grishman97information.pdf
5. J. Cowie and Y. Wilks. Information Extraction - http://www.dcs.shef.ac.uk/~yorick/papers/infoext.pdf
6. D. E. Appelt Introduction to Information Extraction Technology: tutorial - http://www.ai.sri.com/~appelt/ie-tutorial/IJCAI99.pdf
Recommended