Upload
lidia-pivovarova
View
809
Download
0
Embed Size (px)
Citation preview
Адаптация англоязычной системы извлечения
информации к русскому языку
Лидия ПивовароваUniversity of Helsinki, СПбГУ
15 сентября 2012
PULS• PULS – система извлечения информации
из новостного потока и поддержки принятия решений
• Руководитель проекта: Roman Yangarber• Участники: Mian Du, Peter von Etter, Silja
Huttunen, Lidia Pivovarova, Matthew Pierce, Mikhail Novikov, Esben Alfort, Lauri Jokipii, Gaël
Lejeune, Heikki Manninen, Natalia Tarbeeva, Arto Vihavainen
http://puls.cs.helsinki.fi/puls/
Мотивация СМИ могут быть единственным источником
информации о событии или самым оперативным источником или источником дополнительных сведений /
альтернативной точки зрения
Русский язык: до сих пор является lingua franca на территории бывшего Советского Союза
Сценарий: Medical
Мониторинг распространения инфекционных заболеваний
Сценарий: Border Security
Мониторинг нелегальной миграции; преступности, связанной с пересчением границ (например, контрабанды); кризисных (криминальных) ситуаций
Сценарий: Border Security
Русский язык: постановка задачи
• анализ новостных русскоязычных текстов для сценариев Border Security и Medical
• представление результатов в унифицированном (общем для англоязычных и русскоязычных текстов) формате
• максимальное использование уже готовых (разработанных для англоязычной системы) инструментов
Общая схема работы системы
Документ (plain text)
Лингвистический анализ
Семантическая разметка
Предложения, синтаксические
группы, сущностиФактографический анализ
Правила выводаОбразцы
Запись в базе
данных
Общая схема работы системы
Документ (plain text)
Лингвистический анализ
Семантическая разметка
Предложения, синтаксические
группы, сущностиФактографический анализ
Правила выводаОбразцы
Запись в базе
данных
Лингвистический анализ
• Используется система АОТ (морфология и синтаксис)
• Используется не вся выдача АОТ– Именные группы– Предложные группы– Глагольные группы – Имена, числа, другие сущности
• Для интеграции АОТ в систему PULS используется Wrapper
Морфологический анализ (АОТ Lemm)
Синтаксический анализ (AOT Synan)
WRAPPER Lemm: не снимает неоднозначности Synan: не содержит всех слов, только те,
которые задействованы в отношениях/группах
Wrapper: объединение результатов морфологического и синтаксического разбора
+ некоторые элементы семантической разметки (например, имена собственные)
WRAPPER Грамматические теги переводятся на английский Для каждого отношения проводится связь между хозяином
и зависимым прочие варианты морфологического разбора
уничтожаются если лемма хозяина и зависимого нулевая (например,
группа), она восстанавливается Если зависимый имеет два хозяина (сочинение), связи
приводятся к древесному виду Некоторые группы переводятся в отношения, прочие
игнорируются Разбор слов, не задействованных в синтаксических
отношениях, копируется из морфологического разбора (со всеми неоднозначностями)
Общая схема работы системы
Документ (plain text)
Лингвистический анализ
Семантическая разметка
Предложения, синтаксические
группы, сущностиФактографический анализ
Правила выводаОбразцы
Запись в базе
данных
Структура онтологииДЕРЕВО
КОНЦЕПТОВ
- отношение ОБЩЕЕ-ЧАСТНОЕ (IS-A)
- множественное наследование - возможность приписывать концептам любые свойства
Структура онтологииДЕРЕВО
КОНЦЕПТОВ
- отношение ОБЩЕЕ-ЧАСТНОЕ (IS-A)
- множественное наследование - возможность приписывать концептам любые свойства
Лексикон (английский язык)
1. Имплицитный:- если имя концепта состоит
из одного слова, оно также рассматривается как слово, обозначающее этот концепт, которое может встретиться в тексте
- также возможно добавлять однословные синонимы непосредственно в дерево концептов
2. Эксплицитный- Лексикон словосочетаний
(DEFCONCEPT C-ART_AIR :TYPEOF (C-ARTIFACT C-TRANSPORT-RELATED))(DEFCONCEPT C-ART_LAND :TYPEOF (C-ARTIFACT C-TRANSPORT-RELATED))(DEFCONCEPT C-ART_WATER :TYPEOF (C-ARTIFACT C-TRANSPORT-RELATED))
(DEFCONCEPT C-PLANE :TYPEOF (C-ART_AIR))(DEFCONCEPT CARRIER :TYPEOF (C-ART_WATER C-ART_LAND C-ART_AIR))(DEFCONCEPT GUNSHIP :TYPEOF (C-ART_AIR))(DEFCONCEPT LAUNCHER :TYPEOF (C-ART_AIR C-VEHICLE))(DEFCONCEPT ROCKET :TYPEOF (S-ARMS C-VEHICLE))(DEFCONCEPT SHUTTLE :TYPEOF (C-ART_AIR C-VEHICLE))(DEFCONCEPT VEHICLE :TYPEOF (C-ART_LAND C-ART_AIR C-VEHICLE))
(DEFCONCEPT A-PLANE :TYPEOF (C-PLANE))(DEFCONCEPT PLANE :ALIAS (JET AIRPLANE AIRLINER AIRCRAFT AEROPLANE HELICOPTER
CHOPPER) :TYPEOF (C-PLANE))
(DEFCONCEPT BUS :ALIAS (MINIBUS) :TYPEOF (C-ART_LAND))(DEFCONCEPT CAR :ALIAS (SUV LIMOUSINE) :TYPEOF (C-ART_LAND)) (DEFCONCEPT CRUISER :TYPEOF (C-ART_LAND C-ART_WATER))(DEFCONCEPT MOTORBIKE :ALIAS (MOTORCYCLE) :TYPEOF (C-ART_LAND))(DEFCONCEPT PATHFINDER :TYPEOF (C-ART_LAND))(DEFCONCEPT SUBWAY :TYPEOF (C-ART_LAND))(DEFCONCEPT TANK :TYPEOF (C-ART_LAND))(DEFCONCEPT TRAILER :ALIAS (MINIVAN) :TYPEOF (C-ART_LAND))(DEFCONCEPT TRUCK :ALIAS (LORRY) :TYPEOF (C-ART_LAND))
(DEFCONCEPT A-SHIP :TYPEOF (C-ART_WATER)) (DEFCONCEPT BOAT :ALIAS (SPEEDBOAT) :TYPEOF (C-ART_WATER))(DEFCONCEPT FERRY :TYPEOF (C-ART_WATER))(DEFCONCEPT FLEET :TYPEOF (C-ART_WATER))(DEFCONCEPT FRIGATE :TYPEOF (C-ART_WATER))(DEFCONCEPT LIFEBOAT :TYPEOF (C-ART_WATER))(DEFCONCEPT SHIP :ALIAS (YACHT) :TYPEOF (C-ART_WATER))(DEFCONCEPT SUBMARINE :TYPEOF (C-ART_WATER))
Структура онтологииДЕРЕВО
КОНЦЕПТОВ
- отношение ОБЩЕЕ-ЧАСТНОЕ (IS-A)
- множественное наследование - возможность приписывать концептам любые свойства
Лексикон (английский язык)
1. Имплицитный:- если имя концепта состоит
из одного слова, оно также рассматривается как слово, обозначающее этот концепт, которое может встретиться в тексте
- также возможно добавлять однословные синонимы непосредственно в дерево концептов
2. Эксплицитный- Лексикон словосочетаний
Структура онтологииДЕРЕВО
КОНЦЕПТОВ
- отношение ОБЩЕЕ-ЧАСТНОЕ (IS-A)
- множественное наследование - возможность приписывать концептам любые свойства
Лексикон (английский язык)
1. Имплицитный:- если имя концепта состоит
из одного слова, оно также рассматривается как слово, обозначающее этот концепт, которое может встретиться в тексте
- также возможно добавлять однословные синонимы непосредственно в дерево концептов
2. Эксплицитный- Лексикон словосочетаний
СЛОВАРИ- Отношение INSTANCE-OF - географические пункты - болезни - компании - персоналии - etc...
Структура онтологииДЕРЕВО
КОНЦЕПТОВ
- отношение ОБЩЕЕ-ЧАСТНОЕ (IS-A)
- множественное наследование - возможность приписывать концептам любые свойства
Лексикон (английский язык)
1. Имплицитный:- если имя концепта состоит
из одного слова, оно также рассматривается как слово, обозначающее этот концепт, которое может встретиться в тексте
- также возможно добавлять однословные синонимы непосредственно в дерево концептов
2. Эксплицитный- Лексикон словосочетаний
Русскоязычный лексикон
- Слова- Словосочетания (в виде специальных образцов)
СЛОВАРИ- Отношение INSTANCE-OF - географические пункты - болезни - компании - персоналии - etc...
Структура онтологииДЕРЕВО
КОНЦЕПТОВ
- отношение ОБЩЕЕ-ЧАСТНОЕ (IS-A)
- множественное наследование - возможность приписывать концептам любые свойства
Лексикон (английский язык)
1. Имплицитный:- если имя концепта состоит
из одного слова, оно также рассматривается как слово, обозначающее этот концепт, которое может встретиться в тексте
- также возможно добавлять однословные синонимы непосредственно в дерево концептов
2. Эксплицитный- Лексикон словосочетаний
Русскоязычный лексикон
- Слова- Словосочетания (в виде специальных образцов)
СЛОВАРИ- Отношение INSTANCE-OF - географические пункты - болезни - компании - персоналии - etc...
Переводы словарей на русский язык
Общая схема работы системы
Документ (plain text)
Лингвистический анализ
Семантическая разметка
Предложения, синтаксические
группы, сущностиФактографический анализ
Правила выводаОбразцы
Запись в базе
данных
Образцы
np-head(C-AUTHORITY,BELOW) vg(P-ARREST-OR-CHARGE) np-head(C-PERSON,BELOW)
•Жесткий порядок слов •Проверки семантических классов•Проверки грамматических категорий (вообще говоря, любых, чаще всего – частей речи)•Некоторые элементы могут быть необязательны или повторяться•Можно использовать образцы низкого уровня (каскад)
Образцы
np-head(C-AUTHORITY,BELOW) vg(P-ARREST-OR-CHARGE) np-head(C-PERSON,BELOW)
Правила
Если - найдено событие типа CRISIS
- в тексте упоминается контрабандаТо - тип события меняется на SMUGGLE
Правила
Работают на семантическом уровне Никакие “физические” характеристики, кроме близости,
не проверяются Благодаря этому, покрывают гораздо большее число
языковых явлений (в том числе, стилистических) И не зависят от языка (sic!) Не очень точны и не могут использоваться без образцов.
Образцы и правила
Русский язык
Все остальное (по крайней мере, теоретически) может заимствоваться из уже работающей системы
База образцов – ключевой компонент системы, который отражает не только особенности языка и сценария, но также стилистические особенности текста
Адаптация системы на другой язык
= Образцы + Словарь
Образцы: адаптация к русскому
Английский язык Русский язык
•GUI, где образцы легко создаются на основе фрагментов текста•Система парафраза•Автоматическая генерация образцов•154 образца в медицинском сценарии, 308 образцов для пограничной безопасности
Образцы пишутся напрямую в коде
Фиксированный порядок слов Свободный порядок слов
Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала
• Арестовала преступника полиция
• Преступника полиция арестовала
• Преступника арестовала полиция
• Арестовала полиция преступника
Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция
• Преступника полиция арестовала
• Преступника арестовала полиция
• Арестовала полиция преступника
Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала
• Преступника арестовала полиция
• Арестовала полиция преступника
Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала в тот момент, когда он пытался пересечь границу
• Преступника арестовала полиция
• Арестовала полиция преступника
Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала в тот момент, когда он пытался пересечь границу
• Преступника, который пять лет скрывался от закона, в конце концов арестовала полиция
• Арестовала полиция преступника
Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала в тот момент, когда он пытался пересечь границу
• Преступника, который пять лет скрывался от закона, в конце концов арестовала полиция
• Арестовала наша доблестная полиция преступника только после того, как поступил звонок “сверху”
Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала в тот момент, когда он пытался пересечь границу
• Преступника, который пять лет скрывался от закона, в конце концов арестовала полиция
• Арестовала наша доблестная полиция преступника только после того как поступил звонок “сверху”
• Даже в новостных текстах!
Образцы-триггеры Порядок слов неинформативен Однако отказ от учета порядка слов в образце
потребовал бы существенной переделки механизма поиска образцов в тексте
Другое решение: образцы-триггеры, которые создают событие
Максимальная опора на правила вывода, которые уточняют и дополняют событие
Неодназначность:Эксперты осудили действия активистов.
Hас моментально обвинили бы в проведении политики "Апартеида".
...урезание бюджета приведет к сокращению программы "Кипат барзель", и задержит приобретение новых четырех батарей.
В некоторых случаях синтаксическая информация определяет тип события:
Полицейский поймал преступника → ARREST
Полицейского поймал преступник → KIDNAPPING
Совсем без синтаксиса обойтись не удастся
Образец из одного слова?
Итоговая форма образца Триггер + объект
ГЛАГОЛ+СУЩЕСТВИТЕЛЬНОЕ (арестовали мигранта, <полиция> арестовала мигранта)
СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ (мигранта арестовали, мигранта арестовала <полиция>)
ПРИЧАСТИЕ+СУЩЕСТВИТЕЛЬНОЕ (арестован мигрант)
СУЩЕСТВИТЕЛЬНОЕ+ПРИЧАСТИЕ (мигрант арестован)
СУЩЕСТВИТЕЛЬНОЕ+СУЩЕСТВИТЕЛЬНОЕ (арест мигранта)
СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ(РЕФЛЕКСИВНЫЙ) (мигрант обвиняется)
Итоговая форма образца Триггер + объект
ГЛАГОЛ+СУЩЕСТВИТЕЛЬНОЕ (арестовали мигранта, <полиция> арестовала мигранта)
СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ (мигранта арестовали, мигранта арестовала <полиция>)
ПРИЧАСТИЕ+СУЩЕСТВИТЕЛЬНОЕ (арестован мигрант)
СУЩЕСТВИТЕЛЬНОЕ+ПРИЧАСТИЕ (мигрант арестован)
СУЩЕСТВИТЕЛЬНОЕ+СУЩЕСТВИТЕЛЬНОЕ (арест мигранта)
СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ(РЕФЛЕКСИВНЫЙ) (мигрант обвиняется)
Два образца (для учета порядка слов) + разумное число ограничений
Образцы и правила (русский язык)• Security:
– 23 образца, большая часть из них создает событие типа CRISIS
– Правила дополняют событие и меняют его тип
• Medical:– 4 образца: некто заболел, заболел некто,
эпидемия болезни, случай заболевания– В случае, если правила не могут найти в
тексте конкретную болезнь, событие уничтожается
Онтология, образцы и правила Образцы: требуется формальная онтология
A person arrested on a border → ILLEGAL-ENTRY Goods arrested on a border → SMUGGLING
Правила: скорее, нужен тезаурус Border, border-guard, illegal entry → ILLEGAL-ENTRY Customs, customs-officer, contraband → SMUGGLING
Онтология баланс полноты и точности противоречия между правилами и образцами некоторые допущения, сделанные для упрощения
работы в одноязычной системе при добавлении второго языка могут приводить к нелогичному поведению системы
решение: дополнительные тезаурусные отношения
Оценка: Security 64 документа Часть из них размечалась до создания системы Часть – на основе анализа работы раннего
прототипа системы (студентами СПбГУ) 65 событий Около трети документов не содержат событий
Оценка: Security 64 документа Часть из них размечалась до создания системы Часть – на основе анализа работы раннего
прототипа системы (студентами СпбГУ) 65 событий Около трети документов не содержат событий
Классификатор релевантности
• Релевантность – характеризует полезность извлеченных фактов, независимо от их правильности
Классификатор релевантности
• Релевантность – характеризует полезность извлеченных фактов, независимо от их правильности
Классификатор релевантности
• Релевантность – характеризует полезность извлеченных фактов, независимо от их правильности
Классификатор релевантности• Машинное обучение с учителем • SVM, Naïve Bayes, 200-300 документов• Два типа свойств:
– Lexical features: слова из текста– Discourse features: расположение событий в тексте,
содержание слотов• Классификация событий на актуальные (4),
устаревшие (2) и бесполезные (0)
• Оценивая качество работы медицинского сценария для русского языка, мы так же пытались оценить возможности классификатора релевантности
Классификатор релевантности• Машинное обучение с учителем • SVM, Naïve Bayes, 200-300 документов• Два типа свойств:
– Lexical features: слова из текста– Discourse features: расположение событий в тексте,
содержание слотов• Классификация событий на актуальные (4),
устаревшие (2) и бесполезные (0)
• Оценивая качество работы медицинского сценария для русского языка, мы также пытались оценить возможности классификатора релевантности
Эксперимент• Классификатор:
– натренирован на английских документах– использует только discourse features
• 307 документов, 491 событий, подправленных человеком и оцененных по 5-ти бальной шкале– 264 релевантных события (2-5), 114 –
высокорелевантных (4-5)
Эксперимент• Классификатор:
– натренирован на английских документах– использует только discourse features
• 307 документов, 491 событие, подправленные человеком и оцененные по 5-ти бальной шкале– 264 релевантных события (2-5), 114 –
высокорелевантных (4-5)
Релевантность: первые выводы
• Использование классификатора релевантности повышает точность работы системы за счет полноты
• F-мера при этом не уменьшается или растет
• Содержательно: классификатор релевантности дополняет образцы-триггеры и «облегчает» базу образцов
• Гибридная оценка отражает качество работы системы с точки зрения пользователя
Дальнейшая работа
• Развитие базы образцов, пополнение словарей
• Обучение классификатора на русских документах
• Система парафраза, автоматическая генерация образцов…
Публикации Ralph Grishman, Silja Huttunen, Roman Yangarber. Real-Time Event Extraction
for Infectious Disease Outbreaks In Proceedings of the 3rd Annual Human Language Technology Conference HLT-2002 (2002) San Diego, CA
M Atkinson, J Piskorski, H Tanev, E van der Goot, R Yangarber, V Zavarella. Automated event extraction in the domain of Border Security In Proceedings of MINUCS-2009: Workshop on Mining User-Generated Content for Security, at the UCMedia-2009: ICST Conference on User-Centric Media (2009) Venice, Italy
Silja Huttunen, Arto Vihavainen, Peter von Etter, Roman Yangarber. Relevance prediction in information extraction using discourse and lexical features Nodalida-2011: Nordic Conference on Computational Linguistics (2011) Riga, Latvia
Mian Du, Peter von Etter, Mikhail Kopotev, Mikhail Novikov, Natalia Tarbeeva, Roman Yangarber. Building support tools for Russian-language information extraction BSNLP-2011: Balto-Slavonic Natural Language Processing (2011) Plzeň, Czech Republic
Спасибо за внимание!