61
Адаптация англоязычной системы извлечения информации к русскому языку Лидия Пивоварова University of Helsinki, СПбГУ 15 сентября 2012

Puls Russian

Embed Size (px)

Citation preview

Page 1: Puls Russian

Адаптация англоязычной системы извлечения

информации к русскому языку

Лидия ПивовароваUniversity of Helsinki, СПбГУ

15 сентября 2012

Page 2: Puls Russian

PULS• PULS – система извлечения информации

из новостного потока и поддержки принятия решений

• Руководитель проекта: Roman Yangarber• Участники: Mian Du, Peter von Etter, Silja

Huttunen, Lidia Pivovarova, Matthew Pierce, Mikhail Novikov, Esben Alfort, Lauri Jokipii, Gaël

Lejeune, Heikki Manninen, Natalia Tarbeeva, Arto Vihavainen

http://puls.cs.helsinki.fi/puls/

Page 3: Puls Russian
Page 4: Puls Russian

Мотивация СМИ могут быть единственным источником

информации о событии или самым оперативным источником или источником дополнительных сведений /

альтернативной точки зрения

Русский язык: до сих пор является lingua franca на территории бывшего Советского Союза

Page 5: Puls Russian

Сценарий: Medical

Мониторинг распространения инфекционных заболеваний

Page 6: Puls Russian
Page 7: Puls Russian
Page 8: Puls Russian

Сценарий: Border Security

Мониторинг нелегальной миграции; преступности, связанной с пересчением границ (например, контрабанды); кризисных (криминальных) ситуаций

Page 9: Puls Russian

Сценарий: Border Security

Page 10: Puls Russian
Page 11: Puls Russian

Русский язык: постановка задачи

• анализ новостных русскоязычных текстов для сценариев Border Security и Medical

• представление результатов в унифицированном (общем для англоязычных и русскоязычных текстов) формате

• максимальное использование уже готовых (разработанных для англоязычной системы) инструментов

Page 12: Puls Russian
Page 13: Puls Russian

Общая схема работы системы

Документ (plain text)

Лингвистический анализ

Семантическая разметка

Предложения, синтаксические

группы, сущностиФактографический анализ

Правила выводаОбразцы

Запись в базе

данных

Page 14: Puls Russian

Общая схема работы системы

Документ (plain text)

Лингвистический анализ

Семантическая разметка

Предложения, синтаксические

группы, сущностиФактографический анализ

Правила выводаОбразцы

Запись в базе

данных

Page 15: Puls Russian

Лингвистический анализ

• Используется система АОТ (морфология и синтаксис)

• Используется не вся выдача АОТ– Именные группы– Предложные группы– Глагольные группы – Имена, числа, другие сущности

• Для интеграции АОТ в систему PULS используется Wrapper

Page 16: Puls Russian

Морфологический анализ (АОТ Lemm)

Page 17: Puls Russian

Синтаксический анализ (AOT Synan)

Page 18: Puls Russian

WRAPPER Lemm: не снимает неоднозначности Synan: не содержит всех слов, только те,

которые задействованы в отношениях/группах

Wrapper: объединение результатов морфологического и синтаксического разбора

+ некоторые элементы семантической разметки (например, имена собственные)

Page 19: Puls Russian

WRAPPER Грамматические теги переводятся на английский Для каждого отношения проводится связь между хозяином

и зависимым прочие варианты морфологического разбора

уничтожаются если лемма хозяина и зависимого нулевая (например,

группа), она восстанавливается Если зависимый имеет два хозяина (сочинение), связи

приводятся к древесному виду Некоторые группы переводятся в отношения, прочие

игнорируются Разбор слов, не задействованных в синтаксических

отношениях, копируется из морфологического разбора (со всеми неоднозначностями)

Page 20: Puls Russian

Общая схема работы системы

Документ (plain text)

Лингвистический анализ

Семантическая разметка

Предложения, синтаксические

группы, сущностиФактографический анализ

Правила выводаОбразцы

Запись в базе

данных

Page 21: Puls Russian

Структура онтологииДЕРЕВО

КОНЦЕПТОВ

- отношение ОБЩЕЕ-ЧАСТНОЕ (IS-A)

- множественное наследование - возможность приписывать концептам любые свойства

Page 22: Puls Russian

Структура онтологииДЕРЕВО

КОНЦЕПТОВ

- отношение ОБЩЕЕ-ЧАСТНОЕ (IS-A)

- множественное наследование - возможность приписывать концептам любые свойства

Лексикон (английский язык)

1. Имплицитный:- если имя концепта состоит

из одного слова, оно также рассматривается как слово, обозначающее этот концепт, которое может встретиться в тексте

- также возможно добавлять однословные синонимы непосредственно в дерево концептов

2. Эксплицитный- Лексикон словосочетаний

Page 23: Puls Russian

(DEFCONCEPT C-ART_AIR :TYPEOF (C-ARTIFACT C-TRANSPORT-RELATED))(DEFCONCEPT C-ART_LAND :TYPEOF (C-ARTIFACT C-TRANSPORT-RELATED))(DEFCONCEPT C-ART_WATER :TYPEOF (C-ARTIFACT C-TRANSPORT-RELATED))

(DEFCONCEPT C-PLANE :TYPEOF (C-ART_AIR))(DEFCONCEPT CARRIER :TYPEOF (C-ART_WATER C-ART_LAND C-ART_AIR))(DEFCONCEPT GUNSHIP :TYPEOF (C-ART_AIR))(DEFCONCEPT LAUNCHER :TYPEOF (C-ART_AIR C-VEHICLE))(DEFCONCEPT ROCKET :TYPEOF (S-ARMS C-VEHICLE))(DEFCONCEPT SHUTTLE :TYPEOF (C-ART_AIR C-VEHICLE))(DEFCONCEPT VEHICLE :TYPEOF (C-ART_LAND C-ART_AIR C-VEHICLE))

(DEFCONCEPT A-PLANE :TYPEOF (C-PLANE))(DEFCONCEPT PLANE :ALIAS (JET AIRPLANE AIRLINER AIRCRAFT AEROPLANE HELICOPTER

CHOPPER) :TYPEOF (C-PLANE))

(DEFCONCEPT BUS :ALIAS (MINIBUS) :TYPEOF (C-ART_LAND))(DEFCONCEPT CAR :ALIAS (SUV LIMOUSINE) :TYPEOF (C-ART_LAND)) (DEFCONCEPT CRUISER :TYPEOF (C-ART_LAND C-ART_WATER))(DEFCONCEPT MOTORBIKE :ALIAS (MOTORCYCLE) :TYPEOF (C-ART_LAND))(DEFCONCEPT PATHFINDER :TYPEOF (C-ART_LAND))(DEFCONCEPT SUBWAY :TYPEOF (C-ART_LAND))(DEFCONCEPT TANK :TYPEOF (C-ART_LAND))(DEFCONCEPT TRAILER :ALIAS (MINIVAN) :TYPEOF (C-ART_LAND))(DEFCONCEPT TRUCK :ALIAS (LORRY) :TYPEOF (C-ART_LAND))

(DEFCONCEPT A-SHIP :TYPEOF (C-ART_WATER)) (DEFCONCEPT BOAT :ALIAS (SPEEDBOAT) :TYPEOF (C-ART_WATER))(DEFCONCEPT FERRY :TYPEOF (C-ART_WATER))(DEFCONCEPT FLEET :TYPEOF (C-ART_WATER))(DEFCONCEPT FRIGATE :TYPEOF (C-ART_WATER))(DEFCONCEPT LIFEBOAT :TYPEOF (C-ART_WATER))(DEFCONCEPT SHIP :ALIAS (YACHT) :TYPEOF (C-ART_WATER))(DEFCONCEPT SUBMARINE :TYPEOF (C-ART_WATER))

Page 24: Puls Russian

Структура онтологииДЕРЕВО

КОНЦЕПТОВ

- отношение ОБЩЕЕ-ЧАСТНОЕ (IS-A)

- множественное наследование - возможность приписывать концептам любые свойства

Лексикон (английский язык)

1. Имплицитный:- если имя концепта состоит

из одного слова, оно также рассматривается как слово, обозначающее этот концепт, которое может встретиться в тексте

- также возможно добавлять однословные синонимы непосредственно в дерево концептов

2. Эксплицитный- Лексикон словосочетаний

Page 25: Puls Russian

Структура онтологииДЕРЕВО

КОНЦЕПТОВ

- отношение ОБЩЕЕ-ЧАСТНОЕ (IS-A)

- множественное наследование - возможность приписывать концептам любые свойства

Лексикон (английский язык)

1. Имплицитный:- если имя концепта состоит

из одного слова, оно также рассматривается как слово, обозначающее этот концепт, которое может встретиться в тексте

- также возможно добавлять однословные синонимы непосредственно в дерево концептов

2. Эксплицитный- Лексикон словосочетаний

СЛОВАРИ- Отношение INSTANCE-OF - географические пункты - болезни - компании - персоналии - etc...

Page 26: Puls Russian

Структура онтологииДЕРЕВО

КОНЦЕПТОВ

- отношение ОБЩЕЕ-ЧАСТНОЕ (IS-A)

- множественное наследование - возможность приписывать концептам любые свойства

Лексикон (английский язык)

1. Имплицитный:- если имя концепта состоит

из одного слова, оно также рассматривается как слово, обозначающее этот концепт, которое может встретиться в тексте

- также возможно добавлять однословные синонимы непосредственно в дерево концептов

2. Эксплицитный- Лексикон словосочетаний

Русскоязычный лексикон

- Слова- Словосочетания (в виде специальных образцов)

СЛОВАРИ- Отношение INSTANCE-OF - географические пункты - болезни - компании - персоналии - etc...

Page 27: Puls Russian

Структура онтологииДЕРЕВО

КОНЦЕПТОВ

- отношение ОБЩЕЕ-ЧАСТНОЕ (IS-A)

- множественное наследование - возможность приписывать концептам любые свойства

Лексикон (английский язык)

1. Имплицитный:- если имя концепта состоит

из одного слова, оно также рассматривается как слово, обозначающее этот концепт, которое может встретиться в тексте

- также возможно добавлять однословные синонимы непосредственно в дерево концептов

2. Эксплицитный- Лексикон словосочетаний

Русскоязычный лексикон

- Слова- Словосочетания (в виде специальных образцов)

СЛОВАРИ- Отношение INSTANCE-OF - географические пункты - болезни - компании - персоналии - etc...

Переводы словарей на русский язык

Page 28: Puls Russian

Общая схема работы системы

Документ (plain text)

Лингвистический анализ

Семантическая разметка

Предложения, синтаксические

группы, сущностиФактографический анализ

Правила выводаОбразцы

Запись в базе

данных

Page 29: Puls Russian

Образцы

np-head(C-AUTHORITY,BELOW) vg(P-ARREST-OR-CHARGE) np-head(C-PERSON,BELOW)

Page 30: Puls Russian

•Жесткий порядок слов •Проверки семантических классов•Проверки грамматических категорий (вообще говоря, любых, чаще всего – частей речи)•Некоторые элементы могут быть необязательны или повторяться•Можно использовать образцы низкого уровня (каскад)

Образцы

np-head(C-AUTHORITY,BELOW) vg(P-ARREST-OR-CHARGE) np-head(C-PERSON,BELOW)

Page 31: Puls Russian

Правила

Если - найдено событие типа CRISIS

- в тексте упоминается контрабандаТо - тип события меняется на SMUGGLE

Page 32: Puls Russian

Правила

Работают на семантическом уровне Никакие “физические” характеристики, кроме близости,

не проверяются Благодаря этому, покрывают гораздо большее число

языковых явлений (в том числе, стилистических) И не зависят от языка (sic!) Не очень точны и не могут использоваться без образцов.

Page 33: Puls Russian

Образцы и правила

Page 34: Puls Russian

Русский язык

Все остальное (по крайней мере, теоретически) может заимствоваться из уже работающей системы

База образцов – ключевой компонент системы, который отражает не только особенности языка и сценария, но также стилистические особенности текста

Адаптация системы на другой язык

= Образцы + Словарь

Page 35: Puls Russian

Образцы: адаптация к русскому

Английский язык Русский язык

•GUI, где образцы легко создаются на основе фрагментов текста•Система парафраза•Автоматическая генерация образцов•154 образца в медицинском сценарии, 308 образцов для пограничной безопасности

Образцы пишутся напрямую в коде

Фиксированный порядок слов Свободный порядок слов

Page 36: Puls Russian

Свободный порядок слов

• Полиция арестовала преступника

• Полиция преступника арестовала

• Арестовала преступника полиция

• Преступника полиция арестовала

• Преступника арестовала полиция

• Арестовала полиция преступника

Page 37: Puls Russian

Свободный порядок слов

• Полиция арестовала преступника

• Полиция преступника арестовала, а не оштрафовала

• Арестовала преступника полиция

• Преступника полиция арестовала

• Преступника арестовала полиция

• Арестовала полиция преступника

Page 38: Puls Russian

Свободный порядок слов

• Полиция арестовала преступника

• Полиция преступника арестовала, а не оштрафовала

• Арестовала преступника полиция, а не таможня

• Преступника полиция арестовала

• Преступника арестовала полиция

• Арестовала полиция преступника

Page 39: Puls Russian

Свободный порядок слов

• Полиция арестовала преступника

• Полиция преступника арестовала, а не оштрафовала

• Арестовала преступника полиция, а не таможня

• Преступника полиция арестовала в тот момент, когда он пытался пересечь границу

• Преступника арестовала полиция

• Арестовала полиция преступника

Page 40: Puls Russian

Свободный порядок слов

• Полиция арестовала преступника

• Полиция преступника арестовала, а не оштрафовала

• Арестовала преступника полиция, а не таможня

• Преступника полиция арестовала в тот момент, когда он пытался пересечь границу

• Преступника, который пять лет скрывался от закона, в конце концов арестовала полиция

• Арестовала полиция преступника

Page 41: Puls Russian

Свободный порядок слов

• Полиция арестовала преступника

• Полиция преступника арестовала, а не оштрафовала

• Арестовала преступника полиция, а не таможня

• Преступника полиция арестовала в тот момент, когда он пытался пересечь границу

• Преступника, который пять лет скрывался от закона, в конце концов арестовала полиция

• Арестовала наша доблестная полиция преступника только после того, как поступил звонок “сверху”

Page 42: Puls Russian

Свободный порядок слов

• Полиция арестовала преступника

• Полиция преступника арестовала, а не оштрафовала

• Арестовала преступника полиция, а не таможня

• Преступника полиция арестовала в тот момент, когда он пытался пересечь границу

• Преступника, который пять лет скрывался от закона, в конце концов арестовала полиция

• Арестовала наша доблестная полиция преступника только после того как поступил звонок “сверху”

• Даже в новостных текстах!

Page 43: Puls Russian

Образцы-триггеры Порядок слов неинформативен Однако отказ от учета порядка слов в образце

потребовал бы существенной переделки механизма поиска образцов в тексте

Другое решение: образцы-триггеры, которые создают событие

Максимальная опора на правила вывода, которые уточняют и дополняют событие

Page 44: Puls Russian

Неодназначность:Эксперты осудили действия активистов.

Hас моментально обвинили бы в проведении политики "Апартеида".

...урезание бюджета приведет к сокращению программы "Кипат барзель", и задержит приобретение новых четырех батарей.

В некоторых случаях синтаксическая информация определяет тип события:

Полицейский поймал преступника → ARREST

Полицейского поймал преступник → KIDNAPPING

Совсем без синтаксиса обойтись не удастся

Образец из одного слова?

Page 45: Puls Russian

Итоговая форма образца Триггер + объект

ГЛАГОЛ+СУЩЕСТВИТЕЛЬНОЕ (арестовали мигранта, <полиция> арестовала мигранта)

СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ (мигранта арестовали, мигранта арестовала <полиция>)

ПРИЧАСТИЕ+СУЩЕСТВИТЕЛЬНОЕ (арестован мигрант)

СУЩЕСТВИТЕЛЬНОЕ+ПРИЧАСТИЕ (мигрант арестован)

СУЩЕСТВИТЕЛЬНОЕ+СУЩЕСТВИТЕЛЬНОЕ (арест мигранта)

СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ(РЕФЛЕКСИВНЫЙ) (мигрант обвиняется)

Page 46: Puls Russian

Итоговая форма образца Триггер + объект

ГЛАГОЛ+СУЩЕСТВИТЕЛЬНОЕ (арестовали мигранта, <полиция> арестовала мигранта)

СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ (мигранта арестовали, мигранта арестовала <полиция>)

ПРИЧАСТИЕ+СУЩЕСТВИТЕЛЬНОЕ (арестован мигрант)

СУЩЕСТВИТЕЛЬНОЕ+ПРИЧАСТИЕ (мигрант арестован)

СУЩЕСТВИТЕЛЬНОЕ+СУЩЕСТВИТЕЛЬНОЕ (арест мигранта)

СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ(РЕФЛЕКСИВНЫЙ) (мигрант обвиняется)

Два образца (для учета порядка слов) + разумное число ограничений

Page 47: Puls Russian

Образцы и правила (русский язык)• Security:

– 23 образца, большая часть из них создает событие типа CRISIS

– Правила дополняют событие и меняют его тип

• Medical:– 4 образца: некто заболел, заболел некто,

эпидемия болезни, случай заболевания– В случае, если правила не могут найти в

тексте конкретную болезнь, событие уничтожается

Page 48: Puls Russian

Онтология, образцы и правила Образцы: требуется формальная онтология

A person arrested on a border → ILLEGAL-ENTRY Goods arrested on a border → SMUGGLING

Правила: скорее, нужен тезаурус Border, border-guard, illegal entry → ILLEGAL-ENTRY Customs, customs-officer, contraband → SMUGGLING

Онтология баланс полноты и точности противоречия между правилами и образцами некоторые допущения, сделанные для упрощения

работы в одноязычной системе при добавлении второго языка могут приводить к нелогичному поведению системы

решение: дополнительные тезаурусные отношения

Page 49: Puls Russian

Оценка: Security 64 документа Часть из них размечалась до создания системы Часть – на основе анализа работы раннего

прототипа системы (студентами СПбГУ) 65 событий Около трети документов не содержат событий

Page 50: Puls Russian

Оценка: Security 64 документа Часть из них размечалась до создания системы Часть – на основе анализа работы раннего

прототипа системы (студентами СпбГУ) 65 событий Около трети документов не содержат событий

Page 51: Puls Russian

Классификатор релевантности

• Релевантность – характеризует полезность извлеченных фактов, независимо от их правильности

Page 52: Puls Russian

Классификатор релевантности

• Релевантность – характеризует полезность извлеченных фактов, независимо от их правильности

Page 53: Puls Russian

Классификатор релевантности

• Релевантность – характеризует полезность извлеченных фактов, независимо от их правильности

Page 54: Puls Russian

Классификатор релевантности• Машинное обучение с учителем • SVM, Naïve Bayes, 200-300 документов• Два типа свойств:

– Lexical features: слова из текста– Discourse features: расположение событий в тексте,

содержание слотов• Классификация событий на актуальные (4),

устаревшие (2) и бесполезные (0)

• Оценивая качество работы медицинского сценария для русского языка, мы так же пытались оценить возможности классификатора релевантности

Page 55: Puls Russian

Классификатор релевантности• Машинное обучение с учителем • SVM, Naïve Bayes, 200-300 документов• Два типа свойств:

– Lexical features: слова из текста– Discourse features: расположение событий в тексте,

содержание слотов• Классификация событий на актуальные (4),

устаревшие (2) и бесполезные (0)

• Оценивая качество работы медицинского сценария для русского языка, мы также пытались оценить возможности классификатора релевантности

Page 56: Puls Russian

Эксперимент• Классификатор:

– натренирован на английских документах– использует только discourse features

• 307 документов, 491 событий, подправленных человеком и оцененных по 5-ти бальной шкале– 264 релевантных события (2-5), 114 –

высокорелевантных (4-5)

Page 57: Puls Russian

Эксперимент• Классификатор:

– натренирован на английских документах– использует только discourse features

• 307 документов, 491 событие, подправленные человеком и оцененные по 5-ти бальной шкале– 264 релевантных события (2-5), 114 –

высокорелевантных (4-5)

Page 58: Puls Russian

Релевантность: первые выводы

• Использование классификатора релевантности повышает точность работы системы за счет полноты

• F-мера при этом не уменьшается или растет

• Содержательно: классификатор релевантности дополняет образцы-триггеры и «облегчает» базу образцов

• Гибридная оценка отражает качество работы системы с точки зрения пользователя

Page 59: Puls Russian

Дальнейшая работа

• Развитие базы образцов, пополнение словарей

• Обучение классификатора на русских документах

• Система парафраза, автоматическая генерация образцов…

Page 60: Puls Russian

Публикации Ralph Grishman, Silja Huttunen, Roman Yangarber. Real-Time Event Extraction

for Infectious Disease Outbreaks In Proceedings of the 3rd Annual Human Language Technology Conference HLT-2002 (2002) San Diego, CA

M Atkinson, J Piskorski, H Tanev, E van der Goot, R Yangarber, V Zavarella. Automated event extraction in the domain of Border Security In Proceedings of MINUCS-2009: Workshop on Mining User-Generated Content for Security, at the UCMedia-2009: ICST Conference on User-Centric Media (2009) Venice, Italy

Silja Huttunen, Arto Vihavainen, Peter von Etter, Roman Yangarber. Relevance prediction in information extraction using discourse and lexical features Nodalida-2011: Nordic Conference on Computational Linguistics (2011) Riga, Latvia

Mian Du, Peter von Etter, Mikhail Kopotev, Mikhail Novikov, Natalia Tarbeeva, Roman Yangarber. Building support tools for Russian-language information extraction BSNLP-2011: Balto-Slavonic Natural Language Processing (2011) Plzeň, Czech Republic

Page 61: Puls Russian

Спасибо за внимание!