79
Автоматический Автоматический морфологический морфологический анализ анализ Алгоритмические Алгоритмические методы (без методы (без обучения) обучения) Часть 2 Часть 2

Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

  • Upload
    julie

  • View
    114

  • Download
    7

Embed Size (px)

DESCRIPTION

Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2. План. Задачи, этапы (лекция Морфология1) Обзор технологий Организация данных Первичный анализ. Базовые формализмы анализа словоформы Разрешение омонимии Предсказание незнакомых слов. План. - PowerPoint PPT Presentation

Citation preview

Page 1: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Автоматический Автоматический морфологический анализморфологический анализ

Алгоритмические Алгоритмические методы (без обучения)методы (без обучения)

Часть 2Часть 2

Page 2: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ПланПлан

Задачи, этапы (лекция Задачи, этапы (лекция Морфология1)Морфология1)

Обзор технологийОбзор технологий Организация данныхОрганизация данных Первичный анализ. Базовые Первичный анализ. Базовые

формализмы анализа словоформыформализмы анализа словоформы Разрешение омонимииРазрешение омонимии Предсказание незнакомых словПредсказание незнакомых слов

Page 3: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ПланПлан

Задачи, этапы (лекция Задачи, этапы (лекция Морфология1)Морфология1)

Обзор технологийОбзор технологий Организация данныхОрганизация данных Первичный анализ. Базовые Первичный анализ. Базовые

формализмы анализа словоформыформализмы анализа словоформы Разрешение омонимииРазрешение омонимии Предсказание незнакомых словПредсказание незнакомых слов

Page 4: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Задачи морфологического Задачи морфологического анализаанализа

Графематический анализ (токенизация)Графематический анализ (токенизация): : текстоформы, «неслова» («шаблоны», числа и т.п.), текстоформы, «неслова» («шаблоны», числа и т.п.), токены из списка (предлоги, союзы и т.п.)токены из списка (предлоги, союзы и т.п.)

нормализация словоформ (лемматизация), т.е. сведение различных словоформ к некоторому единому представлению - к исходной форме, или лемме);

стемминг - другой вид нормализации, когда разные словоформы приводятся к одной основе, точнее "псевдооснове" (для некоторых задач, включая поиск в интернете, достаточно приведения к одной основе различных дериватов; например, прилагательное фотографический и существительное фотография могут быть приведены к одной основе, так как пользовательскому запросу будут удовлетворять и документы, содержащие словосочетание фотографический портрет, и документы, содержащие словосочетание портретная фотография)

Page 5: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

частеречная аннотация (pos-tagging), т.е. указание части речи для каждой словоформы в тексте)полный морфологический анализ - приписывание грамматических характеристик словоформе (например, в цепочке словоформ по берегу реки словоформе берегу будут приписаны следующие грамматические характеристики: сущ., неодушевленное, мужского р., единственного числа, дательного падежа)дизамбигуация - разрешение морфологической омонимии (например, )Основные проблемы, связанные с любым типом морфологического анализа - это морфологическая омонимия (ср. предложение Эти типы стали есть в цехе, где стали может быть формой глагола стать и формой существительного сталь), а также существование новых, редких слов или окказионализмов.

Задачи морфологического Задачи морфологического анализаанализа

Page 6: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Основные этапы Основные этапы морфологической морфологической разметки в разметки в BNCBNC

A. Tokenization

B. Initial tag assignment

C. Tag selection (disambiguation)

D. Idiomtagging

E. Template Tagger

F. Postprocessing: including Ambiguity tagging

Page 7: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ПланПлан

Задачи, этапы (лекция Задачи, этапы (лекция Морфология1)Морфология1)

Обзор технологийОбзор технологий Организация данныхОрганизация данных Первичный анализ. Базовые Первичный анализ. Базовые

формализмы анализа словоформыформализмы анализа словоформы Разрешение омонимииРазрешение омонимии Предсказание незнакомых словПредсказание незнакомых слов

Page 8: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Краткий обзор основных Краткий обзор основных методов разметкиметодов разметки

Page 9: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

SUPERVISED UNSUPERVISED

selection of tagset/tagged corpusinduction of tagset using untagged training data

creation of dictionaries using tagged corpus

induction of dictionary using training data

calculation of disambiguation tools. may include:

induction of disambiguation tools. may include:

word frequencies word frequencies

affix frequencies affix frequencies

tag sequence probabilities tag sequence probabilities

"formulaic" expressions

tagging of test data using dictionary information

tagging of test data using induced dictionaries

disambiguation using statistical, hybrid or rule based approaches

disambiguation using statistical, hybrid or rule based approaches

calculation of tagger accuracy calculation of tagger accuracy

Page 10: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Морфологическая разметкаМорфологическая разметка: :

Технологии морфологической разметкиТехнологии морфологической разметкиТеория Теория vs. vs. практикапрактика

В 60-70 гг. все экспериментальные исследования в области машинной морфологии начинались с создания машинного словаря. Не было единого общепринятого формата и структуры такого словаря.

Эти обстоятельства имели два последствия: во-первых, все алгоритмы автоматически

становились словарнозависимыми, во-вторых, каждый алгоритм

разрабатывался под определенный формат словаря. Работы, посвященные морфологии, можно условно

разделить на две категории: 1. теоретические, в некоторых представлены описания морфологических законов и формальные модели русской морфологии; 2. прикладные, описание програмно-реализованных систем с морфологическим модулем.

Page 11: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Теоретический vs. Инженерный подход

В теоретических работах строятся многоуровневые формальные модели морфологии, в большинстве своем, предназначенные для синтеза. Такие модели морфологического синтеза подразумевают наличие больших словарей со сложной структурой. Они описывают широкий круг морфологических явлений. Многие компоненты этих моделей избыточны для задач машинного анализа (фонетическая реализация слова, акцентная парадигма, большое число словообразовательных аффиксов).

Морфологическая разметкаМорфологическая разметка: :

Технологии морфологического анализаТехнологии морфологического анализа

Page 12: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Морфологическая разметкаМорфологическая разметка: :

Технологии морфологической разметки. Технологии морфологической разметки. Вопросы архитектуры.Вопросы архитектуры.

. Данные: контекст vs. информация о внутренней структуре

словоформы и о словоизменительных парадигмах

словарные методы vs. методы без словаря

Словарь: что в словаре? структура словаря?

Методы анализа формализм правила vs. статистика

Работа с незнакомыми словами: правила предсказания

??? словарь

Page 13: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ПланПлан

Задачи, этапы (лекция Задачи, этапы (лекция Морфология1)Морфология1)

Обзор технологийОбзор технологий

Организация данныхОрганизация данных Первичный анализ. Базовые Первичный анализ. Базовые

формализмы анализа словоформыформализмы анализа словоформы Разрешение омонимииРазрешение омонимии Предсказание незнакомых словПредсказание незнакомых слов

Page 14: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Контекст:The flights can flyDet N V(mod) V(inf)

Что нужно знать?• набор тегов (частеречный (N,V…) vs.

простой (Nsg) vs. полный – Ncmsnn: Noun Type=common Gender=masculine Number=singular Case=nominative Animate=no)

• набор словоформ (ручкой – ручка, N; ручке – ручка, N …)

• возможные порядки тегов (NVN, NVV vs. *DV…

из + Gen / * из + Case≠Gen)• частоту порядков

…. подробности позжеСловарь может состоять из

списка всех возможных словоформ

ДанныеДанныеКонтекст. ПримерКонтекст. Пример

Page 15: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Такие

типы

стали

есть в помещении

Таки-е: тип-ы стал-и ест-ь цех-е

N,Sg,n,Nom; N,Sg,Loc; N,Sg,Dat

N,pl,NomN,pl,AccAdj,Brev,Sg

N,Pl,Nom,N,Pl,Acc,N,Sg,Gen…

N,sg,f,m,nom;N,sg,f,acc

Prep; N

N,Sg,n,Nom; N,Sg,Loc; N,Sg,Dat

Так-ие Ти-пы Ста-ли Ес-ть Це-хе

A,Pl,NomA,Pl,Acc

* V,Pst,Pl V,Inf *

ДанныеДанныеВнутренний состав словоформы. Внутренний состав словоформы.

ПримерПример

Page 16: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

НЕОПТИМИЗИРОВАННАЯ НЕОПТИМИЗИРОВАННАЯ ФУНКЦИОНАЛЬНАЯ СХЕМАФУНКЦИОНАЛЬНАЯ СХЕМА

обработки словоформы при машинном обработки словоформы при машинном переводепереводеисследовать research, explore,

investigate, examine, …Inf-ve

исследую research, explore, investigate, examine, …

Simple Pres. (~3sg), Pres. Cont., Simple Fut., Fut.Cont.,Fut.Perf.

исследуешь research, explore, investigate, examine, …

Simple Pres. (~3sg), Pres. Cont., Simple Fut., Fut.Cont.,Fut.Perf.

исследует research, explore, investigate, examine, …

Simple Pres. 3sg, Pres. Cont., Simple Fut., Fut.Cont.,Fut.Perf.

исследовал research, explore, investigate, examine, …

Simple Past, Pres.Perf., Past Cont., Past Perf.

исследовала research, explore, investigate, examine, …

Simple Past, Pres.Perf., Past Cont., Past Perf.

Page 17: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ОБРАБОТКА СЛОВОФОРМЫ:ОБРАБОТКА СЛОВОФОРМЫ:морфологический анализморфологический анализ

исследовать {исследовать} + +Неопр.ф.

исследую {исследовать} + + Наст., Буд. вр. + Ед.ч. + 1 л.

исследуешь {исследовать} + + Наст., Буд. вр. + Ед.ч. + 2 л.

исследует {исследовать} + + Наст., Буд. вр. + Ед.ч. + 3 л.

исследовал {исследовать} + + Прош. вр. + Ед.ч. + М р.

исследовала {исследовать} + + Прош. вр. + Ед.ч. + Ж р.

{исследовать} research, explore, investigate, examine, analyse, test, inquire into…

Неопр.ф. Inf-ve

Наст.+Ед.+1 S.Pres.(~3sg), Pres. Cont.

Наст.+Ед.+2 S.Pres.(~3sg), Pres. Cont.

Наст.+Ед.+3 S.Pres. 3sg, Pres. Cont.

Буд.+Ед.+1 S. Fut., Fut.Cont.,Fut.Perf.

Буд.+Ед.+1 S. Fut., Fut.Cont.,Fut.Perf.

Буд.+Ед.+1 S. Fut., Fut.Cont.,Fut.Perf.

Прош.+Ед. S. Past, Pres.Perf., Past Cont., Past Perf.

Page 18: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ПОРОЖДЕНИЕ СЛОВОФОРМЫ:ПОРОЖДЕНИЕ СЛОВОФОРМЫ:морфологический синтезморфологический синтез

{исследовать} + Неопр.ф. исследовать

{исследовать} + Наст. вр. + Ед.ч. + 1 л. исследую

{исследовать} + Наст. вр. + Ед.ч. + 2 л. исследуешь

{исследовать} + Наст. вр. + Ед.ч. + 3 л. исследует

{исследовать} + Буд. вр. + Ед.ч. + 1 л. исследую, буду исследовать

{исследовать} + Буд. вр. + Ед.ч. + 2 л. исследуешь , будешь исследовать

{исследовать} + Буд. вр. + Ед.ч. + 3 л. исследует, будет исследовать

{исследовать} + Прош. вр. + Ед.ч. + М р. исследовал

{исследовать} + Прош. вр. + Ед.ч. + Ж р. исследовала

Page 19: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ПОРОЖДЕНИЕ СЛОВОФОРМЫ:ПОРОЖДЕНИЕ СЛОВОФОРМЫ:морфологический синтезморфологический синтез

{исследовать} + Неопр.ф. исследовать

{исследовать} + Наст. вр. + Ед.ч. + 1 л. исследую

{исследовать} + Наст. вр. + Ед.ч. + 2 л. исследуешь

{исследовать} + Наст. вр. + Ед.ч. + 3 л. исследует

{исследовать} + Буд. вр. + Ед.ч. + 1 л. исследую, буду исследовать

{исследовать} + Буд. вр. + Ед.ч. + 2 л. исследуешь , будешь исследовать

{исследовать} + Буд. вр. + Ед.ч. + 3 л. исследует, будет исследовать

{исследовать} + Прош. вр. + Ед.ч. + М р. исследовал

{исследовать} + Прош. вр. + Ед.ч. + Ж р. исследовала

Page 20: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ПОРОЖДЕНИЕ СЛОВОФОРМЫ:ПОРОЖДЕНИЕ СЛОВОФОРМЫ:морфологический синтезморфологический синтез

{исследовать} + Неопр.ф. исследовать

{исследовать} + Наст. вр. + Ед.ч. + 1 л. исследую

{исследовать} + Наст. вр. + Ед.ч. + 2 л. исследуешь

{исследовать} + Наст. вр. + Ед.ч. + 3 л. исследует

{исследовать} + Буд. вр. + Ед.ч. + 1 л. исследую, буду исследовать

{исследовать} + Буд. вр. + Ед.ч. + 2 л. исследуешь , будешь исследовать

{исследовать} + Буд. вр. + Ед.ч. + 3 л. исследует, будет исследовать

{исследовать} + Прош. вр. + Ед.ч. + М р. исследовал

{исследовать} + Прош. вр. + Ед.ч. + Ж р. исследовала

Page 21: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

МОРФОЛОГИЧЕСКИЙ АНАЛИЗ иМОРФОЛОГИЧЕСКИЙ АНАЛИЗ и ЛЕММАТИЗАЦИЯЛЕММАТИЗАЦИЯ

исследовать {исследовать} + +Неопр.ф.

исследую {исследовать} + + Наст., Буд. вр. + Ед.ч. + 1 л.

исследуешь {исследовать} + + Наст., Буд. вр. + Ед.ч. + 2 л.

исследует {исследовать} + + Наст., Буд. вр. + Ед.ч. + 3 л.

исследовал {исследовать} + + Прош. вр. + Ед.ч. + М р.

исследовала {исследовать} + + Прош. вр. + Ед.ч. + Ж р.

исследовать {исследовать}

исследую {исследовать}

исследуешь {исследовать}

исследует {исследовать}

исследовал {исследовать}

исследовала {исследовать}

Page 22: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

МОРФОЛОГИЧЕСКИЙ СИНТЕЗ иМОРФОЛОГИЧЕСКИЙ СИНТЕЗ и ПОРОЖДЕНИЕ ПАРАДИГМЫПОРОЖДЕНИЕ ПАРАДИГМЫ

{исследовать} + Неопр.ф.

исследовать

{исследовать} + Наст. вр. + Ед.ч. + 1 л.

исследую

{исследовать} + Наст. вр. + Ед.ч. + 2 л.

исследуешь

{исследовать} + Наст. вр. + Ед.ч. + 3 л.

исследует

{исследовать} + Буд. вр. + Ед.ч. + 1 л.

исследую, буду исследовать

{исследовать} + Буд. вр. + Ед.ч. + 2 л.

исследуешь , будешь исследовать

{исследовать} + Буд. вр. + Ед.ч. + 3 л.

исследует, будет исследовать

{исследовать} исследовать

исследую

исследуешь

исследует

исследуем

исследуете

исследуют

буду исследовать

будешь исследовать

будет исследовать

исследовал

исследовала

Page 23: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ЕСТЬ ЛИ ДОСТАТОЧНАЯ ЕСТЬ ЛИ ДОСТАТОЧНАЯ ПРЕДСКАЗУЕМОСТЬ?ПРЕДСКАЗУЕМОСТЬ?

дневн(ой) дневн(ой) дневндневникик вечерн(ий)вечерн(ий) вечернвечерникик ночн(ой)ночн(ой) ночнночникик утренн(ий)утренн(ий) утреннутренникик

Page 24: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ЕСТЬ ЛИ ДОСТАТОЧНАЯ ЕСТЬ ЛИ ДОСТАТОЧНАЯ ПРЕДСКАЗУЕМОСТЬ?ПРЕДСКАЗУЕМОСТЬ?

дневник {дневной} + тетрадь для записей, заполняемая с указанной периодичностью,

{дневной} + студент формы обучения, предусматривающей занятия в указанное время суток

вечерник {вечерний} + студент формы обучения, предусматривающей занятия в указанное время суток

ночник {ночной} + лампа, используемая в указанное время суток

утренник {утренний} + представление, происходящее в указанное время суток

АНАЛИЗ:

Page 25: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ЕСТЬ ЛИ ДОСТАТОЧНАЯ ЕСТЬ ЛИ ДОСТАТОЧНАЯ ПРЕДСКАЗУЕМОСТЬ?ПРЕДСКАЗУЕМОСТЬ?

{дневной} + студент формы обучения, предусматривающей занятия в указанное время суток

дневник

{вечерний} + студент формы обучения, предусматривающей занятия в указанное время суток

вечерник

{утренний} + студент формы обучения, предусматривающей занятия в указанное время суток

??

{дневной} + лампа, используемая в указанное время суток

??

{вечерний} + представление, происходящее в указанное время суток

??

СИНТЕЗ:

Page 26: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

СЛОВОИЗМЕНЕНИЕ И СЛОВОИЗМЕНЕНИЕ И СЛОВООБРАЗОВАНИЕСЛОВООБРАЗОВАНИЕ

Внутренний смысл противопоставления:Внутренний смысл противопоставления: варианты одной лексической единицы или варианты одной лексической единицы или

разные лексические единицыразные лексические единицыПодходы в теоретической морфологии:Подходы в теоретической морфологии: 28 «элементарных различий» словоизменения и 28 «элементарных различий» словоизменения и

словообразования по Ф.Планкусловообразования по Ф.Планку 15 критериев противопоставления 15 критериев противопоставления

лексического и грамматического у Н.В.Перцовалексического и грамматического у Н.В.Перцова вхождение/невхождение в категории вхождение/невхождение в категории

противопоставленных единиц и обязательные противопоставленных единиц и обязательные категории;категории;

коррелятивность;коррелятивность; композиционность;композиционность;

и т.д.и т.д.

Page 27: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

СЛОВОИЗМЕНЕНИЕ И СЛОВОИЗМЕНЕНИЕ И СЛОВООБРАЗОВАНИЕСЛОВООБРАЗОВАНИЕ

Внутренний смысл противопоставления:Внутренний смысл противопоставления: варианты одной лексической единицы или варианты одной лексической единицы или

разные лексические единицыразные лексические единицыТехнические критерии противопоставления:Технические критерии противопоставления: при анализепри анализе

композиционность: словоформа без остатка разбивается композиционность: словоформа без остатка разбивается на формальные показатели (знаки), значение формы без на формальные показатели (знаки), значение формы без остатка раскладывается на значения этих показателейостатка раскладывается на значения этих показателей

при синтезепри синтезе регулярность (коррелятивность): лексические единицы регулярность (коррелятивность): лексические единицы

разбиты на (достаточно большие) классы, и для разбиты на (достаточно большие) классы, и для каждого класса известен набор возможных словоформ, каждого класса известен набор возможных словоформ, а также правила, по которым их можно строитьа также правила, по которым их можно строить

Page 28: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

СЛОВОИЗМЕНЕНИЕ И СЛОВОИЗМЕНЕНИЕ И СЛОВООБРАЗОВАНИЕСЛОВООБРАЗОВАНИЕ

Технический критерий позволяет подключить к Технический критерий позволяет подключить к явлениям словоизменения (для русского явлениям словоизменения (для русского языка):языка):

образование существительных от образование существительных от прилагательныхприлагательных

образование существительных (имен действия и образование существительных (имен действия и имен деятеля) от глаголовимен деятеля) от глаголов

образование уменьшительных существительныхобразование уменьшительных существительных

Более осторожный термин С.А.Крылова и Более осторожный термин С.А.Крылова и С.А.Старостина для таких явлений – С.А.Старостина для таких явлений – «номинационное формообразование» (2003)«номинационное формообразование» (2003)

Page 29: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

СЛОВОИЗМЕНЕНИЕ И СЛОВОИЗМЕНЕНИЕ И СЛОВООБРАЗОВАНИЕСЛОВООБРАЗОВАНИЕ

Общий вывод для компьютерной морфологии:Общий вывод для компьютерной морфологии:Класс явлений словоизменения может быть Класс явлений словоизменения может быть расширен, нужно только исчерпывающее и расширен, нужно только исчерпывающее и объективное описаниеобъективное описание

указать класс лексем, которые подвергаются указать класс лексем, которые подвергаются такому варьированию (образуют уменьшит./ такому варьированию (образуют уменьшит./ аугментатив. форму и т.п.)аугментатив. форму и т.п.)

указать правила варьирования для каждой указать правила варьирования для каждой лексемы из класса достаточно экономным лексемы из класса достаточно экономным образомобразом

Но следует учитыватьНо следует учитывать фактор практической целесообразности с фактор практической целесообразности с

учетом функции конкретной компьютерной учетом функции конкретной компьютерной системысистемы

Page 30: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ФОРМАЛЬНЫЙ РАЗРЯД В ФОРМАЛЬНЫЙ РАЗРЯД В КОМПЬЮТЕРНОЙ МОРФОЛОГИИКОМПЬЮТЕРНОЙ МОРФОЛОГИИ

учител-ь учител-я

учител-я учител-ей

учител-ю учител-ям

учител-я учител-ей

учител-ем учител-ями

учител-е учител-ях

учитель, соболь, егерь…

(типовая парадигма, морфологический тип)

Page 31: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ОДНА ПАРАДИГМА ИЛИ БОЛЬШЕ?ОДНА ПАРАДИГМА ИЛИ БОЛЬШЕ?узел узлы

узла узлов

узлу узлам

узел узлы

узлом узлами

узле узлах

бубен бубны

бубна бубнов

бубну бубнам

бубен бубны

бубном бубнами

бубне бубнах

хребет хребты

хребта хребтов

хребту хребтам

хребет хребты

хребтом хребтами

хребте хребтах

Page 32: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХСТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ

Идентификатор лексемы Идентификатор парадигмы

порогов 302

пород 005

породнени 002

порожда 401

Page 33: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХСТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ

Идентификатор лексемы

Основа Идентификатор парадигмы

пороговый порогов 302

порода пород 005

породнение породнени 002

порождать порожда 401

Page 34: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ПЕРВИЧНЫЕ И ВТОРИЧНЫЕ ФУНКЦИИ ПЕРВИЧНЫЕ И ВТОРИЧНЫЕ ФУНКЦИИ (ПРОЦЕДУРЫ) В КОМПЬЮТЕРНОЙ (ПРОЦЕДУРЫ) В КОМПЬЮТЕРНОЙ

МОРФОЛОГИИМОРФОЛОГИИ

Page 35: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ПРОЦЕДУРА ОПРЕДЕЛЕНИЯ ТИПОВОЙ ПРОЦЕДУРА ОПРЕДЕЛЕНИЯ ТИПОВОЙ ПАРАДИГМЫПАРАДИГМЫ

если слово оканчивается на если слово оканчивается на щийсящийся, то ТП 5;, то ТП 5; если слово оканчивается на если слово оканчивается на инин, , ынын, то ТП 20;, то ТП 20; если слово оканчивается на если слово оканчивается на овов, , ёвёв, , евев, то ТП 21;, то ТП 21; если слово оканчивается на если слово оканчивается на цыйцый, то ТП 6;, то ТП 6; если слово оканчивается на если слово оканчивается на ыйый, то ТП 1;, то ТП 1; если слово оканчивается на если слово оканчивается на кийкий, , гийгий, , хийхий, то ТП 3;, то ТП 3; если слово оканчивается на если слово оканчивается на щийщий, то ТП 4;, то ТП 4; если слово оканчивается на если слово оканчивается на жийжий, , шийший, , чийчий, то ТП , то ТП

4 или ТП 24;4 или ТП 24; если слово оканчивается на если слово оканчивается на ийий, то ТП 2 или ТП , то ТП 2 или ТП

24;24; если слово оканчивается на если слово оканчивается на койкой, , гойгой, , хойхой, , жойжой, ,

шойшой, , чойчой, , щойщой, то ТП 8;, то ТП 8; если слово оканчивается на если слово оканчивается на ойой, то ТП 7., то ТП 7.

Page 36: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ТИПИЗАЦИЯ ВНУТРИ ПРЕДСКАЗАНИЯТИПИЗАЦИЯ ВНУТРИ ПРЕДСКАЗАНИЯ

Page 37: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ КОДОВ ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ КОДОВ ГСРЯ В МОРФОЛОГИЧЕСКИХ МОДУЛЯХГСРЯ В МОРФОЛОГИЧЕСКИХ МОДУЛЯХ

Могут быть слишком дробными (для обработки Могут быть слишком дробными (для обработки письменного текста)письменного текста)

дол м 1е//1адол м 1е//1апорт м 1епорт м 1е имеют одинаковый набор окончанийимеют одинаковый набор окончанийклён м 1аклён м 1а

Могут быть недостаточно точными (для Могут быть недостаточно точными (для некоторых процедур компьютерной морфологии)некоторых процедур компьютерной морфологии)

восстановление начальной формы:восстановление начальной формы:

бугор м 1*бугор м 1*bb бугра: (- ра), (+ бугра: (- ра), (+ оор)р)котёл м 1*котёл м 1*bb котла: (- ла), (+ котла: (- ла), (+ ёёл)л)псалом м 1*псалом м 1*bb псалма: (- ма), (+ псалма: (- ма), (+ оом)м)сон м 1*сон м 1*bb сна: (- на), (+ сна: (- на), (+ оон)н)хребет м 1*хребет м 1*bb хребта: (- та), (+ хребта: (- та), (+ еет)т)

Page 38: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

НЕДОСТАТКИ СЛОВАРЯ ЗАЛИЗНЯКАНЕДОСТАТКИ СЛОВАРЯ ЗАЛИЗНЯКА

сложная структура словоизменительной сложная структура словоизменительной характеристикихарактеристики

формальная «вседозволенность» (свобода формальная «вседозволенность» (свобода образования форм множественного числа - образования форм множественного числа - вреды, зарезы, неонацизмывреды, зарезы, неонацизмы, кратких форм - , кратких форм - бегл, кредитово, соляны,бегл, кредитово, соляны, сравнительной сравнительной степени - степени - тяжелораненее, убитее, тяжелораненее, убитее, изюбревееизюбревее))

неполнота словниканеполнота словника

Page 39: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

РЕКОМЕНДОВАННАЯ РЕКОМЕНДОВАННАЯ ЛИТЕРАТУРАЛИТЕРАТУРА

Леонтьева Н.Н. Автоматическое Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, понимание текстов: системы, модели, ресурсы. М., 2006 (глава 4, (3))ресурсы. М., 2006 (глава 4, (3))

Коваль С.А. Лингвистические Коваль С.А. Лингвистические проблемы компьютерной проблемы компьютерной морфологии. СПб., 2005морфологии. СПб., 2005

Библиография, собранная С. Нагелем Библиография, собранная С. Нагелем ((Sebastian NagelSebastian Nagel):):

http://www.cis.uni-muenchen.de/~wastl/http://www.cis.uni-muenchen.de/~wastl/rmorph/rusmorphBib.pdfrmorph/rusmorphBib.pdf

Page 40: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

УПОМЯНУТАЯ ЛИТЕРАТУРАУПОМЯНУТАЯ ЛИТЕРАТУРА

Перцов Н.В. Инварианты в русском Перцов Н.В. Инварианты в русском словоизменении. М.: Языки русской словоизменении. М.: Языки русской культуры, 2001 (глава 2)культуры, 2001 (глава 2)

Крылов С.А., Старостин С.А. Крылов С.А., Старостин С.А. Актуальные задачи Актуальные задачи морфологического анализа и синтеза морфологического анализа и синтеза в интегрированной информационной в интегрированной информационной среде среде STARLING // STARLING // Тр. Междунар. Тр. Междунар. конф. Диалогконф. Диалог’2003 (http://www.dialog-’2003 (http://www.dialog-21.ru/Archive/2003/Krylov.htm)21.ru/Archive/2003/Krylov.htm)

Page 41: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ДанныеДанныеВнутренняя структура Внутренняя структура словоформы. Примерсловоформы. Пример

Входные данные

Результат морфологического анализа:

городк”е

городк” - е

Page 42: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ДанныеДанныеВнутренняя структура Внутренняя структура словоформы. Примерсловоформы. Пример

Морфонологические правила:

Обратный пересчет:

(1) V -> Ø | __ □ CV (beglie)

(2) C тв -> C мягк | __ □ Vпередн ряд (Palatalization)

Городок | городка |городк”е

(3) C зв -> C гл | __ □ Сгл (Oglushenie)

Page 43: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ДанныеДанныеВнутренняя структура Внутренняя структура словоформы. Примерсловоформы. Пример

Page 44: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ДанныеДанные

Полный список словоформ с их Полный список словоформ с их формамиформами

Полная декомпозиция:Полная декомпозиция:

Page 45: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ПланПлан

Задачи, этапы (лекция Морфология1)Задачи, этапы (лекция Морфология1) Обзор технологийОбзор технологий Организация данныхОрганизация данных

Первичный анализ. Базовые Первичный анализ. Базовые формализмы анализа формализмы анализа словоформысловоформы

Разрешение омонимииРазрешение омонимии Предсказание незнакомых словПредсказание незнакомых слов

Page 46: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ФормализмыФормализмы

FST (FST (конечные преобразователи – конечные преобразователи – Finite State Trasducers)Finite State Trasducers)

Порождающая грамматикаПорождающая грамматика Язык регулярных выраженийЯзык регулярных выражений

Page 47: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Порождающие Порождающие граммаикиграммаики

упорядоченная четверка , упорядоченная четверка , где V и где V и W -W - непересекающиеся конечные непересекающиеся конечные

множества, наз. соответственно основным и множества, наз. соответственно основным и вспомогательным алфавитами, или словарями вспомогательным алфавитами, или словарями (их элементы наз. соответственно основными, (их элементы наз. соответственно основными, пли терминальными, и вспомогательными, или пли терминальными, и вспомогательными, или нетерминальными, символам и), - элемент , нетерминальными, символам и), - элемент , наз. начальным символом, и - конечное наз. начальным символом, и - конечное множество правил, имеющих вид , где - множество правил, имеющих вид , где - цепочки (цепочки ( слова слова).в алфавите и не принадлежит ).в алфавите и не принадлежит ; Rназ. схемой грамматики.; Rназ. схемой грамматики.

Page 48: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ФОРМАЛЬНАЯ (ПОРОЖДАЮЩАЯ) ФОРМАЛЬНАЯ (ПОРОЖДАЮЩАЯ) ГРАММАТИКА - примерГРАММАТИКА - пример

Четверка Четверка (V, W, I, R):(V, W, I, R): V V == { {а, е, й, к, л, о, у, ыа, е, й, к, л, о, у, ы}} W W = = {{СловоСлово, , ОсноваОснова, , ОкончаниеОкончание}} I I == { {СловоСлово}} R – R – множество правил грамматикимножество правил грамматики

Правила Правила R :R :1.1. СловоСлово Основа Окончание Основа Окончание2.2. ОсноваОснова к у к л к у к л3.3. ОкончаниеОкончание а а4.4. ОкончаниеОкончание ы ы5.5. ОкончаниеОкончание у у6.6. ОкончаниеОкончание е е7.7. ОкончаниеОкончание о й о й

Page 49: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ВЫВОД В ФОРМАЛЬНОЙ ВЫВОД В ФОРМАЛЬНОЙ ГРАММАТИКЕГРАММАТИКЕ

Правила Правила R :R :1.1. СловоСлово Основа ОкончаниеОснова Окончание2.2. ОсноваОснова к у к л к у к л3.3. ОкончаниеОкончание а а4.4. ОкончаниеОкончание ы ы5.5. Окончание Окончание у у6.6. ОкончаниеОкончание е е

ВЫВОД:ВЫВОД:СловоСлово (1)(1)Основа ОкончаниеОснова Окончание (2)(2)к у к лк у к л ОкончаниеОкончание (6)(6)к у к л о йк у к л о й

Page 50: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Основные формализмыОсновные формализмыFSTFST

Один из наиболее Один из наиболее распространенных распространенных Finite State Finite State Transducer (Transducer (Конечные Конечные преобразователипреобразователи))

Конечный автоматКонечный автомат —  — абстрактный автомат без выходного потока, число возможных без выходного потока, число возможных состояний которого состояний которого конечно. Результат . Результат работы автомата определяется по его работы автомата определяется по его конечному состоянию.конечному состоянию.

Page 51: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Конечный автоматКонечный автомат Существуют различные варианты задания Существуют различные варианты задания

конечного автомата. Например, конечный автомат конечного автомата. Например, конечный автомат может быть задан с помощью пяти параметров: , может быть задан с помощью пяти параметров: , где:где: Q — конечное Q — конечное множество состояниймножество состояний автомата; автомата; qq00 —  — начальное состояниеначальное состояние автомата (); автомата (); F — множество F — множество заключительныхзаключительных (или (или допускающихдопускающих) )

состояний, таких что ;состояний, таких что ; Σ — допустимый Σ — допустимый входной алфавитвходной алфавит (конечное множество (конечное множество

допустимых входных символов), из которого допустимых входных символов), из которого формируются строки, считываемые автоматом;формируются строки, считываемые автоматом;

δ — заданное отображение множества во множество δ — заданное отображение множества во множество подмножеств Q: (иногда δ называют подмножеств Q: (иногда δ называют функцией переходов функцией переходов автоматаавтомата).).

Page 52: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Конечные автоматыКонечные автоматы Автомат начинает работу в состоянии qАвтомат начинает работу в состоянии q00, считывая , считывая

по одному символу входной строки. Считанный по одному символу входной строки. Считанный символ переводит автомат в новое состояние из Q в символ переводит автомат в новое состояние из Q в соответствии с функцией переходов. Если по соответствии с функцией переходов. Если по завершении считывания входного слова (цепочки завершении считывания входного слова (цепочки символов) автомат оказывается в одном из символов) автомат оказывается в одном из допускающих состояний, то слово «принимается» допускающих состояний, то слово «принимается» автоматом. В этом случае говорят, что оно автоматом. В этом случае говорят, что оно принадлежит языку данного автомата. В принадлежит языку данного автомата. В противном случае слово «отвергается».противном случае слово «отвергается».

Конечный преобразователь: анализирует цепочку Конечный преобразователь: анализирует цепочку символов на входной ленте и записывает другую символов на входной ленте и записывает другую цепочку на выходной ленте.цепочку на выходной ленте.

Page 53: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Недетерминированные Недетерминированные конечные автмоматыконечные автмоматы

Существуют переходы, помеченные пустой цепочкой ε

Из одного состояния выходит несколько переходов,

помеченных одним и тем же символом

•Недетерминированный конечный автомат (НКА) является обобщением •детерминированного. Недетерминированность автоматов достигается двумя способами:

                                 

Page 54: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

КОНЕЧНЫЙ КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬПРЕОБРАЗОВАТЕЛЬ

Правила вида qi ai bi qj

читающаяголовкаустройства

у к о л # # # a1 a2

qi

b1 b2

направление движения обеих лент

Распознавание (порождение) цепочек пар символовПерекодирование (переход от записи на языке верхней ленты к записи на языке нижней ленты и наоборот)

Page 55: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

КОНЕЧНЫЙ КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬ В ВИДЕ ПРЕОБРАЗОВАТЕЛЬ В ВИДЕ

ДИАГРАММЫДИАГРАММЫ

К У К Л А:Ø

Записать в виде таблицы?

Им.:А Ед.: Ø

Page 56: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ФРАГМЕНТ АНГЛИЙСКОЙ ФРАГМЕНТ АНГЛИЙСКОЙ ГЛАГОЛЬНОЙ СИСТЕМЫ: ГЛАГОЛЬНОЙ СИСТЕМЫ:

КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬКОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬ

p r

i

n gInf: Ø

3PSg: s

i:a

i:u n

n g Past:Ø

g PP: Ø

Page 57: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ЛЕКСИКОН В ФОРМАТЕ ЛЕКСИКОН В ФОРМАТЕ Xerox ToolsXerox Tools

Multichar_Symbols +InfMultichar_Symbols +Inf +3pSg +Past+3pSg +Past +PP+PP

LEXICON RootLEXICON Rootsing+Inf:singsing+Inf:sing # ;# ;sing+3pSg:singssing+3pSg:sings # ;# ;sing+Past:sangsing+Past:sang # ;# ;sing+PP:sungsing+PP:sung# ;# ;spring+Inf:springspring+Inf:spring # ;# ;spring+3pSg:springsspring+3pSg:springs # ;# ;spring+Past:sprangspring+Past:sprang# ;# ;spring+PP:sprungspring+PP:sprung # ;# ;

Page 58: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Язык регулярных Язык регулярных выраженийвыражений

Регулярные выражения состоят из Регулярные выражения состоят из констант и и операторов, которые определяют , которые определяют множества строк и и множества множества операций на них соответственно. На данном на них соответственно. На данном конечном алфавите Σ определены следующие конечном алфавите Σ определены следующие константы:константы:

((пустое множествопустое множество) .∅) .∅ ((пустая строкапустая строка) ε обозначает строку, не содержащую ) ε обозначает строку, не содержащую

ни одного символа. Эквивалентно «».ни одного символа. Эквивалентно «». ((символьный литералсимвольный литерал) «) «aa», где », где aa — символ алфавита Σ. — символ алфавита Σ.

Page 59: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Язык регулярных Язык регулярных выраженийвыражений

и следующие операции:и следующие операции: ((сцеплениесцепление, , конкатенацияконкатенация) ) RSRS обозначает множество {αβ обозначает множество {αβ

| α ∈ | α ∈ RR & β ∈ & β ∈ SS}. Например, {"boy", "girl"}{"friend", "cott"} }. Например, {"boy", "girl"}{"friend", "cott"} = {"boyfriend", "girlfriend", "boycott", "girlcott"}.= {"boyfriend", "girlfriend", "boycott", "girlcott"}.

((дизъюнкциядизъюнкция, , чередованиечередование) ) RR||SS обозначает объединение обозначает объединение RR и и SS. Например, {"ab", "c"}|{"ab", "d", "ef"} = {"ab", "c", . Например, {"ab", "c"}|{"ab", "d", "ef"} = {"ab", "c", "d", "ef"}."d", "ef"}.[4][4]

((замыкание Клинизамыкание Клини, , звезда Клинизвезда Клини) ) RR* обозначает * обозначает минимальное надмножество множества минимальное надмножество множества RR, которое , которое содержит ε и замкнуто относительно конкатенации. Это содержит ε и замкнуто относительно конкатенации. Это есть множество всех строк, полученных конкатенацией есть множество всех строк, полученных конкатенацией нуля или более строк из нуля или более строк из RR. Например, {"Go", "Russia"}* = . Например, {"Go", "Russia"}* = {ε, "Go", "Russia", "GoGo", "GoRussia", "RussiaGo", {ε, "Go", "Russia", "GoGo", "GoRussia", "RussiaGo", "RussiaRussia", "GoGoGo", "GoGoRussia", "GoRussiaGo", …}."RussiaRussia", "GoGoGo", "GoGoRussia", "GoRussiaGo", …}.

Page 60: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Язык регулярных Язык регулярных выраженийвыражений

Представление символовПредставление символов Обычные символы (литералы) и специальные Обычные символы (литералы) и специальные

символы (метасимволы)символы (метасимволы) Большинство символов в регулярном выражении Большинство символов в регулярном выражении

представляют сами себя за исключением специальных представляют сами себя за исключением специальных символов [ ] \ / ^ $ . | ? * + ( ) { }, которые могут быть символов [ ] \ / ^ $ . | ? * + ( ) { }, которые могут быть предварены символом \ (обратная косая черта) предварены символом \ (обратная косая черта) («экранированы», «защищены») для представления их («экранированы», «защищены») для представления их самих в качестве символов текста. самих в качестве символов текста.

ГородоГородо?[?[кккк”]”](([[еауиеауи]]/ом/ами/ах)/ом/ами/ах)??

Page 61: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ПланПлан

Задачи, этапы (лекция Морфология1)Задачи, этапы (лекция Морфология1) Обзор технологийОбзор технологий Организация данныхОрганизация данных Первичный анализ. Базовые формализмы Первичный анализ. Базовые формализмы

анализа словоформыанализа словоформы

Методы, основанные на словаряхМетоды, основанные на словарях Разрешение омонимииРазрешение омонимии Предсказание незнакомых словПредсказание незнакомых слов

Page 62: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Методы, основанные на словареМетоды, основанные на словаре..

Основные вопросы:Основные вопросы: Как разделять исходную словоформуКак разделять исходную словоформу

на сколько частей и какиена сколько частей и какие?? Что хранить в словаре: Что хранить в словаре:

словоформу, словоформу, основу + правила преобразования + основу + правила преобразования +

словоизменительные парадигмы, словоизменительные парадигмы, квазиосновы + квазиокончанияквазиосновы + квазиокончания

Page 63: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Морфологическая разметкаМорфологическая разметка Методы, основанные на словаре Методы, основанные на словаре

Существует три базовых подхода к проектированию морфологических машинных словарей (лексиконов) для флективных языков. 1)копируется академическая лингвистическая модель описания, где выделяются основные парадигматические классы, соответствующие типу склонения и спряжения, и правила регулярных альтернаций (фонетических чередований), а нерегулярные формы (например, сильные глаголы в немецком и английском языках) задаются перечислением. (на базе модели грамматического словаря А.Зализняка, разрабатывая 8 классов именного склонения и 16 глагольного спряжения, а чередования в основе и глагольной темы выносятся в отдельное множество пост-морфологических правил альтернаций) 2) рассматривается любого вида регулярное и нерегулярное чередование как часть расширенной псевдо-флексии (в таком случае, основа словоформы ‘день’ – ‘д’, а флексия – ‘-ень’; для словоформы ‘песок’: ‘пес’ и ‘-ок’). В подобной модели описания число парадигматических классов для русского языка возрастает до 3000 3) В лексиконе для каждой лексемы приводится полный список словоформ

Page 64: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Методы, основанные на словареМетоды, основанные на словаре.. LEXICON Verbs; LEXICON Verbs; вписывать+вписывать+Verb+Perf:Verb+Perf:впи(с/ш) впи(с/ш) V1;V1;LEXICON V1; +Inf+Active:^Hать #; +Imperf+Inf+Passive:^Hаться #; +Ind+NotPast+P1+Sg+Active:^Sьу #; +Ind+NotPast+P2+Sg+Active:^Sьэшь #; +Ind+NotPast+P3+Sg+Active:^Sьэт #; +Ind+NotPast+P1+Pl+Active:^Sьэм #; +Ind+Past+Sg+Masc+Active:^Hал #; +Ind+Past+Sg+Fem+Active:^Hала #; +Ind+Past+Sg+Neut+Active:^Hало #; лексическая форма ‘вписывать+Verb+Perf+Ind+NotPast+P3+Sg+Active’ соответствует поверхностной форме ‘впи(с/ш) ^Sьэт’.

Page 65: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Методы, основанные на словареМетоды, основанные на словареМорфологическая разметкаМорфологическая разметка: :

..

Фрагмент описания парадигмы для лексемы ‘рукоплескать’: 1740 %СКАТЬ*ка%СКАВШАЯ*мз%ЩУ*кб%ЩУТ*кж%ЩУЩЕГО*лблглп%…. ………………… РУКОПЛЕ 1740 ‘Рукопле’ – основа слова в лексиконе; ‘1740’ – уникальный идентификатор парадигматического класса; ‘%’ маркирует начало псевдо-флексии; ‘*’ маркирует начало аношкинского кода; ‘ка’, ‘кб’, ‘лб’, ‘лг’, etc. – код. В таблице приведена расшифровка аношкинских кодов, использованных в примере:

Page 66: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Методы, основанные на словареМетоды, основанные на словареМорфологическая разметкаМорфологическая разметка: :

.. %СКАТЬ*ка%СКАВШАЯ*мз%ЩУ*кб%СКАТЬ*ка%СКАВШАЯ*мз%ЩУ*кб

%ЩУТ*кж%ЩУЩЕГО*лблглп%….%ЩУТ*кж%ЩУЩЕГО*лблглп%…. Аношкинский код:Аношкинский код:

Page 67: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

СловариСловариСловарь Словарь MystemMystem

В каждой парадигме можно выделить псевдооснову (неизменяемую левую часть), в данном случае мам-, можно выделить StemGrammar (словообразовательные пометы, в данном случае «S,од,жен») и FlexGrammar (словоизменительные пометы). Можно записать данную парадигму в виде тройки <Основа, StemGrammar, Модель окончаний>, где модель окончаний – это набор пар вида <окончание, FlexGrammar>, например:

мама = <мам, «S,од, жен», F>, где F = <-a, ед,им>, <-ы ед,род>..

Page 68: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

СловариСловариСловарь Словарь MystemMystem

В текущей версии словаря используются около В текущей версии словаря используются около 3000 моделей.3000 моделей. Некоторые из нихНекоторые из них уникальны, уникальны, например, есть специальная модель для слова например, есть специальная модель для слова Комсомольск-на-амуре, там выделяются , там выделяются окончания окончания -а-на-амуре, -, -ом-на-амуре и т.д. и т.д.

Page 69: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Морфологическая разметкаМорфологическая разметка Методы, основанные на словаре Методы, основанные на словаре

Первый подход к проектированию лексиконов для построения морфологических анализаторов европейских и восточных языков был применен в научно-исследовательском центре Xerox (Гренобль) в середине 90-ых, а позже усовершенствован и доведен до промышленного использования в исследовательских отделах Inxight Software (Санта-Клара, США и Антверпен, Бельгия) в 2000-2002 гг. Конечный продукт Inxight LinguistX Platform 3.5 включает в себя морфологии 26 языков: 5 восточных (арабский, корейский, японский, etc.) и 21 европейский (английский, голландский, испанский, русский, etc.).

Page 70: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ПланПлан

Задачи, этапы (лекция Морфология1)Задачи, этапы (лекция Морфология1) Обзор технологийОбзор технологий Организация данныхОрганизация данных Первичный анализ. Базовые Первичный анализ. Базовые

формализмы анализа словоформыформализмы анализа словоформы Разрешение омонимииРазрешение омонимии

Предсказание незнакомых словПредсказание незнакомых слов

Page 71: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

1) предсказание префиксального образования

2) предсказание по концовке, взятой из известных словоформ

Морфологическая разметкаМорфологическая разметка

Методы «борьбы» с Методы «борьбы» с незнакомыми словами: незнакомыми словами:

предсказания в АОТпредсказания в АОТ

Page 72: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

1) предсказание префиксального образования

2) предсказание по концовке, взятой из известных словоформ

Морфологическая разметкаМорфологическая разметка

Методы «борьбы» с Методы «борьбы» с незнакомыми словаминезнакомыми словами

Page 73: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Предсказания Предсказания незнакомых словнезнакомых слов

Один из первых алгоритмов морфологического предсказания для русского языка был предложен в работах Г.Г.Белоногова.

Главным в этом алгоритме предсказания был принцип «корреляции между грамматическими признаками слов и буквенным составом их концов».

o Белоногов Г. Г. Об использовании метода аналогии при < автоматической > обработке текстовой информации // Проблемы кибернетики, < М >., 1974, вып. 28.

o Белоногов Г. Г., Зеленков Ю. Г. Алгоритм морфологического анализа русских слов // Вопросы информационной теории и практики. № 53. Автоматическая словарная служба. Автоматическое индексирование документов. М., 1985. С. 62-93.

Page 74: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Предсказания Предсказания незнакомых словнезнакомых слов

В 80-е и 90-e годы на факультете ВМК МГУ активно разрабатывалась система TULIPS-2, которая включала морфологический компонент, эта система использовала для предсказания словарь основ и словарь флексий, учитывались чередования.

o Мальковский М.Г., Волкова И.А. Анализатор системы TULIPS-2. Морфологический уровень // Вестн. Моск. Ун-та, сер. 15, 1981, N 1, с. 70-76.

Page 75: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Предсказания Предсказания незнакомых словнезнакомых слов

Развитие корпусной лингвистики подстегнуло рост интереса к системам, которые в качестве решающего фактора используют частотность тех или иных морфологических схем в текстовом корпусе. Например, в работе Wicentowski исследуется система, которая построена на трех простых факторах: 1. Расстояние Левенштейна, модифицированное под поиск морфологических вариантов. 2. Контекстная близость по соседним словам в корпусе. 3. Близость по частоте форм в одинаковых моделях словоизменения. Показывается, что система дает точность лемматизации порядка 80% на 30 различных языках.

o Richard Wicentowski. Modeling and Learning Multilingual Inflectional Morphology in a Minimally Supervised Framework, 2002.

Page 76: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Предсказания Предсказания незнакомых словнезнакомых слов

В работе Ляшевской и др. был предложен метод взвешивания морфологического предсказания, основанный на следующем утверждении.

Если некоторое слово открытого (словоизменительного) класса Если некоторое слово открытого (словоизменительного) класса встретилось в тексте в форме встретилось в тексте в форме X, то скорее всего оно встретится , то скорее всего оно встретится в тексте в форме в тексте в форме Y, отличной от первой, отличной от первой. Из этого можно сделать предположение, что парадигмы новых слов тем лучше, чем больше разных форм этой парадигмы найдено в корпусе. В этой работе строились парадигмы для слов из НКРЯ

o Ляшевская О.Н., Д.В. Сичинава, Б.П. Кобрицов. Автоматизация построения словаря на материале массива несловарных словоформ // Браславский П. И. (отв. ред.), Интернет-математика – 2007: сб. работ участников конкурса науч. проектов по информ. поиску. Екатеринбург: Изд-во Урал. ун-та. С. 118-125. нального корпуса русского языка (НКРЯ).

Page 77: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

Морфологическая разметкаМорфологическая разметка

Методы «борьбы» с Методы «борьбы» с незнакомыми словами: незнакомыми словами:

предсказания в АОТпредсказания в АОТ попытка найти существующую

словоформу языка, которая максимально совпадала бы справа со входным словом. Если левая часть (потенциальный префикс) не длиннее M символов (пяти), а правая часть (совпавшая с известной словоформой) не короче N символов (четырех), то слово разбирается по образцу известной словоформы.

[евро]технологию, [супер]коньками

Page 78: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ПРЕДСКАЗАНИЕ В АОТ: ПРЕДСКАЗАНИЕ ПО КОНЦОВКЕ ИЗ

ИЗВЕСТНОЙ СЛОВОФОРМЫсоздается конечный автомат, построенный на строках

вида: ReverseSuffix(X)|Annot(X), где ReverseSuffix(Х) – инвертированная концовка

известной словоформы длины K (пять букв), Annot(X) – аннотация словоформы X (анкод), например:меина|ед

где аннотация «ед» интерпретируется как «ср. род, ед. ч., тв. пад.»Такая строка заносится в исходный лексикон, если она

встречается: не менее L раз (трех) и чаще конкурентов (строк с таким же

ReverseSuffix(X), но другим Annot(X) ) в пределах одной части речи

ВСЕГДА предусматривается разбор именем существительным, хотя бы неизменяемым.

Page 79: Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2

ПРЕДСКАЗАНИЕ В АОТ: ОЦЕНКА КАЧЕСТВА

В новостных текстах наугад выбраны 150 неповторяющихся предсказанных слов. Исключались слова, у которых все буквы в верхнем регистре (аббревиатуры).

Все слова оказались либо существительными, либо прилагательными.

Для 131 слова в результатах предсказания был хотя бы один правильный результат (одновременно лемма, часть речи, род, число и падеж). Т.е. точность предсказания – 87%.

Результат вполне сравним с известными результатами для английского языка - 85 % или для французского – 88%.

http://www.aot.ru/demo/morph.html