12
К ВОПРОСУ СНЯТИЯ ЛЕКСИЧЕСКОЙ И МОРФОЛОГИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ Каневский Е. А. СПб ЭМИРАН, Санкт-Петербург Боярский К. К. СПб ГУ ИТМО, Санкт-Петербург

морфология

Embed Size (px)

Citation preview

Page 1: морфология

К ВОПРОСУ СНЯТИЯ ЛЕКСИЧЕСКОЙ И

МОРФОЛОГИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ

Каневский Е. А. СПб ЭМИРАН, Санкт-Петербург

Боярский К. К. СПб ГУ ИТМО, Санкт-Петербург

Page 2: морфология

Словоформа БОРОВ

БОР м1 Мн. Род. $1213136(!Род,!Для) – инструментБОР м1В Мн. Род. $122412(!Род) – лесБОР м1о Мн. Род. Вин. $12413/03000() – фамилияБОРЫ м1+ Мн. Род. $1214023(!Род,!наВин) – налогБОРОВ м1о Ед. Им. $124224114(!Род) – свиньяБОРОВ м1|1 Ед. Им. Вин. $1563(!Род) – часть дымохода

9 элементов типа “Очередь”, каждый хранит до 7 лексем.

Всего используется 33 процедуры трех типов: первый тип – начало разбора (левый контекст), второй тип – конец разбора (правый контекст), третий тип – оба случая (и левый, и правый контексты).

Page 3: морфология

Морфологический разбор•Есть культура богатых и культура бедных.

•бедных БЕДНЫЙ п1 Мн. Род. Вин. Пред. $1241/161(!A1,!Тв) БЕДНЫЙ м12о Мн. Род. Пред. Вин. $1241/161()

•Есть ЕСТЬ ПК $1241/416($124~!Дат,!Инфин) +$11101(!Им) ЕСТЬ г16н Инфинитив $101/1($124~!Им,$101/1~!Вин)

•культура КУЛЬТУРА ж1 Ед. Им. $1223($1223~!Род)+$1241/15(!Род)

•богатых БОГАТЫЙ п1@ Мн. Род. Вин. Пред. $1241/161(!A1,!Тв) БОГАТЫЙ м12о Мн. Род. Пред. Вин. $1241/161()•и И СЗ $712()•культура КУЛЬТУРА ж1 Ед. Им. $1223($1223~!Род)+$1241/15(!Род)

Page 4: морфология

Процедура Defis

Процедура осуществляет сборку отсутствующих в словаре сущ., прилаг., наречий и междометий, пишущихся через дефис (кроме ‑ТО, ‑КА, ‑ДЕ, ‑КО, ‑ТА, ‑ТЕ, ‑С, ‑ЛИБО и ‑НИБУДЬ).

Вначале выполняется разделение лексем на две половины(по 2-м буквам для коротких слов или 3-м для длинных). Рассмотрим это на примере анализа слова Царю-освободителю. После морфологического разбора получим три лексемы:

ЦАРИТЬ г4нН Наст. 1-ое Ед. $124134021(!Им) ЦАРЬ м2о Ед. Дат. $124134021(!Над\!Род) ОСВОБОДИТЕЛЬ м2о Ед. Дат. $124/1(!Род,!Ото)

Запускается поиск лексем в порядке частей речи, указанных выше, затем две последние объединяются в одну:

Царю-освободителю ЦАРЬ-ОСВОБОДИТЕЛЬ S anim,m,sg,dat

Page 5: морфология

Процедура BigLetter

Профессор Вильфредо Парето из университета Лозанны...

•После морфологического разбора имеем:

ПРОФЕССОР м1о|1 Ед. Им. $12413202(!Род)ВИЛЬФРЕДО м0о $12413/01000()ПАРЕТО м0о $12413/03000()

•Находим слева “сопутствующее” слово – профессор и однозначно определяем все падежи. На выходе имеем:

ПрофессорПРОФЕССОР S anim,m,sg,nom

ВильфредоВИЛЬФРЕДОS anim,m,sg,nom

ПаретоПАРЕТО S anim,m,sg,nom

* Исключения: «наследник", «последователь" или «преемник"

Page 6: морфология

Процедура OrdinalNum

• Порядковые числительные представлены в виде набора цифр с буквенным окончанием:

• "ОЙ" – п1 Муж.-Сред. Ед. Им. Вин. Жен. Ед. Род. Дат. Тв. Пред. $12/135(!A1)

• "ГО" – п1 Муж.-Сред. Ед. Род. Вин. $12/135(!A1)

• "Е" – п1 Сред. Ед. Им. Вин. Мн. Им. Вин. $12/135(!A1)

• "Й" – п1 Муж. Ед. Им. Вин. Жен. Ед. Род. Дат. Тв.Пред. $12/135(!A1)

• "М" – п1 Муж.-Сред. Ед. Тв. Пред. Мн. Дат. $12/135(!A1)

• "Х" – п1 Мн. Род. Вин. Пред. $12/135(!A1)

• "Ю" – п1 Жен. Ед. Вин. Тв. $12/135(!A1)

• "Я" – п1 Жен. Ед. Им. $12/135(!A1)

Page 7: морфология

В 19-м году откопали и привезли в Москву…

•После срабатывания процедуры OrdinalNum получим:

В ПР $711(!Вин\!Пред)

19-М п1 Муж.-Сред. Ед. Тв. Пред. Мн. Дат. $12/135(!A1)

ГОД м1|3В@ Ед. Дат. МестВ $1605($151\$12413205\$11101\$124/1~!Род)

•Процедура Prepos согласует падежи предлога со следующим за ним прилагательным (в 19-м), в результате чего в прилагательном остается только предложный падеж:

В ПР $711(!Вин\!Пред)

19-М п1 Муж.-Сред. Ед. Пред. $12/135(!A1)

ГОД м1|3В@ Ед. Дат. МестВ

$1605($151\$12413205\$11101\$124/1~!Род)

Page 8: морфология

В 19-м году откопали и привезли в Москву…

Процедура TwoNoun, согласует падежи прилагательного (19-м году) со следующим за ним существительнымВ ПР $711(!Вин\!Пред)19-М п1 Муж.-Сред. Ед. Пред. $12/135(!A1) ГОД м1|3В@ Ед. Пред.

$1605($151\$12413205\$11101\$124/1~!Род)

После срабатывания процедуры OutMorf_Eng получаем разбор в окончательном виде:

В В PR

19-м19-М A-NUM m,sg,loc

годуГОД S inan,m,sg,loc2

Page 9: морфология

Снятие неоднозначностей

0

20%

40%

60%

80%

100%

Неоднозначностей

Согласование с предлогом слева

К любой власти…

ЛЮБА

ЛЮБОЙ

Управление по классам и падежам

политическая система создана средствами массовой информации…

СРЕДСТВА

СРЕДСТВО

Подлежащее – сказуемое

в самых разных СМИ обычными стали фразы типа…

СТАТЬ

СТАЛЬ

Согласование существительных – прилагательных – причастий

криминальная хроника…

ХРОНИК

ХРОНИКА

Выбор имен собственных

… как народный герой.

ГЕРА

ГЕРОЙ

Вводные слова

…если, конечно, цели власти совпадают с ее декларациями

КОНЕЧНО

КОНЕЧНЫЙ

Редкие словоформы

Были у картин и различия.

БЫТЬ

БЫЛЬ

Page 10: морфология

Сводные результаты

• Текст политической направленности общим объемом 116 тысяч словоформ. Анализатор не разобрал 759 различных слов (1329 словоформ). Из них 11% чисел ($12-20, 10-15), 30% иностранных слов (Arctic, web-сайт, web-страница ) и 59% русских (в том числе, около 24% ФИО).

• Из разобранных словоформ около 20% имели две и более лексемы. В результате работы анализатора неоднозначность по лексемам уменьшилась в 12 раз и составила около 1.5%.

• Если Диалинг обеспечивает разбор текста с морфологический неоднозначностью около 50%, то мы снизили ее до 10%.

• Из разобранных слов текста около 80% слов определены семантически однозначно, т. е. каждому из них приписан только один класс по классификатору Тузова.

Page 11: морфология

Наиболее значимые процедуры

4443 Subj_Pred (1) подлежащее-сказуемое4004 JoinEqual (2) объединение одинаковых лексем3636 Fraze_0 (*) неизменяемые фразеологизмы3046 TwoNoun (3) выбор из нескольких сущ.2872 BigLetter (1) имена собственные2460 Noun_Adject (1) согласование сущ. – прилаг./причаст.1946 Class_Padeg (1) согласование по классам и падежам1769 Adject_Prich (2) выбор прилаг. или причаст.1530 Prepos (1) анализ предлога слева1352 UnUsedWord (3) выбор наиболее употребительных слов1078 Adverb_Short (2) выбор наречия или краткого прилаг.

Page 12: морфология

Благодарим за внимание

Каневский Е. А. СПб ЭМИРАН, Санкт-Петербург

kanev@emi. nw.ru

Боярский К. К. СПб ГУ ИТМО, Санкт-Петербург

[email protected]