Upload
lidia-pivovarova
View
426
Download
6
Embed Size (px)
Citation preview
К ВОПРОСУ СНЯТИЯ ЛЕКСИЧЕСКОЙ И
МОРФОЛОГИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ
Каневский Е. А. СПб ЭМИРАН, Санкт-Петербург
Боярский К. К. СПб ГУ ИТМО, Санкт-Петербург
Словоформа БОРОВ
БОР м1 Мн. Род. $1213136(!Род,!Для) – инструментБОР м1В Мн. Род. $122412(!Род) – лесБОР м1о Мн. Род. Вин. $12413/03000() – фамилияБОРЫ м1+ Мн. Род. $1214023(!Род,!наВин) – налогБОРОВ м1о Ед. Им. $124224114(!Род) – свиньяБОРОВ м1|1 Ед. Им. Вин. $1563(!Род) – часть дымохода
9 элементов типа “Очередь”, каждый хранит до 7 лексем.
Всего используется 33 процедуры трех типов: первый тип – начало разбора (левый контекст), второй тип – конец разбора (правый контекст), третий тип – оба случая (и левый, и правый контексты).
Морфологический разбор•Есть культура богатых и культура бедных.
•бедных БЕДНЫЙ п1 Мн. Род. Вин. Пред. $1241/161(!A1,!Тв) БЕДНЫЙ м12о Мн. Род. Пред. Вин. $1241/161()
•Есть ЕСТЬ ПК $1241/416($124~!Дат,!Инфин) +$11101(!Им) ЕСТЬ г16н Инфинитив $101/1($124~!Им,$101/1~!Вин)
•культура КУЛЬТУРА ж1 Ед. Им. $1223($1223~!Род)+$1241/15(!Род)
•богатых БОГАТЫЙ п1@ Мн. Род. Вин. Пред. $1241/161(!A1,!Тв) БОГАТЫЙ м12о Мн. Род. Пред. Вин. $1241/161()•и И СЗ $712()•культура КУЛЬТУРА ж1 Ед. Им. $1223($1223~!Род)+$1241/15(!Род)
Процедура Defis
Процедура осуществляет сборку отсутствующих в словаре сущ., прилаг., наречий и междометий, пишущихся через дефис (кроме ‑ТО, ‑КА, ‑ДЕ, ‑КО, ‑ТА, ‑ТЕ, ‑С, ‑ЛИБО и ‑НИБУДЬ).
Вначале выполняется разделение лексем на две половины(по 2-м буквам для коротких слов или 3-м для длинных). Рассмотрим это на примере анализа слова Царю-освободителю. После морфологического разбора получим три лексемы:
ЦАРИТЬ г4нН Наст. 1-ое Ед. $124134021(!Им) ЦАРЬ м2о Ед. Дат. $124134021(!Над\!Род) ОСВОБОДИТЕЛЬ м2о Ед. Дат. $124/1(!Род,!Ото)
Запускается поиск лексем в порядке частей речи, указанных выше, затем две последние объединяются в одну:
Царю-освободителю ЦАРЬ-ОСВОБОДИТЕЛЬ S anim,m,sg,dat
Процедура BigLetter
Профессор Вильфредо Парето из университета Лозанны...
•После морфологического разбора имеем:
ПРОФЕССОР м1о|1 Ед. Им. $12413202(!Род)ВИЛЬФРЕДО м0о $12413/01000()ПАРЕТО м0о $12413/03000()
•Находим слева “сопутствующее” слово – профессор и однозначно определяем все падежи. На выходе имеем:
ПрофессорПРОФЕССОР S anim,m,sg,nom
ВильфредоВИЛЬФРЕДОS anim,m,sg,nom
ПаретоПАРЕТО S anim,m,sg,nom
* Исключения: «наследник", «последователь" или «преемник"
Процедура OrdinalNum
• Порядковые числительные представлены в виде набора цифр с буквенным окончанием:
• "ОЙ" – п1 Муж.-Сред. Ед. Им. Вин. Жен. Ед. Род. Дат. Тв. Пред. $12/135(!A1)
• "ГО" – п1 Муж.-Сред. Ед. Род. Вин. $12/135(!A1)
• "Е" – п1 Сред. Ед. Им. Вин. Мн. Им. Вин. $12/135(!A1)
• "Й" – п1 Муж. Ед. Им. Вин. Жен. Ед. Род. Дат. Тв.Пред. $12/135(!A1)
• "М" – п1 Муж.-Сред. Ед. Тв. Пред. Мн. Дат. $12/135(!A1)
• "Х" – п1 Мн. Род. Вин. Пред. $12/135(!A1)
• "Ю" – п1 Жен. Ед. Вин. Тв. $12/135(!A1)
• "Я" – п1 Жен. Ед. Им. $12/135(!A1)
В 19-м году откопали и привезли в Москву…
•После срабатывания процедуры OrdinalNum получим:
В ПР $711(!Вин\!Пред)
19-М п1 Муж.-Сред. Ед. Тв. Пред. Мн. Дат. $12/135(!A1)
ГОД м1|3В@ Ед. Дат. МестВ $1605($151\$12413205\$11101\$124/1~!Род)
•Процедура Prepos согласует падежи предлога со следующим за ним прилагательным (в 19-м), в результате чего в прилагательном остается только предложный падеж:
В ПР $711(!Вин\!Пред)
19-М п1 Муж.-Сред. Ед. Пред. $12/135(!A1)
ГОД м1|3В@ Ед. Дат. МестВ
$1605($151\$12413205\$11101\$124/1~!Род)
В 19-м году откопали и привезли в Москву…
Процедура TwoNoun, согласует падежи прилагательного (19-м году) со следующим за ним существительнымВ ПР $711(!Вин\!Пред)19-М п1 Муж.-Сред. Ед. Пред. $12/135(!A1) ГОД м1|3В@ Ед. Пред.
$1605($151\$12413205\$11101\$124/1~!Род)
После срабатывания процедуры OutMorf_Eng получаем разбор в окончательном виде:
В В PR
19-м19-М A-NUM m,sg,loc
годуГОД S inan,m,sg,loc2
Снятие неоднозначностей
0
20%
40%
60%
80%
100%
Неоднозначностей
Согласование с предлогом слева
К любой власти…
ЛЮБА
ЛЮБОЙ
Управление по классам и падежам
политическая система создана средствами массовой информации…
СРЕДСТВА
СРЕДСТВО
Подлежащее – сказуемое
в самых разных СМИ обычными стали фразы типа…
СТАТЬ
СТАЛЬ
Согласование существительных – прилагательных – причастий
криминальная хроника…
ХРОНИК
ХРОНИКА
Выбор имен собственных
… как народный герой.
ГЕРА
ГЕРОЙ
Вводные слова
…если, конечно, цели власти совпадают с ее декларациями
КОНЕЧНО
КОНЕЧНЫЙ
Редкие словоформы
Были у картин и различия.
БЫТЬ
БЫЛЬ
Сводные результаты
• Текст политической направленности общим объемом 116 тысяч словоформ. Анализатор не разобрал 759 различных слов (1329 словоформ). Из них 11% чисел ($12-20, 10-15), 30% иностранных слов (Arctic, web-сайт, web-страница ) и 59% русских (в том числе, около 24% ФИО).
• Из разобранных словоформ около 20% имели две и более лексемы. В результате работы анализатора неоднозначность по лексемам уменьшилась в 12 раз и составила около 1.5%.
• Если Диалинг обеспечивает разбор текста с морфологический неоднозначностью около 50%, то мы снизили ее до 10%.
• Из разобранных слов текста около 80% слов определены семантически однозначно, т. е. каждому из них приписан только один класс по классификатору Тузова.
Наиболее значимые процедуры
4443 Subj_Pred (1) подлежащее-сказуемое4004 JoinEqual (2) объединение одинаковых лексем3636 Fraze_0 (*) неизменяемые фразеологизмы3046 TwoNoun (3) выбор из нескольких сущ.2872 BigLetter (1) имена собственные2460 Noun_Adject (1) согласование сущ. – прилаг./причаст.1946 Class_Padeg (1) согласование по классам и падежам1769 Adject_Prich (2) выбор прилаг. или причаст.1530 Prepos (1) анализ предлога слева1352 UnUsedWord (3) выбор наиболее употребительных слов1078 Adverb_Short (2) выбор наречия или краткого прилаг.
Благодарим за внимание
Каневский Е. А. СПб ЭМИРАН, Санкт-Петербург
kanev@emi. nw.ru
Боярский К. К. СПб ГУ ИТМО, Санкт-Петербург