18
Об альтернативах коллокациям Кочеткова Н. А. Научный руководитель Клышинский Э. С.

об альтернативах коллокациям

Embed Size (px)

Citation preview

Page 1: об альтернативах коллокациям

Об альтернативах коллокациям

Кочеткова Н. А.Научный руководитель

Клышинский Э. С.

Page 2: об альтернативах коллокациям

Виды словосочетаний

Свободные Связные

Разрывные Глагольное управление

Неразрывные Коллокации

Page 3: об альтернативах коллокациям

Объемы словарей сочетаемости

Название Объем, статей

Словарь сочетаемости слов русского языка / Под ред. П. Н. Денисова, В. В. Морковкина. 3-е изд., испр. М., АСТ, 2002. 816 с.

2500

Бирюк О.Л., Гусев В.Ю., Калинина Е.Ю. Словарь глагольной сочетаемости непредметных имен русского языка - http://dict.ruslang.ru/abstr_noun.php

10000

Невзорова О.А., Невзоров В.Н., Зинькина Ю.В., Пяткин Н.В. Интегральная технология разрешения омонимии в системе анализа текстовых документов «ЛоТА»

30000

Page 4: об альтернативах коллокациям

Из-за чего необходимо автоматизировать процесс извлечения баз сочетаемости :

• Большая трудоемкость составления словарей сочетаемости• Недостаточный для машинной обработки объем существующих словарей• Узкая специализация словарей• Необходимость приведения словарей к представлению, удобному для машинной обработки.

Page 5: об альтернативах коллокациям

Гипотезы в основе метода

• Синтаксическое подчинение некоторых групп слов может быть выявлено без проведения синтаксического анализа. Это справедливо для морфологически однозначных слов (однозначность части речи).

• В тексте большого объема однозначные группы слов будут встречаться достаточно часто для получения статистически значимых результатов.

Page 6: об альтернативах коллокациям

Анализируемые группы

1. Следующая за единственным глаголом группа существительного синтаксически подчиняется данному глаголу.

В 16-летнем возрасте Перл поступил в Бруклинский политехнический институт.

Выделится

поступил;в;Бруклинский;политехнический;институт

В базу попадет сочетание:

Глагол+предлог+существительное

ПОСТУПИТЬ;В;ИНСТИТУТ;

Page 7: об альтернативах коллокациям

Анализируемые группы

2. Единственная группа существительного, расположенная в начале предложения перед единственным глаголом, синтаксически подчиняется данному глаголу.

Эти исследования привели к открытию тау-лептона.

Выделятся сочетания 2 и 1 типов:

привели;исследования

привели;к;открытию

В базу попадет сочетание:

Глагол+предлог+существительное

ПРИВЕСТИ;ИССЛЕДОВАНИЕ;

ПРИВЕСТИ;К;ОТКРЫТИЕ;

Page 8: об альтернативах коллокациям

Анализируемые группы3. Прилагательные, расположенные перед первым в

предложении существительным или между глаголом и существительным, синтаксически подчиняются данному существительному.

В 16-летнем возрасте Перл поступил в Бруклинский политехнический институт.

Выделится

поступил;в;Бруклинский;политехнический;институт

В базу попадет сочетание:

прилагательное+существительное

ИНСТИТУТ;БРУКЛИНСКИЙ;

ИНСТИТУТ;ПОЛИТЕХНИЧЕСКИЙ;

Page 9: об альтернативах коллокациям

Анализируемые группы

4. Эти же положения могут быть применены к деепричастиям.

С 1951 г. Рейнс занимался исследованием нейтрино, используя атомный реактор в Хэнфорде (штат Вашингтон) как источник нейтрино.

Выделится

используя;атомный;реактор

В базу попадет сочетание:

Деепричастие+предлог+существительное

ИСПОЛЬЗОВАТЬ;РЕАКТОР;

Page 10: об альтернативах коллокациям

Анализируемые группы

5. Эти же положения могут быть применены к причастиям.

Рейнс создал группу, работающую в области физики реакторных нейтрино.

Выделится

работающую;в;области

В базу попадет сочетание:

Причастие+предлог+существительное

РАБОТАТЬ;В;ОБЛАСТЬ;

Page 11: об альтернативах коллокациям

Граф конечного автомата

0

1

2

3

Гл.Гл.

Пред. Прил.

Сущ.Пред. Сущ. Др.

Прил.

Сущ.

Гл.

Др.

Пред. Прил. Гл.

Пред. Прил. Сущ. Др.0 - начальное состояние

1 - ждем существительное после глагола2 - ждем существительное до глагола3 - ждем глаголЗеленый - занести в базуКрасный – сбросЧерный - переход

Page 12: об альтернативах коллокациям

Метод создания базы сочетаемости слов

• Выделить из текста последовательности слов, отвечающие предложенным шаблонам.

• Для каждой уникальной последовательности должна быть подсчитана ее встречаемость, которая в дальнейшем используется для определения статистической значимости результата.

Page 13: об альтернативах коллокациям

Источник Объем, млн словоупотреблений

Библиотека Мошкова 680РИА Новости 156Доп. корпус прозы 120Независимая газета 89Лента.ру 33Российская газета 29PCWeek 28РБК 21Компьюлента 9Итого 1165

Объем обработанных источников

Page 14: об альтернативах коллокациям

Недостаток метода:

Омонимичными является большое количество предлогов, например, «по» (река По), «при» (повелительное наклонение единственного числа от «переть») и так далее.

Page 15: об альтернативах коллокациям

Причины возникновения ошибок

• Часть из ошибок объясняется не совсем корректной обработкой некоторых видов конструкций.

Так в предложении «Хочу от лица коллектива поздравить юбиляра» конструкция «от лица» ошибочно относилась к глаголу «хотеть».

• Ассоциации, гиперболы и другие выразительные средства литературного языка. Будучи оторванными от контекста, подобные конструкции удивляют, хотя их выделение с точки зрения приведенных выше шаблонов проводится вполне корректно.

Месяц гладит камыши

Сквозь сирени шалаши...

• Ошибки авторов

Page 16: об альтернативах коллокациям

Пара Всего вхождений, млн

>1 повторения, млн

>2 повторений, млн

Глагол+сущ. 65 / 8,3 60,3 / 3,5 57,7 / 2,3Деепр.+сущ. 3,5 / 0,88 2,8 / 0,31 2,6 / 0,18Сущ.+прил. 9,9 / 1,3 9,2 / 0,56 8,8 / 0,36

Числитель показывает общее количество обнаруженных вхождений, знаменатель – количество уникальных сочетаний.

Статистика употреблений по частям речи

Результаты (по количеству вхождений)

Часть речи Приняло участие Всего в морфологии

Глагол 21500 26400Сущ. 53300 83000Прил. 23700 45300

Page 17: об альтернативах коллокациям

Результаты (процент ошибок)

Количество ошибок не превышает 1%.

В области наиболее частотных сочетаний ошибки метода составляют порядка 0,1%, тогда как сочетания, встретившиеся только один раз, выделяются с примерно 1-2% ошибок.

Page 18: об альтернативах коллокациям

Выводы

• Несмотря на то, что для построения баз было использовано около 1,5% всех словоупотреблений, большой объем корпуса позволил получить представительный результат.

• Проведенные эксперименты показали, что выдвинутые гипотезы вполне корректны, хотя и носят вероятностный характер.

• Точность получаемых результатов составляет порядка 99%.