об альтернативах коллокациям

Preview:

Citation preview

Об альтернативах коллокациям

Кочеткова Н. А.Научный руководитель

Клышинский Э. С.

Виды словосочетаний

Свободные Связные

Разрывные Глагольное управление

Неразрывные Коллокации

Объемы словарей сочетаемости

Название Объем, статей

Словарь сочетаемости слов русского языка / Под ред. П. Н. Денисова, В. В. Морковкина. 3-е изд., испр. М., АСТ, 2002. 816 с.

2500

Бирюк О.Л., Гусев В.Ю., Калинина Е.Ю. Словарь глагольной сочетаемости непредметных имен русского языка - http://dict.ruslang.ru/abstr_noun.php

10000

Невзорова О.А., Невзоров В.Н., Зинькина Ю.В., Пяткин Н.В. Интегральная технология разрешения омонимии в системе анализа текстовых документов «ЛоТА»

30000

Из-за чего необходимо автоматизировать процесс извлечения баз сочетаемости :

• Большая трудоемкость составления словарей сочетаемости• Недостаточный для машинной обработки объем существующих словарей• Узкая специализация словарей• Необходимость приведения словарей к представлению, удобному для машинной обработки.

Гипотезы в основе метода

• Синтаксическое подчинение некоторых групп слов может быть выявлено без проведения синтаксического анализа. Это справедливо для морфологически однозначных слов (однозначность части речи).

• В тексте большого объема однозначные группы слов будут встречаться достаточно часто для получения статистически значимых результатов.

Анализируемые группы

1. Следующая за единственным глаголом группа существительного синтаксически подчиняется данному глаголу.

В 16-летнем возрасте Перл поступил в Бруклинский политехнический институт.

Выделится

поступил;в;Бруклинский;политехнический;институт

В базу попадет сочетание:

Глагол+предлог+существительное

ПОСТУПИТЬ;В;ИНСТИТУТ;

Анализируемые группы

2. Единственная группа существительного, расположенная в начале предложения перед единственным глаголом, синтаксически подчиняется данному глаголу.

Эти исследования привели к открытию тау-лептона.

Выделятся сочетания 2 и 1 типов:

привели;исследования

привели;к;открытию

В базу попадет сочетание:

Глагол+предлог+существительное

ПРИВЕСТИ;ИССЛЕДОВАНИЕ;

ПРИВЕСТИ;К;ОТКРЫТИЕ;

Анализируемые группы3. Прилагательные, расположенные перед первым в

предложении существительным или между глаголом и существительным, синтаксически подчиняются данному существительному.

В 16-летнем возрасте Перл поступил в Бруклинский политехнический институт.

Выделится

поступил;в;Бруклинский;политехнический;институт

В базу попадет сочетание:

прилагательное+существительное

ИНСТИТУТ;БРУКЛИНСКИЙ;

ИНСТИТУТ;ПОЛИТЕХНИЧЕСКИЙ;

Анализируемые группы

4. Эти же положения могут быть применены к деепричастиям.

С 1951 г. Рейнс занимался исследованием нейтрино, используя атомный реактор в Хэнфорде (штат Вашингтон) как источник нейтрино.

Выделится

используя;атомный;реактор

В базу попадет сочетание:

Деепричастие+предлог+существительное

ИСПОЛЬЗОВАТЬ;РЕАКТОР;

Анализируемые группы

5. Эти же положения могут быть применены к причастиям.

Рейнс создал группу, работающую в области физики реакторных нейтрино.

Выделится

работающую;в;области

В базу попадет сочетание:

Причастие+предлог+существительное

РАБОТАТЬ;В;ОБЛАСТЬ;

Граф конечного автомата

0

1

2

3

Гл.Гл.

Пред. Прил.

Сущ.Пред. Сущ. Др.

Прил.

Сущ.

Гл.

Др.

Пред. Прил. Гл.

Пред. Прил. Сущ. Др.0 - начальное состояние

1 - ждем существительное после глагола2 - ждем существительное до глагола3 - ждем глаголЗеленый - занести в базуКрасный – сбросЧерный - переход

Метод создания базы сочетаемости слов

• Выделить из текста последовательности слов, отвечающие предложенным шаблонам.

• Для каждой уникальной последовательности должна быть подсчитана ее встречаемость, которая в дальнейшем используется для определения статистической значимости результата.

Источник Объем, млн словоупотреблений

Библиотека Мошкова 680РИА Новости 156Доп. корпус прозы 120Независимая газета 89Лента.ру 33Российская газета 29PCWeek 28РБК 21Компьюлента 9Итого 1165

Объем обработанных источников

Недостаток метода:

Омонимичными является большое количество предлогов, например, «по» (река По), «при» (повелительное наклонение единственного числа от «переть») и так далее.

Причины возникновения ошибок

• Часть из ошибок объясняется не совсем корректной обработкой некоторых видов конструкций.

Так в предложении «Хочу от лица коллектива поздравить юбиляра» конструкция «от лица» ошибочно относилась к глаголу «хотеть».

• Ассоциации, гиперболы и другие выразительные средства литературного языка. Будучи оторванными от контекста, подобные конструкции удивляют, хотя их выделение с точки зрения приведенных выше шаблонов проводится вполне корректно.

Месяц гладит камыши

Сквозь сирени шалаши...

• Ошибки авторов

Пара Всего вхождений, млн

>1 повторения, млн

>2 повторений, млн

Глагол+сущ. 65 / 8,3 60,3 / 3,5 57,7 / 2,3Деепр.+сущ. 3,5 / 0,88 2,8 / 0,31 2,6 / 0,18Сущ.+прил. 9,9 / 1,3 9,2 / 0,56 8,8 / 0,36

Числитель показывает общее количество обнаруженных вхождений, знаменатель – количество уникальных сочетаний.

Статистика употреблений по частям речи

Результаты (по количеству вхождений)

Часть речи Приняло участие Всего в морфологии

Глагол 21500 26400Сущ. 53300 83000Прил. 23700 45300

Результаты (процент ошибок)

Количество ошибок не превышает 1%.

В области наиболее частотных сочетаний ошибки метода составляют порядка 0,1%, тогда как сочетания, встретившиеся только один раз, выделяются с примерно 1-2% ошибок.

Выводы

• Несмотря на то, что для построения баз было использовано около 1,5% всех словоупотреблений, большой объем корпуса позволил получить представительный результат.

• Проведенные эксперименты показали, что выдвинутые гипотезы вполне корректны, хотя и носят вероятностный характер.

• Точность получаемых результатов составляет порядка 99%.