47
Автоматическое разрешение референции КОРПУСНЫЙ АНАЛИЗ Ерин А.Н. группа 525

Автоматическое разрешение референции. Корпусный анализ

  • Upload
    -

  • View
    426

  • Download
    3

Embed Size (px)

DESCRIPTION

19 ноября 2010Ерин Александр 525

Citation preview

Page 1: Автоматическое разрешение референции. Корпусный анализ

Автоматическое разрешение референции

КОРПУСНЫЙ АНАЛИЗ

Ерин А.Н. группа 525

Page 2: Автоматическое разрешение референции. Корпусный анализ

Задача референциального анализа

Разрешение референции, т.е. нахождение для анафор соответствующих антецедентов, в тексте и есть задача референциального анализа.«Сам Евгений Чичваркин приветствовал сегодняшний вердикт присяжных, в интервью радиостанции "Эхо Москвы" он заявил, что инициаторов этого процесса нужно судить.»Данная проблема встает при необходимости глубинного семантического анализа текстов, перевода с одного языка на другой, а также извлечения знаний из текстов.

Page 3: Автоматическое разрешение референции. Корпусный анализ

Понятия и определения

• Ан фораа́� — употребление местоимения (анафорического слова) вместо ранее употреблявшегося выражения. [Большой психологический словарь. Мещеряков Б., и др. 2004.]

• Ан фора а́� — ссылка на что-то, упомянутое ранее. Анафорическое слово или анафорическая ссылка соотносятся с антецедентом – другими словом или предложением. В предложении "Макс – миллионер, я тоже хочу им стать" – "миллионер" – антецедент, "им" – анафорическое слово. [Оксфордский толковый словарь по психологии]

• Антецедент - предыдущая единица высказывания (слово, словосочетание или предложение), замененная местоимением или какой-либо фигурой речи

Page 4: Автоматическое разрешение референции. Корпусный анализ

Понятия и определения

• Рефер нцияе́� — отнесенность актуализованных (включённых в речь) имён, именных групп или их эквивалентов к объектам внеязыковой действительности (референтам, денотатам).

• Рефер нте́� — объект внеязыковой действительности, который имеет в виду говорящий в контексте конкретной языковой ситуации; предмет референции.

• Корефер нтностье́� — отношение между именами, имеющими один референт; то есть отношение между компонентами высказывания, которые обозначают один и тот же объект внеязыковой действительности.

Page 5: Автоматическое разрешение референции. Корпусный анализ

Курсовая работа

Постановка задачиДля русскоязычных текстов общей направленности, необходимо найти метод для автоматического разрешения референции личных местоимений, а также местоимений, таких как который, которая…

Общие подходыСуществует множество методов и подходов разрешения референции, но все они имеют некоторые общие принципы:• Оценка по расстоянию между анафорой и референтом• Согласованность по роду и числу

Page 6: Автоматическое разрешение референции. Корпусный анализ

Входные данные

Данные на входе – сам текст и его морфологический анализ.

В качестве наборов текста было взято 50 произвольных новостных статей. Такой выбор предполагает различный набор стилистик и тематик.

В использованном морфологическом анализе на каждое слово могло быть предложено несколько вариантов атрибутов:

Page 7: Автоматическое разрешение референции. Корпусный анализ

Алгоритм поиска референтов

Последовательный проход текста от начало до конца.В ходе прохода для каждой анафоры происходит поиск кандидатов в антецеденты с простановкой оценок для ГА (гипотетических антецедентов).В список кандидатов в референты добавляются только те существительные, 1) чей род не определен; 2) совпадает с родом анафоры; 3) не определен род анафоры. Аналогично для множественного числа слова, с той лишь разницей, что, если слово входит в список однородных членов предложения, то рассматривается весь список в целом

Page 8: Автоматическое разрешение референции. Корпусный анализ

Алгоритм поиска референтов

Если текущее местоимение принадлежит списку (он, она, оно, они, его, ее, её, ему, ей, им, их), то поиск референтов проводим от начала текста, до данного местоимения;Если же входит в список (который, которая, которое, которые), то поиск производится только в текущем предложение от начала до части предложения с данным местоимением.ГА с наибольшим балом выбирался в качестве ответа.

Page 9: Автоматическое разрешение референции. Корпусный анализ

Расчет оценок

Категории оценок (признаки) 1) по расстоянию, 2) по количеству совпавших атрибутов, 3) по одушевленности, 4) по падежу, 5) по расположению кандидата и анафоры внутри цитаты.

Для каждой категории оценки расчет производился отдельно.Суммарный балл вычислялся как скалярное произведение вектора оценки и вектора весовых коэффициентов.Значения вектора весовых коэффициентов подбирались вручную.

Page 10: Автоматическое разрешение референции. Корпусный анализ

Вывод программыПолный формат (XML) вывода программы

Page 11: Автоматическое разрешение референции. Корпусный анализ

Вывод программыСокращенный формат (HTML) для обзорного анализа

Page 12: Автоматическое разрешение референции. Корпусный анализ

Результаты использования алгоритма

При подсчете установленная референция считалось верной, если в результате было хотя бы одно слово из верной именной группы.

Результатом считается кандидат с наибольшим баллом.Подсчет производился на всех 50 выбранных в начале текстах.

В результате, в 77,5 % случаев референция была установлена правильно.

Page 13: Автоматическое разрешение референции. Корпусный анализ

Проблемы и сложности

Неоднозначность текстов«Простой(прил.) солдат(ед. ч., им. п.)» и «Простой(сущ.) солдат(мн. ч., род. п.)»1) Проблема входных данныхНеприменение синтаксического анализатора усиливало неоднозначность«Г-н Песня [один из вариантов жр./од] не уточнил, какую сумму он получил, продав компанию, сказав только, что ее оборот за 2008 год составил порядка…»

Page 14: Автоматическое разрешение референции. Корпусный анализ

Проблемы и сложности

2) Однородные члены предложенияАнафора множественного числа ссылается на группу однородных частей предложения

«Выходец из питерских коридоров власти Виталий Мутко и личный тренер премьера по горным лыжам Леонид Тягачев считаются хорошими знакомыми Владимира Путина. … В ближайшее время оба будут вызваны на ковер.»3) Выделение именных группНеобходимо выделять «личный тренер премьера по горным лыжам Леонид Тягачев», а не просто «тренер» или «Леонид Тягачев»

Page 15: Автоматическое разрешение референции. Корпусный анализ

Проблемы и сложности

4) Референтное и нереферентное употребление• Отношение присутствует:«Президент Медведев за дальнейшее сокращение часовых поясов. Дмитрий Медведев сегодня заявил, что считает возможным дальнейшее сокращение часовых поясов в России. Президент напомнил, что уже принят ряд решений по переводу пяти субъектов России в новые для них часовые пояса.»• Отношение отсутствует (абстрактное обозначение

объектов или типов объектов):«Президент — выборная должность главы государства» «Перед вступлением на должность президент обязан принять присягу государству»

Page 16: Автоматическое разрешение референции. Корпусный анализ

Проблемы и сложности

5) ЦитатыОбычно часть текста находящаяся внутри цитаты оценивается отдельно от остального текста, однако иногда это может быть неверным:«М.Погосян сообщил, что уже "определены контуры двигателя второго этапа", но уточнил, что цикл его создания займет 10-12 лет.»6) Проблема вводных словПри расположение референта довольно далеко от анафоры вводные слова могут получить наибольшую оценку (если их не исключить из рассмотрения):в нужный момент, пользуясь случаем, по последним данным.

Page 17: Автоматическое разрешение референции. Корпусный анализ

Проблемы и сложности

7) Достоверность определения родаНе всегда можно по слову достоверно определить его род:• «В свою очередь сама премьер-министр заявила,

что ее блок будет оставаться в коалиции, руководствуясь демократическими принципами.»

Так здесь местоимение «её» ссылается на слово «премьер-министр», если не учитывать окружение этого слова, то оно не будет рассматриваться в качестве кандидата в референты из-за несовпадения рода.

Page 18: Автоматическое разрешение референции. Корпусный анализ

Для того, чтобы понять какие методики можно применить для решения некоторых из изложенных проблем рассмотрим

результаты исследования изложенных в статье:

Новые методы и алгоритмы автоматического разрешения референции

местоимений третьего лица русскоязычных текстов

авторТолпегин Павел Владимирович

Page 19: Автоматическое разрешение референции. Корпусный анализ

АЛГОРИТМ РАЗРЕШЕНИЯ АНАФОРЫ

Рассматриваемый алгоритм имеет две реализации – обычную и расширенную.

Обычный алгоритм, реализованный на первом этапе, использовался на ограниченном признаковом пространстве.

В расширенной версии алгоритма применялась специально созданная статистическая база данных, но основе которой удалось значительно расширить признаковое пространство и улучшить качество разрешения анафоры.

Page 20: Автоматическое разрешение референции. Корпусный анализ

ОБЫЧНЫЙ АЛГОРИТМ РАЗРЕШЕНИЯ АНАФОРЫ

• Методология машинного обучения по прецедентам, позволяющая извлекать скрытые закономерности, содержащиеся в наборах данных [Vapnik, 1998].

• Предположение о возможности разрешения анафор по некоторым формальным признакам.

Корпус для машинного обучения:• 1мб новостных русскоязычных текстов.• Предварительная автоматизированная

морфологическая, синтаксическая и первичная семантическая разметка при помощи программных решений Диалинг.

• Корпус размечен экспертом для местоимений 3-го лица.

Page 21: Автоматическое разрешение референции. Корпусный анализ

Признаковое пространство использованное в обычном алгоритме

• 1. число имен собственных между анафором и антецедентом;• 2. количество предложений, разделяющих анафор и антецедент;• 3. стоит ли антецедент в именительном падеже;• 4. является ли антецедент именем собственным;• 5. количество существительных и местоимений, расположенных

в предложениях• между рассматриваемыми анафором и антецедентом;• 6. совпадает ли падеж анафора и антецедента;• 7. статистическая информация о том, в каком сегменте

предложения располагается антецедент – насколько ближе к началу;

• 8. статистическая информация о том, в каком сегменте предложения располагается анафор – насколько ближе к началу;

Page 22: Автоматическое разрешение референции. Корпусный анализ

• 9. количество анафоров, реферирующих с текущим антецедентом по данным ручной разметки, расположенных между анафором и антецедентом;

• 10. число глаголов в сегменте, содержащем антецедент;• 11. число причастий и деепричастий в сегменте, содержащем

антецедент;• 12. число местоименных прилагательных и союзов в сегменте,

содержащем антецедент;• 13. число существительных в именительном падеже в сегменте,

содержащем антецедент;• 14. род, падеж и число анафора и антецедента (в виде бинарных

признаков);

Признаковое пространство использованное в обычном алгоритме

Page 23: Автоматическое разрешение референции. Корпусный анализ

СТРУКТУРА РЕШАЮЩЕГО ПРАВИЛА

• Для принятия решения использовалась система алгоритмов опорных векторов (Support Vector Machines) [Burges, 1998].

• В качестве прецедента выступает пара анафор-антецедент, которая принадлежит к одному из двух классов в зависимости от наличия в ней референции.

При проходе текста рассматривается n гипотетических антецедентов расположенных ранее в тексте, начиная от рассматриваемого анафора.Для каждой пары анафор-антецедент производится оценка методом опорных векторов по следующей формуле

где Yn – вывод метода опорных векторов.

Page 24: Автоматическое разрешение референции. Корпусный анализ

СТРУКТУРА РЕШАЮЩЕГО ПРАВИЛА

Метод опорных векторов n-го уровня обучался на парах анафор-антецедент таких, что между ними было ровно n-1 cсуществительных или местоимений, согласованных с анафором в роде и числе.Пары для которых референция присутствует отнесены к первому классу, а остальные ко второму.

где X рассматриваемая пара анафор-антецедент, Xi – i-ый опорный вектор, Wi – его весовой коэффициент

Выбор антецедента происходит какM = arg max (Pn Rn),

Где Rn релаксационные коэффициенты, отражающие априорные знания о статистическом распределении реферируемых пар.

Page 25: Автоматическое разрешение референции. Корпусный анализ

Результат применения обычного алгоритма

Процент неудач складывается из погрешностей модулей анализа текстов и погрешности методов машинного обучения.Анализ ошибочных ситуаций показал, что величина ошибки в обучении преимущественно зависит от выразительных средств языка, которые не подчиняются правилам морфологии, синтаксиса и первичной семантики.

Page 26: Автоматическое разрешение референции. Корпусный анализ

РАСШИРЕНИЕ ПРИЗНАКОВОГО ПРОСТРАНСТВА

Для того чтобы улучшить качество разрешения референции предлагается подход, состоящий в оценке согласованности нового предложения полученного из старого заменой Анафора на ГА.Вычисляется мера сочетаемости глагольной группы (ГГ), управляющей местоимением с каждым из гипотетических антецедентов.«В автомобиль? Иван? встроил блокиратор? коробки переключения передач. Теперь его сложно угнать.»По статистике на основе корпуса «угнать автомобиль» встречается в 59 раз чаще, чем «угнать блокиратор».

Page 27: Автоматическое разрешение референции. Корпусный анализ

статистическая база данных

Для вычисления меры сочетаемости ГГ и ГАi производится поиск по генеральной совокупности синтаксически и семантически размеченных текстов.Составляется статистическая база данных (СБД) на основе анализа текстов с использованием решения Диалинг и представления текста в виде семантического графа.Результат обработки текста в виде узлов и дуг декомпозируется в СБД таким образом, чтобы по заданному слову WORDx и семантической валентности VALENCYz можно было получить набор слов, связанных с введенным словом WORDx указанной валентностью, с соответствующими характеристиками. f ( WORDx, VALENCYz) = {WORDy : characteristics}n.

Page 28: Автоматическое разрешение референции. Корпусный анализ

Пример запроса к статистической базе данных

f (ЛЮБИТЬ, SUB):

Page 29: Автоматическое разрешение референции. Корпусный анализ

РАСШИРЕНИЕ ПРИЗНАКОВОГО ПРОСТРАНСТВА

Вводятся новые признаки - признаки сочетаемости ГГ и ГАi:• 1. корпусный признак – поиск ГГ и ГАi на расстоянии не

более 5 слов в корпусе в прямом или обратном порядке, и любых морфологических формах;

• 2. корпусный признак №2 – поиск ГГ и ГАi на расстоянии не более 1 слова в корпусе в прямом или обратном порядке, и любых морфологических формах;

• 3. корпусный признак №3 – поиск ГГ и ГАi на расстоянии не более 1 слова в корпусе в прямом или обратном порядке, и морфологическом согласовании, с уточняющим словом.

Page 30: Автоматическое разрешение референции. Корпусный анализ

РАСШИРЕНИЕ ПРИЗНАКОВОГО ПРОСТРАНСТВА

Расширение частей речи, способных выступать в качестве гипотетического антецедентаДобавлены причастия без подчиненных местоимений и существительных, а также местоимения третьего лица.

Порядок слов запроса при поиске в неразмеченном корпусеВ случаях, когда написание ГАi совпадает в винительном и именительном падежах, порядок слов (ГГ + ГАi) при поиске может оказать существенное влияние на числовой показатель встречаемости в корпусе.Например, под словосочетанием «любят деньги» слово деньги обычно понимается как объект (любят что?), тогда как в сочетании «деньги любят» – как субъект (что любит?).

Page 31: Автоматическое разрешение референции. Корпусный анализ

Референция притяжательных местоимений рассматривается отдельно от референции местоимений.При корпусном поиске рассматривать вместо ГГ именную группу, которая подчиняет притяжательное местоимение.

Специфика местоименных прилагательных (притяжательных местоимениях)

Page 32: Автоматическое разрешение референции. Корпусный анализ

В случаях, когда глагольная группа представлена многозначным и широкоупотребительным словом вводится попытка поиска ГГ с уточняющим словом (УС).

«Действующий глава ОБСЕ, министр иностранных дел Бельгии Карел де Гюхт выразил глубокую беспокоенность в связи с вынесением судом Центрального района Минска приговора в отношении четверых активистов белорусского общественного объединения по наблюдению за выборами Партнерство. Все они были признаны виновными в том, что возглавляемое ими незарегистрированное объединение посягало на личность и права граждан.»

Роль уточняющего слова при корпусном поиске

Page 33: Автоматическое разрешение референции. Корпусный анализ

(2)/(3) - учет числа случаев, когда все три слова встречаются в одном предложении в любых морфологических формах.(4)/(3) - учет случаев, когда в одном предложении встречаются глагольная группа и уточняющее слово в прямом или обратном порядке, а гипотетический антецедент – в пределах двух слов от глагольной группы.

Роль уточняющего слова при корпусном поиске

Page 34: Автоматическое разрешение референции. Корпусный анализ

Выявление преобладание различных характеристик связанных с глагольной группой по следующим параметрам: преобладающие одушевленность, характерный род, число или падеж.Для глагола любить в значении валентности СУБЪЕКТ число одушевленных существительных в 8 раз превышает число неодушевленных.Если человек думает, что все, что он видит вокруг себя, весь бесконечный мир, точно таков, каким он его видит, то он очень ошибается.Алгоритм сделает предположение о том, что он в валентности СУБЪЕКТ будет преимущественно реферировать к одушевленному антецеденту, в данном контексте – человек из-за подчинения анафора глаголу видеть.

РАСШИРЕНИЕ ПРИЗНАКОВОГО ПРОСТРАНСТВА

Page 35: Автоматическое разрешение референции. Корпусный анализ

Структура признакового пространства

Page 36: Автоматическое разрешение референции. Корпусный анализ

Структура признакового пространства

Page 37: Автоматическое разрешение референции. Корпусный анализ

Структура признакового пространства

Page 38: Автоматическое разрешение референции. Корпусный анализ

Структура признакового пространства

Page 39: Автоматическое разрешение референции. Корпусный анализ

Машинное обучение на расширенном признаковом пространстве

Для машинного обучения применялись следующие методы Универсальной программной системы интеллектуального анализа данных, распознавания и прогноза – «Р А С П О З Н А В А Н И Е» : 1) линейный дискриминант Фишера2) метод опорных векторов3) статистически взвешенные синдромы4) логические закономерности,5) генетический метод6) голосование по тупиковым тестамДля улучшения результата на обучающей и контроля на тестовой выборках применялись коллективные метод Байеса и комплексный комитетный метод

Page 40: Автоматическое разрешение референции. Корпусный анализ

Параметры статистики

О б у ч а ю щ а я в ы б о р к а (learn) содержит:• 1) 56 признаков (без учета признака «номер класса»,

который методы машинного обучения должны «отгадать»);

• 2) 2 класса (0 – для тех случаев, когда Анф и ГА не реферируют и 1 в противном случае);

• 3) 128 объектов, принадлежащих классу референции Анф и Ант;

• 4) 504 объекта, принадлежащих классу нереференции Анф и Ант.

Page 41: Автоматическое разрешение референции. Корпусный анализ

Параметры статистики

Т е с т о в а я в ы б о р к а (test) содержит:• 1) 56 признаков (без учета признака «номер класса»,

который методы машинного обучения должны «отгадать»);

• 2) 2 класса (0 – для тех случаев, когда Анф и ГА не реферируют и 1 в противном случае);

• 3) 17 объектов, принадлежащих классу референции Анф и Ант;

• 4) 62 объекта, принадлежащих классу нереференции Анф и Ант.

Page 42: Автоматическое разрешение референции. Корпусный анализ

Результаты машинного обучения

Page 43: Автоматическое разрешение референции. Корпусный анализ

Значимость признаков

Page 44: Автоматическое разрешение референции. Корпусный анализ

Значимость признаков

Page 45: Автоматическое разрешение референции. Корпусный анализ

Значимость признаков

Page 46: Автоматическое разрешение референции. Корпусный анализ

Значимость признаков

Page 47: Автоматическое разрешение референции. Корпусный анализ

Литература

Новые методы и алгоритмы автоматического разрешения референции местоимений третьего лица русскоязычных текстов. – М. КомКнига, 2006. – 88с.