26
Распознавание и классификация актантов в русском языке Semantic Role Labeling Илья Кузнецов НИУ ВШЭ (Москва) АИСТ-2013

Распознавание и классификация актантов в русском языке

  • Upload
    gafna

  • View
    82

  • Download
    0

Embed Size (px)

DESCRIPTION

Распознавание и классификация актантов в русском языке. Semantic Role Labeling. Илья Кузнецов НИУ ВШЭ (Москва) АИСТ-2013. Обзор. Формулировка задачи Языковые модели и специфика SRL для русского языка Архитектура Планы и перспективы. I. Задача. I.1 Теоретическая основа. - PowerPoint PPT Presentation

Citation preview

Page 1: Распознавание и классификация актантов в русском языке

Распознавание и классификация актантов в русском языке

Semantic Role Labeling

Илья КузнецовНИУ ВШЭ (Москва)

АИСТ-2013

Page 2: Распознавание и классификация актантов в русском языке

Обзор

• Формулировка задачи• Языковые модели и специфика SRL для

русского языка• Архитектура• Планы и перспективы

Page 3: Распознавание и классификация актантов в русском языке

I. Задача

Page 4: Распознавание и классификация актантов в русском языке

I.1 Теоретическая основа

• Предикат – лексема, в толковании которой есть переменные.купить: X купил Y у Z за M

• X, Y, Z, M – валентности предикатапродать: Z продал Y X-у за M

• Синтаксически в первом случае X – субъект, во втором – непрямой объект.

• Но у них одинаковая семантическая роль («Покупатель»)• Эту роль можно обобщить до любого получателя

дарить: X дарит Y Z-у

Page 5: Распознавание и классификация актантов в русском языке

I.1 Теоретическая основа

• Классический инвентарь состоит из абстрактных и универсальных ролей:

– Агенс (активный субъект)– Пациенс (претерпевающий наибольшие изменения)– Адресат– Бенефициант– Время–Место…

[Baker, Fillmore 1998]

Page 6: Распознавание и классификация актантов в русском языке

I.1 Теоретическая основа

• На практике инвентари могут быть более конкретными– FrameNet – фреймовая организация:

одна ситуация – один набор ролей

– PropBank, ТКС – крайний случай, роли уникальны для каждого предиката(но сохраняются при залоговых преобразованиях)

– Узкоспециализированные словари для прикладных систем

Page 7: Распознавание и классификация актантов в русском языке

I.2 ЗадачаПоверхностный семантический анализ•Дано:

– Предложение– Целевой предикат– Набор ролей для этого предиката

•Требуется:– Определить аргументы данного предиката– Распределить аргументы по семантическим ролям

Р. Абрамович купил за 112 млн. долларов долю в компании "Труфон"

Предикат: купитьПокупатель: Р. АбрамовичТовар: доля в компании "Труфон"Цена: 112 млн. долларов

Page 8: Распознавание и классификация актантов в русском языке

1.3 Приложения

• Компактное представление информацииПредложение на естественном языке→ набор триплетов субъект-предикат-объект

• Извлечение фактов• Вопросно-ответные системы• Машинный перевод• Снятие неоднозначности

Page 9: Распознавание и классификация актантов в русском языке

1.4 Трудности

• Зависимость от предобработки:– Токенизация– Морфологический анализ– Синтаксический анализ– Анализ кореференции– Выделение именованных сущностей

• Опора на внешние ресурсы– Тезаурусы– Словари глагольного управления– Фреймнет

Page 10: Распознавание и классификация актантов в русском языке

1.5 Подходы

• Правиловый подход:– Хорошо для закрытых доменов

• Легко интерпретировать и чинить– Плохо для общей задачи

• Долго и дорого разрабатывать• Трудно поддерживать

• Машинное обучение– Быстрая адаптация к новым доменам– Снижение затрат на разработку*

• Требовательность к внешним ресурсам

Page 11: Распознавание и классификация актантов в русском языке

II. Языковые модели

Page 12: Распознавание и классификация актантов в русском языке

II.1 Языковые модели

Какая информация нам нужна для того, чтобы корректно распознать и классифицировать актанты?•Информация о глагольном управлении– Актанты vs сирконстанты

[X] купить [Y] [за Z]Иван купил велосипед за 100 рублей в пятницу

•Информация о присвоении семантических ролей– Как узнать, что Иван – покупатель, велосипед –

товар, а 100 рублей – цена?

Page 13: Распознавание и классификация актантов в русском языке

II.2 Глагольное управление

• Готовые («экспертные») ресурсы:– Словари– Фреймнет– Размеченные корпуса

• Автоматическое извлечение глагольных рамок– Актанты выражаются более регулярно, чем

сирконстанты– Сирконстанты оформляются схожим образом для

различных предикатов (время, место…)

Page 14: Распознавание и классификация актантов в русском языке

II.3 Присвоение ролей«Иван купил велосипед за 100 рублей»•Синтаксическая информация

– Иван – субъект– Велосипед – прямой объект– 100 рублей – предложная группа с «за»

•Лексическая информацияМария купила автомобиль за 100000 рублей– Мария ≈ Иван– автомобиль ≈ велосипед– 100000 рублей ≈ 100 рублей

•[Иван, 100 рублей, велосипед] – лексической информации достаточно!

Page 15: Распознавание и классификация актантов в русском языке

II.3 Присвоение ролей

• Информация о лексической близости слов– Тезаурус– Кластеризация• «Деятели»: Иван, Мария, Microsoft• «Артефакты»: велосипед, автомобиль, стол

–Матрица сочетаемости / Мягкая кластеризация• [+ломается],[+создается],[+дарится]… →

[+покупается],[+продаётся]

Page 16: Распознавание и классификация актантов в русском языке

II.4 Специфика русского SRL

• Мало ресурсов– Тезаурусы в разработке– FrameBank в разработке(можно использовать для тестирования)

• Сильная морфология и слабый порядок слов– Не получится перенести наборы свойств из

английского• Синтаксис зависимостей

Page 17: Распознавание и классификация актантов в русском языке

III. Архитектура

Page 18: Распознавание и классификация актантов в русском языке

III. Архитектура

Предобработка

Поиск предиката

Поиск актантов

Классификация актантов

Модель глагольного управления

Модель лексической близости

Page 19: Распознавание и классификация актантов в русском языке

III. Архитектура

Предобработка

Поиск предиката

Поиск актантов

Классификация актантов

Модель глагольного управления

Модель лексической близости

ТокенизацияМорфологический анализСинтаксический анализРаспознавание именованных сущностей

Page 20: Распознавание и классификация актантов в русском языке

III. Архитектура

Предобработка

Поиск предиката

Поиск актантов

Классификация актантов

Модель глагольного управления

Модель лексической близости

Page 21: Распознавание и классификация актантов в русском языке

III. Архитектура

Предобработка

Поиск предиката

Поиск актантов

Классификация актантов

Модель глагольного управления

Модель лексической близости

Page 22: Распознавание и классификация актантов в русском языке

III. Архитектура

Предобработка

Поиск предиката

Поиск актантов

Классификация актантов

Модель глагольного управления

Модель лексической близости

Page 23: Распознавание и классификация актантов в русском языке

IV. Планы и перспективы

Page 24: Распознавание и классификация актантов в русском языке

IV. Планы и перспективы• Уже сделано:– Разработана предварительная методология– Собран модуль предобработки

• Токенизация и разбивка на предложения – nltk• Морфологический анализ – CST Lemma• Синтаксический анализ – Russian Malt Parser

– Собран корпус на 20 млн. слов • В процессе:– Поиск большого корпуса– Эксперименты по моделированию лексической

близости– Эксперименты по извлечению глагольных рамок

Page 25: Распознавание и классификация актантов в русском языке

IV. Планы и перспективы

• В перспективе:– Полноценный SRL на упрощённых данных• Только простые предложения• Только финитные формы глаголов

– Расширение на более сложные случаи• Кореференция• Сложные предложения• Залоговые преобразования• Номинализации

Page 26: Распознавание и классификация актантов в русском языке

Спасибо!