34
Ефименко И.В. Irina.Efi[email protected] ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ КРОСС-ЯЗЫКОВОГО РЕФЕРИРОВАНИЯ: СИНТЕЗ ТЕКСТОВ ПОД УПРАВЛЕНИЕМ ПРЕДМЕТНЫХ ОНТОЛОГИЙ

Ефименко И.В. [email protected]

  • Upload
    leona

  • View
    79

  • Download
    0

Embed Size (px)

DESCRIPTION

Ефименко И.В. [email protected]. ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ КРОСС-ЯЗЫКОВОГО РЕФЕРИРОВАНИЯ: СИНТЕЗ ТЕКСТОВ ПОД УПРАВЛЕНИЕМ ПРЕДМЕТНЫХ ОНТОЛОГИЙ. План презентации. Введение Системы семейства OntosMiner Shallow- подход Общие принципы и схема алгоритма кросс-языкового реферирования - PowerPoint PPT Presentation

Citation preview

Page 1: Ефименко И.В. Irina.Efimenko@avicomp.ru

Ефименко И.В[email protected]

ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ КРОСС-ЯЗЫКОВОГО РЕФЕРИРОВАНИЯ:СИНТЕЗ ТЕКСТОВ ПОД УПРАВЛЕНИЕМ ПРЕДМЕТНЫХ ОНТОЛОГИЙ

Page 2: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

План презентации

Введение Системы семейства OntosMiner Shallow-подход Общие принципы и схема алгоритма кросс-

языкового реферирования Генерация текста: пример Заключение

Page 3: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Введение

Анализ под управлением предметных онтологий Синтез под управлением предметных

онтологий

Кросс-языковое реферирование

Автоматическое реферирование Машинный перевод

Проблема создания универсального семантического языка – «переходной» репрезентации между языком-целью и языком-источником

Когнитивные карты (С-Маps)

Page 4: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Введение

Отсутствие необходимости построения дополнительного (исходного) реферата на языке-источнике.

Онтология в основе системы - «гарант» релевантности:

С точки зрения предметной области (сфера экстралингвистики)

С точки зрения текста (сфера лингвистики)

в процессе генерации итогового текста используется набор лингвистических шаблонов, аналогичных формальным конструкциям, положенным в основу анализа

Page 5: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Введение

Системы типа Information Extraction. Извлечение экземпляров объектов и связей между ними

Page 6: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом.

Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч…

Модель

типы объектов итипы отношений

Текст Структурированные данные

Введение:80-20

ПЕРСОНА

ОРГАНИЗАЦИЯ

РАБОТАТЬ В ОРГАНИЗАЦИИ

Page 7: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Введение

МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом.

МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом.

Тексты Отдельные графы База знаний

Page 8: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Системы OntosMiner: примеры онтологий

Page 9: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Page 10: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Системы OntosMiner: примеры онтологий

Page 11: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Цели и задачи настоящей работы

Page 12: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Системы OntosMiner: Фрагмент текста в среде GATE

Page 13: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Системы OntosMiner:Фрагмент когнитивной карты

Page 14: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Системы OntosMiner:Когнитивная карта множества сводок

Page 15: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Shallow-подход: Общие принципы

Использование системы шаблонов,

ориентированных на извлечение сущностей и связей между ними, являющихся экземплярами представленных в онтологии типов. Применение аналогичных принципов при

генерации текстов автоматическое реферирование на

основе лингвистических шаблонов под управлением предметных онтологий.

Все промежуточные операции могут выполняться на формальных конструкциях-шаблонах, а не на реальных предложениях. Генерация естественноязыковых фрагментов происходит на самом последнем этапе, когда системой получены все данные, необходимые для порождения гладкого и семантически насыщенного текста.

Page 16: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Shallow-подход: От NLP к NLP

«Полиция расстреляла демонстрацию чернокожих»

«Во время демонстрации застрелено двое чернокожих»

«Гибель участников демонстрации»

«Трагический случай»

Данный принцип помогает «исчислить» множество различных структур, используемых в языке для описания той или иной ситуации: (пассив-актив, эллиптические конструкции, синтаксические нули...)

«И.И. Иванов пришел работать в РАО ЕЭС», «И.И. Иванов был принят на работу в РАО ЕЭС», «И.И. Иванов – сотрудник РАО ЕЭС», «После прихода И.И. Иванова в РАО ЕЭС»...

Page 17: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Кросс-языковое реферирование: Схема алгоритма

4. Извлечение данных о шаблоне (для узлов и дуг)

1.Исх. текст

2.СЕ (на основе

шаблонов)3.CMap 7.Использование метрик

8.Выбор дискурс. схемы

9.Применение системы весов

5.Формальное представление отдельных фрагментов конечного текста

11.Лингв. (в т.ч. стилист.) операции на формальном представлении конечного текста в целом (анафорические замены, «переходные» фрагменты и т.д.)

10.Расположение отдельных фрагментов в необходимом порядке

12. Конечный текст

Система шаблонов

Онтология

6.Лингв. (в т.ч. стилист.) операции на отдельных фрагментах формальных представлений

Page 18: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Кросс-языковое реферирование:«Центры кристаллизации»

Система метрик (оценка релевантности объектов и связей)

RANLP-2005,[V.Khoroshevsky]

Page 19: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Кросс-языковое реферирование:Анализ корпуса языка-источника

Отсутствие необходимости работать с фиксированной языковой парой

Cхема шаблона (с комментариями и атрибутами) Примеры соответствующих фрагментов текста

( {prepOrg}: одна из возможных конструкций с предлогом ({Organization }): экземпляр объекта типа «Организация» )?(({Period} | {StartPoint})?) : экземпляр объекта типа «Время»({Person}): экземпляр объекта типа «Лицо»( {beVG} | {becomeVG} | ({servVG} {As})): PAST, ACTIVE, INDICATIVE, SG, 3rd PERS, : одна из возможных

для данного шаблона глагольных конструкций (({Organization }): экземпляр объекта типа «Организация»)?({JobTitle})): экземпляр объекта типа «Должность»( {prepOrg}: одна из возможных конструкций с предлогом ({Organization }):}): экземпляр объекта типа «Организация»)?({Period}|{StartPoint})? : экземпляр объекта типа «Время»

Previously, Mr. Curts was Perot Systems’ North American Chief Financial Officer, and also served as Treasurer/Head of Business Development.

He was with Goldman Sachs & Co., New York and London from 1980 - 1983 in the Corporate Finance Department.

Along with Vision, Mr. Jain also co-founded and served as head of operations for Brigade Corporation, a customer support company with 1,300 customer support employees across centers in the U.S., Europe and India.

Page 20: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Кросс-языковое реферирование:Сопоставление шаблонов языка-источника

и языка-цели Cхемы шаблонов (с комментариями и атрибутами)

Примеры соответствующих фрагментов текста

(({Period} | {StartPoint})?) ({Person})( {beVG} | ({servVG} {As})): ACTIVE, INDICATIVE ({JobTitle}))( {prepOrg} ({Organization })}) )?

С декабря 2001 года г-н Клишас является председателем правления компании «Интеррос». (Since 2001, Mr. Klishas is the chairman of the “Interros” board of directors.)В течение последующих нескольких лет служил в структуре МВД в качестве эксперта-криминалиста. (During the next several years he has been serving in the Ministry of Interior sub-division as a forensic expert)

(({Date} | {StartPoint})?) ({Person})({becomeVG}): ACTIVE, INDICATIVE ({JobTitle})(({Organization } )?

В середине 2003-2004 финансового года Хайнц Шиммельбуш становится исполнительным директором. (In 2003-2004 financial year, Hainz Schimmelbush becomes CEO)

ETC…

Page 21: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Кросс-языковое реферирование:Значения атрибутов в шаблоне, специфицирующем фрагмент исходного

текста, и варианты конструкций в языке-цели

Разрешение конфликтов атрибутов Набор «нейтральных» конструкций

Английский (язык-источник) Атрибуты

Mr. Smith was employed by the Cukurova Group.

• “Employ” Relation {base = “employ”, tense = “past”, voice = “passive”, etc…}

Атрибуты Русский (язык-цель)

“Employ” Relation {base = “employ”, tense = “past”, voice = “passive”, etc…}

Г-н Смит был принят на работу в Cukurova Group.

“Employ” Relation {base = “employ”, tense = “past”, voice = “active ”, etc…}

(конструкция в изъявительном наклонении, определенная в рамках подготовительного этапа как нейтральная)

Г-н Смит работал в Cukurova Group.

“Employ” Relation {base = “employ”, tense = “-”, voice = “- ”, etc…} (предикат редуцирован до номинативной конструкции)

В числе сотрудников Cukurova Group можно назвать г-на Смита.

Page 22: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Генерация текста:исходный текст и C-Map

Sergey Brin, a native of Moscow, received a bachelor of science degree with honors in mathematics and computer science from the University of Maryland at College Park. Brin is a recipient of a National Science Foundation Graduate Fellowship as well as an honorary MBA from Instituto de Empresa . It was at Stanford where he met Larry Page and worked on the project that became Google. Together they founded Google Inc., and Brin continues to share responsibility for day-to-day operations with Larry Page and Eric Schmidt.

Page 23: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Генерация текста: Объекты, связи и шаблоны, извлеченные из исходного текста и представленные в когнитивной

карте N Экземпляры

объектовАтрибуты

1 Person1 {name = “Sergey Brin”, number = “singular”, gender = “male” (в данном случае вычислено на основе сведений о первом имени, информация словарного характера)}

2 Person2 {name = “Larry Page”, number = “singular”, gender = “male” (вычислено на основе сведений о первом имени, информация словарного характера)}

3 Organization1 {name = “University of Maryland”, number = “singular”, keyword = “University”}

4 Organization2 {name = “Instituto de Empresa”, number = “singular”, keyword = “Instituto”}

5 Organization3 {name = “Google Inc.”, number = “singular”, keyword = “Incorporation”}

6 Location1 {name = “College Park ”, number = “singular”}

Page 24: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Генерация текста: Исходное представление, (1)

Экземпляр объекта “Лицо” {Person1, syntactic role = “subject” (определяет не только синт.

роль как таковую, но и ряд других характеристик, например, значение падежа)}

Глагол-ядро экземпляра онтологического предиката “получать научную степень”

{base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”}

Экземпляр объекта “Научная степень” (атрибут отношения “получать научную степень”)

{base = “bachelor of science”, number = “singular”, honors = “yes”, speciality = [“mathematics”, “computer science”], subspeciality = “-”, organization = “Organization1”,

/Вложенный экземпляр онтологического предиката “Располагаться”:

“Organization” object {Organization1} “Located In” Relation prepositional construction {name = “at”}“Location” object {Location1}/}

Page 25: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Генерация текста: Исходное представление, (2)

Экземпляр объекта “Лицо” {Person1, syntactic role = “subject”}Глагол-ядро экземпляра онтологического

предиката “получать научную степень”{base = “receive”, tense = “past simple”, gender = any, number =

any, voice = “active”}Экземпляр объекта “Научная степень”

(атрибут отношения “получать научную степень”)

{base = “MBA”, honors = “yes”, number = “singular”, speciality = “-”, subspeciality = “-”, organization = “Organization2”}

Page 26: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Генерация текста: Исходное представление, (3)

Список объектов типа “Лицо”{[Person1, Person2], syntactic role = “subject”} Глагол-ядро экземпляра онтологического

предиката “быть основателем”{base = “found”, tense = “past simple”, gender = any, number =

any, voice = “active”}Экземпляр объекта “Организация”{Organization3, syntactic role = “object”} – необходима

спецификация синтаксической роли, поскольку в рамках рассматриваемой онтологии данный тип объекта может в данном сем. отношении играть различные роли; кроме того, роли определяются грамматическими характеристиками «ядерных» конструкций

Page 27: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Генерация текста: Предварительные трансформации

Трансформация 1. Объединение связей: общий узел-источник («первый актант»), идентичность шаблонов (с точностью до набора и

значений атрибутов). В случае, если результирующая конструкция недостаточно

элегантна, возможна генерация двух текстовых фрагментов, соединенных искусственно созданной «переходной»

структурой. Экземпляр объекта “Лицо”

{Person1, syntactic role = “subject”} Глагол-ядро экземпляра онтологического предиката “получать научную степень”

{base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”} Список объектов типа “Научная степень”

{[{base1 = “bachelor of science”, number = “singular”, honors1 = “yes”, speciality1 = [“mathematics”, “computer science”], subspeciality1 = “-”, organization1 = “Organization1”

/ Вложенный экземпляр онтологического предиката “Располагаться”: “Organization” object {name = “Organization1”}

“Located In” Relation prepositional construction {name = “at”}“Location” object {name = “Location1”}/} ,

{ base2 = “MBA”, number2 = “singular”, honors2 = “yes”, speciality2 = “-”, subspeciality2 = “-”, organization2 = “Organization2”}]}

Page 28: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Генерация текста: Предварительные трансформации

Трансформация 2. Формирование списочной структуры и перемещение фокуса на следующий экземпляр объекта того же типа:

Экземпляр объекта “Лицо”{pronoun, number = “singular”, gender = “male, syntactic role = “subject”}

Глагол-ядро экземпляра онтологического предиката “быть основателем”{base = “found”, tense = “past simple”, gender = any, number = any, voice = “active”}

Экземпляр объекта “Организация”{Organization3, syntactic role = “object”}

Элемент-связка{name = “together with”}

Экземпляр объекта “Лицо”{Person2, syntactic role = “indirect object”}

Page 29: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Генерация текста: Итоговые трансформации, (1)

Экземпляр объекта “Лицо”{Person1, name = “Сергей Брин” (первое имя – словарный аналог исходного, значение фамилии - результат транслитерации),

синтаксическая роль = “subject”, падеж = “nom” (следствие синт.роли)} → результирующий фрагмент текста: “Сергей Брин”

Глагол-ядро экземпляра онтологического предиката “получать научную степень”

{base = “получить”, tense = “past”, aspect = “perfective” (информация, заданная на подготовительном этапе при формировании шаблонов-аналогов, см. раздел 3), род = “male” (на основе рода субъекта), число

= “singular”(на основе числа субъекта), залог = “active”} → результирующий фрагмент текста: “получил”

Page 30: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Генерация текста: Итоговые трансформации, (2)

Список объектов типа “Научная степень”1ый элемент списка

{name = “степень (base {case = “gen”, number = “singular” }) (в области (speciality {case = “gen”}))? (специализация: (subspeciality {case = “nom”)}))? (honors {case = “instr”}) (organization

{case = “prep”, number = “singular”}) ” (констукция в целом и атрибуты ее фрагментов заданы в процессе нахождения шаблонов-аналогов, раздел 3), number = “singular”, case =

“acc” (задано управлением глагола), base = “бакалавр”, honors = “yes”, speciality = [“математика”, “кибернетика”], subspeciality = “-”, organization = {Organization1, name =“Университет Мэриленда” (здесь может фигурировать словарный аналог и/или

результат транслитерации/перевода)},/ Вложенный экземпляр онтологического предиката “Располагаться”:

“Organization” object {name = null} “Located In” Relation prepositional construction {name = “расположенный в”, case = “prep”

(задано падежом организации в объекте “Научная степеньt), number = “singular”}“Location” object {Location1, name = “Колледж Парк” (здесь может фигурировать словарный

аналог и/или результат транслитерации/перевода), case = “prep” (задано моделью управления предлога)}/ } → результирующий фрагмент текста: “степень бакалавра в

области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке ”Элемент-связка

{name = “а также”} → результирующий фрагмент текста: “а также ”2ой элемент списка

{...} → результирующий фрагмент текста: “степень MBA с отличием в Институте Эмпреса ”

Page 31: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Генерация текста: Текст реферата

Вариант 1. Сергей Брин получил степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке, а также степень MBA с отличием в Институте Эмпреса. Он основал корпорацию Гугл вместе с Ларри Пейджем.

Вариант 2. Сергей Брин получил степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке. Кроме того (искусственно сгенерированный фрагмент), он (анафорическая замена) получил степень MBA c отличием в Институте Эмпреса.

Он основал корпорацию Гугл вместе с Ларри Пейджем.

Смещение фокуса

Генерация последующих фрагментов

Page 32: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Генерация Реферата об Объекте в виде

текста по коллекции документов

Генерация текста:

Текущее состояние

Page 33: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Заключение

Постановка задачи синтеза под управлением предметных онтологий.

Использование принципов

онтологического подхода при решении задачи моно- и кросс-языкового реферирования.

Основная задача: расширение спектра порождаемых естественноязыковых конструкций

Page 34: Ефименко И.В. Irina.Efimenko@avicomp.ru

КИИ-2006, Обнинск

Спасибо за внимание!Thank (аналог ключевой лексемы связи) You (генерация

эксплицитного представления актанта) for (информация по модели

управления) Your (генерация эксплицитного представления актанта) Attention (аналог ключевой лексемы объекта)