Upload
leona
View
79
Download
0
Embed Size (px)
DESCRIPTION
Ефименко И.В. [email protected]. ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ КРОСС-ЯЗЫКОВОГО РЕФЕРИРОВАНИЯ: СИНТЕЗ ТЕКСТОВ ПОД УПРАВЛЕНИЕМ ПРЕДМЕТНЫХ ОНТОЛОГИЙ. План презентации. Введение Системы семейства OntosMiner Shallow- подход Общие принципы и схема алгоритма кросс-языкового реферирования - PowerPoint PPT Presentation
Citation preview
Ефименко И.В[email protected]
ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ КРОСС-ЯЗЫКОВОГО РЕФЕРИРОВАНИЯ:СИНТЕЗ ТЕКСТОВ ПОД УПРАВЛЕНИЕМ ПРЕДМЕТНЫХ ОНТОЛОГИЙ
КИИ-2006, Обнинск
План презентации
Введение Системы семейства OntosMiner Shallow-подход Общие принципы и схема алгоритма кросс-
языкового реферирования Генерация текста: пример Заключение
КИИ-2006, Обнинск
Введение
Анализ под управлением предметных онтологий Синтез под управлением предметных
онтологий
Кросс-языковое реферирование
Автоматическое реферирование Машинный перевод
Проблема создания универсального семантического языка – «переходной» репрезентации между языком-целью и языком-источником
Когнитивные карты (С-Маps)
КИИ-2006, Обнинск
Введение
Отсутствие необходимости построения дополнительного (исходного) реферата на языке-источнике.
Онтология в основе системы - «гарант» релевантности:
С точки зрения предметной области (сфера экстралингвистики)
С точки зрения текста (сфера лингвистики)
в процессе генерации итогового текста используется набор лингвистических шаблонов, аналогичных формальным конструкциям, положенным в основу анализа
КИИ-2006, Обнинск
Введение
Системы типа Information Extraction. Извлечение экземпляров объектов и связей между ними
КИИ-2006, Обнинск
МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом.
Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч…
Модель
типы объектов итипы отношений
Текст Структурированные данные
Введение:80-20
ПЕРСОНА
ОРГАНИЗАЦИЯ
РАБОТАТЬ В ОРГАНИЗАЦИИ
КИИ-2006, Обнинск
Введение
МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом.
МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом.
Тексты Отдельные графы База знаний
КИИ-2006, Обнинск
Системы OntosMiner: примеры онтологий
КИИ-2006, Обнинск
КИИ-2006, Обнинск
Системы OntosMiner: примеры онтологий
КИИ-2006, Обнинск
Цели и задачи настоящей работы
КИИ-2006, Обнинск
Системы OntosMiner: Фрагмент текста в среде GATE
КИИ-2006, Обнинск
Системы OntosMiner:Фрагмент когнитивной карты
КИИ-2006, Обнинск
Системы OntosMiner:Когнитивная карта множества сводок
КИИ-2006, Обнинск
Shallow-подход: Общие принципы
Использование системы шаблонов,
ориентированных на извлечение сущностей и связей между ними, являющихся экземплярами представленных в онтологии типов. Применение аналогичных принципов при
генерации текстов автоматическое реферирование на
основе лингвистических шаблонов под управлением предметных онтологий.
Все промежуточные операции могут выполняться на формальных конструкциях-шаблонах, а не на реальных предложениях. Генерация естественноязыковых фрагментов происходит на самом последнем этапе, когда системой получены все данные, необходимые для порождения гладкого и семантически насыщенного текста.
КИИ-2006, Обнинск
Shallow-подход: От NLP к NLP
«Полиция расстреляла демонстрацию чернокожих»
«Во время демонстрации застрелено двое чернокожих»
«Гибель участников демонстрации»
«Трагический случай»
Данный принцип помогает «исчислить» множество различных структур, используемых в языке для описания той или иной ситуации: (пассив-актив, эллиптические конструкции, синтаксические нули...)
«И.И. Иванов пришел работать в РАО ЕЭС», «И.И. Иванов был принят на работу в РАО ЕЭС», «И.И. Иванов – сотрудник РАО ЕЭС», «После прихода И.И. Иванова в РАО ЕЭС»...
КИИ-2006, Обнинск
Кросс-языковое реферирование: Схема алгоритма
4. Извлечение данных о шаблоне (для узлов и дуг)
1.Исх. текст
2.СЕ (на основе
шаблонов)3.CMap 7.Использование метрик
8.Выбор дискурс. схемы
9.Применение системы весов
5.Формальное представление отдельных фрагментов конечного текста
11.Лингв. (в т.ч. стилист.) операции на формальном представлении конечного текста в целом (анафорические замены, «переходные» фрагменты и т.д.)
10.Расположение отдельных фрагментов в необходимом порядке
12. Конечный текст
Система шаблонов
Онтология
6.Лингв. (в т.ч. стилист.) операции на отдельных фрагментах формальных представлений
КИИ-2006, Обнинск
Кросс-языковое реферирование:«Центры кристаллизации»
Система метрик (оценка релевантности объектов и связей)
RANLP-2005,[V.Khoroshevsky]
КИИ-2006, Обнинск
Кросс-языковое реферирование:Анализ корпуса языка-источника
Отсутствие необходимости работать с фиксированной языковой парой
Cхема шаблона (с комментариями и атрибутами) Примеры соответствующих фрагментов текста
( {prepOrg}: одна из возможных конструкций с предлогом ({Organization }): экземпляр объекта типа «Организация» )?(({Period} | {StartPoint})?) : экземпляр объекта типа «Время»({Person}): экземпляр объекта типа «Лицо»( {beVG} | {becomeVG} | ({servVG} {As})): PAST, ACTIVE, INDICATIVE, SG, 3rd PERS, : одна из возможных
для данного шаблона глагольных конструкций (({Organization }): экземпляр объекта типа «Организация»)?({JobTitle})): экземпляр объекта типа «Должность»( {prepOrg}: одна из возможных конструкций с предлогом ({Organization }):}): экземпляр объекта типа «Организация»)?({Period}|{StartPoint})? : экземпляр объекта типа «Время»
Previously, Mr. Curts was Perot Systems’ North American Chief Financial Officer, and also served as Treasurer/Head of Business Development.
He was with Goldman Sachs & Co., New York and London from 1980 - 1983 in the Corporate Finance Department.
Along with Vision, Mr. Jain also co-founded and served as head of operations for Brigade Corporation, a customer support company with 1,300 customer support employees across centers in the U.S., Europe and India.
КИИ-2006, Обнинск
Кросс-языковое реферирование:Сопоставление шаблонов языка-источника
и языка-цели Cхемы шаблонов (с комментариями и атрибутами)
Примеры соответствующих фрагментов текста
(({Period} | {StartPoint})?) ({Person})( {beVG} | ({servVG} {As})): ACTIVE, INDICATIVE ({JobTitle}))( {prepOrg} ({Organization })}) )?
С декабря 2001 года г-н Клишас является председателем правления компании «Интеррос». (Since 2001, Mr. Klishas is the chairman of the “Interros” board of directors.)В течение последующих нескольких лет служил в структуре МВД в качестве эксперта-криминалиста. (During the next several years he has been serving in the Ministry of Interior sub-division as a forensic expert)
(({Date} | {StartPoint})?) ({Person})({becomeVG}): ACTIVE, INDICATIVE ({JobTitle})(({Organization } )?
В середине 2003-2004 финансового года Хайнц Шиммельбуш становится исполнительным директором. (In 2003-2004 financial year, Hainz Schimmelbush becomes CEO)
ETC…
КИИ-2006, Обнинск
Кросс-языковое реферирование:Значения атрибутов в шаблоне, специфицирующем фрагмент исходного
текста, и варианты конструкций в языке-цели
Разрешение конфликтов атрибутов Набор «нейтральных» конструкций
Английский (язык-источник) Атрибуты
Mr. Smith was employed by the Cukurova Group.
• “Employ” Relation {base = “employ”, tense = “past”, voice = “passive”, etc…}
Атрибуты Русский (язык-цель)
“Employ” Relation {base = “employ”, tense = “past”, voice = “passive”, etc…}
Г-н Смит был принят на работу в Cukurova Group.
“Employ” Relation {base = “employ”, tense = “past”, voice = “active ”, etc…}
(конструкция в изъявительном наклонении, определенная в рамках подготовительного этапа как нейтральная)
Г-н Смит работал в Cukurova Group.
“Employ” Relation {base = “employ”, tense = “-”, voice = “- ”, etc…} (предикат редуцирован до номинативной конструкции)
В числе сотрудников Cukurova Group можно назвать г-на Смита.
КИИ-2006, Обнинск
Генерация текста:исходный текст и C-Map
Sergey Brin, a native of Moscow, received a bachelor of science degree with honors in mathematics and computer science from the University of Maryland at College Park. Brin is a recipient of a National Science Foundation Graduate Fellowship as well as an honorary MBA from Instituto de Empresa . It was at Stanford where he met Larry Page and worked on the project that became Google. Together they founded Google Inc., and Brin continues to share responsibility for day-to-day operations with Larry Page and Eric Schmidt.
КИИ-2006, Обнинск
Генерация текста: Объекты, связи и шаблоны, извлеченные из исходного текста и представленные в когнитивной
карте N Экземпляры
объектовАтрибуты
1 Person1 {name = “Sergey Brin”, number = “singular”, gender = “male” (в данном случае вычислено на основе сведений о первом имени, информация словарного характера)}
2 Person2 {name = “Larry Page”, number = “singular”, gender = “male” (вычислено на основе сведений о первом имени, информация словарного характера)}
3 Organization1 {name = “University of Maryland”, number = “singular”, keyword = “University”}
4 Organization2 {name = “Instituto de Empresa”, number = “singular”, keyword = “Instituto”}
5 Organization3 {name = “Google Inc.”, number = “singular”, keyword = “Incorporation”}
6 Location1 {name = “College Park ”, number = “singular”}
КИИ-2006, Обнинск
Генерация текста: Исходное представление, (1)
Экземпляр объекта “Лицо” {Person1, syntactic role = “subject” (определяет не только синт.
роль как таковую, но и ряд других характеристик, например, значение падежа)}
Глагол-ядро экземпляра онтологического предиката “получать научную степень”
{base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”}
Экземпляр объекта “Научная степень” (атрибут отношения “получать научную степень”)
{base = “bachelor of science”, number = “singular”, honors = “yes”, speciality = [“mathematics”, “computer science”], subspeciality = “-”, organization = “Organization1”,
/Вложенный экземпляр онтологического предиката “Располагаться”:
“Organization” object {Organization1} “Located In” Relation prepositional construction {name = “at”}“Location” object {Location1}/}
КИИ-2006, Обнинск
Генерация текста: Исходное представление, (2)
Экземпляр объекта “Лицо” {Person1, syntactic role = “subject”}Глагол-ядро экземпляра онтологического
предиката “получать научную степень”{base = “receive”, tense = “past simple”, gender = any, number =
any, voice = “active”}Экземпляр объекта “Научная степень”
(атрибут отношения “получать научную степень”)
{base = “MBA”, honors = “yes”, number = “singular”, speciality = “-”, subspeciality = “-”, organization = “Organization2”}
КИИ-2006, Обнинск
Генерация текста: Исходное представление, (3)
Список объектов типа “Лицо”{[Person1, Person2], syntactic role = “subject”} Глагол-ядро экземпляра онтологического
предиката “быть основателем”{base = “found”, tense = “past simple”, gender = any, number =
any, voice = “active”}Экземпляр объекта “Организация”{Organization3, syntactic role = “object”} – необходима
спецификация синтаксической роли, поскольку в рамках рассматриваемой онтологии данный тип объекта может в данном сем. отношении играть различные роли; кроме того, роли определяются грамматическими характеристиками «ядерных» конструкций
КИИ-2006, Обнинск
Генерация текста: Предварительные трансформации
Трансформация 1. Объединение связей: общий узел-источник («первый актант»), идентичность шаблонов (с точностью до набора и
значений атрибутов). В случае, если результирующая конструкция недостаточно
элегантна, возможна генерация двух текстовых фрагментов, соединенных искусственно созданной «переходной»
структурой. Экземпляр объекта “Лицо”
{Person1, syntactic role = “subject”} Глагол-ядро экземпляра онтологического предиката “получать научную степень”
{base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”} Список объектов типа “Научная степень”
{[{base1 = “bachelor of science”, number = “singular”, honors1 = “yes”, speciality1 = [“mathematics”, “computer science”], subspeciality1 = “-”, organization1 = “Organization1”
/ Вложенный экземпляр онтологического предиката “Располагаться”: “Organization” object {name = “Organization1”}
“Located In” Relation prepositional construction {name = “at”}“Location” object {name = “Location1”}/} ,
{ base2 = “MBA”, number2 = “singular”, honors2 = “yes”, speciality2 = “-”, subspeciality2 = “-”, organization2 = “Organization2”}]}
КИИ-2006, Обнинск
Генерация текста: Предварительные трансформации
Трансформация 2. Формирование списочной структуры и перемещение фокуса на следующий экземпляр объекта того же типа:
Экземпляр объекта “Лицо”{pronoun, number = “singular”, gender = “male, syntactic role = “subject”}
Глагол-ядро экземпляра онтологического предиката “быть основателем”{base = “found”, tense = “past simple”, gender = any, number = any, voice = “active”}
Экземпляр объекта “Организация”{Organization3, syntactic role = “object”}
Элемент-связка{name = “together with”}
Экземпляр объекта “Лицо”{Person2, syntactic role = “indirect object”}
КИИ-2006, Обнинск
Генерация текста: Итоговые трансформации, (1)
Экземпляр объекта “Лицо”{Person1, name = “Сергей Брин” (первое имя – словарный аналог исходного, значение фамилии - результат транслитерации),
синтаксическая роль = “subject”, падеж = “nom” (следствие синт.роли)} → результирующий фрагмент текста: “Сергей Брин”
Глагол-ядро экземпляра онтологического предиката “получать научную степень”
{base = “получить”, tense = “past”, aspect = “perfective” (информация, заданная на подготовительном этапе при формировании шаблонов-аналогов, см. раздел 3), род = “male” (на основе рода субъекта), число
= “singular”(на основе числа субъекта), залог = “active”} → результирующий фрагмент текста: “получил”
КИИ-2006, Обнинск
Генерация текста: Итоговые трансформации, (2)
Список объектов типа “Научная степень”1ый элемент списка
{name = “степень (base {case = “gen”, number = “singular” }) (в области (speciality {case = “gen”}))? (специализация: (subspeciality {case = “nom”)}))? (honors {case = “instr”}) (organization
{case = “prep”, number = “singular”}) ” (констукция в целом и атрибуты ее фрагментов заданы в процессе нахождения шаблонов-аналогов, раздел 3), number = “singular”, case =
“acc” (задано управлением глагола), base = “бакалавр”, honors = “yes”, speciality = [“математика”, “кибернетика”], subspeciality = “-”, organization = {Organization1, name =“Университет Мэриленда” (здесь может фигурировать словарный аналог и/или
результат транслитерации/перевода)},/ Вложенный экземпляр онтологического предиката “Располагаться”:
“Organization” object {name = null} “Located In” Relation prepositional construction {name = “расположенный в”, case = “prep”
(задано падежом организации в объекте “Научная степеньt), number = “singular”}“Location” object {Location1, name = “Колледж Парк” (здесь может фигурировать словарный
аналог и/или результат транслитерации/перевода), case = “prep” (задано моделью управления предлога)}/ } → результирующий фрагмент текста: “степень бакалавра в
области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке ”Элемент-связка
{name = “а также”} → результирующий фрагмент текста: “а также ”2ой элемент списка
{...} → результирующий фрагмент текста: “степень MBA с отличием в Институте Эмпреса ”
КИИ-2006, Обнинск
Генерация текста: Текст реферата
Вариант 1. Сергей Брин получил степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке, а также степень MBA с отличием в Институте Эмпреса. Он основал корпорацию Гугл вместе с Ларри Пейджем.
Вариант 2. Сергей Брин получил степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке. Кроме того (искусственно сгенерированный фрагмент), он (анафорическая замена) получил степень MBA c отличием в Институте Эмпреса.
Он основал корпорацию Гугл вместе с Ларри Пейджем.
Смещение фокуса
Генерация последующих фрагментов
КИИ-2006, Обнинск
Генерация Реферата об Объекте в виде
текста по коллекции документов
Генерация текста:
Текущее состояние
КИИ-2006, Обнинск
Заключение
Постановка задачи синтеза под управлением предметных онтологий.
Использование принципов
онтологического подхода при решении задачи моно- и кросс-языкового реферирования.
Основная задача: расширение спектра порождаемых естественноязыковых конструкций
КИИ-2006, Обнинск
Спасибо за внимание!Thank (аналог ключевой лексемы связи) You (генерация
эксплицитного представления актанта) for (информация по модели
управления) Your (генерация эксплицитного представления актанта) Attention (аналог ключевой лексемы объекта)