62
Актуальные вопросы Актуальные вопросы компьютерной компьютерной лингвистики лингвистики Часть 2. Часть 2. Генерация текстов на Генерация текстов на ЕЯ ЕЯ

Актуальные вопросы компьютерной лингвистики

  • Upload
    tyler

  • View
    63

  • Download
    6

Embed Size (px)

DESCRIPTION

Актуальные вопросы компьютерной лингвистики. Часть 2. Генерация текстов на ЕЯ. Введение История Обзор существующих систем с разным типом входных данных: поток данных Информация об объектах и явлениях Формальные спецификации Семантическое представление. - PowerPoint PPT Presentation

Citation preview

Page 1: Актуальные вопросы компьютерной лингвистики

Актуальные вопросы Актуальные вопросы компьютерной компьютерной лингвистикилингвистики

Часть 2. Часть 2.

Генерация текстов на Генерация текстов на ЕЯЕЯ

Page 2: Актуальные вопросы компьютерной лингвистики

ВведениеВведение ИсторияИстория Обзор существующих систем с Обзор существующих систем с

разным типом входных данных:разным типом входных данных: поток данныхпоток данных Информация об объектах и явленияхИнформация об объектах и явлениях Формальные спецификацииФормальные спецификации Семантическое представлениеСемантическое представление

Page 3: Актуальные вопросы компьютерной лингвистики

Цель исследований по Цель исследований по генерации текстов на ЕЯ:генерации текстов на ЕЯ: создание интеллектуальных создание интеллектуальных компьютерных систем, которые бы компьютерных систем, которые бы могли производить понятные для могли производить понятные для

человека тексты на различных ЕЯ человека тексты на различных ЕЯ

На входе:На входе: например, таблицы баз например, таблицы баз данных (БД), формальные данных (БД), формальные спецификации программ, спецификации программ, метеорологические карты. метеорологические карты.

На выходе:На выходе: типовые документы, типовые документы, такие как отчеты, разъяснения и такие как отчеты, разъяснения и справочная информация.справочная информация.

Page 4: Актуальные вопросы компьютерной лингвистики

ИсторияИстория Самой популярной теорией генерации становится Самой популярной теорией генерации становится

системно-функциональная грамматика системно-функциональная грамматика

((Systemic Functional grammarSystemic Functional grammar - SFG) M.A.K. - SFG) M.A.K. Хэллидэя Хэллидэя

(лингвистическая основа первой системы искусственного (лингвистическая основа первой системы искусственного интеллекта с развитым лингвистическим компонентом - робот интеллекта с развитым лингвистическим компонентом - робот Т. Винограда)Т. Винограда)

в конце 80ых – в конце 80ых – генератор генератор английского языка PENMANанглийского языка PENMAN

в конце 90ых годов -в конце 90ых годов -универсальная среда KPMLуниверсальная среда KPML ( (http://purl.org/net/kpml))

Page 5: Актуальные вопросы компьютерной лингвистики

К середине 90ых годов К середине 90ых годов новое направление новое направление

– – многоязыковая генерация многоязыковая генерация (МЯГ), (МЯГ),

(Канада, Великобритания, Германия)(Канада, Великобритания, Германия)

сплав двух направлений – МП на основе сплав двух направлений – МП на основе языка-посредника и генерации ЕЯязыка-посредника и генерации ЕЯ

система FoG система FoG (Канада в начале 90ых годов) -(Канада в начале 90ых годов) -

предназначена для генерации предназначена для генерации морских сводок погоды на морских сводок погоды на французском и английском языках на французском и английском языках на основе метеорологических данных. основе метеорологических данных.

Page 6: Актуальные вопросы компьютерной лингвистики

Special Interest Group on Special Interest Group on GENeration (SIGGEN) GENeration (SIGGEN) http://www.cs.columbia.edu/~acl/. .

каталог выполненных проектов по каталог выполненных проектов по созданию систем ГЕЯ (“The John созданию систем ГЕЯ (“The John Bateman and Michael Zock's list of Bateman and Michael Zock's list of Natural Language Generation Natural Language Generation Systems”, Systems”, http://purl.org/net/nlg-list) )

Page 7: Актуальные вопросы компьютерной лингвистики

Отечественная Отечественная традициятрадиция

Во второй половине 70ых годов Во второй половине 70ых годов проводятся пионерские проводятся пионерские исследования Ю.С.Мартемьянова исследования Ю.С.Мартемьянова по созданию действующего по созданию действующего генераторагенератора

Э.В.Попова « Общение с ЭВМ на Э.В.Попова « Общение с ЭВМ на естественном языке» (Москва, естественном языке» (Москва, 1987 г.) 1987 г.)

   

Page 8: Актуальные вопросы компьютерной лингвистики

основная проблематика основная проблематика синтеза – синтеза –

теория дискурса, теория дискурса, фокус внимания, фокус внимания, референция референция

Page 9: Актуальные вопросы компьютерной лингвистики

Отечественные Отечественные разработки 80-90хразработки 80-90х

А.Б.Сосинский - штамповая грамматика в А.Б.Сосинский - штамповая грамматика в предметной области (ПО) математических предметной области (ПО) математических статейстатей

система синтеза описания трехмерной система синтеза описания трехмерной сцены (уличные сцены с 30 объектами), сцены (уличные сцены с 30 объектами),

работы по генерации формулы изобретения работы по генерации формулы изобретения С.Шаров, Е.Г.Соколова - многоязыковой С.Шаров, Е.Г.Соколова - многоязыковой

генератор генератор AGILEAGILE (русская часть) (русская часть) Болдасов, Е.Г.Соколова – генерация Болдасов, Е.Г.Соколова – генерация

запросов к БДзапросов к БД

Page 10: Актуальные вопросы компьютерной лингвистики

Принципы организации Принципы организации системсистем

1. Шаблонные системы1. Шаблонные системысистема хранит уже готовую строку, система хранит уже готовую строку, шаблоншаблон, ,

возможно с несколькими пропусками, возможно с несколькими пропусками, которые заполняются при выдаче которые заполняются при выдаче сообщения значениями, соответствующими сообщения значениями, соответствующими характеру ошибки. характеру ошибки.

Например, система, выдающая сообщение о Например, система, выдающая сообщение о невозможности найти тот или иной файл, невозможности найти тот или иной файл, может использовать строку «может использовать строку «Не могу найтиНе могу найти » « » « файл(ы)!».файл(ы)!».

Более сложные шаблонные системы Более сложные шаблонные системы дополнительно проводят ограниченную дополнительно проводят ограниченную лингвистическую обработку генерируемого лингвистическую обработку генерируемого текста текста

Page 11: Актуальные вопросы компьютерной лингвистики

Пример 1. система Пример 1. система Employee Employee AppraiserAppraiser (производитель – (производитель –

фирма фирма AustinAustin--HaynesHaynes)) система, помогающая менеджерам составлять деловые система, помогающая менеджерам составлять деловые характеристики на сотрудников. характеристики на сотрудников.

- набор оценочных тем, таких как, набор оценочных тем, таких как, Общение,Общение,

- более специфичные подтемы, например, более специфичные подтемы, например, Устный обмен идеямиУстный обмен идеями

- Множество готовых абзацев или Множество готовых абзацев или предложений, соответствующих этим темам предложений, соответствующих этим темам и подтемами подтемам

- Параметры, уточняемые пользователем, Параметры, уточняемые пользователем, например, пол сотрудника, лицо например, пол сотрудника, лицо (Например, текст во втором лице (вы) (Например, текст во втором лице (вы) адресован самому сотруднику, текст в адресован самому сотруднику, текст в третьем лице (он / она) – третьем лице (он / она) – администрации)администрации)

Page 12: Актуальные вопросы компьютерной лингвистики

Performance Now (производитель Performance Now (производитель – фирма KnowledgePoint)– фирма KnowledgePoint)

поддерживает генерацию только в третьем лице, поддерживает генерацию только в третьем лице, зато осуществляет простейшее планирование зато осуществляет простейшее планирование текста и предложенийтекста и предложений

Bert does not display the verbal communication Bert does not display the verbal communication skills required, skills required, andand hishis written written communications fall short of the quality communications fall short of the quality needed. needed. Additionally,Additionally, hehe does not exhibit the does not exhibit the listening and comprehension skills necessary listening and comprehension skills necessary for satisfactory performance of his job.for satisfactory performance of his job.

Текст составлен из 3-х фраз, полученных из Текст составлен из 3-х фраз, полученных из библиотеки, вставлены подчеркнутые слова. В библиотеки, вставлены подчеркнутые слова. В тексте характеристике фразы упорядочиваются по тексте характеристике фразы упорядочиваются по степени их «негативности»степени их «негативности»

Page 13: Актуальные вопросы компьютерной лингвистики

Пример генерации текста в 09Пример генерации текста в 09 Шаблоны:Шаблоны:КакКак______ ХХ??У нас два У нас два Z: X Z: X и У. Вы хотите узнать номер и У. Вы хотите узнать номер

телефона Х (или У)телефона Х (или У)??Х находится на УХ находится на У и т.п. и т.п.

Цель запросаЦель запроса OkOk

Тип объектаТип объекта булочнаябулочная

АдресАдрес ??

Состояние, вызывающее обращение к Состояние, вызывающее обращение к определенному шаблону:определенному шаблону:Фрейм запроса: Фрейм запроса:

Результат: На какой улице находится булочная?

Page 14: Актуальные вопросы компьютерной лингвистики

Генерация реплик в диалоговых Генерация реплик в диалоговых системахсистемах

диалоговая система ELIZA (1966 диалоговая система ELIZA (1966 г.).г.).

Типы реплик:Типы реплик: штамп, штамп, - - продолжение диалога, напримерпродолжение диалога, например, ,

“Продолжайте”“Продолжайте”, , штамп - реакцией на семантику слова из реплики штамп - реакцией на семантику слова из реплики

пользователя, например, “пользователя, например, “Расскажите мне о своей Расскажите мне о своей семье” семье” (как реакция на слово “ (как реакция на слово “матьмать”), ”),

моделируется из опознанного системой лексико-моделируется из опознанного системой лексико-синтаксического шаблона реплики пользователя синтаксического шаблона реплики пользователя (замена в нем некоторых элементов(замена в нем некоторых элементов::

например, шаблон “X he Y me” (“например, шаблон “X he Y me” (“Because Because hehe hates hates meme..”) ”) две синтаксических реакции: “две синтаксических реакции: “Why do you think Why do you think hehe hates hates youyou?”; “?”; “Supose Supose hehe did hate did hate youyou??” )” )

Page 15: Актуальные вопросы компьютерной лингвистики

«Идеальный» генератор«Идеальный» генератор Основные компоненты Основные компоненты

системы:системы:

Система знаний Система знаний Коммуникативная цель Коммуникативная цель Модель адресатаМодель адресата Контекст повествованияКонтекст повествования (история (история

дискурса) дискурса)

Page 16: Актуальные вопросы компьютерной лингвистики

Лингвистические уровни Лингвистические уровни преобразоваия:преобразоваия:

концептуальный концептуальный уровеньуровень, ,

семантический семантический уровеньуровень, ,

риторический риторический уровеньуровень, ,

синтаксический синтаксический уровеньуровень

текстовый уровень текстовый уровень (quote)(quote)

Межъязыковые явления

Межъязыковые явления

Page 17: Актуальные вопросы компьютерной лингвистики

Основные этапыОсновные этапы Планирование содержания Планирование содержания

текстатекста или или МакропланированиеМакропланирование. .

Планирование предложений Планирование предложений или или МикропланированиеМикропланирование. .

Языковое оформлениеЯзыковое оформление

План текста (ср. дерево сообщений, например, План текста (ср. дерево сообщений, например, AA--boxbox в системе в системе AGILE;AGILE;

Ср. исследования Чейфа Ср. исследования Чейфа «Память и вербализация «Память и вербализация прошлого опыта». прошлого опыта». Новое в зарубежной лингвистике вып. Новое в зарубежной лингвистике вып. XII.XII.

Построенные грамматические струткуры с накопленными в них морфологическими признаками преобразуются в ЕЯ предложения, а затем в текст

уточняется структура отдельных предложений текста, уточняется структура отдельных предложений текста, строятся семантические планы предложений, например, строятся семантические планы предложений, например, представления представления SPLSPL в системе в системе AGILEAGILE;;

Page 18: Актуальные вопросы компьютерной лингвистики

Действующие прикладные Действующие прикладные системысистемы

В всегда четко задан тип входных данных и В всегда четко задан тип входных данных и тип текстов, которые он умеет порождать. тип текстов, которые он умеет порождать.

Во входных данных определяющую роль Во входных данных определяющую роль играет система знаний. играет система знаний.

Часто другие составляющие жестко Часто другие составляющие жестко зашиты в системезашиты в системе

Например, в системе Например, в системе TEXTTEXT выбирается тип текста выбирается тип текста (коммуникативная цель), в системе (коммуникативная цель), в системе AGILEAGILE выбирается стиль текста, учитывающий как выбирается стиль текста, учитывающий как компетенцию адресата, так и его социальный компетенцию адресата, так и его социальный статус (модель адресата). статус (модель адресата).

Page 19: Актуальные вопросы компьютерной лингвистики

Типы входных данных для Типы входных данных для систем генерации ЕЯсистем генерации ЕЯ

Поток данныхПоток данных, , Информация об объектах и Информация об объектах и

явленияхявлениях, , Формальные спецификацииФормальные спецификации;; Семантическое Семантическое

представлениепредставление. .

Page 20: Актуальные вопросы компьютерной лингвистики

Генерация из входных Генерация из входных данных типа «поток данных»данных типа «поток данных»

«поток данных» - физические измерения или статистические «поток данных» - физические измерения или статистические данные мониторинга свойств объектов или явлений, данные мониторинга свойств объектов или явлений, проводимых через определенные отрезки времени. проводимых через определенные отрезки времени.

например, метеорологические (погода), социологические (занятость например, метеорологические (погода), социологические (занятость населения), финансовые (биржевые сводки) и др. населения), финансовые (биржевые сводки) и др.

констатируется наличие определенных объектов, констатируется наличие определенных объектов, отношений, значений атрибутов. отношений, значений атрибутов.

Эта информация не организована для передачи адресату в ходе ЕЯ Эта информация не организована для передачи адресату в ходе ЕЯ коммуникации.коммуникации.

поток данных поток данных синтез текстов отчетов, описывающих синтез текстов отчетов, описывающих состояние объектов или состояние дел.состояние объектов или состояние дел.

Page 21: Актуальные вопросы компьютерной лингвистики

Генерация из входных данных типа Генерация из входных данных типа «поток данных». Примеры систем«поток данных». Примеры систем

FoGFoG (1989-2000) (1989-2000) – –((Bateman, J. A. Bateman, J. A. Anabling technology for multilingual natural language Anabling technology for multilingual natural language generation: the KPML environment.generation: the KPML environment. In: Natural Language Engineering, In: Natural Language Engineering, 1997, 1(1). Goldberg, E., Driedgar, N., and Kittredge, R. 1997, 1(1). Goldberg, E., Driedgar, N., and Kittredge, R. Using natural-Using natural-language processing to produce weather forecastslanguage processing to produce weather forecasts. IEEE Expert, 1994. IEEE Expert, 1994,, 9(2): 45-53.9(2): 45-53.))

Система синтезирует метеорологические сводки о Система синтезирует метеорологические сводки о состоянии погоды для кораблей на основании таблицы состоянии погоды для кораблей на основании таблицы замеров погодных параметров (направление и сила ветра, замеров погодных параметров (направление и сила ветра, температура и др.) на английском и французском языках температура и др.) на английском и французском языках

В настоящее время система FoG успешно В настоящее время система FoG успешно применяется в службе Гидрометцентра Канады и применяется в службе Гидрометцентра Канады и позволяет экономить этой службе значительные позволяет экономить этой службе значительные затраты на составление описаний сводок погоды затраты на составление описаний сводок погоды на двух государственных языках – английском и на двух государственных языках – английском и французском французском

Page 22: Актуальные вопросы компьютерной лингвистики

Генерация из входных данных типа Генерация из входных данных типа «поток данных». Примеры систем«поток данных». Примеры систем

ANAANA (1983) (1983) – –

синтезирует на английском языке синтезирует на английском языке отчеты о состоянии биржи (объем отчеты о состоянии биржи (объем продаж, состояние на момент продаж, состояние на момент закрытия биржи, изменение закрытия биржи, изменение индекса Доу Джонса и т.д.) на индекса Доу Джонса и т.д.) на основании таблицы данных основании таблицы данных фондовой биржи за день. фондовой биржи за день.

Page 23: Актуальные вопросы компьютерной лингвистики

PostGraphePostGraphe (1996) (1996) – – синтезирует текстовые отчеты и графики динамики прибыли синтезирует текстовые отчеты и графики динамики прибыли

компаний по статистической табличной информации о прибыликомпаний по статистической табличной информации о прибыли

DeDe 1987 à 1989 1987 à 1989 les profits de la compagnie Ales profits de la compagnie A ont augmentont augmenté é dede 30$ á 40$. 30$ á 40$. JusquJusqu’’enen 1990 1990 ilsils ont diminuont diminué é dede 40$ á 35$. 40$ á 35$.

De 1987 à 1988 De 1987 à 1988 les profits de Bles profits de B ont augmenté ont augmenté de 160$ á 165$. Pendant 1 année de 160$ á 165$. Pendant 1 année ilsils ont ont diminué de 25$. Jusqu’en 1990 diminué de 25$. Jusqu’en 1990 ilsils ont ont augmenté de 140$ á 155$. augmenté de 140$ á 155$.

Генерация из входных данных типа Генерация из входных данных типа «поток данных». Примеры систем«поток данных». Примеры систем

Page 24: Актуальные вопросы компьютерной лингвистики

Gossip Gossip (1988)(1988) – – синтезирует на английском языке отчеты об синтезирует на английском языке отчеты об

использовании машинного времени пользователями использовании машинного времени пользователями на основании таблицы данныхна основании таблицы данных

Пример текста, порожденного системой Пример текста, порожденного системой GossipGossip::

The systemThe system was used for 7 hours 32 minutes 12 was used for 7 hours 32 minutes 12 seconds. seconds. The usersThe users of the system ran of the system ran compilerscompilers and and editorseditors during this time. during this time. The compilersThe compilers were run six times, for 47% of the cpu time. were run six times, for 47% of the cpu time. The editorsThe editors were run twelve times, for 53% of were run twelve times, for 53% of the cpu time. the cpu time. Two usersTwo users, , JessieJessie and and MartiMartin, n, logged on to the logged on to the systemsystem. . JessieJessie used the system used the system for 63% of the time in use. for 63% of the time in use. MartinMartin used the used the system for 40% of the time in use. system for 40% of the time in use.

Генерация из входных данных типа Генерация из входных данных типа «поток данных». Примеры систем«поток данных». Примеры систем

Page 25: Актуальные вопросы компьютерной лингвистики

Генерация из входных Генерация из входных данных типа «информация данных типа «информация об объектах и явлениях»об объектах и явлениях»

Как и в потоке данных, во входных данных типа Как и в потоке данных, во входных данных типа «Информация об объектах и явлениях» «Информация об объектах и явлениях» констатируется только наличие определенных констатируется только наличие определенных объектов, отношений, значений атрибутов. объектов, отношений, значений атрибутов.

Эта информация также не организована для Эта информация также не организована для передачи адресату в ходе ЕЯ коммуникации. передачи адресату в ходе ЕЯ коммуникации.

Однако, она имеет более структурированный вид.Однако, она имеет более структурированный вид.

Данные этого типа обычно представляется Данные этого типа обычно представляется реляционными отношениями БД или объектными реляционными отношениями БД или объектными структурами. структурами.

Page 26: Актуальные вопросы компьютерной лингвистики

Генерация из входных данных типа Генерация из входных данных типа «информация об объектах и «информация об объектах и явлениях». Примеры системявлениях». Примеры систем

TEXT [30] (1980-1985)TEXT [30] (1980-1985)((McKeown McKeown [[KK Маккьюин К. (1989) Дискурсивные стратегии для Маккьюин К. (1989) Дискурсивные стратегии для

синтеза текста на естественном языке // НЗЛ. Вып. XXIV. M, синтеза текста на естественном языке // НЗЛ. Вып. XXIV. M, 1989. C. 311-356. 1989. C. 311-356. ])])

синтезирует ответы на вопросы пользователей синтезирует ответы на вопросы пользователей о структуре базы данных по морским о структуре базы данных по морским транспортным средствам и средствам транспортным средствам и средствам разрушения. разрушения. В В качестве ответа системой качестве ответа системой выдается небольшой текст на английском выдается небольшой текст на английском языке. В зависимости от типа вопроса языке. В зависимости от типа вопроса пользователя системой генерируются тексты пользователя системой генерируются тексты типа определение, описание или сравнение. типа определение, описание или сравнение.

Page 27: Актуальные вопросы компьютерной лингвистики

Структура БЗ системы Структура БЗ системы TextText

Page 28: Актуальные вопросы компьютерной лингвистики

Caption Generation SystemCaption Generation System (1998)(1998) – – порождает графики и их ЕЯ порождает графики и их ЕЯ описания на английском языке. Примерописания на английском языке. Пример описанияописания графикаграфика::

These chartsThese charts show information about show information about house sales from data set PGH-23. In house sales from data set PGH-23. In the two charts, the two charts, the X-axisthe X-axis shows the shows the selling prices. selling prices. The top chartThe top chart emphasizes the relationship between emphasizes the relationship between the number of rooms and the selling the number of rooms and the selling price. price. The bottom chartThe bottom chart emphasizes emphasizes the relationship between the lot size the relationship between the lot size and the selling price.and the selling price.

Генерация из входных данных типа Генерация из входных данных типа «информация об объектах и «информация об объектах и явлениях». Примеры системявлениях». Примеры систем

Page 29: Актуальные вопросы компьютерной лингвистики

MM--PIROPIRO (2001-2003) (2001-2003) – многоязыковая – многоязыковая система генерации, синтезирующая система генерации, синтезирующая описание музейных экспонатов на описание музейных экспонатов на английском, греческом, итальянском и английском, греческом, итальянском и испанском языках. испанском языках.

ArtequaktArtequakt (2002) (2002) – система генерации – система генерации биографий художников на основе табличных биографий художников на основе табличных данных их биографии. Тексты биографий данных их биографии. Тексты биографий генерируются на английском языке.генерируются на английском языке.

DemosthenesDemosthenes (2002) (2002) - система генерации - система генерации описаний товаров, как в рекламных целях, описаний товаров, как в рекламных целях, так и для справки. Эта система синтезирует так и для справки. Эта система синтезирует на немецком языке описания винных сортов на немецком языке описания винных сортов винограда и получаемых из них вин. винограда и получаемых из них вин.

Эти системы предназначены для обслуживания Эти системы предназначены для обслуживания посетителей, поэтому они включают генератор посетителей, поэтому они включают генератор звучащей речи. звучащей речи.

Генерация из входных данных типа Генерация из входных данных типа «информация об объектах и «информация об объектах и явлениях». Примеры системявлениях». Примеры систем

Page 30: Актуальные вопросы компьютерной лингвистики

система генерации на корейском языке система генерации на корейском языке XEplainerXEplainer (2001)(2001),, обслуживающую web-магазины обслуживающую web-магазины

На основе информации о товарах, размещенной на На основе информации о товарах, размещенной на сайтах, эта система строит следующие типы сайтах, эта система строит следующие типы описаний: определение, сравнение, описаний: определение, сравнение, противопоставление. Пользователь выбирает пункты противопоставление. Пользователь выбирает пункты описания товара, информацию по которым он хочет описания товара, информацию по которым он хочет получить. Для базы данных сотовых телефонов получить. Для базы данных сотовых телефонов такими пунктами могут быть, например, такими пунктами могут быть, например, характеристики его веса, мощности аккумулятора и характеристики его веса, мощности аккумулятора и цены. Затем пользователь задает коммуникативную цены. Затем пользователь задает коммуникативную цель текста, например, указав модели телефонов и цель текста, например, указав модели телефонов и нажав на кнопку «Сравнить». В качестве результата нажав на кнопку «Сравнить». В качестве результата пользователь получит сравнение указанных моделей, пользователь получит сравнение указанных моделей, указанным позициям. указанным позициям.

Генерация из входных данных типа Генерация из входных данных типа «информация об объектах и «информация об объектах и явлениях». Примеры системявлениях». Примеры систем

Page 31: Актуальные вопросы компьютерной лингвистики

Генерация из входных Генерация из входных данных типа «формальная данных типа «формальная

спецификация» спецификация» Integrated Software and On-Line Integrated Software and On-Line

Documentation Environment (ISOLDE) Documentation Environment (ISOLDE) (1992-2002)(1992-2002) – –

среда, позволяющая объединить и ускорить процессы среда, позволяющая объединить и ускорить процессы разработки программного продукта и его разработки программного продукта и его документации. документации.

((http://www.cmis.csiro.au/iit/Projects/Isolde/index.htm).). ModelExplainer (1997)ModelExplainer (1997) – генерирует текстовые – генерирует текстовые

описания диаграмм объектно-ориентированного описания диаграмм объектно-ориентированного моделирования данных, полученных из программных моделирования данных, полученных из программных средств RationalRose и Visio (средств RationalRose и Visio (http://www.cogentex.com/research/modex/index.shtml). ).

Система умеет строить иерехические Система умеет строить иерехические HTMLHTML-справочники, -справочники, отдельные страницы которых связаны контекстными ссылками.отдельные страницы которых связаны контекстными ссылками.

ProverbProverb (1996-2000) (1996-2000) – строит на английском – строит на английском языке тексты доказательств математических языке тексты доказательств математических утверждений, автоматически построенных системой утверждений, автоматически построенных системой OMEGAOMEGA (интерактивная среда построения (интерактивная среда построения доказательств). доказательств).

Page 32: Актуальные вопросы компьютерной лингвистики

Генерация из входных данных Генерация из входных данных типа «семантическое типа «семантическое

представление представление AGILE AGILE [26] (2000)[26] (2000) – макет, генерация – макет, генерация

софтверных руководств одновременно на софтверных руководств одновременно на нескольких языках. нескольких языках.

(реализованы болгарский, чешский и русский (реализованы болгарский, чешский и русский языки)языки)

Создание полилинии из прямых и дугСоздание полилинии из прямых и дугЗапустите команду Запустите команду PLINEPLINE..Windows Windows Выберите пункт Выберите пункт PolilinePoliline в палитре в палитре PolilinePoliline на панели на панели

инструментов инструментов DrawDraw..DOSDOS//Unix Unix Выберите пункт Выберите пункт PolilinePoliline в меню в меню DrawDraw..1. 1. Нарисуйте отрезок.Нарисуйте отрезок.Укажите начальную точку отрезка и укажите конечную точку Укажите начальную точку отрезка и укажите конечную точку

отрезка.отрезка.2. Нарисуйте дугу.2. Нарисуйте дугу.Перейдите в режим Перейдите в режим ArcArc..Введите команду Введите команду aa. На экране появится диалоговое окно . На экране появится диалоговое окно Arc mode Arc mode

confirmationconfirmation. Нажмите кнопку ОК в диалоговом окне . Нажмите кнопку ОК в диалоговом окне Arc mode Arc mode confirmationconfirmation. Диалоговое окно . Диалоговое окно Arc mode confirmationArc mode confirmation исчезнет с исчезнет с экрана.экрана.

Page 33: Актуальные вопросы компьютерной лингвистики

SUREGENSUREGEN-2-2 (2002) (2002) – генерирует на – генерирует на немецком языке медицинскую немецком языке медицинскую документацию, такую как заключения, документацию, такую как заключения, отчеты о ходе операций и направления. отчеты о ходе операций и направления. В специальной графической форме В специальной графической форме система собирают у пользователя система собирают у пользователя необходимые ей данные и генерирует необходимые ей данные и генерирует тексты согласно зашитому в ней плану.тексты согласно зашитому в ней плану.

MDA (Multilingual Document MDA (Multilingual Document Authoring)Authoring) (2000) (2000)

Page 34: Актуальные вопросы компьютерной лингвистики

Организация Организация лингвистически лингвистически

мотивированных систем мотивированных систем

генерациигенерации

Page 35: Актуальные вопросы компьютерной лингвистики

Общая схема процесса генерации ([BatemanBateman & ZockZock

2001])

Page 36: Актуальные вопросы компьютерной лингвистики

Архитектура системы Архитектура системы генерациигенерации

Конвейер генерации традиционно разделяют на три этапа: Макропланирование – построение структуры текста,

Микропланирование – построение планов предложений и

Языковое оформление – реализация построенных планов предложений соответствующими грамматическими структурами. В прикладных системах генерации к этим трем этапам часто добавляется четвертый этап,

Физическое представление, на котором производится форматирование текста согласно выбранному формату (PDF, HTML и т.д.) или подключается генератор устной речи.

Page 37: Актуальные вопросы компьютерной лингвистики

Архитектура системы Архитектура системы генерациигенерации

Входами генератора могут быть как рассыпанные представления типа баз данных (БД), так и семантические представления целого текста. Тем не менее, в обоих случаях определение содержания происходит на первом этапе.

В случае БД выбираются объекты и атрибуты БД, которые войдут в содержание текста. Во втором случае все объекты уже выбраны и даже выражены в виде семантических сущностей и структурированы, т.е. задача структурирования содержания уже решена.

Но задача выбора содержания связана, в частности, с ориентацией на адресата и остается возможность опущения определенных фрагментов плана текста.

Page 38: Актуальные вопросы компьютерной лингвистики

Промежуточные представления данных: Объектная структура содержания текста -

концептуальная структура содержания текста, построенная в соответствии со структурами предметной области (ПО) из объектов и отношений ПО.

Структура текста – структура дискурсивных отношений, организующая сообщения в текст (в частности, риторическая структура);

Сообщения - элементарные предикативные фреймы с объектами и отношениями ПО,

Семантические представления предложений текста (в частности, SPL);

Лексикализованные грамматические конструкции предложений текста

Page 39: Актуальные вопросы компьютерной лингвистики

МакропланированиеМакропланирование Основная цель этапа макропланирования –

сформировать план текста. Составляющие:

1. Входные данные. Содержание процессов макропланирования

зависит от типа входных данных. Если они представлены в виде сырых данных, БД или БЗ или иного вида организованных знаний, например, онтология, то они являются материалом для создания плана текста, из которого строятся объекты и значения свойств, о которых будет идти речь в тексте.

Page 40: Актуальные вопросы компьютерной лингвистики

МакропланированиеМакропланирование 2. коммуникативная цель текста и запрос автора

– эти составляющие определяют содержание и назначение текста.

Коммуникативная цель (сравнить, описать, определить, объяснить, и др…) определяет тип текста – описание (в том числе в форме сравнения), определение, объяснение, и др., а запрос автора фиксирует объект или группу объектов, которые становятся темой текста.

В системах ГЕЯ тема и тип текста (в том случае, если система может порождать несколько типов текстов) задаются пользователем.

Page 41: Актуальные вопросы компьютерной лингвистики

3. Модель предметной области (МПО) определяет типы объектов ПО, а также те предметные отношения и структуры, в которые они вступают друг с другом. С т.зрения систем ГЕЯ она связана со способами выражения отношений между объектами в данном языке, поэтому может объединяться с семантической онтологией, представляющей собой семантические типы и способы выражения отношений семантическими средствами конкретного ЕЯ

МакропланированиеМакропланирование

Page 42: Актуальные вопросы компьютерной лингвистики

МакропланированиеМакропланирование

4. 4. дискурсивная стратегия – элемент культуры говорящего сообщества. Она определяет конкретную структуру конкретного текста на основе заданных коммуникативной цели и выбранного фрагмента входных данных в соответствии с культурными традициями выражения подобного вида информации в данном сообществе.

Page 43: Актуальные вопросы компьютерной лингвистики

МакропланированиеМакропланирование Многие приложения для определения

содержания генерируемого текста используют также модель читателя, а именно, уровень подготовленности читателя, поставленную им задачу, которую он надеется разрешить, читая этот текст, а также предыдущие взаимодействия между ним и системой

Page 44: Актуальные вопросы компьютерной лингвистики

Определение содержания сообщения как элементы

плана текста

На этом этапе создаются сообщения. Они создаются выделением фреймов из концептуального представления излагаемой в тексте информации. Процесс создания сообщений состоит в фильтрации и резюмировании (обобщении, выделении главной мысли) входных данных. Наиболее распространенная методика реализации задачи определения содержания – это использование предметно зависимых правил, получаемых от экспертов ПО.

Page 45: Актуальные вопросы компьютерной лингвистики

1) Входные данные 2) Понятия ПО 3) Сообщение -

времяНапр.ветра

Скорость ветра

Скорость ветра

Напр.ветра

wind 15-20 southwest

diminish towind light

southwest

7 a.m. 235 17 15-20 southwest

9 a.m. 231 21 15-20 southwest

… … … … …

9 p.m. 280 12 light (west)

10p.m. 307 11 light (northwest)

11p.m. 182 8 light (south)

12p.m. 246 10 light (southwest)

процесс обобщения сырых данных, приведения их к понятиям ПО и к форме сообщения в системе FoG

Page 46: Актуальные вопросы компьютерной лингвистики

Рис.3. Сообщение, записанное в виде матрицы «атрибут-значение», как элемент плана-текста, например, такого: Поезд Экспресс-Каледония отправляется из Абердин в 10 часов утра. В сообщении на рис.3 использовано отношение Время отправления поезда, связывающее концепты Поезд Экспресс-Каледония, Абердин и 10 часов утра.

Page 47: Актуальные вопросы компьютерной лингвистики

Концептуальное Концептуальное представлениепредставление

состоит из объектов и отношений состоит из объектов и отношений ПО. Оно строится двумя ПО. Оно строится двумя способами: 1) заполнением способами: 1) заполнением объектной МПО данными из объектной МПО данными из входного представления; 2) входного представления; 2) организацией входных данных в организацией входных данных в структуру объектов структуру объектов

Page 48: Актуальные вопросы компьютерной лингвистики

Риторическое представление Риторическое представление Принципы риторического моделирования структуры текста Принципы риторического моделирования структуры текста

сформулированы в Теории риторических структур сформулированы в Теории риторических структур RSTRST ( (Rhetorical Rhetorical Text StructureText Structure) [) [Mann and ThompsonMann and Thompson, 1988]. , 1988].

Риторическое представление - это дерево составляющих текста, Риторическое представление - это дерево составляющих текста, терминальные вершины которого терминальные вершины которого сообщениясообщения. .

Терминальные вершины соединяются во все более крупные Терминальные вершины соединяются во все более крупные фрагменты до получения структуры всего текста. Внутренние фрагменты до получения структуры всего текста. Внутренние вершины риторического представления описывают, как сообщения вершины риторического представления описывают, как сообщения сгруппированы вместе и связаны друг с другом риторическими сгруппированы вместе и связаны друг с другом риторическими отношениями, например, отношениями, например, причина, цель,причина, цель, последовательностьпоследовательность,, уточнение, побуждение, разрешениеуточнение, побуждение, разрешение и т.д. и т.д.

Всего в классическом варианте ТРС определено 45 отношений. Всего в классическом варианте ТРС определено 45 отношений. Каждая внутренняя вершина разделяет свое содержимое как Каждая внутренняя вершина разделяет свое содержимое как минимум на две части: главную (минимум на две части: главную (nucleusnucleus) и второстепенную () и второстепенную (satellitesatellite) )

Группирование текстовых фрагментов риторическими отношениями накладывает ограничения на будущее разделение порождаемого текста на абзацы и на предложения.

Page 49: Актуальные вопросы компьютерной лингвистики

План текста:План текста:

планирующие операторы, планирующие операторы, [[HovyHovy 1993] и [ 1993] и [ParisParis 1993] 1993]

предикативные схемыпредикативные схемы

Page 50: Актуальные вопросы компьютерной лингвистики

Теория планирующих Теория планирующих операторов [операторов [SacerdotiSacerdoti 1977]: 1977]:

Планировщик получает на входе цель Планировщик получает на входе цель (проблема, которая должна быть решена), и (проблема, которая должна быть решена), и обрабатывает ее методом планирования обрабатывает ее методом планирования (алгоритмом), применяя к ней библиотеку (алгоритмом), применяя к ней библиотеку планов (набор операторов планирования, планов (набор операторов планирования, каждый из которых направлен на каждый из которых направлен на достижение определенной цели). В процессе достижение определенной цели). В процессе работы планировщика строится работы планировщика строится концептуальная структура, соответствующая концептуальная структура, соответствующая тексту, описывающему последовательность тексту, описывающему последовательность действий по достижению этой цели. действий по достижению этой цели.

Page 51: Актуальные вопросы компьютерной лингвистики

Предикативные схемы Предикативные схемы

Каждая схема – это шаблон, который определяет, Каждая схема – это шаблон, который определяет, как должен быть организован план текста, как должен быть организован план текста, используя для этого более мелкие схемы или используя для этого более мелкие схемы или сообщения, и дискурсные отношения между ними сообщения, и дискурсные отношения между ними

Исходное предположение: каждой своей отдельно Исходное предположение: каждой своей отдельно взятой коммуникативной цели люди пытаются взятой коммуникативной цели люди пытаются сопоставить все время один и тот же вид сопоставить все время один и тот же вид информации в одном и том же порядке информации в одном и том же порядке

В качестве базового набора берутся риторические В качестве базового набора берутся риторические предикаты Граймса и Уильямса (такие, как предикаты Граймса и Уильямса (такие, как атрибутиватрибутив, , аналогияаналогия, , составсостав, , сравнениесравнение, , тематема, , выводвывод, , идентификацияидентификация, , переименованиепереименование и др.) и др.)

Page 52: Актуальные вопросы компьютерной лингвистики

К. Маккьюин система К. Маккьюин система TEXTTEXT [[McKeownMcKeown 1985]. 1985].

входные данные в системе входные данные в системе TEXTTEXT: : база знаний Управления научных база знаний Управления научных

исследований военно-морского флота (исследований военно-морского флота (Office Office of Naval Researchof Naval Research ( (ONRONR)) по военным )) по военным кораблям и снарядам, основанная на модели кораблям и снарядам, основанная на модели сущностей и отношений Ченя [сущностей и отношений Ченя [ChenChen, 1976], 1976]

ЕЯ запрос пользователя, который определял ЕЯ запрос пользователя, который определял одну из трех коммуникативных целей: одну из трех коммуникативных целей: ОпределитьОпределить, , ОписатьОписать или или СравнитьСравнить, ,

фрагмент релевантных знаний БЗ, фрагмент релевантных знаний БЗ, необходимый для составления ответа.необходимый для составления ответа.

схемами представлены пять различных схемами представлены пять различных предикативных моделей: предикативных моделей: идентификацииидентификации, , составасостава, , атрибутивности, сравненияатрибутивности, сравнения и и противопоставленияпротивопоставления ( (реализованы с реализованы с использованием формализма, основанного на использованием формализма, основанного на расширенной сети переходов (расширенной сети переходов (ATNATN) [) [WoodsWoods 1970]) 1970])

Page 53: Актуальные вопросы компьютерной лингвистики

упрощенный пример описания, упрощенный пример описания, построенного по схеме “состав” построенного по схеме “состав”

(Макьюин, 1989)(Макьюин, 1989) ““Паровые и электрические торпеды.Паровые и электрические торпеды.

[состав: ] [состав: ] Современные торпеды бывают двух Современные торпеды бывают двух основных типов. основных типов. [глубинная идентификация [глубинная идентификация (глубинный атрибутив): ] (глубинный атрибутив): ] Модели с паровым Модели с паровым двигателем развивают скорость от 27 до 45 двигателем развивают скорость от 27 до 45 узлов и имеют радиус действия от 4000 до узлов и имеют радиус действия от 4000 до 25 000 ярдов.25 000 ярдов. [сравнение: ] [сравнение: ] Модели с Модели с электрическим двигателем обладают электрическим двигателем обладают близкими характеристиками, близкими характеристиками, [глубинная [глубинная идентификация (глубинный атрибутив): ] идентификация (глубинный атрибутив): ] но но не оставляют кильватерного следа, не оставляют кильватерного следа, создаваемого выбросом паровой турбины.”создаваемого выбросом паровой турбины.”

Page 54: Актуальные вопросы компьютерной лингвистики

Тема-рематическая Тема-рематическая организация сообщенийорганизация сообщений

правила установления фокуса внимания на правила установления фокуса внимания на определнном объекте. Фокус внимания определнном объекте. Фокус внимания может рассматриваться относительно разных может рассматриваться относительно разных фрагментов повествования: текста целиком, фрагментов повествования: текста целиком, параграфа, абзаца и отдельного параграфа, абзаца и отдельного высказывания. На уровне высказывания высказывания. На уровне высказывания фокус внимания соответствует главному фокус внимания соответствует главному объекту этого высказывания. В процессе объекту этого высказывания. В процессе развертывания дискурса объект развертывания дискурса объект повествования (фокус) перемещается между повествования (фокус) перемещается между различными объектами концептуального различными объектами концептуального представления. представления.

в системе в системе TEXTTEXT использовались использовались адаптированные правила Синдера [адаптированные правила Синдера [SinderSinder 1979] 1979]

Page 55: Актуальные вопросы компьютерной лингвистики

Переместить фокус на объект, Переместить фокус на объект, упомянутый в предшествующем упомянутый в предшествующем высказываниивысказывании

Сохранить фокусСохранить фокус Вернуться к теме предшествующего Вернуться к теме предшествующего

обсужденияобсуждения Выбрать высказывание, имеющее Выбрать высказывание, имеющее

наибольшее число имплицитных связей наибольшее число имплицитных связей с предшествующим высказыванием. с предшествующим высказыванием.

Правила Синдера, Правила Синдера, упорядоченные по упорядоченные по

предпочтительности их предпочтительности их использования для управления использования для управления

перемещением фокуса:перемещением фокуса:

Page 56: Актуальные вопросы компьютерной лингвистики

Микропланирование Микропланирование

Семантическое Семантическое представлениепредставление

Page 57: Актуальные вопросы компьютерной лингвистики

Семантическое представлениеСемантическое представление плана предложенияплана предложения

язык язык SPL SPL ((Sentence Plan LanguageSentence Plan Language) [) [KasperKasper 1989] 1989]

Представление Представление SPLSPL::

- - семантические элементы, каждый из семантические элементы, каждый из которых сопоставляется с одним или которых сопоставляется с одним или несколькими семантическими типами несколькими семантическими типами

- каждый семантический элемент имеет - каждый семантический элемент имеет набор атрибутов или ролей набор атрибутов или ролей (например, :(например, :acteeactee, :, :spatialspatial--locatinglocating, и т.д.), и т.д.)

- каждая роль из этого набора - каждая роль из этого набора сопоставляется с другим семантическим сопоставляется с другим семантическим элементом или набором элементовэлементом или набором элементов

Page 58: Актуальные вопросы компьютерной лингвистики

(s0 / study :actor (Anni-Albers / female) :accompaniment (Martin-Brandenburg / male) :actee (x1 / art) :temporal-locating (x2 / three-d-time :year 1916-1919))

Рис. 1: Пример представления SPL. Представление в примере определяет фразу “В 1916-1919 Анни Алберс изучала искусство у Мартина Бранденбурга”

Page 59: Актуальные вопросы компьютерной лингвистики

Задачи микропланированияЗадачи микропланирования

агрегацияагрегация сообщений до структур, сообщений до структур, соответствующих отдельным предложениям соответствующих отдельным предложениям создаваемого текстасоздаваемого текста

лексикализациялексикализация концептов сообщения, то есть концептов сообщения, то есть выбор подходящих слов для выражения выбранного выбор подходящих слов для выражения выбранного в них содержания. в них содержания. грамматикализация – грамматикализация – построение грамматической структуры построение грамматической структуры предложений текстапредложений текста

вставка ссылочных конструкцийвставка ссылочных конструкций – для – для обеспечения лучшей слитности текста при обеспечения лучшей слитности текста при многократном упоминании объектов в многократном упоминании объектов в высказываниях для их идентификации нужно высказываниях для их идентификации нужно выбирать различные слова или словосочетания выбирать различные слова или словосочетания (интродукции, местоимения и дефинитные (интродукции, местоимения и дефинитные описания)описания)

Page 60: Актуальные вопросы компьютерной лингвистики

Большую помощь в выборе лексико-Большую помощь в выборе лексико-грамматических соответствий понятиям грамматических соответствий понятиям предметной области (концептам и отношениям предметной области (концептам и отношениям в сообщениях) оказывает использование в сообщениях) оказывает использование источника знаний источника знаний Upper ModelUpper Model

Upper ModelUpper Model ( (UMUM) – это иерархия классов ) – это иерархия классов концептов МПО и типичных отношений между концептов МПО и типичных отношений между ними с учетом их возможной лингвистической ними с учетом их возможной лингвистической реализации. реализации.

Сегодня источник знаний Сегодня источник знаний Upper Model Upper Model используется в основном в системах генерации, используется в основном в системах генерации, построенных на платформе построенных на платформе KPMLKPML. .

Самая большая иерархия Самая большая иерархия Upper ModelUpper Model, , включает в себя около 150 понятий. включает в себя около 150 понятий. Классификация понятий МПО в терминах Классификация понятий МПО в терминах Upper Model Upper Model позволяет объектам предметной позволяет объектам предметной области наследовать возможности своей области наследовать возможности своей лингвистической реализации.лингвистической реализации.

Page 61: Актуальные вопросы компьютерной лингвистики

THING

OBJECT QUALITY PROCESS

DIRECTED- PROCESS

MOTION--PROCESS

PERSON

Объекты концептуального представления

ALBERS STUDY

Объекты Upper Model

Рис. 3 Связывание информации приложения с информацией Upper Model для наследования методов лингвистического выражения.

Page 62: Актуальные вопросы компьютерной лингвистики

Этап языкового оформленияЭтап языкового оформления три теоретические базы:три теоретические базы:

системно-функциональной системно-функциональной грамматикаграмматика ( (SFGSFG: [: [HallidayHalliday 1994], 1994], реализована в системе реализована в системе KPMLKPML [[BatemanBateman 1996]), 1996]),

treetree--adjoining grammarsadjoining grammars ( (TAGTAG: [: [DanlosDanlos 2000], реализована в системе 2000], реализована в системе TagGenTagGen) )

Модель СМЫСЛ-ТЕКСТМодель СМЫСЛ-ТЕКСТ ( (MTMMTM: : [[MelMel’’cukcuk 1988], реализована в системе 1988], реализована в системе RealPro RealPro [[Lavoie and RambowLavoie and Rambow 1997]). 1997]).