14
Автоматический перевод на основе шаблонов Денис Столяров

Stolyarov

Embed Size (px)

DESCRIPTION

Автоматический перевод, основанный на прецедентах.

Citation preview

Page 1: Stolyarov

Автоматический перевод на основе шаблонов

Денис Столяров

Page 2: Stolyarov

История МП

Аналитическая машина Ч. Беббиджа, 1836-1848 гг. Джорджтаунский эксперимент, 1954 г. Коммерческие системы прямого перевода по

правилам, 1980 г. Перевод с использованием шаблонов, Nagao

Makoto, 1984 Статистический перевод, 1999

Page 3: Stolyarov

Перевод по правилам

Морфологический анализ Синтез групп (именные, глагольные и др.) Синтаксический анализ Синтез предложений

Недостатки: • Принципиальная сложность используемых алгоритмов• Для достижения удовлетворительного качества перевода необходимо огромное количество правил, выводимых вручную

Представляет собой «классический» подход к МП, реализован в большинстве современных систем автоматического илиавтоматизированного перевода, в т.ч. в ПРОМТ, SYSTRAN, Linguatec.

Достоинства:• При наличии необходимых для перевода правил – высокое качествоперевода. Правила должны быть отлично выверены.• Возможность настройки словарей с учетом предметной области

Page 4: Stolyarov

Перевод по правилам

Уровни представления текста

Интерлингва – промежуточный искусственный язык

Page 5: Stolyarov

Статистический МП

Использует большие параллельные двуязычные корпуса N-грамм

Поиск наиболее подходящего перевода реализован специальной вероятностной моделью

Недостатки: • Отсутствие каких-либо механизмов анализа грамматических правил• Требует больших вычислительных мощностей• Для удовлетворительной работы необходимы огромные объемы данных (сотни миллионов N-грамм)

На данный момент статистический МП реализован только в некоммерческой системе on-line перевода Google translate

Достоинства: для улучшения качества перевода достаточно добавлятьМассивы параллельных текстов, дополнительная работа лингвистов или программистов не требуется

Page 6: Stolyarov

ПРОМТ и Google

Информационное сообщение:

Документ:

Классическая схема передает смысл значительно точнее, но статистический перевод в ряде случаев оказывается более гладким.

Page 7: Stolyarov

Перевод на основе шаблонов

Использует принцип «замены» членов предложения.

Имеет набор специальных переводных шаблонов. Возможно полуавтоматическое извлечение

шаблонов из параллельного двуязычного корпуса или поиск по корпусу в режиме Runtime.

<PERSON> was in <CITY> on <DATE>. <PERSON> war am <DATE> in <CITY>.

EnglishGerman

<MONTH> <NUMBER1>, <NUMBER2> <NUMBER1>. <MONTH> <NUMBER2>

EnglishGerman

Примеры шаблонов:

Page 8: Stolyarov

Перевод на основе шаблонов

Обладает четкой системой наглядных правил, которые легко структурируются

Возможно объединение правил в группы (тематические, стилистические, другие)

За счет использования параллельного корпуса достигается высокая степень приближения к тексту, написанному человеком

Гибкость. Корпус, набор правил (а также способ их получения), словарь могут быть подобраны под конкретную задачу.

Достоинства:

Недостатки: важнейшие характеристики системы (качество перевода,скорость работы, стоимость поддержки, необходимые аппаратные ресурсы) сильно зависят от ее конкретной реализации.

В настоящее время нет коммерческих систем, использующих шаблоны

Page 9: Stolyarov

Перевод на основе шаблонов

Основные модули системы МП на основе шаблонов:

Возможно добавлениедополнительных баз данных, программных и пользовательскихинтерфейсов

Внутренняя архитектураМодуля анализатора и переводчика также Меняется в зависимости от задачи

Page 10: Stolyarov

Перспективы использования

Деловая переписка: перевод сообщений электронной почты, программ-мессенджеров (ICQ, Skype, Mail.ru Агент)

Требования к системе МП:

• Отдельная база данных шаблонов (типовых фраз), возможность их редактирования, добавления в реальном времени• Ограниченный словарь, минимизирующий возможность омонимии. Возможность дополнения словаря в реальном времени• Корректность перевода шаблонных фраз• Перевод сразу на несколько языков•Удобный, интуитивно понятный пользовательский интерфейс

В ряде случаев необходимо ввести дополнительные условия, ограничивающие ввод текста так, чтобы пользователь набиралтолько те конструкции и пользовался лишь тем словарным запасом, который предоставляет система.

Page 11: Stolyarov

Использование в ICQ

ICQ-сервер и клиенты

Благодаря клиент-серверной архитектуре сети ICQ возможно размещение модуля перевода,а также словарей и баз данных на стороне сервера.

Возможность персонализации,централизованный сбор информации

Page 12: Stolyarov

Использование в ICQ

Встроенная система подсказок реального времени: Поиск и подсветка подходящего шаблона предложения Список допустимых грамматических конструкций Фиксированный выпадающий список допустимых слов Выделение непереводимых частей предложения, слов.

Перевод в реальном времени

Дополнительные инструменты и возможности пользовательского интерфейса:

Page 13: Stolyarov

Заключение

Ключевыми характеристиками систем на основе шаблонов являются:

• Простота интеграции в любую клиент-серверную систему. • Автоматическое накопление данных, их дальнейшее использование• Широкие возможности настройки системы, персонификация• Относительная легкость поддержки, расширения основных элементов системы

Page 14: Stolyarov

Список литературы

Статистический машинный перевод: http://ru.wikipedia.org/wiki/Машинный_перевод

Машинный перевод: правила против статистики: http://filolingvia.com/publ/25-1-0-898

Makoto Nagao: "A framework of a mechanical translation between Japanese and English by analogy principle“, 1984 г.

Статьи в Википедии: http://en.wikipedia.org/wiki/Machine_translation

ICQ, система обмена мгновенными сообщениями: http://docs.nojabrsk.ru/semenov/4/4/icq.htm