Stolyarov

Preview:

DESCRIPTION

Автоматический перевод, основанный на прецедентах.

Citation preview

Автоматический перевод на основе шаблонов

Денис Столяров

История МП

Аналитическая машина Ч. Беббиджа, 1836-1848 гг. Джорджтаунский эксперимент, 1954 г. Коммерческие системы прямого перевода по

правилам, 1980 г. Перевод с использованием шаблонов, Nagao

Makoto, 1984 Статистический перевод, 1999

Перевод по правилам

Морфологический анализ Синтез групп (именные, глагольные и др.) Синтаксический анализ Синтез предложений

Недостатки: • Принципиальная сложность используемых алгоритмов• Для достижения удовлетворительного качества перевода необходимо огромное количество правил, выводимых вручную

Представляет собой «классический» подход к МП, реализован в большинстве современных систем автоматического илиавтоматизированного перевода, в т.ч. в ПРОМТ, SYSTRAN, Linguatec.

Достоинства:• При наличии необходимых для перевода правил – высокое качествоперевода. Правила должны быть отлично выверены.• Возможность настройки словарей с учетом предметной области

Перевод по правилам

Уровни представления текста

Интерлингва – промежуточный искусственный язык

Статистический МП

Использует большие параллельные двуязычные корпуса N-грамм

Поиск наиболее подходящего перевода реализован специальной вероятностной моделью

Недостатки: • Отсутствие каких-либо механизмов анализа грамматических правил• Требует больших вычислительных мощностей• Для удовлетворительной работы необходимы огромные объемы данных (сотни миллионов N-грамм)

На данный момент статистический МП реализован только в некоммерческой системе on-line перевода Google translate

Достоинства: для улучшения качества перевода достаточно добавлятьМассивы параллельных текстов, дополнительная работа лингвистов или программистов не требуется

ПРОМТ и Google

Информационное сообщение:

Документ:

Классическая схема передает смысл значительно точнее, но статистический перевод в ряде случаев оказывается более гладким.

Перевод на основе шаблонов

Использует принцип «замены» членов предложения.

Имеет набор специальных переводных шаблонов. Возможно полуавтоматическое извлечение

шаблонов из параллельного двуязычного корпуса или поиск по корпусу в режиме Runtime.

<PERSON> was in <CITY> on <DATE>. <PERSON> war am <DATE> in <CITY>.

EnglishGerman

<MONTH> <NUMBER1>, <NUMBER2> <NUMBER1>. <MONTH> <NUMBER2>

EnglishGerman

Примеры шаблонов:

Перевод на основе шаблонов

Обладает четкой системой наглядных правил, которые легко структурируются

Возможно объединение правил в группы (тематические, стилистические, другие)

За счет использования параллельного корпуса достигается высокая степень приближения к тексту, написанному человеком

Гибкость. Корпус, набор правил (а также способ их получения), словарь могут быть подобраны под конкретную задачу.

Достоинства:

Недостатки: важнейшие характеристики системы (качество перевода,скорость работы, стоимость поддержки, необходимые аппаратные ресурсы) сильно зависят от ее конкретной реализации.

В настоящее время нет коммерческих систем, использующих шаблоны

Перевод на основе шаблонов

Основные модули системы МП на основе шаблонов:

Возможно добавлениедополнительных баз данных, программных и пользовательскихинтерфейсов

Внутренняя архитектураМодуля анализатора и переводчика также Меняется в зависимости от задачи

Перспективы использования

Деловая переписка: перевод сообщений электронной почты, программ-мессенджеров (ICQ, Skype, Mail.ru Агент)

Требования к системе МП:

• Отдельная база данных шаблонов (типовых фраз), возможность их редактирования, добавления в реальном времени• Ограниченный словарь, минимизирующий возможность омонимии. Возможность дополнения словаря в реальном времени• Корректность перевода шаблонных фраз• Перевод сразу на несколько языков•Удобный, интуитивно понятный пользовательский интерфейс

В ряде случаев необходимо ввести дополнительные условия, ограничивающие ввод текста так, чтобы пользователь набиралтолько те конструкции и пользовался лишь тем словарным запасом, который предоставляет система.

Использование в ICQ

ICQ-сервер и клиенты

Благодаря клиент-серверной архитектуре сети ICQ возможно размещение модуля перевода,а также словарей и баз данных на стороне сервера.

Возможность персонализации,централизованный сбор информации

Использование в ICQ

Встроенная система подсказок реального времени: Поиск и подсветка подходящего шаблона предложения Список допустимых грамматических конструкций Фиксированный выпадающий список допустимых слов Выделение непереводимых частей предложения, слов.

Перевод в реальном времени

Дополнительные инструменты и возможности пользовательского интерфейса:

Заключение

Ключевыми характеристиками систем на основе шаблонов являются:

• Простота интеграции в любую клиент-серверную систему. • Автоматическое накопление данных, их дальнейшее использование• Широкие возможности настройки системы, персонификация• Относительная легкость поддержки, расширения основных элементов системы

Список литературы

Статистический машинный перевод: http://ru.wikipedia.org/wiki/Машинный_перевод

Машинный перевод: правила против статистики: http://filolingvia.com/publ/25-1-0-898

Makoto Nagao: "A framework of a mechanical translation between Japanese and English by analogy principle“, 1984 г.

Статьи в Википедии: http://en.wikipedia.org/wiki/Machine_translation

ICQ, система обмена мгновенными сообщениями: http://docs.nojabrsk.ru/semenov/4/4/icq.htm