35
Машинный перевод Машинный перевод Лидия Михайловна Лидия Михайловна Пивоварова Пивоварова Системы понимания текста Системы понимания текста

08 машинный перевод

Embed Size (px)

DESCRIPTION

Презентация к курсу "Системы понимания текста" - http://mathlingvo.ru/courses/ponimanie

Citation preview

Page 1: 08 машинный перевод

Машинный Машинный переводперевод

Лидия Михайловна Лидия Михайловна ПивовароваПивоварова

Системы понимания Системы понимания текстатекста

Page 2: 08 машинный перевод

ВведенниеВведенние Машинный перевод – автоматический (без Машинный перевод – автоматический (без

участия человека) перевод с одного языка на участия человека) перевод с одного языка на другойдругой

Сферы применения: большие объемы информации Сферы применения: большие объемы информации и/или высокие требования к скорости перевода:и/или высокие требования к скорости перевода: ДокументацияДокументация НовостиНовости Военные сводкиВоенные сводки Интернет-сайты, многоязычный поискИнтернет-сайты, многоязычный поиск Справочная информация (рецепты, объявления, адреса)Справочная информация (рецепты, объявления, адреса)

Основная цель: быстро понять основное Основная цель: быстро понять основное содержание сообщения на иностранном языкесодержание сообщения на иностранном языке

Не замена ручному переводу; можно даже Не замена ручному переводу; можно даже сказать – другая задачасказать – другая задача

Page 3: 08 машинный перевод

СожержаниеСожержание

1.1. Основные подходыОсновные подходы

2.2. Перевод, основанный на Перевод, основанный на правилахправилах

3.3. Перевод, основанный на Перевод, основанный на машинном обучениимашинном обучении

4.4. Оценка машинного переводаОценка машинного перевода

Page 4: 08 машинный перевод

Правила Правила vsvs. статистика. статистикаИнформационное сообщение:

Документ:

Page 5: 08 машинный перевод

Перевод по правиламПеревод по правилам Морфологический анализМорфологический анализ Синтез групп (именные, глагольные и др.)Синтез групп (именные, глагольные и др.) Синтаксический анализСинтаксический анализ Синтез предложенийСинтез предложений

Недостатки: • Принципиальная сложность используемых алгоритмов• Для достижения удовлетворительного качества перевода необходимо огромное количество правил, выводимых вручную

Представляет собой «классический» подход к МП, реализован в большинстве современных систем автоматического илиавтоматизированного перевода, в т.ч. в ПРОМТ, SYSTRAN, Linguatec.

Достоинства:• При наличии необходимых для перевода правил – высокое качествоперевода. Правила должны быть отлично выверены.• Возможность настройки словарей с учетом предметной области

Page 6: 08 машинный перевод

Статистический МПСтатистический МП Использует большие параллельные Использует большие параллельные

двуязычные корпуса двуязычные корпуса NN-грамм-грамм Поиск наиболее подходящего перевода Поиск наиболее подходящего перевода

реализован специальной вероятностной реализован специальной вероятностной модельюмоделью

Недостатки: • Отсутствие каких-либо механизмов анализа грамматических правил• Требует больших вычислительных мощностей• Для удовлетворительной работы необходимы огромные объемы данных (сотни миллионов N-грамм)

На данный момент статистический МП реализован только в некоммерческой системе on-line перевода Google translate

Достоинства: для улучшения качества перевода достаточно добавлятьмассивы параллельных текстов, дополнительная работа лингвистов или программистов не требуется

Page 7: 08 машинный перевод

СожержаниеСожержание

1.1. Основные подходыОсновные подходы

2.2. Перевод, основанный на правилахПеревод, основанный на правилах прямой переводпрямой перевод трансфертрансфер интерлингваинтерлингва

3.3. Перевод, основанный на Перевод, основанный на машинном обучениимашинном обучении

4.4. Оценка машинного переводаОценка машинного перевода

Page 8: 08 машинный перевод

Основные подходыОсновные подходы

Direct, transfer, interlinguaDirect, transfer, interlingua

Page 9: 08 машинный перевод

СожержаниеСожержание

1.1. Основные подходыОсновные подходы

2.2. Перевод, основанный на правилахПеревод, основанный на правилах прямой переводпрямой перевод трансфертрансфер интерлингваинтерлингва

3.3. Перевод, основанный на Перевод, основанный на машинном обучениимашинном обучении

4.4. Оценка машинного переводаОценка машинного перевода

Page 10: 08 машинный перевод

Прямой переводПрямой переводТекст на исходном

языке

Морфологический анализ

Перевод лексики (двуязычный

словарь)

Переупорядочивание

Синтез морфологии

Текст на целевом

языке

Пословный перевод (Пословный перевод (word-by-word-by-word)word)

Никаких промежуточных Никаких промежуточных структур помимо морфологииструктур помимо морфологии

После перевода слов – простое После перевода слов – простое переупорядочивание в переупорядочивание в соответствии со знанием о языке соответствии со знанием о языке (например, в английском (например, в английском прилагательное идет до прилагательное идет до существительного, во существительного, во французском и испанском – французском и испанском – после) после)

Используемое знание: Используемое знание: морфологическая структура морфологическая структура языка и локальные правила языка и локальные правила перевода словперевода слов

Page 11: 08 машинный перевод

ПравилаПравила

Page 12: 08 машинный перевод

Прямой переводПрямой перевод

Нет сложных лингвистических Нет сложных лингвистических теорий и синтаксического анализатеорий и синтаксического анализа

Использование синтаксической и Использование синтаксической и лексической похожести между лексической похожести между двумя языкамидвумя языками

«Надежность» - можно переводить «Надежность» - можно переводить даже неполные предложениядаже неполные предложения

Словари – наиболее важный Словари – наиболее важный компоненткомпонент

Page 13: 08 машинный перевод

Слишком простая Слишком простая модельмодель

Page 14: 08 машинный перевод

СодержаниеСодержание

1.1. Основные подходыОсновные подходы

2.2. Перевод, основанный на правилахПеревод, основанный на правилах прямой переводпрямой перевод трансфертрансфер интерлингваинтерлингва

3.3. Перевод, основанный на Перевод, основанный на машинном обучениимашинном обучении

4.4. Оценка машинного переводаОценка машинного перевода

Page 15: 08 машинный перевод

Система типа Система типа

TRANSFERTRANSFER

Предложение на языке входа

Структура для языка входа

Структура для языка выхода

Предложение на языке выхода

анализ

TRANSFER

синтез

Page 16: 08 машинный перевод

Основные идеиОсновные идеи

Применяются знания о различиях Применяются знания о различиях между языкамимежду языками

Этапы:Этапы: Синтаксический анализСинтаксический анализ Трансфер: синтаксическая структура Трансфер: синтаксическая структура

исходного языка трансформируется в исходного языка трансформируется в синтаксическую структуру целевого синтаксическую структуру целевого языкаязыка

Синтез текста на целевом языке по Синтез текста на целевом языке по синтаксической структуресинтаксической структуре

Page 17: 08 машинный перевод

ПравилаПравила

Page 18: 08 машинный перевод

Трансфер лексикиТрансфер лексики Лексические правилаЛексические правила Двуязычные словариДвуязычные словари Т.е. сложность по сравнению с Т.е. сложность по сравнению с

прямым переводом возрастаетпрямым переводом возрастает

Page 19: 08 машинный перевод

Пример: Пример: SYSTRANSYSTRAN

SYSTRAN = PROMTSYSTRAN = PROMTin the worldin the world in Russiain Russia

1.1. Более 90% рынкаБолее 90% рынка2.2. Доход в 2007 году Доход в 2007 году ~~13 млн евро13 млн евро3.3. Акции торгуются на биржеАкции торгуются на бирже

Page 20: 08 машинный перевод

SYSTRAN: SYSTRAN: комбинация комбинация прямого перевода и прямого перевода и

трансфератрансфера АнализАнализ

Морфологический анализ, части речиМорфологический анализ, части речи Сборка словосочетанийСборка словосочетаний Поверхностный синтаксисПоверхностный синтаксис

ТрансферТрансфер Перевод идиомПеревод идиом Снятие неоднозначности (Снятие неоднозначности (word sense disambiguation)word sense disambiguation) Выбор предлогов по глаголуВыбор предлогов по глаголу

СинтезСинтез Большой двуязычный словарьБольшой двуязычный словарь ПереупорядочиваниеПереупорядочивание Синтез морфологииСинтез морфологии

Page 21: 08 машинный перевод

Система типа Система типа TRANSFER,TRANSFER, но вместо но вместо последовательногопоследовательного TRANSFER’aTRANSFER’a

– – иерархически иерархически взаимосвязанныевзаимосвязанные TRANSFER’TRANSFER’ыы для разных единиц перевода:для разных единиц перевода:

1.1. УровеньУровень лексических единицлексических единиц

2.2. УровеньУровень группгрупп

3.3. УровеньУровень простых предложенийпростых предложений

4.4. УровеньУровень сложных предложенийсложных предложений

Пример: ПРОМТПример: ПРОМТ

Page 22: 08 машинный перевод

TRANSFER на TRANSFER на морфологическом морфологическом уровне уровне

входная морф. инф. входная морф. инф. выходная морф. инф.выходная морф. инф.

TRANSFER на уровне TRANSFER на уровне группгрупп

Основа – Основа – формальные формальные сетевые грамматикисетевые грамматики

При анализе соединение При анализе соединение синтаксических единиц в синтаксических единиц в группы группы структура в структура в терминах терминах непосредственных непосредственных составляющих составляющих синтез синтез лексических единиц с лексических единиц с наследуемыми значениями наследуемыми значениями морф. признаковморф. признаков

TRANSFER на уровне TRANSFER на уровне предложенийпредложений

Основа – Основа – фреймовые фреймовые предикатные структурыпредикатные структуры

Глагол – главный элементГлагол – главный элемент Валентности глагола Валентности глагола

определяют заполнение определяют заполнение фреймафрейма

Каждому типу фреймов Каждому типу фреймов соответствует некоторый соответствует некоторый закон преобразования в закон преобразования в выходной фрейм и выходной фрейм и оформление актантов оформление актантов

++ Анализ Анализ сложных сложных

предложенийпредложений – в случае – в случае формирования согласования формирования согласования времен и правильного времен и правильного перевода союзов.перевода союзов.

Промт: трансфер на разных Промт: трансфер на разных уроняхуронях

Page 23: 08 машинный перевод

СловариСловари

Генеральный словарь Генеральный словарь Специализированные словари Специализированные словари Пользовательские словариПользовательские словари

Чем уже тематика, тем лучше Чем уже тематика, тем лучше качество переводакачество перевода

Page 24: 08 машинный перевод

ТрансферТрансфер

Глубокое лингвистическое знание Глубокое лингвистическое знание – лучше качество перевода– лучше качество перевода

Компоненты анализа и синтеза Компоненты анализа и синтеза могут использоваться для других могут использоваться для других языковых пар (теоретически)языковых пар (теоретически)

Тем не менее, создание систем Тем не менее, создание систем машинного перевода очень сложно и машинного перевода очень сложно и трудоемко, сами системы громоздкие и трудоемко, сами системы громоздкие и сильно завязанные на конкретную пару сильно завязанные на конкретную пару языковязыков

Page 25: 08 машинный перевод

СодержаниеСодержание

1.1. Основные подходыОсновные подходы

2.2. Перевод, основанный на правилахПеревод, основанный на правилах прямой переводпрямой перевод трансфертрансфер интерлингваинтерлингва

3.3. Перевод, основанный на Перевод, основанный на машинном обучениимашинном обучении

4.4. Оценка машинного переводаОценка машинного перевода

Page 26: 08 машинный перевод

Система типа Система типа

INTERLINGUAINTERLINGUA

Предложение на языке входа

Метаструктура для языка входа ==

Метаструктура для языка выхода

Предложение на языке выхода

анализ

синтез

Пока ни одной подобной системы не созданоПока ни одной подобной системы не создано Причина: сложность создания семантического Причина: сложность создания семантического

представления приемлемого качествапредставления приемлемого качества

Page 27: 08 машинный перевод

Transfer vs. interlinguaTransfer vs. interlingua

Page 28: 08 машинный перевод

СожержаниеСожержание

1.1. Основные подходыОсновные подходы

2.2. Перевод, основанный на Перевод, основанный на правилахправилах

3.3. Перевод, основанный на Перевод, основанный на машинном обучениимашинном обучении

4.4. Оценка машинного переводаОценка машинного перевода

Page 29: 08 машинный перевод

Статистический Статистический переводперевод

Основа - параллельный корпусОснова - параллельный корпус Вероятности назначаются подсчетом Вероятности назначаются подсчетом

наиболее вероятного варианта переводанаиболее вероятного варианта перевода Оценки вероятности зависят от объема Оценки вероятности зависят от объема

и качества обучающего корпусаи качества обучающего корпуса Лингвистическая информация: Лингвистическая информация:

разбиение на предложения, разбиение на предложения, графематический анализ, морфологияграфематический анализ, морфология

При наличии корпуса простейшая При наличии корпуса простейшая система перевода может быть сделана система перевода может быть сделана на 2 неделина 2 недели

Page 30: 08 машинный перевод

Вероятностная модельВероятностная модель Исходная цепочка Исходная цепочка S S преобразуется в преобразуется в

такую цепочку такую цепочку T T целевого языка, что: целевого языка, что: T = T = argmaxargmaxpp(T|S)(T|S)

Теорема Байеса:Теорема Байеса:T = T = argmaxargmaxpp(S|T)(S|T)pp(T)(T)

Содержательная интерпретация:Содержательная интерпретация:- хороший перевод – это сочетание точности хороший перевод – это сочетание точности

передачи информации и правильности передачи информации и правильности целевого языка; целевого языка;

- нужна модель перевода нужна модель перевода pp(S|T)(S|T) (вычисляется (вычисляется по пераллельному корпусу) и модель целевого по пераллельному корпусу) и модель целевого языкаязыка pp(T)(T) (вычисляется по одноязычному (вычисляется по одноязычному корпусу)корпусу)

Page 31: 08 машинный перевод

Языковая модель Языковая модель Правильный порядок словПравильный порядок слов Некоторые идеи грамматикиНекоторые идеи грамматики Вычисляется с помощью Вычисляется с помощью n-n-граммграмм::

Page 32: 08 машинный перевод

Модель переводаМодель перевода

p(f|e)p(f|e) – – вероятность перевода строки вероятность перевода строки (в идеале – предложения) (в идеале – предложения) ff строкойстрокой ee..

Выравнивание, т.е. нахождение Выравнивание, т.е. нахождение соответствия между соответствия между ff строкойстрокой ee – – отдельная задачаотдельная задача. . a a – – показатель качества выравнивания (показатель качества выравнивания (alignment)alignment)

Page 33: 08 машинный перевод

СодержаниеСодержание

1.1. Основные подходыОсновные подходы

2.2. Перевод, основанный на Перевод, основанный на правилахправилах

3.3. Перевод, основанный на Перевод, основанный на машинном обучениимашинном обучении

4.4. Оценка машинного переводаОценка машинного перевода

Page 34: 08 машинный перевод

Bilingual Evaluation Bilingual Evaluation Understudy (BLEU)Understudy (BLEU)

Требуется тестовое множество, Требуется тестовое множество, переведенное человекомпереведенное человеком

Оценивается близость между Оценивается близость между машинным и человеческим машинным и человеческим переводомпереводом

Взвешенное среднее числа совпадений N-грамм машинного перевода с переводом человека

Page 35: 08 машинный перевод

ИсточникиИсточники D. Jurafsky, J. H. Martin Speech and Language Processing – D. Jurafsky, J. H. Martin Speech and Language Processing –

2009 – Chapter 22009 – Chapter 25 5 A. Ittycheriah Statistical Machine Translation // Handbook of A. Ittycheriah Statistical Machine Translation // Handbook of

natural language processing, Second Edition Editor(s): Nitin natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp. 409-4222010 – pp. 409-422

Dan Jurafsky From Languages to Information. Lecture 16-17: Machine Translation - http://www.stanford.edu/class/cs124/

Дмитрий Кан Введение в машинный перевод - Дмитрий Кан Введение в машинный перевод - http://www.slideshare.net/dmitrykan/introduction-to-machinehttp://www.slideshare.net/dmitrykan/introduction-to-machine-translation-2911038-translation-2911038

Денис Столяров Автоматический перевод на основе Денис Столяров Автоматический перевод на основе шаблонов -шаблонов -httphttp://://mathlingvo.rumathlingvo.ru//nlpseminarnlpseminar//archivearchive/s_23/s_23

Елена Уфлянд Работа автоматического переводчика Елена Уфлянд Работа автоматического переводчика ПроМТ - ПроМТ - http://mathlingvo.ru/nlpseminar/archive/s_3http://mathlingvo.ru/nlpseminar/archive/s_3

Александр Гребеньков Работа автоматического Александр Гребеньков Работа автоматического переводчика - переводчика - httphttp://://mathlingvo.rumathlingvo.ru//nlpseminarnlpseminar//archivearchive/s_10/s_10