3
301 МЕЖДУНАРОДНЫЙ СТУДЕНЧЕСКИЙ НАУЧНЫЙ ВЕСТНИК № 3, 2018 ТЕХНИЧЕСКИЕ НАУКИ УДК 519.768 оБЗор анаЛиТиЧеСКоЙ, СТаТиСТиЧеСКоЙ и неЙронноЙ ТеХноЛоГиЙ МаШинноГо ПереВода Колганов д.С., данилов е.а. Пензенский государственный технологический университет, Пенза, e-mail: [email protected] В статье приводится обзор технологий машинного перевода. Рассмотрены области применения машин- ного перевода. Описана аналитическая технология машинного перевода, вначале рассматривается процесс перевода, затем приводятся достоинства и недостатки данной технологии. Описывается состав системы ма- шинного перевода на основе статистической технологии, отмечаются ее сильные и слабые стороны. Послед- ней рассматривается нейронная технология машинного перевода, которая начала развиваться сравнитель- но недавно, но уже и применятся в google и Яндекс. Производится сравнение статистической технологии и нейронная технология машинного перевода, а также указываются достоинства и недоставки нейронная технологии. Приводятся рекомендации по использованию технологий машинного перевода. В завершении говорится о том, что нейронная технология машинного перевода является самой перспективной, но на сегод- няшний день не является самой лучшей в первую очередь из-за недостатка обучающих данных в различных предметных областях. Ключевые слова: аналитический машинный перевод, статистический машинный перевод, нейронный машинный перевод, RBMT, CBMT, NMT OVERVIEW OF ANALYTICAL, STATISTICAL AND NEURAL MACHINE TRANSLATION TECHNOLOGIES Kolganov D.S., Danilov E.A. Penza State Technological University, Penza, e-mail: [email protected] The article gives an overview of machine translation technologies. Areas of application of machine translation are considered. The rule-based machine translation is described, the translation process is first considered, then the advantages and disadvantages of this technology are given. The composition of the machine translation system is described on the basis of corpus-based machine translation, its strengths and weaknesses are noted. The latter is considered the neural machine translation, which began to develop relatively recently, but already applied in google and Yandex. A comparison of corpus-based and neural machine translation is performed, as well as the advantages and disadvantages of neural machine translation. Recommendations are given on the use of machine translation technologies. In the end, it is said that the neural machine translation is the most promising, but to date it is not the best, primarily due to the lack of training data in various subject areas. Keywords: rule-based machine translation, corpus-based machine translation, neural machine translation, RBMT, CBMT, NMT Об автоматическом переводе текстов впервые заговорили уже с момента появле- ния первых электронных вычислительных машин. Потенциальные сферы применения машинного перевода достаточно многооб- разны. Например, машинный перевод по- лезен – на бытовом уровне, упрощая ком- муникацию людей различных языковых групп, не обладающих должными языковы- ми навыками. Машинный перевод актуален и в бизнес-сфере, когда требуется перевод значительных объёмов данных. На данный момент существуют 3 техно- логии машинного перевода: • аналитический машинный перевод; • статистический машинный перевод; • нейронный машинный перевод. Аналитический машинный перевод (RBMT, rule-based machine translation, ма- шинный перевод, основанный на прави- лах) [1] – исторически первая технология машинного перевода. Метод подразумева- ет использование набора правил перевода из исходного языка в целевой, написанных лингвистом, и двуязычных словарей – на- бора лексических элементов обоих языков. Анализ в данном методе зачастую сильно завышен, а процесс перевода проходит сле- дующие этапы: 1. Морфологический анализ, в ходе ко- торого указывается род, число, лицо и дру- гие морфологические характеристики слов. При этом возникает проблема многозначно- сти, когда одно и то же слово может отно- ситься к разным частям речи. 2. Объединение отдельных слов в группы. 3. Синтаксический анализ предложе- ний, то есть определение членов предло- жения и их места в предложении. Сначала программа ищет сказуемое. Затем перед найденным сказуемым ищется подлежащее. Если его там нет, то алгоритм ищет подле- жащее за сказуемым. Если подлежащего нет и там, то считается, что подлежащее отсут- ствует. 4. Синтез предложений – согласование найденных частей предложений и групп за- висимых слов.

УДК 519.768 оБЗор анаЛиТиЧеСКоЙ, СТаТиСТиЧеСКоЙ и ... · 301 МЕЖДУНАРОДНЫЙ СТУДЕНЧЕСКИЙ НАУЧНЫЙ ВЕСТНИК

  • Upload
    others

  • View
    20

  • Download
    0

Embed Size (px)

Citation preview

Page 1: УДК 519.768 оБЗор анаЛиТиЧеСКоЙ, СТаТиСТиЧеСКоЙ и ... · 301 МЕЖДУНАРОДНЫЙ СТУДЕНЧЕСКИЙ НАУЧНЫЙ ВЕСТНИК

301

  МЕЖДУНАРОДНЫЙ СТУДЕНЧЕСКИЙ НАУЧНЫЙ ВЕСТНИК № 3, 2018   

 ТЕХНИЧЕСКИЕ НАУКИ УДК 519.768

оБЗор анаЛиТиЧеСКоЙ, СТаТиСТиЧеСКоЙ и неЙронноЙ ТеХноЛоГиЙ МаШинноГо ПереВода

Колганов д.С., данилов е.а.Пензенский государственный технологический университет, Пенза, e-mail: [email protected]

В статье приводится обзор технологий машинного перевода. Рассмотрены области применения машин-ного перевода. Описана аналитическая технология машинного перевода, вначале рассматривается процесс перевода, затем приводятся достоинства и недостатки данной технологии. Описывается состав системы ма-шинного перевода на основе статистической технологии, отмечаются ее сильные и слабые стороны. Послед-ней рассматривается нейронная технология машинного перевода, которая начала развиваться сравнитель-но недавно, но уже и применятся в google и Яндекс. Производится сравнение статистической технологии и нейронная технология машинного перевода, а также указываются достоинства и недоставки нейронная технологии. Приводятся рекомендации по использованию технологий машинного перевода. В завершении говорится о том, что нейронная технология машинного перевода является самой перспективной, но на сегод-няшний день не является самой лучшей в первую очередь из-за недостатка обучающих данных в различных предметных областях.

Ключевые слова: аналитический машинный перевод, статистический машинный перевод, нейронный машинный перевод, RBMT, CBMT, NMT

OVERVIEW OF ANALYTICAL, STATISTICAL AND NEURAL MACHINE TRANSLATION TECHNOLOGIES

Kolganov D.S., Danilov E.A.Penza State Technological University, Penza, e-mail: [email protected]

The article gives an overview of machine translation technologies. Areas of application of machine translation are considered. The rule-based machine translation is described, the translation process is first considered, then the advantages and disadvantages of this technology are given. The composition of the machine translation system is described on the basis of corpus-based machine translation, its strengths and weaknesses are noted. The latter is considered the neural machine translation, which began to develop relatively recently, but already applied in google and Yandex. A comparison of corpus-based and neural machine translation is performed, as well as the advantages and disadvantages of neural machine translation. Recommendations are given on the use of machine translation technologies. In the end, it is said that the neural machine translation is the most promising, but to date it is not the best, primarily due to the lack of training data in various subject areas.

Keywords: rule-based machine translation, corpus-based machine translation, neural machine translation, RBMT, CBMT, NMT

Об автоматическом переводе текстов впервые заговорили уже с момента появле-ния первых электронных вычислительных машин. Потенциальные сферы применения машинного перевода достаточно многооб-разны. Например, машинный перевод по-лезен – на бытовом уровне, упрощая ком-муникацию людей различных языковых групп, не обладающих должными языковы-ми навыками. Машинный перевод актуален и в бизнес-сфере, когда требуется перевод значительных объёмов данных.

На данный момент существуют 3 техно-логии машинного перевода:

• аналитический машинный перевод;• статистический машинный перевод;• нейронный машинный перевод.Аналитический машинный перевод

(RBMT, rule-based machine translation, ма-шинный перевод, основанный на прави-лах) [1] – исторически первая технология машинного перевода. Метод подразумева-ет использование набора правил перевода из исходного языка в целевой, написанных

лингвистом, и двуязычных словарей – на-бора лексических элементов обоих языков. Анализ в данном методе зачастую сильно завышен, а процесс перевода проходит сле-дующие этапы:

1. Морфологический анализ, в ходе ко-торого указывается род, число, лицо и дру-гие морфологические характеристики слов. При этом возникает проблема многозначно-сти, когда одно и то же слово может отно-ситься к разным частям речи.

2. Объединение отдельных слов в группы.3. Синтаксический анализ предложе-

ний, то есть определение членов предло-жения и их места в предложении. Сначала программа ищет сказуемое. Затем перед найденным сказуемым ищется подлежащее. Если его там нет, то алгоритм ищет подле-жащее за сказуемым. Если подлежащего нет и там, то считается, что подлежащее отсут-ствует.

4. Синтез предложений – согласование найденных частей предложений и групп за-висимых слов.

Page 2: УДК 519.768 оБЗор анаЛиТиЧеСКоЙ, СТаТиСТиЧеСКоЙ и ... · 301 МЕЖДУНАРОДНЫЙ СТУДЕНЧЕСКИЙ НАУЧНЫЙ ВЕСТНИК

302

 INTERNATIONAL STUDENT RESEARCH BULLETIN № 3, 2018 

 TECHNICAL SCIENCES К достоинствам аналитического метода

можно отнести:• синтаксическую и морфологическую

точность;• стабильность и предсказуемость ре-

зультата;• возможность настройки на предмет-

ную область.Из недостатков можно выделить:• трудоемкость и длительность разра-

ботки: для разработки лингвистических правил, которых в системе аналитического перевода может насчитываться десятки ты-сяч, необходимо привлечение лингвистов; процесс разработки этих правил может за-нимать от нескольких месяцев до несколь-ких лет;

• необходимость поддерживать и актуа-лизировать лингвистические БД;

• «машинный акцент» при переводе – ориентируясь исключительно на правила, такие системы зачастую могут игнориро-вать контекст, подставляя в целом верные, но не самые уместные варианты перевода отдельных лексем.

Статистический машинный перевод является подвидом метода, основанного на корпусах текста (corpus-based machine translation, CBMT) [1]. В основе CBMT со-стоит работа не с готовыми правилами, то есть не рационалистический (аналитиче-ский) подход, а эмпирический подход, то есть формирование правил на основе парал-лельных двуязычных корпусов текстов.

В основе технологи теорема Байеса: из предложения выделяются отдельные грамматические единицы – слова и фра-зы, перебираются все варианты перевода для каждого фрагмента и взвешивается ве-роятность каждого из них.

Система статистического перевода обычно состоит из трёх компонентов:

1. Модель перевода, или таблиц перево-да – это таблица-словарь, в которой для всех известных системе слов и фраз на одном языке перечислены все возможные их пере-воды на другой язык и указана вероятность этих переводов.

2. Вероятностная модель языка – это представление знаний системы о языке, на который нужно перевести текст. Она ис-пользуется для того, чтобы после выбора наиболее вероятных вариантов перевода от-дельных слов и фраз исходя из модели пере-вода, выбрать из этих вариантов наиболее подходящие, исходя из контекста.

3. Декодер – составляющая переводчи-ка, которая непосредственно переводом.

Для каждого предложения исходного текста он подбирает все варианты перевода, соче-тая между собой фразы из модели перевода, и сортирует их по убыванию вероятности. Затем все получившиеся варианты декодер оценивает с помощью модели языка.

Помимо этого, может также иметься таблица изменения порядка, указывающая, как можно менять порядок слов при пере-носе на целевой язык. Иногда также необхо-димо включать дополнительную лингвисти-ческую информацию для языков с богатым словоизменением, например, русский язык.

К достоинствам статистических систем можно отнести:

• быстрая настройка: поскольку систе-ма обучается сама, лингвисты необходимы только для помощи в написании алгоритма анализа корпусов текстов; для дальнейшего обучения системы используются тексты, ко-торые можно найти в свободном доступе;

• такие системы хорошо справляются с переводом сложных и редких слов, терми-нов и устойчивых выражений;

• легко добавлять новые направления перевода: если язык начнёт меняться, систе-ма заметит это как только к ней попадут со-ответствующие тексты;

• отсутствие глубокого анализа текста экономит вычислительные ресурсы.

Из недостатков можно отметить:• статистические системы гораздо

хуже работают для сильно непохожих друг на друга языков без использования слож-ных моделей типа tree-to-tree/tree-to-string (например, при переводе с английского на японский;

• «дефицит» параллельных корпусов: качество перевода сильно зависит от ко-личества параллельных корпусов, для кор-ректных переводов статистической системе необходимо как минимум 500 тысяч, в иде-але от нескольких миллионов параллельных текстов;

• нестабильность перевода: несмотря на способность переводить устойчивые выражения, эти самые выражения и терми-ны могут переводиться по-разному исходя из контекста;

• зачастую результат перевода похож на «собранный паззл»: хотя общий смысл предложения понятен, но части предложе-ний существуют отдельно друг от друга.

Несмотря на сохранение актуальности аналитической и статистической техноло-гий (в том числе и гибридной), последнее время активно развиваются методы пере-вода с использованием искусственных ней-

Page 3: УДК 519.768 оБЗор анаЛиТиЧеСКоЙ, СТаТиСТиЧеСКоЙ и ... · 301 МЕЖДУНАРОДНЫЙ СТУДЕНЧЕСКИЙ НАУЧНЫЙ ВЕСТНИК

303

  МЕЖДУНАРОДНЫЙ СТУДЕНЧЕСКИЙ НАУЧНЫЙ ВЕСТНИК № 3, 2018   

 ТЕХНИЧЕСКИЕ НАУКИ ронных сетей (neural machine translation, NMT) [1, 2].

На первый взгляд нейронный перевод очень похож на статистический, поскольку также использует анализ параллельных дан-ных и формирует на основе этого анализа определённые зависимости и закономерно-сти. Однако в основе данного метода лежат совершенно иные принципы.

В основе нейронного переводчика ле-жит механизм двунаправленных рекуррент-ных нейронных сетей, построенный на ма-тричных вычислениях, который позволяет строить существенно более сложные веро-ятностные модели, чем статистические ма-шинные переводчики.

Хотя нейронный перевод также исполь-зует для обучения параллельные корпуса, в процессе обучения он оперирует не от-дельными фразами, но целыми предложе-ниями. Одна из главных проблем состоит в том, что нейронной сети требуется гораздо больше корпусов для обучения, чем стати-стической системе: по меньшей мере поряд-ка 100 миллионов токенов для адекватной работы, для переводов же надлежащего ка-чества – не менее порядка 500 миллионов. Также для обучения подобной системы тре-буется куда больше вычислительных мощ-ностей.

Однако главной причиной того, что нейронный перевод начал проявляться сравнительно недавно, является не столь-ко аппаратные ограничения, поскольку тренировать подобные системы можно было и раньше, пускай ценой больших вре-менных затрат, а скорее пришедшая мода на нейронные сети.

Ведущие разработчики систем нейрон-ного перевода вели свои исследования уже достаточно давно, однако высокие ожида-ния общественности от возможностей ней-ронных сетей и опасения, что недостаточно совершенные системы нейронного перево-да не оправдают эти ожидания, заставляли разработчиков не оглашать результаты сво-их разработок раньше времени. Однако же в районе 2015–2016 годов все разработчики подобных систем начали представлять свои варианты нейронных переводчиков один за другим. Так, Яндекс объявил о постепен-ном переходе на нейронный перевод с сен-тября 2017 года, а google сделал это ещё в марте.

Что касается достоинств и недостат-ков нейронных сетей, они во многом схожи

с таковыми у статистических систем. С од-ной стороны, нейронная сеть, при должном количестве входных данных способна вы-дать практически идеальный или близкий к таковому перевод, поскольку она не про-сто обучается, она «понимает» принципы, по которым строится перевод. С другой сто-роны, во-первых, она требует куда больше вычислительных мощностей для своего об-учения, и, во-вторых, в условиях недостатка параллельных данных, коих требует на по-рядок больше, чем статистическая сеть, ней-ронная сеть выдаст перевод крайне низкого качества, то есть нейронные переводчики ещё более требовательны к объёму входных данных, чем статистические системы.

В завершение можно выделить ряд те-зисов:

• в общем случае нейронный автомати-ческий перевод дает результат более высо-кого качества, чем «чисто» статистический подход;

• автоматический перевод через нейрон-ную сеть лучше подходит для решения за-дачи «универсального перевода»;

• ни один из подходов к машинному пе-реводу сам по себе не является идеальным универсальным инструментом для решения любой задачи перевода;

• для решения задач по переводу в биз-несе только специализированные решения могут гарантировать соответствие всем тре-бованиям.

Несмотря на очевидные перспективы нейронных сетей в качестве основного ин-струмента машинного перевода в будущем, на текущий момент недостаток в первую очередь должного объёма данных в раз-личных предметных областях не позволяет говорить о безоговорочном преимуществе нейронного сетей во всех сферах примене-ния машинного перевода. Поэтому на те-кущий момент по-прежнему сохраняют актуальности как статистические системы, требующие меньший объём данных для об-учения, так и аналитические системы, даю-щие стабильный и точный результат в узких областях.

Список литературы1. How does Neural Machine Translation work? //

SYSTRAN Blog: [Электронный ресурс], 2016. – URL: http://blog.systransoft.com/how-does-neural-machine-translation-work.

2. eMpTy Pages: A Deep Dive into SYSTRAN’s Neural Machine Translation (NMT) Technology: [Электронный ре-сурс], 2016. – URL: https://kv-emptypages.blogspot.ru/2016/09/a-deep-dive-into-systrans-neural.html.