106
Санкт-Петербургский государственный университет Филологический факультет Кафедра математической лингвистики Бань Дмитрий Юрьевич Исследование параметров сегментации при статистическом машинном переводе с арабского на русский язык Магистерская диссертация Направление 035700 "Лингвистика" Программа "Прикладная, экспериментальная и математическая лингвистика"

Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Санкт-Петербургский государственный университет

Филологический факультет

Кафедра математической лингвистики

Бань Дмитрий Юрьевич

Исследование параметров сегментации при статистическом машинном

переводе с арабского на русский язык

Магистерская диссертация

Направление 035700 "Лингвистика"

Программа "Прикладная,

экспериментальная и математическая

лингвистика"

Научный руководитель

доц., к.ф.н. О.В. Митренина

Санкт-Петербург

2016

Page 2: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

ОглавлениеВведение.........................................................................................................3

1.Глава I. Статистический машинный перевод..........................................8

1.1.Основныепринципы............................................................................8

1.2.История SMT.......................................................................................9

1.3. Основные этапы и компоненты SMT.............................................10

1.3.1.Выравнивание по словам...........................................................10

1.3.2.Фразовая таблица.......................................................................11

1.3.3.Вероятностная модель...............................................................14

1.3.4.Модель перестановок.................................................................15

1.3.5.Языковые модели...........................................................................17

1.4.Декодер...........................................................................................31

1.4.1. Основной алгоритм...................................................................31

1.4.2. Рекомбинация гипотез..............................................................33

1.4.3. Прореживание............................................................................33

1.4.4. Генерация N-лучших списков..................................................34

1.5.Тюнинг...........................................................................................34

2.Глава II. Поиск оптимальной сегментации............................................36

2.1.Обзор исследований..........................................................................36

2.2.Способы сегментации.......................................................................36

2.2.1.Местоимения..............................................................................37

2.2.2.Определенный артикль..............................................................37

2.2.3.Предлоги и союзы......................................................................38

2.2.4.Будущее время............................................................................38

2.2.5.’inna..............................................................................................38

2.3.Диакритики........................................................................................39

2.4.Описание эксперимента....................................................................39

Page 3: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

2.5.Инструменты.................................................................................40

2.6.Эксперименты................................................................................41

2.7.Результаты......................................................................................42

Заключение..................................................................................................43

Список использованной литературы.........................................................45

Приложение 1. Фрагменты тестового корпуса........................................50

Приложение 2. Фрагменты фразовых таблиц..........................................66

Page 4: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

ВведениеМашинный перевод является динамично развивающейся областью

обработки естественного языка, широко представленной на современном

рынке информационных технологий. Технологии машинного перевода

позволяют получать моментальные переводы значительных объемов текста,

тем самым позволяя переводчикам экономить время, а компаниям –

сокращать затраты на перевод нужных им текстов.

С помощью машинного перевода в наше время решаются многие

задачи, которые раньше требовали значительно большего времени и

ресурсов. В качестве примера таких ситуаций можно привести локализации

веб-сайтов и программного обеспечения, перевод техической документации,

анализ медиапространства интересующих компании регионов, ускорение

деловой переписки. Помимо корпоративного сегмента, машинный перевод

также широко применяется для личных целей – общения между людьми,

перевода интересующих пользователя текстов и изучения иностранных

языков.

Кроме непосредственного перевода текстов, машинный перевод

применяется также и в ряде смежных областей, связанных с обработкой

естественного языка. Например, в последнее время все более пристальное

внимание обращает на себя идея сочетать машинный перевод с

автоматическим распознаванием и синтезом речи, что в перспективе

позволяет решить многие коммуникативные проблемы. Кроме того, важным

направлением для занимающихся машинным переводом компаний является

его интеграция с автоматическим распознованием текста, предоставляющая

возможность перевода текста, размещенного на неэлектронных носителях. В-

третьих, машинный перевод можно применять вместе с семантико-

синтаксическими парсерами либо инструментами для извлечения мнений для

того, чтобы анализировать интересующие компанию документы.

Page 5: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Статистический машинный перевод – один из наиболее популярных

видов машинного перевода, наряду с переводом, основанным на правилах и

гибридном переводом (сочетающим в себе элементы статистического

перевода и перевода, основанного на правилах). Основной идеей

статистического машинного перевода является обучение модели с помощью

параллельного корпуса на целевом и исходном языке. При этом, такие

лингвистические задачи, как установления соответствий между словами двух

языков, определение правильно порядка слов в генерируемом тексте и

обеспечение его «естественности» с точки зрения носителя решаются

алгоритмически.

Важным преимуществом статистического машинного перевода

является возможность быстрой разработки решений для пары языков. В

самом деле, для обучения модели достаточно иметь параллельный корпус

достаточного размера и вычислительные мощности для запуска

программного обеспечения. При этом, для разработки систем перевода,

основанных на правилах, необходимо потратить достаточно большое

количество средств на специалистов, владеющих языками рассматриваемой

пары. Кроме того, создание системы, способной генерировать сколько-либо

приемлемые тексты на целевом языке, займет большое количество времени

из-за сложности и многообразия естественного языка. Вдобавок к этому,

сама задача поиска лингвистов, специализирующихся в изучении некоторых

языков (либо просто их носителей) часто бывает достаточно

затруднительной, если ареал распространения языка далек от физического

местоположения занимающейся машинным переводом компании.

Статистический машинный перевод избавлен от данных недостатков:

благодаря высокой степени автоматизации процесса, разрабатывать системы

перевода и, в определенной степени, оценивать получившиеся результаты

могут даже специалисты, не владеющие языками выбранной пары. Таким

образом, использование статистического машинного перевода позволяет

компаниям значительно сокращать издержки на разработку моделей

Page 6: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

перевода требуемых языковых пар и делает возможным такую разработку в

крайне сжатые сроки.

Несмотря на то, что лингвистические задачи в статистическом

машинном переводе решаются алгоритмически, у разработчика системы

перевода все равно остаютя возможности улучшить качество продукта для

выбранной пары языков. Одним из способов добиться этого является

предобработка текста на исходном языке. Практическая реализация этой

идеи выбирается на основе особенностей рассматриваемых языков. В

частности, если в исходном языке существует тенденция включать ряд

морфем в состав других слов, а в целевом – записывать их отдельно, то

проведение морфологической сегментации способно улучшить поиск

соответствий между словами и снизить недостаточность данных, что, в свою

очередь, может благоприятно сказаться на переводе. Кроме того, в некоторых

языках текст в принципе не делится на слова каким-либо явным образом.

Арабскому языку свойственна запись некоторых частей речи слитно с

другими словами в качестве клитиков, поэтому при переводе арабских

текстов на языки, в которых не наблюдается такой особенности – к примеру,

на русский – логичной кажется идея использовать морфологическую

сегментацию арабской части треиноровочного корпуса.

Арабский язык является одним из наиболее распространенных в мире.

Согласно некоторым оценкам, на нем разговаривает около 295 миллионов

человек, что делает его пятым языком мира по численности носителей.

Важности этому языку добавляет тот факт, что арабский является

государственным языком ряда экономически развитых государств –

экспортеров углеводородов и международным экономических центров.

Кроме того, многие арабские страны традиционно предоставляют большое

количество информационных поводов из-за напряженной внутренней

обстановки. При этом, было опубликовано достаточно малое количество

исследований о машинном переводе с арабского на русский язык, что

обуславливает актуальность данной работы. В частности, работы по

Page 7: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

изучению различных вариантов предобработки арабского текста для

статистического машинного перевода на русский язык практически

отсутствуют.

Практическая значимость исследования заключается в том, что его

результаты могут помочь улучшить качество статистического машинного

перевода с арабского на русский язык. Также, рассмотренные идеи могут

применяться в гибридных системах перевода. Кроме того, они могут

использоваться в дальнейших исследованиях по арабско-русскому

машинному переводу.

Основой целью данной работы является изучение того, как

морфологическая сегментация арабского текста влияет на его перевод на

русский язык.

В задачи работы входило:

рассмотреть следующие этапы, необходимые для построения модели

статистического машинного перевода:

выравнивание по словам параллельного корпуса на

исходном и целевом языке,

построение фразовой таблицы,

создание модели перестановок,

обучение языковой модели,

работа декодера,

тюнинг,

сформулировать основные варианты сегментации,

изучить инструменты для осуществления требуемой обработки,

подготовить систему перевода, в том числе:

удалить диакритические знаки в арабском тексте,

сегментировать тесксты согласно выбранным схемам,

обучить модели перевода с помощью системы Moses,

провести тюнинг получившихся моделей,

получить оценки переводов по метрике BLEUScore,

Page 8: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

проанализировать результаты.

Материалом для исследований стал корпус лекций платформы TED,

доступный и на арабском, и на русском языке. Объем корпуса составлял

117 987 строк. Из данного корпуса были выделены тренировочный,

тюнинговый и тестовый корпуса.

Page 9: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

1. Глава I. Статистическиймашинныйперевод

1.1. ОсновныепринципыСтатистический машинный перевод (SMT) – одна из базовых

разновидностей машинного перевода наряду с машинным переводом,

основанным на правилах (RBMT). Основной особенностью статистического

перевода в его классическом виде является то, что в нем не используются

разработанные вручную правила перевода между двумя конкретными

языками. Вместо этого перевод текста создается на основе обученной ранее

модели. Для обучения модели перевода нужны два параллельных корпуса

текстов: на исходном и целевом языках. Кроме того, нужно использовать

программное обеспечение, позволяющее построить данную модель. Помимо

этого, в таких случаях обычно используются параллельные тексты для

тюнинга: настройки параметров в модели перевода.

Основной идеей обучения является установление соответствий между

токенами в параллельных корпусах. На первом этапе происходит

выравнивание корпусов по словам, затем алгоритм высчитывает вероятности

соответствий между образованными из токенов фразами обоих текстов.

Помимо этого, вычисляются также вероятности перестановок фраз с

другими. На этапе тюнинга алгоритм определяет веса различных параметров

перевода. Для того, чтобы текст выглядел более естественно, используется

также модель языка – корпус текста на целевом языке, позволяющий узнать

вероятности фраз в этом языке.

Для тестирования результатов построения модели используются как

экспертные, так и автоматические метрики. При экспертной оценке обычно

сравниваются переводы двух моделей. Проводить оценку в идеале должен

человек, владеющий и исходным, и целевым языком (при этом считается, что

важнее хорошее знание целевого языка). Автматические оценки, такие как

описанная в работе [Papineni et al. 2002] метрика BLEUScore, предполагают

Page 10: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

оценку совпадающих униграмм, биграмм, триграмм и квадрограмм, а также,

в некоторых методиках, использование списков синонимов (см. [Banerjee,

Lavie 2005]). Кроме того, некоторые методики основываются на оценке того,

являются ли получившиеся перевода парафразами референтных

предложений (см. [Russo-Lassner, Lin, Resnik 2005]).

Рассмотрим подробнее историю статистического машинного перевода

и основные этапы, которые включает в себя процесс создания статистической

модели.

1.2. История SMT

Изучение статистического машинного перевода началось в конце 1980-

х годов в исследовательском центре компании IBM. В то время модели

перевода были способны лишь находить соответствия между словами двух

языков. При этом, в процессе перевода не учитывалась никакой

лингвистической информации. К удивлению многих специалистов,

результаты оказались достаточно приемлемыми: смысл почти половины

предложений передавался правильно.

Впоследствии, упор был сделан на поиск соответствий между фразами

двух параллельных корпусов. Дальнейшие исследования центра IBM в этом

направлении привели к последовательным улучшениям результата. Важным

шагом в развитии статистического перевода стали использование

совместных вероятностей в модели [Marcu, Wong 2002]. Помимо этого,

немалую роль в распространении фразового машинного перевода сыграла

также модель выравнивания [Och, Ney 2003]. Кроме того, со временем стали

применяться языковые модели корпусы текстов на целевом языке,

позволяющие сделать текст более правильным грамматически.

В 2007 году была представлена полная система перевода Moses,

разработанная [Koehn et al. 2007], покрывавшая все этапы перевода. Данная

система стала основным стандартом в мире статистического машинного

перевода.

Page 11: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

1.3. Основные этапыикомпоненты SMT

1.3.1. Выравнивание по словамПостроение фразовой таблицы для машинного перевода обычно

начинается с установления соответствий между словами в двух

параллельных корпусах. Наиболее популярным иенструментом,

используемым, в том числе, в системе Moses, является GIZA++. Данный

инструмент является модификацией классических IBM-моделей.

Одним из основных недостатков базовых моделей IBM являлось то, что

они позволяли установить соответствие лишь одного английского слова с

каждым из слов иностранного языка. GIZA++ решает эти проблемы с

помощью определенных изменений в алгоритмах. Так, в данном инструменте

производится пословное выравнивание в двух направлениях, на основании

которого формируются конечные соответствия. Благодаря этому, можно

получить выравнивание высокой точности, если взять пересечение обоих

получившихся наборов соответствий. С другой стороны, можно

максимизировать полноту, взяв объединение результатов.

Page 12: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Рисунок 1. Выравнивание по словам

1.3.2. Фразовая таблицаКакое-то время доминирующим подходом к статистическому

машинному переводу был перевод, основывавшийся на взаимных

соответствиях слов. Однако, в со временем этот способ уступил место

фразовому переводу. Преимуществами этого нового взгляда на машинный

перевод является то, что он позволяет:

- переводить фразы, значение которых может быть неочевидно из

состовляющих их слов,

- использовать местный контекст,

- запоминать длинные фразы при наличии достаточного количества

данных.

Каждому переводу фразы присваивается вероятность. К примеру,

посмотрим таблицу из [Koehn 2009], отражающую возможные переводы на

английский немецкой фразы “den Vorschlag” :

Page 13: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Таблица 1. Вероятности перевода фразы "den Vorschlag"

Перевод Вероятность φ(e|f)

the proposal 0.6227

’s proposal 0.1068

a proposal 0.0341

the idea 0.0250

this proposal 0.0227

proposal 0.0205

of the proposal 0.0159

the proposals 0.0159

the suggestions 0.0114

the proposed 0.0114

the motion 0.0091

the idea of 0.0091

the proposal , 0.0068

its proposal 0.0068

it 0.0068

... ...

В этом примере мы можем увидеть:

- лексическую вариативность (proposal и suggestion),

- грамматическую вариативность (proposal и proposals),

- запоминание служебных слов (the и a),

- шум (it).

При этом, нужно заметить, что выделяемые фразы не стоит сводить

лишь к лингвистическим фразам (таким, как именная или глагольная группа).

Часто информативными являются нелигвистические фразы (к примеру,

существительное с последующим предлогом: по существительному можно с

Page 14: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

высокой долей вероятности предположить, каким будет корректный перевод

данного предлога).

Для претворения в жизнь фразового статистического машинного

перевода нужно разделить строку с иностранным текстом на фразы,

перевести каждую фразу на целевой язык и переставить фразы местами для

того, чтобы лучше отражать естественный порядок слов нужного языка.

Соответственно, следующим этапом обучения модели машинного

перевода является, как правило, формирование фразовой таблицы. Эта часть

работы основывается на полученных ранее соответствиях слов друг другу. В

системе Moses используется эвристический метод, описанный в [Och, Ney

2003].

Выравнивание фраз происходит следующим образом: сначала мы

находим пересечение двух пословных выравниванй (текста целевого языка

по словам исходного и наоборот). Затем добавляем к ним примыкающие по

вертикали, горизонтали или диагонали в матрице соответствий соединения.

Мы начинаем с верхнего левого угла (первого слова), затем переходим ко

второму слову и повоторяем этот процесс итеративно для всего

предложения. В конце мы добавляем соединения, не примыкающие к

остальным. При этом важным требованием является то, что точки

соединений должны входить в объединение пословных выравниваний. Кроме

того, добавление каждого соединения должно влечь за собой включение

нового слова, не выравненного ранее.

После этого, происходит извлечение пар фраз: соответствующими друг

другу мы называем те фразы, в которых все слова одной фразы

соответствуют лишь словам другой фразы, и не соответствуют словам за

пределами той фразы. Формально это можно выразить следующим образом:

BP(f1J,e1

J,A) = { ( fjj+m,ei

i+n ) }: forall (i',j') in A : j <= j' <= j+m <-> i <= i' <=

i+n

Получив все фразы, можно посчитать вероятности перевода каждой из

них с помощью относительных частот:

Page 15: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

φ(f|e) = count(f,e) /Σf count(f,e)

Отметим, что похожая модель, основанная на расширении пересечения

множеств выравниваний в пределах их объединения используется у

[Tillmann, 2003].

Кроме того, интерес представляют методы [Venugopal et al. 2003],

позволяющие извлекать фразовые пары, которые неочевидны из-за ошибок в

выравнивании по словам. Такой эффект достигается за счет учета

вероятностей лексического перевода, длинны фраз и иных параметров.

Также стоит упомянуть про подход [Zhang, Vogel 2005], позволяющий

получать пары фраз без предварительного пословного выравнивания.

Согласно изложенному ими принципу, можно искать соответствия сразу

между группами идущях подряд слов.

Вдобавок к этому, при разработке системы статистического машинного

переводаможет быть полезно объединять фразовые таблицы, полученные

разными способами (см. [Vogel et al. 2003]). Более того, некоторые методы

предполагают также рассширение фразовой таблицы за счет включения в нее

специально сгенерированных парафразов (см. [Callison-Burch, Koehn,

Osborne 2003]).

1.3.3. ВероятностнаямодельСогласно правилу Байеса, наилучший перевод ebest для фразы f можно

рассчитать следующим образом:

ebest = argmaxe p(e|f) = argmaxe p(f|e) plm(e)

Здесь, p(f|e) – это модель перевода, а plm(e) – языковая модель.

При этом, модель перевода можно представить как

p(fI1|eI

1) = ПIi=1φ(fi|ei) d(starti − endi−1 − 1),

где φ – вероятность перевода, а d – вероятность перестановки.

Page 16: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

1.3.4. Модель перестановокПерестановки слов являются важной частью статистического

машинного перевода. Действительно, порядок слов существенно различается

во многих языках, особенно если речь идет о языках из разных семей.

Часто проблема отличающегося порядка слов решается с помощью

такого инструмента, как языковая модель. Это справедливо для случаев, в

которых расстояние между словами, которые нужно переставить, не

слишком велико. Чаще всего языковые модели строятся на основе триграмм,

так что такие перестановки могут происходить в пределах окна из трех слов.

Например, при переводе французского выражения affaires extérieures на

английский в языковой модели будет содержаться external affairs намного

чаще, чем affairs external (вероятнее всего, такой фразы не будет вообще),

поэтому external и affairs будут переставлены местами. К сожалению, такое

рассуждение не будет справедливо для языков с порядком слов SOV

(существительное – дополнение – сказуемое), таких как турецкий. Из-за того,

что сказуемое будет стоять в конце предложения, расстояние между

сказуемым в переводе без перестановок и в правильном с точки зрения

целевого языка переводе в таких случаях может существенно отличаться.

Вследствие этого, нужно использовать модель перестановок. (В то время как

для языковой французский-английский можно использовать так называемый

«монотонный перевод» - перевод без специальной модели перестановок).

Чаще всего, имеет смысл ограничить расстояние возможных перестановок

окном из некоторого количества слов. У такого шага есть две цели. Во-

первых, таким образом можно сократить время, расходуемое на вычисление

вероятностей для всех возможных вариантов. Кроме того, слишком большое

окно перестановок может приводить к ухудшению результатов перевода.

Лексикализованная модешль перестановок позволяет вычислить

вероятность того, что пара фраз на целевом и исходном языке имеет

монотонный, обратный или раздельный тип ориентации. Ориентация

называется монотонной (monotone), если в матрице выравниваний

Page 17: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

существует соответствие между словами исходного и целевого языка левее и

выше фразы. Обратной (swap) ориентацию называют, если соответствие

между словами двух языков расположено правее и выше фразы. При этом,

соответстия должны примыкать к углу той части матрицы, которая отражает

рассматриваемую фразу. Тип ориентации считают прерывным (discontinious),

если ни к левому верхнему, ни к правому верхнему углу фразы не примыкает

никаких соответствий между словами исходного и целевого языков.

Рассчитаем вероятность того или иного типа ориентации для данной

пары фраз. Пусть p0(orientation|f, e) – вероятность ориентации фразовой пары

(f, e). Согласно принципу максимального правдоподобия, ее можно

вычислить следующим образом:

p0(orientation|f,e) = count (orientation , e , f )

∑ocount(o , e , f )

Стоит отметить, что из-за разреженности данных в при создании

модели перестановок возникет проблема сглаживания. Для того, чтобы

решить ее, мы можем использовать распределение безусловной вероятности

максимального правдоподобия с каким-либо множителем d.

po (orientation )=∑f∑ecount(orientation , e , f )

∑o∑f∑ecount(o , e , f )

po (orientation∨f , e )=d p (orientation )=count (orientation , e , f )

d+∑ocount (o , e , f )

Также, иногда при построении модели перестановок бывает полезно

прибегнуть к некоторым дополнительным приемам. К примеру, многие

фразы могут сигнализировать не только то, что их нужно переставить, но и

необходимость перестановки следующей за ними фразы. В таком случае

нужно дополнительно построить модель перестановок для последующих

фраз.

Кроме того, время от времени имеет смысл учитывать распределение

ориентации лишь на фразах исходного языка (или только целевого). Это

может помочь в борьбе с недостаточностью данных. Вдобавок к этому,

Page 18: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

можно объединить обратный и прерывный типы ориентации с тем, чтобы

еще сильнее снизить сложность используемой модели перестановок.

1.3.5. Языковыемодели

1.3.5.1. ОсновныеидеиЕще одним ключевым компонентом системы машинного перевода, как

правило, является языковая модель. Языковая модель отражает вероятность

того, что в естественном языке встретится та или иная фраза. Преимущества

использования подобной модели очевидны – она помогает переведенному

тексту быть не только соответствовать оригиналу по смыслу, но и быть легко

читаемым с точки зрения целевого языка.

Языковая модель обеспечивает «гладкость» текста в первую очередь за

счет того, что позволяет более точно выбирать подходящие слова и помогает

определить наиболее правильный порядок слов. Например, вероятностная

языковая модель должна помочь выбрать частотный порядорк слов в

следующем примере:

Plm(the house is small) > Plm(small is the house)

В хорошей языковой модели вероятность первого высказывания будет

значительно выше, чем вероятность второго, поэтому должен быть выбран

вариант с таким порядком слов.

Другим случаем, в котором оказывается языковая модель оказывается

полезна, является лексический выбор. Часто использование того или иного

слова в качестве перевода зависит от контекста, что и позволяет учесть

языковая модель. К примеру, в следующем примере она должна определить

более вероятный вариант:

Plm(I’m going home) > Plm(I’m going house)

Вариант home намного чаще используется после слова going, поэтому

он является предпочтительным с точки зрения вероятностной языковой

модели для английского языка.

Page 19: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Наиболее популярный метод создания языковых моделей -

использование n-грамм. Для того, чтобы рассчитать вероятность той или

иной n-граммы, мы можем сначала рассчитать вероятности каждого

отдельного слова:

p(w1, w2, …, wn) = p(w1) p(w2| w1) ... p(wn| w1, w2, …, wn-1)

Таким образом, вероятность каждого слова равна произведение

вероятностей предшествующих ему слов – истории. Для того, чтобы сделать

вычисления технически возможными, ограничим истории до m слов:

p(wn| w1, w2, …, wn-1) = p(wn| wn-m, …, wn-2, wn-1)

Такая модель, учитывающая лишь ограниченную историю, называется

цепью Маркова. При этом, количество элементов, входящих в историю,

именуется порядком цепи, а сама идея того, что лишь ограниченное

количество элементов цепи влияет на каждый следующий элемент –

предположением Маркова. Вообще говоря, это не является правдой, но его

можно использовать в вычислительных целях. Одной из наиболее

популярных языковых моделей является модель на основе триграмм (то есть,

марковская цепь второго порядка), но могут использоваться также биграммы,

униграммы и n-граммы более высоких порядков.

Для того, чтобы вычислить вероятность того или иного слова при

какой-то заданной истории, нужно лишь посчитать количество употреблений

данного слова в такой ситуации и разделить его на число употреблений такой

истории в корпусе в принципе:

p (w3|w1 ,w2 )=count(w1 ,w2 ,w3)

∑wcount(w1 ,w2 ,w)

Взглянем, к примеру, на вероятности слов для трех следующих

историй в корпусе Europarl, выделенные в [Koehn, 2009]:

Таблица 2. Вероятности следующего слова для истории "the green"

The green (1748 употреблений)

Слово Употребления Вероятность

Paper 801 0,458

Page 20: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Group 540 0,367

Light 110 0,063

Party 27 0,015

ecu 21 0,012

Таблица 3. Вероятности следующего слова для истории "the red"

The red (225 употреблений)

Слово Употребления Вероятность

Cross 123 0,547

Tape 31 0,138

Army 9 0,040

Card 7 0,031

, 5 0,022

Таблица 4. Вероятности следующего слова для истории "the blue"

The blue (54 употребления)

Слово Употребления Вероятность

Box 15 0,296

. 6 0,111

Flag 6 0,111

, 3 0,056

angel 3 0,056

Из этих примеров мы можем видеть, что разные истории действительно

имеют разные вероятностные распределения слов, стоящих за ними. К

примеру, после слов “the red” чаще всего, с вероятностью 0,547, идет слово

”cross”, так как в текстах Европейского парламента, очевидно, часто

употребляет название организации «Красный крест». В то же время, слово

Page 21: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

“cross” в данном корпусе не употребляется после последовательностей слов

“the green” и “the blue”. Вероятность того, что “cross” будет следовать за “the

red”, можно рассчитать как частное числа употрелений слова “cross” после

“the red” и всех случаев употребления слов “the red”: 123225

=0,547.

1.3.5.2. Perlexity

Логичной выглядит идея, что для того, чтобы оценить качество

имеющейся языковой модели, стоит использовать какую-то общую меру.

Одним из наиболее распространенных способов является применение

perplexity – оценки, основанной на кросс-энтропии. Для того, чтобы понять,

как нужно применять данную метрику, вспомним сначала формулу кросс-

энтропии:

H ( plm )=−1n

log plm(w1¿ ,w2 ,... ,wn)=−1n ∑

i=1

n

log plm(wi¿¿w 1, ... ,wi−1)¿¿

Из кросс-энтропии можно легко получить perplexity:

PP=2H ( p¿¿ lm)¿

Покажем применение perplexity на примере предложения из корпуса

Europarl, проанализированного в [Koehn, 2009], и основанной на триграммах

модели. Выберем для данной цели следующее предложение:

I would like to commend the rapporteur on his work.

В качестве маркера начала предложения условимся использовать <s>,

для конца - <\s>.

Таблица 5. Вероятности языковой модели

Предсказанное

лово

plm - log2 plm

plm(i|<\s><s>) 0,109 3,197

plm(would|<s> i) 0,144 2,791

plm(like|I would) 0,489 1,031

plm(to|would like) 0,905 0,144

plm(commend|like 0,002 8,794

Page 22: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

to)

plm(the|to

commend)

0,472 1,084

plm(rapporteur|

commend the)

0,147 2,763

plm(on|the rapporteur) 0,056 4,150

plm(his|rapporteur

on)

0,194 2,367

plm(work|on his) 0,089 3,498

plm(.|his work) 0,290 1,785

plm(<\s>|work.) 0,99999 0,000014

Среднее 2,634

Стоит отметить, что с помощью данной меры мы не просто считаем,

сколько слов было «угадано» правильно. Perplexity основывается на том,

какая вероятность была присвоена действительно встретившимся словам.

Хорошая языковая модель не будет «тратить» вероятности на редко

встречающиеся последовательности слов, так как иначе мало вероятности

достанется более вероятным вариантам.

1.3.5.3. СглаживаниеЕще одним крайне важным моментом при разработке языковой модели

является вопрос сглаживания. Согласно рассмотренной выше модели, если n-

грамма вовсе не встречается в модели, то ей присваивается вероятность,

равная нулю. Возможно, такая оценка является слишком радикальной. Кроме

того, в некоторых случаях она является недостаточно информативной. К

примеру, если модель рассматривает несколько вариантов, каждый из

которых ранее не встречался в текстах, то каждый из них будет иметь

вероятность, равную нулю, и мы никоим образом не может сравнить их друг

с другом. Таким образом, нам нужно присваивать какие-либо вероятности не

Page 23: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

встречавшимся ранее n-граммам. Интересно отметить, что эта проблема

становится все острее при увеличении порядка рассматриваемых языковых

моделей.

Одним из самых простых способов решить проблему нлеовых

вероятностей является сглаживанием с добавлением единицы (или любого

иного фиксированного заранее числа). Для того, чтобы реализовать его,

прибавим по единице к каждому подсчету употреблений. Кроме того, для

того, чтобы получившаяся мера отвечала определению вероятности,

прибавим к количеству встретившихся в тексте n-грамм количество всех

возможных триграмм. Таким образом, формулу для вычисления вероятности

n-граммы можно записать как

p= c+1n+v

Здесь, c – количество употреблений n-граммы, n – количество n-грамм

в корпусе, а v – количество всех возможных n-грамм. Недостатком данного

метода является то, что он присваивает слишком большие вероятности не

встречавшимся ни разу вероятностям. Эту проблему можно исправить,

прибавляя к каждому числу употреблений не единицу, а некоторое число a.

Тогда, формулу можно представить как

p= c+an+av

Определить оптимальное значени a можно, оптимизируя perplexity по a

на каком-либо тестовом тексте.

1.3.5.4. -Сглаживание Гуда ТюрингаТакже популярным вариантом при построении языковых моделей

является сглаживание Гуда-Тюринга. В его основе – идея о том, что все

употребления n-грамм нужно как-либо обработать для того, чтобы получить

более достоверную информацию о том, как часто такая n-грамма может

встретиться в текстах в дальнейшем. Для этого используются данные о том,

сколько n-грамм встречается в корпусе какое-то определенное число раз, а

Page 24: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

таке тех, которые не встречаются вовсе. Для оценки ожидаемой вероятности

используется формула

r '=(r+1 )N r+1

N r

где r’ = ожидаемое количество употреблений n-граммы в тексте, r –

количество употреблений n-граммы в исходном корпусе, Nr – количество n-

грамм, действительно в исходном корпусе r раз.

В качестве примера приведем еще раз статистику из корпуса Europarl

по [Koehn, 2009]:

Таблица 6. Применение сглаживания Гуда-Тюринга

Употреблен

ия

N-граммы с

данным числом

употреблений

Ожидаемое

число

употреблений

Тестовый

подсчет

r Nr r’ t

0 7 514 941

065

0,00015 0,00016

1 1 123 844 0,46539 0,46235

2 263 611 1,40679 1,39946

3 123 615 2,38767 2,34307

4 73 788 3,33753 3,35202

5 49 254 4,36967 4,35234

6 35,869 5,32928 5,33762

8 21,693 7,43798 7,15074

10 14,880 9,31304 9,11927

20 4,546 19,54487 18,95948

К примеру, если мы хотим подсчитать ожидаемое количество

употреблений n-грамм, встречающихся в корпусе четыре раза, то сделать это

можно следующим образом: (4+1 ) 4925473788

=3,33753

Page 25: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Как мы видим, расчетные значение ожидаемого количества

употреблений достаточно близки тестовым показателям. Важным

преимуществом данного метода Шуда-Тюринга является простота

вычислений. С другой стороны, данный способ сглаживания может быть

ненадежен в случаях, когда число употреблений велико (а n-грамм с таким

числом употреблений, наоборот, мало).

1.3.5.6. ИнтреполяцияЯзыковые модели разного порядка можно также сочетать с помощью

интерполяции. Такой подход часто позволяет повысить точность модели и,

кроме того, является дополнительным инструментом в решении проблемы не

встретившихся при построении модели, но потенциально возможных n-

грамм.

Интерполированную языковую модель можно построить с помощью

линейной комбинации моделей разного порядка. Построим, к примеру,

такую модель на основе униграмм, биграмм и тригамм:pI (w3|w1,w2 )=λ1 p1 (w3 )+ λ2 p2 (w3∨w2 )+λ3 p3 (w3|w1 ,w2 )

Таким образом, каждая отдельная языковая модель pn вносит свою

лепту в итоговую оценку. При этом, каждая такая вероятность умножается на

весовой коэффициент λn. Отметим, что для того, чтобы языковая модель pI

оставалась вероятностным настоящим распределением, каждый весовой

коэффициент λn должен находиться в пределах промежутка от нуля до

единицы. Кроме того, сумма всех коэффициентов λn должна равняться

единице:0≤ λn≤1

∑nλn=1

Основная сложность при построении подобной языковой модели –

определение размеров весовых коэффициентов n. Их можно вычислить при

помощи оптимизации на каком-либо тестовом корпусе.

Page 26: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

1.3.5.6. Рекурсивная интерполяцияПри построении интерполированных языковых моделей также

используется понятие рекурсивной интерполяции:

pnI (w i|wi−n+1 ,…,wi−1 )=λw i−n+1 ,… ,w i−1

pn (w i|wi−n+1 ,…,w i−1 )

+(1−λw i−n+1 ,…, wi−1) pn−1

I (wi|wi−n+2 ,…,wi−1 )

Здесь, параметры λ отражают, насколько сильно мы доверяем модели

уровня n. При этом, можно сделать параметры λ зависимыми от истории w i−n+1 ,…,wi−1 - то есть, для каждой конкретной истории в таком случае будет

свое значение параметра. С другой стороны, в реальной жизни у нас вряд ли

получится получить достоверные оценки для каждой конкретной истории:

это потребовало бы наличия слишком большого тренировочного корпуса.

Поэтому, есть смысл сгруппировать данные по какому-либо принципу.

Одним из способов такой группировки могло бы стать, к примеру,

объединение историй по частотности.

1.3.5.7. ОткатИнтересным спобом справиться с проблемой не встречающихся n-

грамм является также откат к n-граммам меньшего порядка в случае, если

рассматриваемая n-грамма не встречалась в исходном корпусе. Определим

формулу рекурсивного отката:

pnBO (wi|w i−n+1 ,…,wi−1 )=dn (w i−n+1 ,…,wi−1 ) pn (wi|w i−n+1 ,…,wi−1 ),

если count n (wi−n+1 ,…,w i )>0;

pnBO (wi|w i−n+1 ,…,wi−1 )=α n (wi−n+1 ,…,w i−1 ) pn−1

BO (w i|wi−n+2,…,w i−1 ) в ином случае.

Таким образом, в ситуациях, когда мы встречаем n-грамму,

встречавшуюся нам в исходном корпусе, мы используем ее вероятность,

иначе – «возвращаемся» к n-грамме на порядок ниже.

Так как для нас важно, чтобы языковая модель оставалась настоящим

вероятностным распределением, нужно удостовериться, что сумма всех

возможных исходов все еще равна единице. Для этого вводится дисконт d,

Page 27: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

принадлежащий отрезку от нуля до единицы, на который умножается

вероятность, получившаяся в языковой модели каждого порядка pn.

Как и в случае с интерполяцией, мы можем захотеть, чтобы параметр d

зависел от истории w i−n+1 ,…,wi−1, для того, чтобы дать преимущества часто

встречающимся n-граммам. Реже встречающиеся истории, в свою очередь,

позволят выставить более высокие оценки α для откатов к n-граммам более

низкого порядка.

1.3.5.8. -СглаживаниеВиттена БеллаСглаживание Виттена-Белла [Witten, Bell 1989] является способом

включить в модель фактор разнообразия возможных предсказываемых слов.

Таким образом, можно будет учесть тот факт, что для некоторых историй

существует мало возможных продолжений с высокой вероятностью, и,

соответственно, вероятность встретить не употреблявшуюся в ранее n-

грамму достаточно мала. В то же время, для других вероятных вариантов

может быть достаточно много, и, в таком случае, существует куда большая

вероятность встретить новую n-грамму. Постараемся определить понятие

многообразия предсказываемых слов более формально. Для начала,

определим количество возможных продолжений истории w1 ,…,wn−1:N1+¿(w ¿¿ 1 ,… ,wn−1)=¿{wn : c (w1 ,… ,wn−1 , wn )>0}∨¿ ¿¿

Здесь, N 1+¿ ¿ - количество возможных продолжений, c – количество

употреблений n-граммы.

Параметры λ, при этом, можно определить следующим образом:1− λw1 ,… , wn−1

=N1+¿

(w¿¿1 ,…, wn−1)N1+¿(w¿¿1 ,… ,wn−1)+∑

w n

c(w1 ,…, wn−1 ,wn)¿¿¿¿

В качестве примера приведем два случая из корпуса Europarl. За словом

spite обычно следует предлог of (из-за очень распространенного в

английском языке словосочетания in spite of). Всего это слово встречается

993 раза, и у него есть 9 различных вариантов следующего слова, однако, 979

раз этим продолжением оказывается of, в то время как на остальные 8

вариантов приходится в общей сложности 14 продолжений.

Page 28: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Сравним эту ситуацию со словом constant, которое в корпусе Europarl

употребляется также 993 раза. Однако, различных вариантов продолжения у

него намного больше, а именно 415.Из них, к примеру, слово and встречается

сразу за constant 42 раза, concern - 27 раз, pressure – 26 раз. Но также

присутствует длинный хвост из слов, употребленных в такой ситуации лишь

один раз. В таком случае, расчеты параметров будут выглядеть следующим

образом:

1− λspite=N1+¿ (spite )

N 1+¿ ( spite )+∑wn

c (spite ,wn )=¿¿¿

¿ 99+993

=0,00898

1− λconstant=N1+¿ (constant )

N 1+¿ (constant )+∑wn

c (constant ,wn )=¿¿¿

¿ 415415+993

=0,29474

В таком случае, мы видим, что для n-грамм со словом spite меньше

вероятности распределяется в пользу варианта с откатом к n-граммам более

низкого порядка, так как в таких случаях вероятность новой n-граммы

достаточно мала. Для n-грамм со словом constant, напротив, для модели с

откатом зарезервирована относительно большая вероятность, так как в таких

случаях вполне может встретиться сочетание constant с каким-либо не

употреблявшимся ранее после него словом.

Также, отметим случай, когда та или иная история встречается лишь

раз. Тогда, 1− λ= 11+1

=0,5

Такая оценка предполагает высокую вероятность не встречавшихся

ранее n-грамм.

1.3.5.9. - СглаживаниеКнезера НеяОдним из наиболее популярным методов сглаживания в наши дни

является сглаживание Кнезера-Нея [Kneser, Ney 1995], учитывающее роль

Page 29: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

разнообразия историй. В методе Кнезера-Нея подсчеты употреблений самих

слов заменяюся на подсчеты историй слов. К примеру, в стандартной

языковой модели, построенное на основе униграмм, оценка вероятности

слова выглядит как:

pML (w )= c (w)

∑iwi

В то же время, оценка вероятности в языковой модели со сглаживанием

Кнессера-Нея для униграмм оценка вероятности будет проводиться

следующим образом:

pKN (w )=N 1+¿(w)

∑w i

N 1+¿(w i)¿¿

N 1+¿ (w )¿ здесь - количество историй. Его можно рассчитать по такой

формуле:N 1+¿ (w )=¿{w i: c (w i , w )>0 }∨¿¿

Возьмем, к примеру, слово york, которое 477 раз употребляется в

корпусе Europarl. Из них, в 473 случаях перед York идет new, и лишь в 4 –

какие-то иные варианты: дважды предлог of, и по одному разу предлоги in и

to (в этих случаях речь идет об английском городе Йорке). В этом случае, мы

будем использовать в расчетах не сами употребления слова york, а четыре его

истории, три из которых справедливо получат намного меньший вес.

1.3.5.10. -Модифицированное сглаживание КнезераНея

Кроме оригинального метода сглаживания Кнезера-Нея, также широко

используется и модифицированное сглаживание Кнезера-Нея. Для того,

чтобы сформулировать его идеи, определим следующим образом

встречавшееся нам ранее понятие интерполяции: p I (wn|w1 ,…,wn−1 )=α n (wn|w1 ,…,wn−1 ),

если count❑(wi−n+1,…,w i)>0;

p I (w1n|w 1,…,w n−1 )=γ n (wn|w1 ,…,wn−1 ) p I (wn|w2 ,…,wn−1 )

Page 30: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

в ином случае.

Таким образом, в формуле вероятности задействовано две функции.

Каждая n-грамме соответствует функция α, отвечающая за ее вероятность.

Кроме того, каждой истории соответствует функция 𝛾, отвечающая за

вероятность, зарезервированную для не встретившихся в тренировочном

корпусе n-грамм. Даннаяя формулировка поможет нам далее дать

определение модифицированному сглаживанию Кнезера-Нея,

предложенному в [Chen, Goodman 1998] (1998).

В основе модифицированного сглаживания Кнезера-Нея лежит идея

абсолютного дисконта, предполагающего вычет определенного, заранее

установленного значения D, принадлежащего отрезку от нуля до единицы из

подсчетов упоминаний для модели, основанной на n-граммах наивысшего

порядка:

α (wn|w1 ,…,wn−1 )=c (w1 ,…,wn )−D

∑wc (w¿¿1 ,…,wn−1 ,w)¿

Однако, наилучшие, по мнению Чена и Гудмана результаты

получаются не при вычете фиксированного значения D из каждого подсчета

употреблений, а при вычислении D для каждого подсчета n-грамм. Они

предложили три разных параметра D для разных количеств употреблений:

D(c) = D1, если c = 1,

D(c) = D2, если c = 2,

D(c) = D3+, если c ≥ 3.

Значения параметров D1, D2 и D3+ можно вычислить следующим

образом:

Y=N1

N1+2N 2

D1=1−2YN 2

N 1

D2=2−3YN3

N2

Page 31: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

D3+¿=3−4Y

N 4

N 3¿

С другой стороны, параметры D могут быть также оптимизированы на

каком-либо корпусе.

Параметр 𝛾, влияющий на вероятность, присваиваемую не

встретившимся ранее n-граммам, предлагается рассчитывать по следующей

формуле:

γ (w¿¿1 ,…,wn−1)=∑

i∈{1,2,3+}DiN i (w 1,…,wn−1∎)

∑wn

(w¿¿1 ,…,wn)¿¿

Здесь, N i (w1 ,…,wn−1∎) для i∈ {1,2,3+} - количество расширений историй w1 ,…,wn−1, встретившихся один, два или три и более раз, соответственно.

Вычислять α для n-грамм более низких порядков предлагается

следующим образом:

α (wn∨w ¿¿1 ,…,wn−1)=N 1+¿ (∎w1 ,… ,wn−D )

∑w N1+¿(∎w¿¿1 ,…,wn−1 , w)¿

¿¿¿¿

Как видно из формулы, для вычисления данного параметра

используется подсчет историй, а не просто подсчет употреблений слов. При

этом, здесь снова используются три разных значчений D (D1, D2 и D3+),

вычисляемые на основе данных об истории w1 ,…,wn−1.

Параметр 𝛾 для языковых моделей на основе n-грамм более низких

порядов вычисляется также, как и для моделей на основе n-грамм наиболее

высокого порядка:

γ (w¿¿1 ,…,wn−1)=∑

i∈{1,2,3+}DiN i (w 1,…,wn−1∎)

∑wn

(w¿¿1 ,…,wn)¿¿

1.3.5.11. Интерполированный откатМодели с откатом определяют вероятности исходя из истории и

предсказанных слов. Но в случае, если данных недостаточно, оценки могут

быть не очень точными. К примеру, пусть мы имеем две n-граммы с

одинаковыми историями, которые встречается по одному разу в

Page 32: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

тренировочных данных. Тогда мы присваиваем предсказываемым словам

одинаковые вероятности. Однако, одно из них вполне может быть выбросом,

в то время как другое – недостаточно представленным в корпусе, но

частотным в текстах на данном языке вариантом. Для того, чтобы

справиться с этой проблемой, можно попробовать использовать откат к

модели, построенной с помощью n-грамм более низкого порядка, даже в тех

случаях, когда n-грамма а самом деле встречается в тренировочном корпусе.

Для этого, можно видоизменить функцию α следующим образом: α I (wn|w1,…,wn−1 )=α (wn|w1 ,…,wn−1 )+γ (w1 ,…,wn−1) pI (wn|w2 ,…,wn−1 )

Функция 𝛾 в таких случаях также должна соответственно уменьшаться.

1.4. ДекодерДекодер в системе Moses работает на основе алгоритма лучевого

поиска (beam search). Важными состовлящими его работы являются

прореживание, оценка будущих издержек и генерация списка n-лучших

вариантов.

У каждой строки на иностранном языке существуют возможные

переводы для составляющих ее фраз. Такие возможные переводы

называются вариантами перевода. Варианты перевода хранятся, основываясь

на следующей информации:

- первое иностранное слово фразы

- последнее иностранное слово фразы

- перевод фразы на английский

- вероятность такого перевода

1.4.1. Основной алгоритмСтроки на целевом языке генерруются слева направо, изначально – в

форме гипотез. Исходная гипотеза расширяется за счет новых вариантов

перевода. Процесс перевода состоит в том, что фразы иностранного языка

заменяются на фразы английского, причем оценивается вероятность каждой

Page 33: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

из таких замен. При этом, слова исходного языка заменяются на звездочки. В

результате, выбирается перевод с наибольшим произведением вероятностей.

Опишем процесс лучевого поиска более формально. Поиск начинается

в исходном состоянии, в котором ни одно иностранное слово не переведено и

не сгенерировано ни одной английской фразы. Новые состояния

формируются с помощью перевода непереведенных еще фраз исходного

языка. Таким образом, происходит генерация строки на целевом языке.

Вероятность нового состояния высчитывается как произведение вероятности

старого состояния, умноженная на вероятность перевода, перестановок и

языковой модели добавляемого перевода.

Рисунок 2. Работа декодера

Каждая гипотеза представляется с помощью:

- обратной ссылки на лучшее предыдущее состояние (необходимо для

поиска наулучшего перевода предложения),

- иностранных слов, переведенных к этому моменту,

- двух послених сгенерированных слов целевого языка (необходима для

вычисления будущих издержек языковой модели),

-конец последней переведенной фразы на иностранном языке

(необходимо для будущих издержек перестановок),

Page 34: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

- последняя добавленная фраза на целевом языке (необходимо для

считывания перевода из последовательности гипотез),

- издержки к этому моменту,

- оценка будущих издержек (вычисляется заранее и хранится в памяти

из соображений эффективности).

Финальные гипотезы включают в себя перевод всех слов строки на

исходном языке. Из них выбирается состояние с наибольшей вероятностью.

1.4.2. Рекомбинация гипотезДве гипотезы можно рекомбинировать (свести к одной), если обе

имеют одинаковые:

- набор переведенных к этому моменту иностранных слов,

- два последних сгенерированных слова целевого языка,

- окончание последней переведенной фразы исходого языка.

В таком случае можно выбрать состояние с наибольшей вероятностью

и отбросить другую гипотезу.

1.4.3. ПрореживаниеПрореживание бывает необходимо для сокращения числа

рассматриваемых гипотез, так как их количество может быть чересчур

большим для имеющихся вычислительных мощностей. Для прореживания

используются, во-первых, текущие вероятности фраз, во-вторых, будущие

издержки перевода и языковой модели. Это обусловлено тем, что если не

учитывать будущие издержки, модель будет считать предпочтительными

гипотезы, уже включающие в себя переводы наиболее легких частей

предложения.

Прореживание может осуществлятсья при помощи относительного

порога или гистограммного прореживания. Для прореживания с помощью

относительного порога нужно выбрать множитель, при умножении

наилучшей текущей вероятности на который будет получаться минимальное

значение вероятности. Гипотезы, вероятность которых меньше

Page 35: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

минимального значения, будут отсеяны. Гистограммное прореживание

просто оставляет лишь какое-либо число наилучших вариантов.

1.4.4. Генерация N- лучших списковДля выбора наилучшего перевода бывает полезно отобрать некоторе

количество переводов предложения на исходном языке и затем переоценить

их при помощи дополнительных показателей.

Наряду с N-лучшими списаками, наборы возможных переводов можно

также представить в виде словесных графов либо структур лесов. Такие

альтернативные структуры позволяют более компактно хранить большие

массивы данных, однако в них намного сложнее выделять глобальные

свойства.

1.5. ТюнингВо время декодинга Moses рассчитывает вероятности перевода,

используя линейную модель. Как правило, в модель включаются вероятности

перевода, перестановок и языковой модели, а также частотность слова, фразы

или правила. Тюнинг – процесс, позволяющий найти оптимальные веса для

этих линейных моделей. При этом, оптимальные веса высчитываются как

веса, позволяющие максимизировать результат на небольшом параллельном

корпусе (тюнинговом сете). Качество перевода оценивается с помощью

одной из автоматических метрик: чаще всего это BLEUScore, но иногда

могут применятсья и другие показатели, такие как TER, PER, CDER и другие.

Стоит отметить, что существует два основных подхода к тюнингу:

пакетный тюнинга и онлайн-тюнинг. Основная идея пакетного тюнинга

состоит в том, что весь переводится сразу весь корпус на исходном языке,

причем в таких случаях обычно формируется n-лучший список. После этого,

веса обновляются в соответствии с результатами получившихся переводов.

Этот процесс итеративно повторятется до схождения по заранее выбранному

критерию.

Page 36: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Опцией по умолчанию в Moses является алгоритм MERT (Minimum

error rate training), описанный в [Och, 2003] и, кроме того, подробно

проанализированный в [Moore, Quirk 2008] – один из наиболее популярных

алгоритм тюнинга. Его ограничением является то, что он не поддерживает

использование более 20-30 признаков для тюнинга.

Также, интерес представляют некоторые идеи усовершенствования

алгоритм MERT. К примеру, в исследовании [Cer, Jurafsky, Manning 2008]

предлагается использовать усредненные значения BLEUScore на некоторых

отрезках для сглаживания кривой. Также предпринимаются попытки

адаптировать симплекс-метод (метод Нелдера-Мида), сформулированный в

[Nelder, Mead 1965].

Помимо этого, обращают на себя внимание идеи увеличения

тюнинговых сетов с помощью использования парафраза, изложенные в

[Madnani et al. 2007].

Онлайн-тюнинг отличается от пакетного тем, что пересчет весов для

линейной модели осуществляется каждый раз при переходе от одной строки

к другой. Такой подход предполагает более тесную интеграцию с декодером.

Алгоритм может проходить через тюнинговый сет несолько раз.

Page 37: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

2. Глава II. Поиск оптимальной сегментации

2.1. Обзор исследованийСуществует ряд работ на английском языке, посвященных влиянию

морфологической сегментации арабского текста на результаты

статистического машинного перевода. В частности, эта проблема

рассматривалась в работе [Mansour, Ney 2012]. Кроме того, похожей целью в

своем исследовании задавались [Habash, Sadat 2006]. Влияние сегментации и

удаления некоторых морфем изучалось в [Zollmann, Venugopal, Vogel 2006].

Помимо этого, сегментацию арабского текста при англо-арабском переводе

успешно применяли [Badr, Zbib, Glass 2008], [Al-Haj, Lavie 2010], что также

может свидетельствовать о возможной пользе такой меры и при переводе на

арабский язык.

2.2. Способы сегментацииДля того, чтобы улучшить качество перевода, часто бывает

целесообразно провести предобработку текста на исходном языке. Примером

такой преобработки может служить изменение порядка слов в предложении,

разделение слов на более мелкие единицы, замена поверхностных форм

морфем или словоформ на глубинные формы либо тэги, добавление

частеречной разметки. В этой работе мы в первую очередь сосредоточимся

на сегментации арабского текста.

Идеей, лежащей в основе наших предположений, является тот факт,

что при отделении некоторых арабских морфем от остальной части слова

будет улучшаться соответствие между арабскими и русскими токенами. Это

обосновывается тем, что в арабском языке некоторые части речи фактически

«приклеиваются» к другим словам в качестве клитиков. Рассмотрим

некоторые случаи подобного соединения слов, сегментация которых может

представлять интерес для статистического машинного перевода с арабского

на русский.

Page 38: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

2.2.1.МестоименияСамым ярким примером слитного написания арабских слов можно

считать объектные местоимения, которые прикрепляются к глаголам. Так, в

слове видеть“ أراها ее” можно выделить ”ее“ ها и .”видеть“ أرا Другим

примером могут служить притяжательные местоимения. Слово его“ كتابه

книга” состоит из притяжательного местоимения ه “его” и существительного

.”книга“ كتاب Помио этого, местоимение может приписываться также к

предлогам – например «к нему» в арабском языке будет писать одним

словом. Также, личные местоимения мошгут писать слитно с некоторыми

союзами и частицами.

2.2.2. ОпределенныйартикльЕще одним случаем, когда представляется логичным разделить слово

на две части, является определенная форма существительных и

прилагательных. Дело в том, что определенный артикль الـ в арабском языке

также пишется слитно с существительным или прилагательным. Однако, в

такой ситуации можеть быть целесообразно не только отделение артикля, но

и его полное удаление. Это обусловлено тем, что в грамматике русского

языка отсутствует категория определенности. Стоит отметить, что два других

состояния существительных – неопределенное и конструктивное – в

арабском языке не выражаются на письме каким-либо явным образом. Это

также справедливо и для прилагетельных в неопределенном состоянии. К

примеру, منزل “дом” будет записываться таким образом в неопределенном и

конструктивном состоянии, в то время как в определенном состоянии это

слово будет выглядеть как ال ”красивый“ جميل Также, прилагательное .منزل

в определенном состоянии будет записываться как в то время как в ,الجميل

неопределенном состоянии артикль будет отсутствовать. Кроме того, стоит

помнить, что определенный артикль несовместим с сущетвительными, к

которым уже «приклеены» притяжательные местоимения.

Page 39: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

2.2.3. Предлоги и союзыЕще одной частью речи, которая может писать слитно с другим словом,

является предлог. Правда, речь идет не о всех предлогах, а лишь о ل “к” и ب

“в, с”. Помимо этого, «приклеиваться» к находящемуся рядом слову могут

такие союзы, как ك “как” и ف “таким образом”. При этом, стоит помнить, что

могут употребляться лишь с именами существительными, в то время ك и ب

как может ل прикрепляться и к именам существительным, и к глаголам.

Вдобавок к этому, к следующему слову в арабском прикрепляется также

союз и”. Он, также как и союз“ و может быть присоединен к любой из ,ف

основных частей речи.

2.2.4. Будущее времяПомимо прочего, стоит упомянуть образование будущего времени в

арабском языке. Существует два способа, позволяющих выразить будущее

время: добавление к глаголу префикса س и использование отдельного слова

, سوف также предшествующего глаголу. При этом, оба варианта являются

равнозначными: к примеру, и سيكتب , и يكتب .”означают “он напишет سوف

Отделение префикса س от глагола в будущем времени выглядит достаточно

логичным шагом, так как в русском языке будущее время также часто

выражается сочетанием вспомогательного слова и глагола. Соответственно,

это может помочь снизить недостаточность данных без серьезного ущерба

для выравнивания по словам. В то же время, возможно, такой шаг может

оказаться избыточным и не привести к серьезным улучшениям в переводе.

2.2.5. ’inna

Интересной особенностью арабского языка является присутствие слова

.إن Это своебразное слово служит для усиления степени сказанного в

предложении и его теоретически можно перевести примерно как

“действительно”. Чаще, правда, это слово никак не переводится на

иностранные языки. Поэтому, выглядит логичным предположение о том, что

удаление данного слова улучшит показатели перевода. Однако, из-за

Page 40: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

редкости употрббелния этого слова в нашем корпусе, в нашей системе оно не

обрабатывается.

2.3. ДиакритикиВажной проблемой, с которой приходится иметь дело при обработке

арабского языка, яляется вопрос диакритиков. Диакритическими знаками в

арабских текстах обозначают краткие гласные. Однако, чаще всего на

практике они не применяются. Использование диакритических знаков

обычно сводится к религиозным тектам, а также к детской и обучающей

литературе. В средствах массовой информации, книгах, деловой и

неформальной переписке диакритики, как правило, не применяются.

Вследствие этого, для целей обработки естественного языка и, в частности,

для машинного перевода, диакритические знаки убираются из текста во

время предобработки. Это позволяет существенно сократить недостаточность

данных.

2.4. Описание экспериментаМодель обучается на основе параллельных арабско-русских корпусов,

состоящих из расшифровок выступлений ораторов на платформе TED. В

каждом из корпусов для обучения – по 116 046 строк, в то время как в

корпусах для тюнинга – по 965 строк, а тестирования – по 976 строк.

Перед обучением модели тексты были очищены от диакретических

знаков. Аналогичным образом, в русскоязычной части были нормализованы

буквы «ё» (заменены на «е»).

Также, была построена языковая модель типа KenLM на

русскоязычной части корпуса. Языковая модель была построена на базе

триграмм. При этом, в ней использовалось модифицированно сглаживане

Кнезера-Нея. Кроме того, в модель были добавлены тэги начала и конца

предложения.

Page 41: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Стоит отметить, что при построении модели арабский и русский тексты

были токенизированы. Также, построение включали в себя создание таблицы

перестановок.

Основной целью эксперимента был выбор наилучшего варианта

сегментации арабского текста – то есть, его оптимальное разбиение по

морфемам. Важно помнить, что оптимальное разбиение редко совпадает с

наиболее подробным разделением текста на морфемы. Более того, излишняя

сегментация может существенно ухудшить показатели машинного перевода.

Вообще говоря, оптимальная для машинного перевода сегментация не

обязана совпадать с грамматически правильной, что показали [Chang, Galley,

Manning 2008] для китайско-английского перевода.

2.5. ИнструментыДля первичного разбиения арабской части параллельного корпуса

использовался такой инструмент, как Stanford Word Segmenter – обучаемый

сегментатор, модель которого была обучена на основе стандарта Penn Arabic

Treebank 3. Одной из наиболее полезных особенностей данного инструмента

является то, что он позволяет отмечать префиксы и суффиксы. Stanford Word

Segmenter работает на основе принципа условных случайных полей. В

предлагаемой версии, он позволяет отделить большинство клитиков.

Исключение состовляет определенный артикль модель обучена таким – ال

образом, что данная морфема не отделяется от слова, к которому она

относится.

Предположение о том, что удаление определенного артикля может

также улучшить перевод выглядело досаточно обоснованным, поэтому было

решено постараться реализовать удаление артиклей. Очевидной причиной к

этому являлось отсутствие артиклей или каких-либо иных показателей

определенности в русском языке. Для выполнения данной задачи был

разработан скрипт на языке Perl, удаляющий в ال начале слов. Для того,

чтобы постараться минимизировать возможные удаления ال в начале слов в

тех случаях, когда это сочетание букв не является артиклем, был сформиован

Page 42: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

список начинающихся таким образом арабских слов. Естественно, такая

методология имеет очевидные недостатки. Список слов ни в коем случае не

можеть считаться исчерпывающим, так как арабский язык является в высшей

степени синтетическим и обладает исключительно богатой морфологией.

Кроме того, предполагалось проверить влияние отделения приставки

,س являющейся одним из вариантов образования будущего времени, на

результаты арабско-русского статистического перевода. Сомнения по поводу

того, необходимо ли ее отделять от остальной части глагола, возникли из-за

того, что в русском языке будущее время части передается одним словом.

Для того, чтобы рещить эту задачу, приставка будущего времени

прикреплялась обратно к следующему за ней слову после работы Stanford

Word Segmenter в текстовом редакторе Akelpad.

Для построения и тюнинга моделей перевода использовалась

описанная ранее система Moses.

Переводы оценивались по автоматической метрике BLEUScore с

максимальным размером n-грамм, равным четырем. При оценке текста он

был токенизирован. При этом стоит отметить, что при построении модели не

проводилось рекейсинга, поэтому полученный машинный перевод

сравнивался с референтным корпусом без учета регистра.

2.6. ЭкспериментыВ данной работе было решено рассмотреть четыре эксперимента:

- базовый эксперимент, в котором арабская часть параллельных

корпусов, используемых для обучения, тюнинга и тестирования не

сегментировалась,

-эксперимент с сегментацией, в котором корпусы были

сегментированы инструментом Stanford Word Segmenter,

- эксперимент с удалением определеннго артикля, где в качестве

основы также использовался сегментированный текст,

- эксперимент с обратным присоединением приставки будущего

времени к следующему за ней глаголу в сегментированном тексте.

Page 43: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

2.7. РезультатыВ ходе экспериментов, были получены следующие результаты:

Таблица 7. Результаты экспериментов

Эксперимент BLEUScore

Базовый 13.85

Сегментированный 14.81

Удаление артикля 14.66

Присоедннение приставки

будущего времени13.6

Таким образом, как мы видим, наилучший результат был достигнут при

сегментации арабской части параллельного корпуса с помощью инструмента

Stanford Word Segmenter. Он почти на 1 балл превосходит базовый

эксперимент. Удаление определенного артикля ведет к небольшому – 0,15

баллов – ухудшению результата. Правда, при интрепретации данного

результата стоит учитывать несовершенство методологии, которая была

использована при постановке опыта. Несколько удивительным может

оказаться тот факт, что наихудший результат был получен при отделении

всех морфем согласно выдаче Stanford Word Segmenter, кроме приставки,

обозначающей будущее временя.

Page 44: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

ЗаключениеВ данной работе был проведен эксперимент по использованию

морфологической сегментации арабского текста для улучшения качества

статистического машинного перевода.

В теоретической части работы были рассмотрены основные идеи

статистического машинного перевода. В частности, был описан процесс

выравнивания текстов параллельного корпуса по словам, построение

фразовой таблицы и таблицы перестановок. Кроме того, были изучены

наиболее популярные в наши дни способы построения языковых моделей.

Помимо этого, было разработано четыре основных варианта сегментации

арабского текста. Гипотезы об этих вариантах были сформулированы на

основе сведений о граматике арабского языка. Затем, были выбраны

программные средства, позволяющие обрабатывать арабскую часть корпуса

нужным для исследования образом. Базовая сегментация проводилась с

помощью инструмента Stanford Word Segmenter, а дальнейшее

видоизменение арабской части корпуса – при помощи языка

программирования Perl и текстового редактора Akelpad. Кроме того, для

построения модели статистического машинного перевода использовалась

система Moses.

В результате была проведена серия экспериментов, в ходе которой

было обучен четыре модели машинного перевода согласно вышеупомянутым

схемам морфологической сегментации арабского текста. По результатам

оценок получившихся текстов был выбран наилучший с точки зрения

статистического машинного перевода вариант разбиения арабских слов на

морфемы – этим вариантом оказалось базовая сегментация, предполагающая

отделение вспомогательных частей речи, которые пишутся отдельно в

русском языке. При этом, данный вариант морфологической сегментации

привел к улучшению на 0,95 пунктов по метрике BLEUScore. Таким образом,

работа показала, что использование морфологической сегментации

Page 45: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

действительно способно улучшить качество статистического машинного

перевода с арабского на русский язык.

Page 46: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Список использованной литературы1. Сайт системы Moses. URL: http://www.statmt.org/

2. Al-Haj H., Lavie A. The Impact of Arabic Morphological Segmentation on

Broad-coverage English-to-Arabic Statistical Machine Translation //

Machine Translation, Vol. 26, No. 1/2, Machine Translation for Arabic

(March 2012), pp. 3-24. URL:

https://www.cs.cmu.edu/~alavie/papers/AMTA-10-Hassan.pdf

3. Badr I., Zbib R., Glass J. Segmentation for English-to-Arabic Statistical

Machine Translation // Proceedings of the 46th Annual Meeting of the

Association for Computational Linguistics on Human Language

Technologies: Short Papers. URL: 153-156.

http://www.aclweb.org/anthology/P08-2#page=185

4. Banerjee S., Lavie A. METEOR: An Automatic Metric for MT Evaluation

with Improved Correlation with Human Judgments // Proceedings of

Workshop in Intrinsic and Extrinsic Evaluations Measures for MT and/or

Summarization at ACL. URL:

https://www.cs.cmu.edu/~alavie/papers/BanerjeeLavie2005-final.pdf

5. Brown P., Cocke J., Della Pietra S., Della Pietra V., Jelinek F., Mercer R.,

Roossin P. A Statistical Approach To Language Translation //

COLING'88 (Association for Computational Linguistics) 1: 71–76. URL:

http://dl.acm.org/citation.cfm?id=991651

6. Callison-Burch C., Koehn P., Osborne M. Improved Statistical Machine

Translation Using Paraphrases // Proceedings of the Human Language

Technology Conference of the North American Chapter of the ACL, pages

17–24, New York, June 2006. URL:

http://www.aclweb.org/anthology/N/N06/N06-1003.pdf

7. Cer D., Jurafsky D., Manning C. Regularization and Search for Minimum

Error Rate Training // Proceedings of the Third Workshop on Statistical

Page 47: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Machine Translation, pages 26–34, Columbus, Ohio, USA, June 2008 URL:

http://www.aclweb.org/anthology/W/W08/W08-0304.pdf

8. Chang P., Galley M., and Manning C. Optimizing Chinese Word

Segmentation for Machine Translation Performance // Proceedings of the

Third Workshop on Statistical Machine Translation, pages 224–232,

Columbus, Ohio, USA, June 2008. URL:

http://nlp.stanford.edu/manning/papers/acl08-cws-final.pdf

9. Chen S., Goodman J. An Empirical Study of smoothing techniques for

Language Modeling // ACL '96 Proceedings of the 34th annual meeting on

Association for Computational Linguistics, pages 310-318, Association for

Computational Linguistics Stroudsburg, PA, USA,1996 URL:

http://www.speech.sri.com/projects/srilm/manpages/pdfs/chen-goodman-tr-

10-98.pdf

10.Habash N., Sadat F. Arabic Preprocessing Schemes for Statistical Machine

Translation // Proceedings of the Human Language Technology Conference

of the North American Chapter of the ACL, pages 49–52, New York, June

2006. URL: http://www.mt-archive.info/HLT-NAACL-2006-Habash.pdf

11.Habash N., Sadat F. Combination of Arabic Preprocessing Schemes for

Statistical Machine Translation // Proceedings of the 21st International

Conference on Computational Linguistics and 44th Annual Meeting of the

ACL, pages 1–8, Sydney, July 2006. URL: http://dl.acm.org/citation.cfm?

id=1220176

12.Koehn P., “Statistical Machine Translation”, Cambridge University Press,

New York, 2009

13.Koehn P., Hoang H., Birch A., Callison-Burch C., Federico M., Bertoldi N.,

Cowan B., Shen W., Moran C., Zens R., Dyer C., Bojar O., Constantin A.,

Herbst E. // Moses: Open Source Toolkit for Statistical Machine

Translation, Annual Meeting of the Association for Computational

Linguistics (ACL), demonstration session, Prague, Czech Republic, June

Page 48: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

2007. URL: http://homepages.inf.ed.ac.uk/pkoehn/publications/acl2007-

moses.pdf

14.Kneser R., Ney H. Improved Backing-Off for m-gramm Modeling //

Proceedings of IEEE International Conference on Acoustics, Speech and

Signal Processing, volume 1, pages 181-184, 1995. URL:

https://www.semanticscholar.org/paper/Improved-backing-off-for-M-gram-

language-modeling-Kneser-Ney/

9548ac30c113562a51e603dbbc8e9fa651cfd3ab/pdf

15.Madnani N., Ayan N., Resnik P., Dorr B. Using Paraphrases for Parameter

Tuning in Statistical Machine Translation // Proceedings of the Second

Workshop on Statistical Machine Translation, pages 120–127, Prague, June

2007. URL: http://www.aclweb.org/anthology/W07-0716

16.Mansour S., Ney H. Arabic-Segmentation Combination Strategies for

Statistical Machine Translation // (LREC), pages 3915-3920, Istanbul,

Turkey, May 2012. URL:

http://www.lrec-conf.org/proceedings/lrec2012/pdf/509_Paper.pdf

17.Marcu D., Wong W., A Phrase-Based, Joint Probability Model for Statistical

Machine Translation // Proceedings of the Conference on Empirical

Methods in Natural Language Processing (EMNLP), Philadelphia, July

2002, pp. 133-139. URL: http://www.aclweb.org/anthology/W02-1018

18.Moore R., Quirk C. Random Restarts in Minimum Error Rate Training for

Statistical Machine Translation // Proceedings of the 22nd International

Conference on Computational Linguistics (Coling 2008), pages 585–592,

Manchester, August 2008. URL: http://www.aclweb.org/anthology/C08-

1074.pdf

19.Nelder J., Mead R. A Simplex Method For Function Minimization // The

Computer Journal (1965) 7(4): 308-313. URL:

http://comjnl.oxfordjournals.org/content/7/4/308.full.pdf+html

20.Och F., Minimum Error Rate Training in Statistical Machine Translation //

ACL '03 Proceedings of the 41st Annual Meeting on Association for

Page 49: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Computational Linguistics - Volume 1 Pages 160-167. URL:

http://www.aclweb.org/anthology/P03-1021

21.Och F., Ney H. A Systematic Comparison of Various Statistical Alignment

Models // Journal Computational Linguistics Volume 29 Issue 1, March

2003, pages 19-51,  MIT Press Cambridge, MA, USA. URL: http://dl.acm.org/citation.cfm?id=778824

22.Papineni K., Roukos S., Ward T., Zhu W. BLEU: a Method for Automatic

Evaluation of Machine Translation // Proceedings of the 40th Annual

Meeting of the Association for Computational Linguistics (ACL),

Philadelphia, July 2002, pp. 311-318. URL:

http://aclweb.org/anthology/P/P02/P02-1040.pdf

23.Russo-Lassner G., Lin J., Resnik P. A Paraphrase-Based Approach to

Machine Translation Evaluation // Technical Report UMIACS-TR-2005-57,

University of Maryland, College Park, 2005. URL:

https://cs.uwaterloo.ca/~jimmylin/publications/Russo-

Lassner_etal_TR2005.pdf

24.Tillmann C., A Projection Extension Algorithm for Statistical Machine

Translation // Proceedings of the 2003 conference on Empirical methods in

natural language processing, pages 1-8, 2003. URL:

http://www.aclweb.org/old_anthology/W/W03/W03-1001.pdf

25.Venugopal A., Vogel S., Waibel A. Effective Phrase Translation Extraction

from Alignment Models // ACL '03 Proceedings of the 41st Annual Meeting

on Association for Computational Linguistics, Volume 1, Pages 319-326.

URL: http://www.aclweb.org/anthology/P03-1041

26.Vogel S, Zhang Y., Huang F., Tribble A., Venugopal A., Zhao B., Waibel

A. The CMU Statistical Machine Translation System // Proceedings of the

MT Summit IX. New Orleans, LA. September 2003, URL:

http://www.cs.cmu.edu/~bzhao/publications/MTSummit2003-CMUSys.pdf

27.Witten I., Bell T. The zero frequency problem: estimating the probabilities

of novel events in adaptive text compression // 1-Apr-1989, URL:

Page 50: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

http://dspace.ucalgary.ca/bitstream/1880/46607/2/1989-347-09.pdf

28.Zhang Y., Vogel S. Competitive Grouping in Integrated Phrase

Segmentation and Alignment Model // Proceedings of the ACL Workshop

on Building and Using Parallel Texts, pages 159–162, Ann Arbor, June

2005. URL: http://www.aclweb.org/anthology/W05-0829

29.Zollmann A., Venugopal A., Vogel S. Bridging the Inflection Morphology

Gap for Arabic Statistical Machine Translation // Proceedings of the HLT-

NAACL 2006, Short Paper, New York City, NY. URL:

http://www.cs.cmu.edu/~ashishv/dist/hlt2006-morph.pdf

Page 51: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

1. Приложение Фрагментытестового корпусаТаблица 8. Переведенные предложения

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

ليس بأنه أدرك لذاالممكن .من

итак, я знаю, что

не может.

итак, я знаю, что

не может.

итак, я знаю, что

не может.

Поэтому

понимаю, что не может.

Я точно, что это

невозможно.

الوحيد السؤالالعصير؟ احتواه مالذي كان،

единственный

вопрос, что было احتواه.?

это

единственный вопрос,

что احتوا ee العصير?

единственный

вопрос был, что его احتوا сок?

это был

единственный вопрос,

Что العصير ?احتوا

Весь вопрос был

в том, что у него в

стакане?

كل في جيدا عملن

ليلة каждую عملن

ночь.

каждую عملن

ночь.

каждую عملن

ночь.

хорошо в عملن

каждую ночь.

Мы работали по

ночам.

نساعد فنحن

. أنفسناмы помогаем

сами себе.

мы помогаем

сами себе.

мы помогаем

сами себе.

Мы помогаем

сами себе.

Мы помогаем

сами себе.

أن نعرف فنحن إذا. الغربان من الكثير هناك

ذكية أنها الى توصلنا لقديعلمون أنهم وعرفنا حقا،

البعض .بعضهم

если мы знаем,

что есть много ворон. и

мы придумали, что

действительно умные,

мы считали, что они

знают друг друга.

итак, мы знаем,

что есть много ворон. и

мы обнаружили, что они

действительно умные,

мы знали, что они знают

друг друга.

итак, мы знаем,

что есть много ворон. и

мы обнаружили, что это

действительно умные,

мы знали, что они знают

друг друга.

если мы знаем,

что есть много ворон. Я

Мы обнаружили, что это

действительно умные, и

мы знали, что они знают

друг друга.

Итак, мы узнали,

что ворон имеется много,

что они очень умны, и

что они учатся друг у

друга.

Page 52: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

لنا جميعا أننا أعتقدنهاية في األختيار حرية

خطأ هو ما نفعل اال .األمر

я думаю, что все

нам свободу األختيار в

конце концов не делать

то, что это неправильно.

я думаю, что мы

все наше свобода

выбора, в конце концов,

мы раму., что это

неправильно.

я думаю, что мы

все мы свобода выбора в

конце концов не делать

то, что такое плохо.

я думаю мы все

мы делаем то, что

свобода выбора в конце

концов это Но

Неправильно.

Я думаю, у нас у

всех есть выбор в итоге

не делать плохих вещей.

اليوم يحدث وهذاэто происходит

сегодня.

и это

происходит.

и это

происходит.

и это

происходит сегодня.

Это происходит

сегодня.

على يعمل فهو لذاالواقع في يمكن هناك أداة

كامال النظام .تغيير

итак, это

работает на инструмент,

там может на самом деле

изменить систему

разнообразию.

так что он там на

самом деле, который

может изменить целую

систему.

поэтому он

инструмент есть на

самом деле может

изменить систему на.

поэтому он

инструмент Есть целую

систему на самом деле

можно изменить.

Сейчас он

работает над

инструментом, который

может изменить всю

систему.

من هل اآلنالوضع نرى أن الممكن

للعالم؟ اإلقتصادي

теперь возможно

ли, что мы видим, что

экономического

развития мира?

теперь возможно

ли, что мы видим

финансов мир?

это возможно

ли, что мы видим

финансов мира?

теперь возможно

ли, что мы видим

финансов мира?

И теперь давайте

взглянем на

экономическую

ситуацию в мире.

اعطي دعوني مثاال

позвольте мне -

один пример.

позвольте мне

показать пример.

позвольте дать

пример.

Позвольте дать

пример.

Позвольте

привести пример.

الهلع اصابني وقد и الهلع اصابني и он не الهلع и упал هلع меня. и, я, меня الهلع Мне

Page 53: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

меня. становилось страшно.

هو الهدف أن لو ، الحراري اإلحتباس ظاهرة

عظيما يفعلونه ما .فإن

если бы наша

цель - феномен

глобального потепления,

то, что они прекрасно.

если бы наша

цель - глобального

потепления, они делают

то, что очень важно.

если цель -

глобальном потеплении,

то, что то, что они

делают, очень важно.

если цель -

глобального потепления,

то, что они делают

Ракета.

Если их цель -

вызвать глобальное

потепление, то они

прекрасно справляются.

يمكن فكيف إذاهذا؟

итак, как это

возможно?итак, как это?

итак, как это

возможно?Если Как Это?

Так как же это

возможно?

أماكن في وهي

هذه مثلи в таких местах,

как эти

и именно в такие

места.

и это в таких

местах.

и это вот такие

места.

И они выглядят

вот так.

الكثير لدي ولكن

اعاني التي االمور من

فهمها في بمشكلة

но у меня есть

много вещей, которые у

меня بمشكلة в.

но у меня есть

много вещей, которые, у

меня проблема для

понимания.

но у меня есть

много вещей, которые, у

меня проблема для

понимания.

Но У много

вещей, которые у меня,

проблема в понять.

Но есть

множество вещей,

которые мне трудно

понять.

تباين هناك ربما

األشخاص .بينвозможно, есть

различие между людьми.

возможно, есть

различие между людьми.

возможно, есть

несоответствие между

людьми.

Возможно, есть

различие между людьми.

Возможно, есть

изменения.

به نقوم ما وهذا

الذي التالي المشروع في

и это то, что мы

делаем в следующий

и это то, что мы

делаем в следующий

и это то, что мы

делаем в следующий

и это то, что мы

делаем в Следующий

И это то, чем мы

занимаемся в нашем

Page 54: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

عنه .. ساتحدثпроект, который, я

расскажу об этом.

проект, который я

расскажу о.

проект, который я

расскажу о.

проект, о которой я

расскажу.

следующем проекте, о

котором я вам расскажу.

جزيال .شكراспасибо вам

большое.

большое

спасибо.

большое

спасибо.Спасибо.

Большое

спасибо.

هذه تكون بهذا، و

عن الجديدة الفكرة هي

الجاذبية عمل .كيفية

и это, может

быть это новая идея о

том, как работает

гравитация.

и это может

быть, это новая идея о

том, как работает

гравитация.

и это, вы это

новая идея о том, как

работает гравитация.

и это, быть Идея

Новые о том, как

работает гравитация.

В этом и

состояла новая теория о

том, как на самом деле

действует гравитация.

أن أريد واآلن

مختلف شيء عن أتحدث.تماما

теперь я хочу

поговорить о том, что

совсем по-другому.

и теперь я хочу

поговорить о сильно

отличается.

и что я хочу

поговорить о сильно

отличается.

и теперь я хочу

поговорить о сильно

отличается.

А теперь

поговорим о чем-то

совершенно ином.

نوع كان هذا اذنالنجاح من

итак, это был

своего рода.

итак, это был

своего рода.

итак, это был

своего рода.

Итак Это был

своего рода.

Вот вам пример

успеха.

لماذا حينها وعلمت

. لقد أتعلمون، كذلك فكر

فائق بشكل مصنوعة كانت

.الجمال

я знал, тогда

почему подумайте есть.

знаете, это было

невероятно из فائق

красоту.

и когда я узнала

о том, почему это так.

знаете, это было сделано

.и красоту فائق

и я поняла,

почему ee есть.: знаете,

они были сделаны по

очень красиво.

и поняла,

Почему Подумайте так.

Знаете, Это было

сделано как очень

Красота.

И я поняла,

почему он так подумал -

это было настолько

красиво сделано.

؟ تقرأه " مالذي что вы читаете? что вы читаете? что вы читаете? Что вы читаете? Что вы читаете?

Page 55: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

". ". ". ".

فقط منهم واحد

من الثقة اكتساب هو

نعمل الذين األشخاصالميدان في .معهم

один из них - это

доверие людей, с اكتساب

которыми мы работаем,

в поле.

один из них - это

ощутить уверенность

людей, которые работали

с их в системе.

один из них -

ощутить уверенность

людей, с которыми

работали в системе.

один из них

только - от доверие

людей, которые работали

с их в системе.

Одна из них -

это завоевать доверие

людей, с которыми мы

работали во время

полевых исследований.

للناس بالنسبةويبحثون هناك كانوا الذين

كان لقد القسم، ذلك في .ملحوظا

для людей,

которые были там

в этой части:, он ويبحثون

был выдающимся.

для тех, кто они

есть на - и в этом, он был

замечательным.

для людей,

которые были там, и в

это часть всего, он был

замечательным.

для людей,

которые были там и

смотрели на это область

мозга, он был

выдающимся.

Для тех, кто

ищет в холодильнике,

это стало заметным.

نفسي أوصلتالبحيرة من لجانب

себя أوصلت

.из озера لجانب

себя اوصلت

.берега озера لجانب

себя اوصلت

.берега озера لجانب

اوصلت لجانبсебя от берега озера.

Я добрался до

другого берега.

الجلسة في لكن و

أنهم, بالفعل إعترفوا الثانية , ما أبدا ذلك ليفعلوا كانوا ما

البالد تلك في يفعلوهأو, ألمانيا في هنا األخرى

هكذا و بريطانيا .في

но на собрании

секунду, что они ليفعلوا ,на самом деле ,إعترفوا

они этого никогда не, то,

что к в этой стране, и

вот, в германии, или в

великобритании и так

но, на самом

деле они اعترفوا встречи

2. то, что они делают это

для того, что делать в эти

страны, здесь, в

германии, или другие в

британии, и так далее.

но в перерыве 2.,

на самом деле اعترفوا

они то, что они, чтобы

делать то, что они

никогда в эти страны

другой, здесь, в

германии, или в

Но в отведенное

Вторая, потому что они

это делают то, что они

уже اعترفوا Никогда, то,

что делать в эти страны

других, здесь, в

Германии или в

Но уже на

второй встрече, они

признали, что не будут

больше заниматься этим,

что они откажутся от

этой практики в тех

странах, здесь, в

Page 56: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

далее.великобритании и так

далее.Британии и так далее.

Германии, в

Великобритании и так

далее.

الحقيقة، في ولكن

بطريقة يعمل الكاشف هذا

نوعا غريبة

но на самом

деле, это как бы الكاشف работает в каком-то

смысле.

но на самом

деле, это الكاشف странным образом, как

работает.

но на самом

деле, это детектором

немного странным

образом работает.

но на самом

деле, это الكاشف Немыслимо как

работает.

Но на самом

деле, все не так просто.

بتعليمي قام لقدألنها جيدة مادة الفيزياء أن

عن كثيرة أمور تعلمناحولنا من .العالم

он хорош,

потому что мы узнали

много вещи بتعليمي, что

физики материал о мир

вокруг нас.

он образования,

что физика материал,

потому что мы узнали

много хороших вещей о

мир вокруг нас.

он создал

образования, что физика

материал, потому что мы

узнали много хороших

вещей о мир вокруг нас.

Он образования,

что физика материал,

потому что это хорошо,

мы много вещи о мир

вокруг нас.

И он рассказал

мне, что физика - это

круто, потому что она

может объяснить нам

устройство

окружающего мира.

شيئا يكون لذا . جيدا

так что, может

быть очень хорошо.

итак, это что-то

очень хорошо.

так что может

быть что-то очень

хорошо.

Поэтому было

бы неплохо.

Это было бы

отлично.

إحدى هي هذه و

عنها أتحدث التي األساليبنقوي أن يمكننا أننا هي

ال أشياء لنفعل أنفسنا

а это один из

методов, о которых я

говорю, это то, что мы

можем نقوي себя,

и это одна из

методы, о которых я

говорю о том, что можно

себя, чтобы делать نقوي

и это одна из

методы, о которой я

говорю, это то, что мы

можем نقوي себя, что мы

и это одна из

такому, о которой я

говорю, это то, что мы

можем نقوي себя, что мы

И это - то, о чем

я говорю - мы можем

дать себе право делать

вещи, которые не могут

Page 57: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

, لنا فعلها األطباء يستطيعو المعرفة نستخدم أن وهو

أساسها على .نتصرف

давайте сделаем прочее.

не может сделать нас

врачи, и использовать

знания и ведем себя на

.أساسها

вещи, которые не могут

сделать для врачей, и это

то, что мы используем

знание, и мы действуем

на основе.

делаем вещи не может

доктора сделать для нас,

и это использовать

знания и реагировать на

основе.

делаем вещи, которые не

может Доктора сделать

для нас, и это то, что мы

используем Знание и

реагировать на основе.

делать врачи, то есть

использовать знания и

действовать.

تستطيع فأنت

بها .القيامвы можете

сделать.

вы можете

сделать.

вы можете

сделать.

вы можете

делать.

Так, что Вы

можете это сделать.

, الحظ لحسن و

. أنقذتهк счастью, أنقذته.

к счастью, она

спасла.

к счастью,

своего рода.

и, к счастью,

спасла.

К счастью, он

выжил.

بسيط مثال انه .. جدا

это очень очень

простой пример.

это очень

простой пример.

это очень

простой пример.

Это очень очень

простой пример.

Очень простой

пример.

طريقة هذه ليست".عملي

это не способ

работы. "это не моя как ".

это не способ

работы. "

это не способ

работы. "

Это не то, как

работает эта система".

لكن فنانين، لدينالم أننا الحظ لسوءاآلن حتى .نكتشفهم

у нас есть

художники., но, к

сожалению, мы не

.даже сейчас نكتشفهم

у нас есть

художника, но, к

сожалению, что мы не

должны их пока.

у нас есть

художники, но, к

сожалению, что мы не

должны их даже.

у нас есть

Артисты, но, к

сожалению, что мы не

должны их Пока.

У нас есть

художники, но, к

сожалению, мы их еще

не открыли.

من أنهم نحس كنا

األمس . عهد

мы نحس они из

его вчера.мы испытывать

мы мы

несчастны, что их эрой

мы нас

обуревает Они из эры

Нам казалось,

что они пережитки

Page 58: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

их, со вчера. вчера. вчера. прошлого.

ليسوا انهم اال. كذلك

но они не так. но они не так. разве они не так. но они не так.И все же -

разные.

اآلونة هذه فى

نخبر , التى القصة بالذاتجماعي بشكل أنفسنا بها

أننا األشياء هذه كل نريد أنناالبترول نريد

в последнее

время конкретном,

история, мы хотим نخبر исключительно на себе,

что мы хотим нефти, все

эти вещи.

в это время я,

которые мы сами

рассказываем истории,

это то, что мы хотим,

чтобы جماعي все эти

вещи, что мы хотим

нефти

в это время, и,

как мы себе

рассказываем истории,

коллективно, что мы

хотим, чтобы все эти

вещи, что мы хотим,

чтобы нефть

в это время я,

история, мы

коллективно, что мы

хотим себя, что все эти

вещи, что мы хотим

нефть

Сейчас точка

зрения, которую мы все

признаем, заключается в

том, что нам все это

нужно, что нужна нефть.

مشكلة وهي

واجتماعية .. كبيرة داخلية أيضا

и проблемой

.واجتماعية .быстро داخلية

и именно это

внутреннее проблема.

большой. и социальные.

и проблема -

большой. и также.

и это проблема,

это внутреннее большой.

и социальные.

Но это еще и

огромная социальная

проблема.

الجهاز هو هذا

في يحتاجه الذي الوحيدالمهمة .هذه

это устройство,

единственное, нужна, в

этой задаче.

это устройство,

которое нужно только в

этой задаче.

это устройство

единственным,

необходимо его в этой

задаче.

это устройство

единственным, нужна в

Это Миссия.

Это

единственное

устройство, необходимое

для лечения.

ضده سيجادل إذا если سيجادل если вы يجادل если вы يجادل Если سيجادل Теперь -

Page 59: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

против. против. против. Выступление "против".

أن أريد فقط أنامنتجك؟ -- هو ما أعرف

я только хочу

знаю. - то, что ваш?

я просто хочу

знаю. - то, как продукт?

я просто хочу

знать, что это продукт

вас?

я только хочу

знаю - то, что продукт,

который вы?

Мне просто надо

знать, с чем это едят.

هامة فترة إنها.للغاية

это время для

очень.

это очень

важный период.

это очень

важные период.

что это очень

важный некоторое

время.

Это очень

важный период.

كان بدء، ذي بادئكانت ما تكن ولم مستحيال،

.عليه

во-первых,

когда-либо

происхождения, это

было невозможно, не

было то, что она есть.

прежде всего,

было невозможно, и это

не то, что она начала.

прежде всего,

было невозможно, и это

не то, чем была.

прежде всего,

было невозможно, и

начать Во-первых, она не

было.

Во-первых, это

было невозможно, во-

вторых, это не то же, что

было.

بتحليل قام ثم.البيانات

а потом он

анализ данных.

затем он анализ

данных.

затем он анализ

данных.

Затем Он Анализ

данных.

Затем он

проанализировал

данные.

أن أعتقد لكنيشيء إلى تحتاج قد اللوحة

االنضباط من

но я думаю, что

нужно что-то االنضباط картину.

но я думаю, что

нужно что-то для.

но я думаю, что

эта картина, нужно что-

то вроде:

но я думаю, что,

нужно что-то для.

Но я думаю, и

тут не помешало бы

добавить еще

Page 60: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

дисциплины.

الوقت لديناألمور الوقت لدينا للتفكير،

الفن عن التحدث مثل،

القبيل هذا من .وأمور

у нас есть время

мышления, у нас есть

время ألمور как,

например, говорить о

искусство и так далее и

тому подобное.

у нас есть время

думать, у нас есть вещи,

то же время, как об

искусстве, вещи, и так

далее.

у нас есть время

мышления, у нас есть

время вещи как,

например, говорить об

искусстве все в этом

роде.

у нас есть время

думать, у нас есть время

вещи, как, например,

говорить о Искусство И

вещи вроде того.

У нас есть время

подумать, у нас есть

время еще не знаю на

что, на разговоры об

искусстве и подобные

темы.

يبحثون ما هذا

.عنه

это то, что они

об этом.это то, что ищут. это то, что ищут. это то, что ищут.

Это то, что их

волнует.

في وتقول

سأسامح .. ربما نفسك.. نفسي

и в себя.

возможно, سأسامح себя.

эпстайн. и в

себя. может быть اسامح себя.

и говорите в

себя. может быть اسامح себя.

и говорите в

себя. Возможно ساسامح

себя.

Может быть, я

должен извиниться.

على حصلت لقدالواليات في اجري بحث

فيه كان االمريكية المتحدةالشيقة المعلومات بعض

я получил это

вышла в соединенных

штатах, в котором

некоторые интересные.

я получил по

бегу, в сша был в

некоторые интересные

информации.

я получил

исследования вышла в

сша был в интересные

некоторые данные.

я провожу

исследование Я получил

в США был в Некоторые

интересные информации.

Я изучила, что

происходит в этом

контексте в

Соединенных Штатах, и

сделала несколько

интересных открытий.

عام في это в 2007 году это в 2007 году, это в 2007 году, это в 2007 году, В 2007 году ذلك

Page 61: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

بنصف 2007 فريقنا وفاز ،

خالل من دوالر مليون

في الثالث المركز احتاللالمسابقة .هذه

наша менее чем за وفاز

миллионов долларов за

последние три года она в

этой المسابقة.

и он, наша полмиллиона

долларов через احتالل третий из этих المسابقة.

и выиграл, наша

полмиллиона долларов

через вторжение в

центре третья в этом

конкурс.

и выиграл Команда Мы

полмиллиона долларов

через احتالل Последние

Третий в Это المسابقة.

наша команда выиграла

полмиллиона долларов,

заняв третье место в

этом конкурсе.

األمر يبدوا وهنا

مختبر داخل .وكأنه

здесь видно, как

в лаборатории.

здесь видно, что

он же. в лаборатории.

здесь видно, как

будто в лаборатории.

и здесь Видно,

это и было его в

лаборатории.

Вот как это

выглядело в

лаборатории.

إنشاء الى نحتاجلـ مناهضة مؤسسة

.تمبلتون

нам необходимо

создать фонд مناهضة для

.تمبلتون

нам необходимо

создать организацию

.تمبلتون для مناهضة

необходимо

создать организацию

.تمبلتون для مناهضة

нам необходимо

создать Фонд مناهضة

Потому تمبلتون.

Нам нужен

антитемпелтон, чтобы

сделать шаг вперед.

لكم .شكرا спасибо. спасибо. спасибо. Спасибо. Спасибо.

أحدثكم أن أريدالخوف .عن

я хочу

рассказать вам о страх.

я хочу

рассказать вам о страх.

я хочу

рассказать вам о страха.

я хочу

рассказать вам о Страх.

Я хочу

поговорить с вами о

страхе.

تريده ما ذلك

.التكنلوجياэто то, чего

хочет технология.

это то, что вы

хотите технологии.

это то, что вы

хотите технологии.

это то, что вы

хотите это технологии.

Это то, чего

хочет технология.

إحدى في

في الوباء بدأ ، الحاالتв один из тех

случаев, начал эпидемии

в одном случае,

когда эпидемии в

в одном случае,

он эпидемии в

в одном случае,

начал эпидемии в

И в одном из

случаев он возник на

Page 62: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

تماما أخرى ! قارة в قارة и полностью!совершенно другой

континент.

совершенно другой

континент.

совершенно другой

континент.другом континенте.

هذه تتركوا ال لذاوال .. لالختصاصيين االمور

للممرضات .. وال لالطباء

так что не تتركوا эти вещи لالختصاصيين. и

للممرضات и .لالطباء

так что это не

االختصاصيين и не .تتركوا

для врачей. медсестры, и

нет.

поэтому не

эти вещи для تتركوا

и не для .اختصاصيين

врачей. и не для

медсестры

поэтому не

Это, что تتركوا

и не для .االختصاصيين

врачей. и не Потому

Медсестры

Так что, не

оставляйте все на

специалистов, врачей и

медсестер.

بذلك القيام يمكنناмы можем это

делать.

мы можем

сделать.

мы можем

сделать.

мы можем

сделать это.

Мы могли

сделать это.

يبدو كما وذلك،

األمل يعطيني .غريبا،

и, как кажется

странным, дает мне

надежду.

и это, как мне

кажется странным,

надежду.

и это, как

кажется странным, дает

мне надежду.

и это, как

кажется странным, мне

надежду.

Как бы странно

это ни звучало, у меня

появляется надежда.

عن نتكلم ال نحنمجال. ليس إنه حتى األمر

. تفكير

мы не будем

говорить о организации.

и он не области методы

мышления.

мы не будем

говорить об этом. и он не

области мышления.

мы не говорим о

это. даже если это не

области мышления.

мы не будем

говорить об этом. что

даже не области

мышление.

Мы даже не

говорим об этом, это

даже не обсуждается.

يمكننا شيء ذلك

منهم تعلمهэто то, что мы

можем научиться у них?

это то, что мы

можем извлечь из них.

это то, что мы

можем извлечь из них.

это то, что

можно извлечь из них.

Этому мы могли

бы у них поучиться.

علينا يتوجب ال если не нужно итак, нам не если мы не если мы не И нам не надо اذا

Page 63: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

التي المنتاجات على القلقأقل بأسعار كمثال، تباع،

ذلك وبعد أفقر، أماكن في

داخل إستيرادها يعاد --. على المتحدة الواليات

قطاع مع المثال، سبيل

الدواء .صناعة

беспокоиться, что,

например, на المنتاجات меньше в таких بأسعار

местах, беднейших, а

потом они создают

- в сша إستيرادها

например, с в индустрии

лекарство.

нужно беспокоиться

парашют. المنتاجات, которые она продается,

например, на меньше,

чем в других местах, а

затем يعاد беднейших

импортировал ee в сша -

например, в секторе

создания лекарств.

должны беспокойство,

на منتاجات продается,

например, более менее в

местах беднейших, а

затем они ee استيراد в

сша - например, в

секторе индустрии

лекарство.

нужно беспокоиться, на

,долларов المنتاجات

например, в местах

беднейших Цена

меньше, а затем снова

- .внутри США استيراد

например, с Система

индустрии лекарство.

переживать по поводу

того, что наши продукты

продаются по более

низкой цене в более

бедных странах, а затем

они ре-импортируются в

США, например, через

фармацевтическую

промышленность.

للمدرسة ذهبت

.الثانويةя пошел в

школу, средней школы.

я поехал в

средней школе.

я пошел средней

школы.

я средней

школы.

И пошла в

среднюю школу.

تستطيع وال

منه .اإلنتقالи вы можете

перемещения его.

и вы не можете

погибнуть.

и вы не можете

перейти от.

и не могут

менять.

И не может уйти

оттуда.

القول علي يجباألمر هذا افهم لم أنني

اطالقا

я должен

сказать, что я не

понимаю, это

организации. целиком

должен сказать,

что я не понимаю, это

совсем.

я должен

сказать, что я не

понимаю, это совсем

должен сказать,

что я не понимаю, что

это абсолютно

А вот с этим,

должна признаться, я не

согласна.

محجوزا كنت لقدلمدة سجن في 30في سنة

المحيط منتصف في جزيرة

я محجوزا в

тюрьме в течение 30 лет

на острове в середине.

я محجوزا в

тюрьме в течение 30 лет

на острове посреди

я محجوزا в

тюрьме в течение 30 лет

на острове в середине.

Я محجوزا в

тюрьме в течение 30 лет

на острове в середине.

Я провел в

тюрьме около 30 лет на

Page 64: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

океана. острове посреди океана.

منا واحد كل أليس؟ لحياته أعمق معني يريد

ведь у каждого

из нас, кто хочет в чем

смысл более لحياته?

разве не все из

нас не более же жизнь?

разве не все из

нас не хочет я глубже

для своей жизни?

разве не все из

нас хочет Значит более

жизни?

Кто не хочет

иметь больше смысла в

своей жизни?

جزيال شكراбольшое

спасибо.

спасибо

большое.

спасибо

большое.Спасибо.

Большое

спасибо.

محظوظة حقا .أناя по-настоящему

.محظوظة

я очень, очень

повезло.

я действительно

имела возможность.

я действительно

очень повезло.

Мне очень

повезло.

محظوظين كنا لقدكان مبنانا ما بطريقة ألنه

مستقبلية .تجربة

мы нам, потому

что каким-то образом

.مستقبلية был опыт مبنانا

он нам повезет,

потому что, как это как

.эксперимент مبنانا

я нам повезет,

потому что каким-то

образом مبنانا был опыт

будущего.

Я нам повезет,

потому что каким-то

образом مبنانا был опыт,

которое.

Нам повезло, так

как наше здание было

подготовлено для

будущего.

الواقع في بل أخرا السياسة

но на самом деле

.политики أخرا

но на самом деле

еще:

но на самом деле

другой.

но на самом деле

Политика еще

На самом деле,

политика - на последнем

месте.

باعطاءكم سأقوم

الحديثة للصور األمثلة بعضالسنة في أخذتها التي

.األخيرة

я собираюсь

несколько باعطاءكم

примеров фотографии

технологий, которые я

я собираюсь

предоставить вам

несколько примеров

фотографий, которые я

я собираюсь

дать вам несколько

примеров фотографий,

которые я недавно в

я собираюсь

дать вам несколько

примеров фотографий

Новые, его в год

Я покажу вам

несколько примеров

фотографий, которые я

сделал в прошлом году.

Page 65: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

сделала в год,

последний.последнюю. в год. последние лет. Последний.

تحقيق في ونجحنا

آخر في 150الى 100ذلك

عام

нам удалось

реализовать это с первой

попытки в этом за

последние 100 до 150

лет.

и мы этого

достичь за последние 100

до 150 лет.

и мы это сделать

за последние 100 до 150

лет.

и мы это сделать

за последние 100 до 150

лет.

Мы умудрились

сделать это за последние

100 - 150 лет.

بلدان في أنه أمأخرى

или, что в

других странах.

или в других

странах.

или, что в

других странах.

или, что в

другие страны.

Или в других

странах?".

قبول أستطع ولم

تماما .ذلك

и я не осознание

того, это точно.

и я не мог

принять конечно.

и я не мог

принять это точно.

и я не мог

принять это совсем.

Я не могла

согласиться с этим.

ان الى ينوه وهذا

شوط امامها زال ما البشرالتعلم يخلص فيما كبير

и, что люди до

сих пор ينوه в يخلص обучение, امامها ходу.

и это ينوه на то,

что люди до сих пор

перед ee يخلص учиться в

ходу.

и это ينوه на то,

что люди до сих пор

перед ee يخلص учиться

на ходу.

и это все равно,

что люди в يخلص ينوهОбучение, перед ee ходу.

Все это говорит

о том, что нам все еще

есть чему поучиться.

الفكرة وهذه

جديدة .ليستэта идея не

новое.

и эта идея не

новое.

и эта идея не

новое.

и эта идея не

новых.

И эта идея не

нова.

Page 66: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

تعرفون , أنتمحل لهم يكون أن يمكن

вы знаете, может

быть им ee

вы знаете, может

быть решением.

вы знаете, может

быть их решения.

вы знаете, может

быть решение.

Решение у них,

может быть, и есть.

األساسي المفهومليس المناخ تغير هو هنا

تنزل األجوبة ان يمكن شيئا

القمر من

идея, что здесь -

это изменение климата,

не то, что они могут

ответов تنزل из луны.

основная

концепции, это не что-

то, что вы здесь

изменения климата, мы

сегодня с луны.

основная идея в

том, изменения климата

не что-то можно ответы

опускаться из луны.

понятие

Главный Вот изменения

климата, не могут ответы

.из Луну تنزل

Ключевая

концепция состоит в том,

что изменение климата -

это не то, на что можно

получить ответа из

воздуха.

ماقمت كل هذ و

بهи этот все

.ماقمتи это все ماقمت. и это все ماقمت. Эта Все ماقمت.

Этим я и

занимался.

ستالحظون هنا و

ممتاز تقديره ! أن

и вот вы

заметите, что смог

оценить идеально!

и здесь вы

видите, что ценить,

отлично!

и здесь вы

видите, что ценить,

отлично!

и здесь, вы

увидите, что смог

оценить Идеально!

У него отличные

результаты.

يتقاضون وال

جيد بشكل .رواتبهم

и как же

выглядят их доходы

.хорошо يتقاضون

и не يتقاضون деньги, они хорошо.

и не يتقاضون зарплаты хорошо.

и не يتقاضون деньги, они хорошо.

И им не платят

так много.

كانوا ماذا اذاسابقا؟

итак, что были

раньше?

итак, что были

раньше?

итак, что были

раньше?

Если Что Они

Раньше?Так кто же они?

ال نزال ال мы не мы не и мы не все мы и мы не все еще и мы еще не Нам пока не ونحن

Page 67: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

الندوب من التخلص .يمكنناможем избавиться от

шрамы.

не можем избавиться от

шрамы.

не можем избавиться от

шрамы.

можем избавиться от

шрамы.

удается избавиться от

шрамов.

سبب اعرف ال

الوردية، الطيور هذه وجود

هي حال، أية على ولكن

الحديقة تلك في .موجودة

я не знаю

почему, что эти птицы

но в любом ,الوردية

случае, это находится в

этих парк.

я не знаю,

потому что там الوردية птиц, но в любом случае,

это есть в этих сад.

не знаю берутся

эти птицы розовые, но в

любом случае, это

существует в этих парк.

не знаю, потому

что есть Это Птицы

розовые, но в любом

случае, это уже в этих

сад.

Не знаю, почему

именно розовые

фламинго, но, так или

иначе, они там, в саду.

الى ذاهب اناالفنان مع مباشرة .التعامل

я еду в

справиться прямо с

художник.

я буду работать

в прямо с художник.

я еду в

справиться прямо с

художник.

я еду в

справиться прямо с

Художник.

Я буду работать

напрямую с артистом.

المساحة وهذه

تأمينه نحاول ما هي اآلمنة

и это то, что мы

пытаемся اآلمنة تأمينهпространство.

и это место, это

то, что мы пытаемся

хотите безопасное место.

и это безопасное

место - это то, что мы

пытаемся страхования.

и это то, что мы

пытаемся обеспечить

пространство безопасное

место.

И это то, что мы

пытаемся предусмотреть.

مر لقد 25أعني

.سنة

я имею в виду,

он упал 25 лет.он упал в 25 лет.

я имею в виду,

что он упал 25 лет.

я имею в виду

Он упал 25 лет.

Я имею ввиду,

что прошло уже 25 лет.

قصة بدأت هكذا

الملتوي الثعبان دبوسвот я начал

история. змеиная брошь

я начал у вас

змеиная брошь الملتوي вот эта история

началась ثعبان دبوس

у вас змеиная

брошь الملتوي Я

Вот как это

началось.

Page 68: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

историю. историю.

، اإلختيار لنستطيعااليسر حاجبه ، .لنقل

чтобы حاجبه

выбор, скажем, что.

мы на выбор,

скажем, حاجب ee слева.

и мы можем

выбрать, скажем, حاجب

ee слева.

его, чтобы мы

Выбор, скажем, حاجب

слева.

И, например, мы

могли бы остановиться

на его левой брови.

كثيرا أحبه мне нравится. мне нравится. мне нравится. мне нравится.Мне он тоже

очень нравится.

متى أعتقد لكن , الحلول سنجد ذلك .تحقق

но я думаю,

когда достичь этого, мы

найдем решения.

но я думаю,

когда достичь этого, мы

найдем решения.

но я думаю,

когда может добиться

этого, мы найдем

решения.

но я думаю,

когда они это, мы

найдем решения.

Но я думаю,

когда это начнется, мы

найдем решения.

أن يمكننا كيف إذنهذا؟ نفعل

итак, как мы

можем сделать это?

итак, как мы

можем сделать это?

итак, как мы

можем сделать это?

Итак, как мы

можем сделать это?

Как мы можем

этого достичь?

أن أود ألبدأ، اآلنالكثير أيضا تناول اننا أقول

العالم في اللحوم من

.الغربي

сейчас я хочу

сказать, что принимать

также множество.,

видением мира ".

сейчас я хочу

сказать, что мы есть

также множество мясо на

западе.

что, чтобы

начать, я хочу сказать,

что мы есть также

множество мясо на

западный мир.

Теперь Никогда,

я хочу сказать, что мы

есть также множество

мяса в Западе.

Так что для

начала следует признать,

что в западном мире мы

едим слишком много

мяса.

لكل صحيح وذلك

عنها نتحدث التي .األشياءи это верно для

всех вещей, о которых

и это верно для

всех вещей, которые мы

и это верно для

всех вещей, которые мы

и это верно для

всех вещей, которые мы

И это верно для

всех вещей, о которых

Page 69: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

Арабский Базовый Сегментированный Удаление артикля

Присоедннение

приставки будущего

времени

Русский

мы сегодня говорим. говорим о. говорим о них. говорим о. мы сейчас говорим.

ان يجب وقصته

دوما تقص должны وقصته

.تقص

и мы должны

всегда обрушились

история.

и историю, что

надо принесет.

всегда должны

.и историю تقص

История его

жизни останется в веках.

االجتماعات ألن

عمل .ليستпотому что на не

работает.

потому что

собрания - это не

работает.

потому что

собраниях не работы.

потому что на не

работает.

Потому что

собрания - это не работа.

إنها أترى، ثم،األمل رسالة

а потом أترى, это

послание надежды

затем, اترى, это

послание надежды.

затем, اترى, это

послание надежды.

Потом, اترى, это

послание надежды.

И вы увидите,

что это послание

надежды.

Page 70: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

2. Приложение Фрагментыфразовых таблицТаблица 9. Примеры из фразовой таблицы

АрабскийРусский

Обратная вероятность

перевода

Обратный лексический вес

Прямая вероятность перевода

Прямой лексический вес

Фразовый штрафВыравнивание

Частота в исходном

языке

Частота в

целевом языке

و الجوي الغالف الىالعكس в атмосферу и наоборот ,10.0001583170.50.003731282.7180-0 1-1 2-1 3-2 5-312ب

و الجوي الغالف الىالعكس в атмосферу и наоборот10.0001583170.50.004337592.7180-0 1-1 2-1 3-2 5-312ب

الف в тысячи10.004213260.50.01615412.7180-0 1-112الىالف до тысячи10.01986130.50.00443352.7180-0 1-112الى

سنة - الف до тысячи лет -10.00114410.001215332.7180-0 1-1 2-2 3-311الىاو - سنة الف до тысячи лет - а ,16.535e-0060.58.24413e-0062.7180-0 1-1 2-2 3-3 4-412الىاو - سنة الف до тысячи лет - а16.535e-0060.59.58375e-0062.7180-0 1-1 2-2 3-3 4-412الى

سنة الف до тысячи лет10.0042293210.002454772.7180-0 1-1 2-211الى

ضعف . الف الىв тысячи раз больше народа .12.9913e-00514.53766e-0072.718

0-0 1-1 2-2 2-3 2-4 3-511

ضعف الف الىв тысячи раз больше народа1

4.55387e-00515.17886e-0072.7180-0 1-1 2-2 2-3 2-411

الفراش в одной постели ,10.004517610.50.00221972.7180-0 1-1 1-212الىالفراش в одной постели10.004517610.50.002580392.7180-0 1-1 1-212الىالفصول в класс0.50.00093966310.003207452.7180-0 1-121الى

الفضاء , в космос ,0.750.01319380.750.01799512.7180-0 1-1 2-244الىالفضاء , в пространство ,10.005205270.250.01916872.7180-0 1-1 2-214الىل , الفضاء в космос , потому10.01110110.0009919742.7180-0 1-1 2-2 3-311الى

ان , ل الفضاء в космос , потому что10.0056045210.0002879262.7180-0 1-1 2-2 3-3 4-411الىان , ل الفضاء الى

в космос , потому что я10.0003141110.0001147642.718ني0-0 1-1 2-2 3-3 4-4 5-511

و , الفضاء в космос , а10.007326390.50.0009066162.7180-0 1-1 2-2 3-312الىو , الفضاء в пространство , и10.004110360.50.008899012.7180-0 1-1 2-2 3-312الى

Page 71: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

АрабскийРусский

Обратная вероятность

перевода

Обратный лексический вес

Прямая вероятность перевода

Прямой лексический вес

Фразовый штрафВыравнивание

Частота в исходном

языке

Частота в

целевом языке

بعد , و الفضاء в космос , а через10.0013058617.95549e-0052.7180-0 1-1 2-2 3-3 4-411الىالفضاء - в космос -10.014251510.00538592.7180-0 0-1 1-1 2-211الى

خمس - الفضاء в космос - 510.0028719710.001065122.7180-0 0-1 1-1 2-2 3-311الىخمس - الفضاء الى

в космос - 5 лет ,10.00022866810.000458532.718سنوات ,0-0 0-1 1-1 2-2 3-3 4-4 5-511

خمس - الفضاء الىв космос - 5 лет10.00058058910.0005510412.718سنوات

0-0 0-1 1-1 2-2 3-3 4-411

الفضاء . в космос .0.50.03460850.80.009531712.7180-0 0-1 1-1 2-285الى

الفضاء . в космосе .0.1666670.02309320.20.01441712.7180-0 1-1 2-265الىالفضاء в космос .0.250.0334990.1111110.002356232.7180-0 1-1818الىالفضاء в космос0.5217390.0334990.6666670.02162572.7180-0 1-12318الىالفضاء в космосе0.0370370.03515640.05555560.01645432.7180-0 1-12718الىالفضاء в пространство10.01321620.05555560.0230362.7180-0 1-1118الىالفضاء космос0.02777780.0718750.05555560.05470432.7180-0 1-03618الىالفضاء отправили в космос10.04249580.05555568.58322e-0062.7180-0 0-1 1-2118الى

في الفضاء космос в0.50.033971310.02593362.7180-0 1-0 2-121الىفي الفضاء الى

космос в америке .10.001776280.50.0003965762.7180-0 1-0 2-1 3-212اميركافي الفضاء الى

космос в америке10.001776280.50.00363982.7180-0 1-0 2-1 3-212اميركا

قد الفضاء отправили в космос ,1الى4.55767e-00512.54897e-0072.7180-0 0-1 1-2 2-311

قتل . قد الفضاء الىотправили в космос , погибли .16.8041e-00711.10018e-0092.718

0-0 0-1 1-2 2-3 3-4 4-511

قتل قد الفضاء الىотправили в космос , погибли1

1.03584e-00611.25565e-0092.7180-0 0-1 1-2 2-3 3-411

الفكرة до сути10.0011163915.11504e-0052.7180-0 1-111الىالفم . в рот .10.0106650.250.01305832.7180-1 0-2 1-2 2-314 ,الىالفم . на рот .10.01052740.250.006733322.7180-1 0-2 1-2 2-314 ,الىالفم . в рот .10.0106650.250.01518022.7180-0 0-1 1-1 2-214الىالفم . на рот .10.01052740.250.007827442.7180-0 0-1 1-1 2-214الى

Page 72: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

АрабскийРусский

Обратная вероятность

перевода

Обратный лексический вес

Прямая вероятность перевода

Прямой лексический вес

Фразовый штрафВыравнивание

Частота в исходном

языке

Частота в

целевом языке

الفم в рот10.01623610.250.01490352.7180-1 0-2 1-214 ,الىالفم на рот10.01602660.250.007684792.7180-1 0-2 1-214 ,الىالفم в рот0.3333330.01623610.250.01732522.7180-0 0-1 1-134الىالفم на рот0.50.01602660.250.008933512.7180-0 0-1 1-124الىالفوضى в хаос ,10.02530760.3333330.01582192.7180-0 0-1 1-113الىالفوضى в хаос10.02530760.3333330.01839292.7180-0 0-1 1-113الىالفوضى хаос0.10.02758250.3333330.09249052.7180-0 1-0103الى

ل الفوضى в хаос , потому10.021293310.000872182.7180-0 0-1 1-1 2-311الىان ل الفوضى в хаос , потому что10.010750310.0002531552.7180-0 0-1 1-1 2-3 3-411الى

االخير . الفيديو последнего видео .1الى6.15049e-00510.00215462.7180-0 2-0 1-1 3-211

االخير الفيديو последнего видео1الى9.36333e-00510.002459062.7180-0 2-0 1-111

القطبية القارة в сердце антарктиды10.00062115710.0001886882.7180-0 2-1 1-2 2-211الىالقاعدة на правило10.008861910.01844252.7180-0 1-111الى

رقم القاعدة 30на правило номер 3010.0024530810.002461332.7180-0 1-1 2-2 3-311الىرقم القاعدة на правило номер10.0033867110.004288962.7180-0 1-1 2-211الى

القاهرة в каире0.50.034955510.07457332.7180-0 1-121الى

التي و القاهرة в каире ,1الى4.46966e-00510.01975562.7180-0 1-1 2-2 3-211

القرويين в деревни0.50.0034678110.06214442.7180-0 1-121الىالقرى в деревню0.20.001499180.50.001731322.7180-0 0-1 1-152الىالقرى в деревнях0.250.02570260.50.05055822.7180-0 1-142الى

عبر القرى в деревню через10.00019867710.0002659112.7180-0 0-1 1-1 2-211الىفي القرى в деревнях на10.0047430210.005019262.7180-0 1-1 2-211الىفي القرى الى

الغربية الضفةв деревнях на западном берегу1

3.67827e-00510.0001109542.718

0-0 1-1 2-2 3-3 3-4 4-411

في القرى الىو الغربية الضفة

в деревнях на западном берегу и1

2.90456e-00515.151e-0052.718

0-0 1-1 2-2 3-3 3-4 4-4 5-511

القرية , в деревню ,0.3333330.0050558310.01955632.7180-0 1-1 2-231الى

Page 73: Введение - dspace.spbu.ru€¦  · Web viewStanford Word Segmenter работает на основе принципа условных случайных полей. В

АрабскийРусский

Обратная вероятность

перевода

Обратный лексический вес

Прямая вероятность перевода

Прямой лексический вес

Фразовый штрафВыравнивание

Частота в исходном

языке

Частота в

целевом языке

ف , القرية в деревню , я1الى5.36651e-00510.0005307522.7180-0 1-1 2-2 3-311

قلت , ف القرية الى" :в деревню , я спросил : "1

1.71061e-00614.5961e-0062.718

0-0 1-1 2-2 3-3 4-4 5-5 6-611

قلت , ف القرية الى:в деревню , я спросил :1

2.76756e-00618.89509e-0062.718

0-0 1-1 2-2 3-3 4-4 5-511

قلت , ف القرية в деревню , я спросил1الى7.78348e-00611.14986e-0052.7180-0 1-1 2-2 3-3 4-411

القرية в деревню0.20.01283680.50.02350192.7180-0 1-152الىالقرية в эту деревню10.006433780.50.0002136532.7180-0 1-1 1-212الى

و القرية в эту деревню ,10.00019635311.20094e-0052.7180-0 1-1 1-2 2-311الى

وجدت و القرية в эту деревню , нашел1الى6.58294e-00511.33438e-0062.7180-0 1-1 1-2 2-3 3-411

وجدت و القرية الىالجدة

в эту деревню , нашел эту бабушку1

3.30887e-00611.32335e-0092.718

0-0 1-1 1-2 2-3 3-4 4-5 4-611

القشريات . الىзаканчивая ракообразными .10.0091753310.008969672.7180-0 1-0 1-1 2-211

القشريات الىзаканчивая ракообразными10.013968310.01023722.7180-0 1-0 1-111

القطب , до полюса ,10.036091310.003429442.7180-0 1-0 1-1 2-222الىو , القطب до полюса , и10.028499610.001592112.7180-0 1-0 1-1 2-2 3-322الى

القطب в арктику .0.50.01092410.253.85192e-0052.7180-0 1-1 1-224الىالقطب до полюса10.1830890.750.006822242.7180-0 1-134الى

الجنوبي القطب до южного полюса .10.01900314.67207e-0052.7180-0 1-1 2-1 1-2 2-311الىالقطب الى

на северный полюс ,10.00619811.83472e-0062.7180-0 0-1 1-2 2-2 3-311الشمالي ,