34
Боловинцева Олеся, 425 групп 2010-2011 учебный

Извлечение перевожных эквивалентов из параллельных корпусов

  • Upload
    -

  • View
    1.294

  • Download
    5

Embed Size (px)

DESCRIPTION

Боловинцева Олеся27 апреля 2011

Citation preview

Page 1: Извлечение перевожных эквивалентов из параллельных корпусов

Боловинцева Олеся, 425 группа 2010-2011 учебный год

Page 2: Извлечение перевожных эквивалентов из параллельных корпусов

Параллельный текст (битекст) — текст на одном языке вместе с его переводом на другой язык.

Большие собрания параллельных текстов называются параллельным корпусом (англ. parallel corpora).

Собрание битекстов называется «битекстовой базой данных» или двуязычным корпусом и может использоваться в качестве справочника и для поиска нужных сочетаний. (с) Википедия

Page 3: Извлечение перевожных эквивалентов из параллельных корпусов

- обогащение набора переводов, вводимых в словарь;

- верификация значений лексических единиц, уже зафиксированных в двуязычных словарях;

- оценка адекватности перевода. На основе баз параллельных

выровненных текстов возможно выделения устойчивых пар слов типа «исходное слово»- «перевод».

Page 4: Извлечение перевожных эквивалентов из параллельных корпусов
Page 5: Извлечение перевожных эквивалентов из параллельных корпусов

Разработала ли компания Google свое собственное программное обеспечение для перевода?

Да. Наши разработчики создали собственную систему статистического машинного перевода для ряда языковых пар – Переводчик Google.

Что такое "статистический машинный перевод"? В большинстве современных коммерческих систем машинного перевода используется подход на

основе правил. В этом случае требуются большие усилия по созданию словарей и определению используемых правил грамматики.

В нашей системе применяется другой подход. В нее загружаются тексты очень большого объема (миллиарды слов). Это могут быть как материалы на языке готового перевода, так и двуязычные тексты, содержащие предложения на исходном языке и соответствующие им переводы, выполненные вручную. Затем для построения модели перевода применяются методы самообучения на основе статистического анализа. При экспериментальной оценке система показала очень хорошие результаты.

Качество перевода, на мой взгляд, неважное. Можно ли его улучшить? Мы постоянно над этим работаем. Однако пока даже наиболее современные программы не

достигают мастерства профессионального переводчика или беглости носителя языка. Так как значение слов зависит от контекста, в котором они используются, автоматический перевод – очень сложная задача. Хотя мы работаем над этой проблемой, не исключено, что система, обеспечивающая быстрый и качественный перевод, появится еще не так скоро. Однако мы надеемся, что на данном этапе предоставляемые нами услуги в большинстве случаев окажутся полезными.

Кроме того, чтобы улучшить качество, нам необходимы большие объемы двуязычных (параллельных) текстов. Если у вас есть большие объемы текста на двух или более языках, которые вы хотите предоставить для перевода, сообщите нам.

Page 6: Извлечение перевожных эквивалентов из параллельных корпусов

Суть алгоритмов: для каждого текста и его перевода найти соответствия между семантическими единицами в парных текстах.

Это требует последовательного разбиения и анализа парных текстов.

Page 7: Извлечение перевожных эквивалентов из параллельных корпусов

Предполагается, что: - выполнено предположение

о монотонности перевода; - мы располагаем достаточно

большим корпусом текстов; - тексты переведены

качественно.

Page 8: Извлечение перевожных эквивалентов из параллельных корпусов

При решении поставленной задачи можно чётко выделить три этапа:

Разбиение текста на предложения

Выравнивание текста

Собственно извлечение эквивалентов

Page 9: Извлечение перевожных эквивалентов из параллельных корпусов

Цель данного этапа – перейти от текста к упорядоченному списку предложений.

Самый простой алгоритм:

последовательно идентифицировать концы предложений по знакам препинания.

Проблемы: возникают в предложениях с сокращениями, когда следующее слово начинается с заглавной буквы. Назовём такой случай спорной ситуацией.

Page 10: Извлечение перевожных эквивалентов из параллельных корпусов

Самое простое решение: для каждого текста у нас есть его эквивалент на другом языке.

Поэтому предположим, что если в тексте на одном языке есть сокращения, то они должны быть и в его переводе на другой язык.

Page 11: Извлечение перевожных эквивалентов из параллельных корпусов

Другие подходы: - Создать специальный словарь слов-

сокращений.

- Проверять, содержатся ли в словаре общей лексики все слова из пяти и менее символов, которые встретились в спорных ситуациях.

- Для каждого слова с точкой на конце в спорной ситуации рассмотреть все вхождения этого слова в тексте. Если среди этих вхождений подавляющее большинство таких, что следующий символ – точка, то считать это слово сокращением

Page 12: Извлечение перевожных эквивалентов из параллельных корпусов

Использование других подходов: - если есть какие-то знания о языке,

использовать подходы 1 и 2.

- в случаях, когда точно нельзя дать ответ в спорной ситуации, привлекать третий подход.

- если никаких данных о языке нет, использовать только третий подход.

Page 13: Извлечение перевожных эквивалентов из параллельных корпусов

Выравнивание параллельных текстов – сопоставление предложений или слов в одном тексте их эквивалентам в переводе, является очень важным этапом предварительной обработки для машинного перевода, информационного поиска по текстам на различных языках, составления словарей и др.

В процессе перевода предложения могут разделяться, сливаться, удаляться, вставляться или менять последовательность. В связи с этим выравнивание часто становится сложной задачей.

Page 14: Извлечение перевожных эквивалентов из параллельных корпусов

Статистические методы наиболее часто используются для выравнивания текстов.

Пример: - предполагается существование некоторой

положительной корелляции между длинами предложений в исходном тексте и в переводе;

- каждой паре предложений из текстов на разных языках ставится в соответствие некоторая характеристика возможности сопоставления, вычисляемая на основе разницы длин предложений и дисперсии этой разницы;

- находится такое соответствие предложений, при котором характеристики возможности сопоставления максимальны. (Gale W., Church K.)

Page 15: Извлечение перевожных эквивалентов из параллельных корпусов

Плюсы: не требуют развитой словарной базы и могут использоваться для редких языков.

Минусы: часто дают ошибочные результаты выравнивания, требуя в последующем дорогостоящей ручной проверки и исправления.

Page 16: Извлечение перевожных эквивалентов из параллельных корпусов

Использование двуязычных словарей для выравнивания текстов менее распространено. Применяется в основном для специализированных текстов.

Пример (алгоритм, использующий лексическую информацию):

- проводится поиск такого сопоставления предложений, при котором вероятность существования корпуса с такой моделью перевода максимальна;

- для начального построения и совершенствования модели перевода используются заранее сопоставленные предложения. (Chen S.)

Page 17: Извлечение перевожных эквивалентов из параллельных корпусов

Различают два основых подхода к выравниванию текстов:

1)Выравнивание по предложениям : - На основании длины (Gale и Church, 1993. - На основании двуязычной лексической

информации (Kay и Ruoscheisen, 1993; Fung и Church, 1994; Fung и McKeown, 1994).

- Алгоритмы с привлечением опорных (Simard и др., 1992).

Для вычисления сходства двух структурных единиц текстов вводится некоторая мера близости, например количество переводных эквивалентов, имеющихся в словаре. Полученный вес нормализуется на длину текста, чтобы величины для разных единиц текста были сопоставимы. (А.Ф. Гельбух и др., 2006).

Page 18: Извлечение перевожных эквивалентов из параллельных корпусов

2) Выравнивание по словам. - для каждой пары слов исходного и

целевого текстов выписывается число сегментов, которые (a) содержат оба слова, (b) содержат слово исходного языка не содержат слово целевого языка (c) слово целевого языка, но не слово исходного языка и (d) ни то ни другое слово (Ribeiro и др., 2000).

- найденные наиболее вероятные пары принимаются в качестве переводных эквивалентов.

Недостатки: большое количество редких слов, различия в порядке слов в языках, между которыми производится выравнивание, наличие словосочетаний.

Page 19: Извлечение перевожных эквивалентов из параллельных корпусов

Затруднения для большинства стратегий выравнивания представляют:

- тексты с пропущенными или несовпадающими предложениями;

- редкие слова и словосочетания в пределах предложений;

- cинтаксические различия между исходными и целевыми языками.

Следовательно, рассмотренные методы выравнивания нуждаются в совершенствовании. Перейдём к методу Потёмкина и Кедровой, учитывающему указанные проблемы.

Page 20: Извлечение перевожных эквивалентов из параллельных корпусов

Основной проблемой при автоматическом выравнивании текста на уровне предложений является появление ложных пар предложений, полученных при работе алгоритма, но не являющихся переводными эквивалентами.

При разработке предлагаемого метода авторы старались свести к минимуму такие явления.

Page 21: Извлечение перевожных эквивалентов из параллельных корпусов

Алгоритм выравнивания разработан на основании следующих предположений:

- порядок предложений в русском и английском текстах совпадает;

- в параллельных текстах нет значительных (более 500 слов) пропусков;

- длина текстов не слишком большая – рассказ или глава романа, около 64.

Последние 2 ограничения непринципиальны.

Page 22: Извлечение перевожных эквивалентов из параллельных корпусов

Предлагается рассматривать только слова, встречающиеся 1 раз в каждом тексте

Алгоритм: 1) для каждого слова русского текста находим

переводной эквивалент в английском тексте, который также имеет частотность 1.

Если нашлось несколько эквивалентов или найденные эквиваленты связывают предложения с нарушением их порядка в тексте, они исключаются из рассмотрения.

Результат - набор уникальных пар эквивалентов в двух текстах - первичная структура опорных точек или якорей, связывающих те предложения текстов, к которым они относятся.

Page 23: Извлечение перевожных эквивалентов из параллельных корпусов

2) исходные тексты разбиваются на отрезки, ограниченные найденными парами предложений, эти отрезки рассматриваются как новые параллельные тексты

и процедура расстановки опорных точек повторяется.

Итерации продолжаются, пока появляются новые якоря.

На практике число итераций в рассмотренных текстах не превышает 6.

Page 24: Извлечение перевожных эквивалентов из параллельных корпусов

3) производится поиск критического пути методом динамического программирования:

- рассматриваются отрезки русского и английского текста между опорными точками, для каждого слова отрезка русского текста отыскивается словарный эквивалент в соответствующем отрезке английского текста;

- число таких эквивалентов подсчитывается для каждой пары предложений, получаются меры сходства;

- полученные меры сходства нормируются на единицу по длине предложений и записываются в матрицу смежности.

К элементам матрицы, соответствующим опорным точкам к значению меры сходства прибавлено большое число (10000), чтобы критический путь заведомо прошел через эти точки.

Далее поиск критического пути выполнялся стандартными методами динамического программирования («поиск Витерби»).

 

Page 25: Извлечение перевожных эквивалентов из параллельных корпусов

Для оценки работы этой части алгоритма было произведено выравнивание нескольких текстов произведений русской классики (Н.В. Гоголь, Ф.М. Достоевский, А. П. Чехов).

Тексты не подвергались никакой предварительной обработке или разметке.

В качестве границы предложения приняты точка, восклицательный знак, вопросительный знак, многоточие.

Page 26: Извлечение перевожных эквивалентов из параллельных корпусов

Показаны точки критического пути. Опорные точки выделены кружками. Горизонтальная линия представляет среднее = отношение числа английских предложений к числу русских предложений. По оси Y показано отклонение номера английского предложения от среднего.

Page 27: Извлечение перевожных эквивалентов из параллельных корпусов

При выделении предложений учитываются некоторые распространенные сокращения, содержащие точку (Mrs. Mr. Ms. Prof. Dr. Gen. Rep. Sen. St. etc. i.e. e.g. et al.; т.д. т.к. пр. Св. и другие). Эти сокращения распознаются, и точка в этом случае не считается концом предложения. Не учитываются символы перевода строки, заглавные буквы, двоеточия, кавычки.

В результате работы алгоритма получено 182 пары предложений (78% текстов). Из них 165 предложений (90.5%) являются полным и точным переводом, 16 предложений (9%) являются частью перевода оригинала (или наоборот) и 1 предложение (0.5%) сопоставлено переводу ошибочно. Аналогичные соотношения сохраняются для других текстов («Шинель» Гоголя, главы из романа «Преступление и наказание» Достоевского).

Page 28: Извлечение перевожных эквивалентов из параллельных корпусов

Типичный пример сопоставления части предложения целому:

"Статский советник... принят у его сиятельства..." или: "Со средствами ...

= visits at His Excellency's " ; or , "A man of means… (несопоставленная часть выделена жирным

шрифтом) Расхождение вызвано различной расстановкой

знаков препинания в русском и английском тексте, а также элиминацией части текста при переводе.

Обработка таких несовпадений выполняется второй частью алгоритма.

Page 29: Извлечение перевожных эквивалентов из параллельных корпусов

Чаще всего бывает, что 2 последовательных предложения одного текста (i, i+1) сопоставлены 2 предложениям другого текста, не являющимся последовательными (j, j+2).

Тогда предполагается, что предложение j+1 является переводом либо части предложения i, либо i+1. Для определения, к какому именно предложению относится j+1 применяется процедура, аналогичная первоначальной разметке, то есть отыскиваются уникальные слова в предложении i, i+1, j+1, их переводы и определяется соответствие, после чего предложение j+1 сливается либо с j, либо с j+2.

Page 30: Извлечение перевожных эквивалентов из параллельных корпусов

Результаты, полученные на основе алгоритма сравнивались с аналогичными (ABBY, 2007) на тексте «Шинель» Гоголя (433 пары предложений). Доля предложений, правильно сопоставленных алгоритмом ABBY составила 71%.

Page 31: Извлечение перевожных эквивалентов из параллельных корпусов

Название курсовой – «Извлечение перифраз из новостного кластера».

Новость –> несколько вариантов её описания на сайтах, в газетах, не всегда пишутся с нуля, часто используется rewriting -> появление перифраз (синонимов).

Новостной кластер представляет одноязычный параллельный корпус текстов, поэтому рассказанное сегодня можно использовать в процессе составления алгоритма соответствующей теме курсовой программы.

Page 32: Извлечение перевожных эквивалентов из параллельных корпусов

Рерайтинг (от слова rewriting - «переписывать») – особый вид копирайтинга, при котором для создания уникального текста используется пересказ уже существующей новости, статьи или любого иного источника. То есть, фактически, это превращение неуникального контента в уникальный.

Page 33: Извлечение перевожных эквивалентов из параллельных корпусов
Page 34: Извлечение перевожных эквивалентов из параллельных корпусов

Статья «Выравнивание неразмеченного корпуса параллельных текстов», С.Б.Потёмкин, Г.Е. Кедрова.

Статья «Медоты автоматизации построения и пополнения двуязычных словарей с использованием корпусов параллельных текстов», А.А. Липатов, А.А. Мальцев

Информация с сайта Google.ru