33
Подъязыки в системах машинного перевода А.В. Луканин Автоматическая обработка естественного языка. Лекция 3

Подъязыки в системах машинного перевода

Embed Size (px)

Citation preview

Page 1: Подъязыки в системах машинного перевода

Подъязыки в системах машинного перевода

А.В. Луканин

Автоматическая обработка естественного языка. Лекция 3

Page 2: Подъязыки в системах машинного перевода

Подъязыки в МП

• Учение о подъязыках для МП было впервые сформулировано Н.Д.Андреевым (Ленинградский университет) в 1967 г.

• Подъязык базируется на некотором исходном наборе текстов– входной и выходной словари, – степень распространения и характер лексической

неоднозначности лексем, – характер и распространённость синтаксических

конструкций, – способы их перевода в данной языковой паре

Page 3: Подъязыки в системах машинного перевода

Подъязыки в МП

• параллельные тексты и словари-конкордансы– лексическая сочетаемость и дистрибуция

(распределение) языковых элементов в речи

• Выходной словарь, ориентированный на потребности синтеза и передачи основных видов соответствий в конкретной языковой паре, обеспечивает приемлемый выходной текст.

• В любом из современных видов машинного перевода необходимо участие человека-редактора!

Page 4: Подъязыки в системах машинного перевода

Подъязыки технической документации

• Controlled languages

• используются в крупных корпорациях

• улучшают удобочитаемость документов, т.к. требуют ясности и однозначности написанного

• улучшают переводимость текста, приводя его в соответствие с требованиями машинного перевода

Page 5: Подъязыки в системах машинного перевода

Плюсы использования подъязыков

• последовательность в стиле документов

• возможность повторного использования текстов

• сокращение затрат на авторскую разработку (процесс авторского создания документов в системе управления документами) и перевод

• более высокое качество документации и переводов

Page 6: Подъязыки в системах машинного перевода

Состав подъязыка

• Размер словаря и количество значений слов ограничены, чтобы избежать лексической многозначности

• Правила грамматики – избегать:– эллиптические конструкции– согласованные предложения– синтаксическая многозначность

Page 7: Подъязыки в системах машинного перевода

АРМ технического писателя• Обычно в среду написания

документации встраиваются:– программы проверки– редактор– переводческая память– машинный перевод– системы управления терминологией

(terminology management systems)– средства автоматизированного перевода

(computer-aided translation, CAT)

Page 8: Подъязыки в системах машинного перевода

Существующие подъязыки

• AECMA Simplified English, созданный в авиационной промышленности

• Boeing Technical English (BTE, расширенная версия Simplified English), используется в компании Boeing

• Французская ассоциация аэрокосмической промышленности (GIFAS) разработала французский подъязык, GIFAS Rationalized French (le français rationalisé), который используется для перевода в подъязык Simplified English

Page 9: Подъязыки в системах машинного перевода

Существующие подъязыки

• Caterpillar Technical English (CTE) для всей технической документации на английском языке в Caterpillar Inc. – ограниченный терминологический словарь (более

70 000 терминов)– ограниченная грамматика

• Controlled Automotive Service Language, в General Motors с 1993 года– подъязык английского языка, который содержит 62

грамматических правила и ограниченную терминологию

• Свои подъязыки используются также в шведской автомобильной компании Scannia, в немецкой компании BMW и др.

Page 10: Подъязыки в системах машинного перевода

Предредактирование

• Руководство по предредактированию, где описываются лексические и грамматические ограничения

• В KANT описаны следующие лексические ограничения:– поощряется использование

функциональных слов, таких как артикли– не приветствуется использование

местоимений и союзов, т.к. они повышают синтаксическую многозначность.

Page 11: Подъязыки в системах машинного перевода

Лексические ограничения

• необходимо сократить использование причастных форм (на -ing и -ed) после союзов– *While driving the vehicle…– While you are driving the vehicle…

• или в сокращённых определительных придаточных предложениях– *Directional stability caused by wheel lock-up…– The directional stability that is caused by the wheel

lock-up…

Page 12: Подъязыки в системах машинного перевода

Грамматические ограничения на уровне фраз

• замена фразовых глаголов однословными глаголами– turn on следует заменить на start

• повторяющиеся предлоги в соединительных конструкциях– recorded memory of radio and each control

unit– recorded memory of the radio and of each

control unit

Page 13: Подъязыки в системах машинного перевода

Грамматические ограничения на уровне предложений

• 2 части сложносочинённого предложения должны быть одного вида

• определительные придаточные предложения всегда должны вводиться относительным местоимением

• эллиптические конструкции должны отсутствовать

Page 14: Подъязыки в системах машинного перевода

Boeing Technical English

• определяющие слова (the, a, an, this, these и т.д.) должны использоваться, когда это необходимо;

• пассивные предложения должны избегаться в описаниях;

• длина предложений должна быть не более 25 слов;

• именные группы с более чем 3 словами должны избегаться;

• не должно быть больше 2 прилагательных, определяющих существительное;

Page 15: Подъязыки в системах машинного перевода

Boeing Technical English

• необходимо избегать форм на -ing;• слово that нельзя опускать после

глаголов;• относительные местоимения должны

вводить определительные придаточные предложения;

• приветствуется использование параллельных конструкций в сочинительных конструкциях

Page 16: Подъязыки в системах машинного перевода

IBM рекомендует

• использовать короткие предложения (не более чем из 20 слов)

• избегать идиоматичных и жаргонных выражений

• избегать многозначных слов• повторять существительные и именные

группы вместо использования местоимений там, где это возможно

• правильно расставлять знаки препинания, в списках использовать только полные предложения

Page 17: Подъязыки в системах машинного перевода

Рекомендации PROMT

• Your e-mail address is the address other people use to send e-mail messages to you

• Ваш адрес электронной почты — адрес другое использование людей, чтобы послать почтовые сообщения Вам

Page 18: Подъязыки в системах машинного перевода

Рекомендации PROMT

• Your e-mail address is the address that other people use to send e-mail messages to you

• Ваш адрес электронной почты — адрес, который другие люди используют, чтобы послать почтовые сообщения Вам

Page 19: Подъязыки в системах машинного перевода

Рекомендации PROMT

• Старайтесь использовать простые синтаксические конструкции с прямым порядком слов:

1. подлежащее или его группа (я, ты, он, мой кот, мой начальник, сын моей подруги)

2. сказуемое, выраженное глаголом (хочу, знаю, люблю)

3. обстоятельства, выраженные разными частями речи

Page 20: Подъязыки в системах машинного перевода

Рекомендации PROMT

• Используйте только общепринятые сокращения!

– ПО (программное обеспечение)

• Я часто использую это ПО– I frequently use it ON

• Я часто использую это программное обеспечение

– I frequently use this software

Page 21: Подъязыки в системах машинного перевода

Рекомендации PROMT

• Если перед русским существительным можно по смыслу поставить притяжательное местоимение, то это нужно обязательно сделать. Особенно это касается одежды, частей речи, названий родственников.

– брат, платье, начальник– мой брат, её платье, наш начальник.

Page 22: Подъязыки в системах машинного перевода

Постредактирование

• В зависимости от целей постредактирование может быть– полным (когда перевод направлен на

массового потребителя)– частичным (перевод для понимания

содержания).

Page 23: Подъязыки в системах машинного перевода

Степени постредактирования

• МП без постредактирования для ознакомления с содержанием;

• быстрое постредактирование для быстроменяющейся информации и срочных текстов, допускающее исправление только самых грубых ошибок;

Page 24: Подъязыки в системах машинного перевода

Степени постредактирования

• частичное постредактирование, при котором постредактор решает, какое количество исправлений делать в зависимости от аудитории клиентов/читателей;

• полное постредактирование, когда МП используется в сочетании с подъязыком и выполняется в специализированных промышленных проектах быстрее ручного перевода.

Page 25: Подъязыки в системах машинного перевода

• To a medical student the final examinations are something like death: an unpleasant inevitability to be faced sooner or later, one’s state after which is determined by care spent in preparing for the event.

Page 26: Подъязыки в системах машинного перевода

Google Translate

• Для студента-медика выпускные экзамены являются чем-то, как смерть: неприятная неизбежность, с которыми столкнутся рано или поздно государство одно, после которого определяется по уходу провели в подготовке к этому событию.

Page 27: Подъязыки в системах машинного перевода

one’s state after, which is

• Для студента-медика выпускные экзамены являются чем-то, как смерть: неприятная неизбежность, с которыми столкнутся рано или поздно свое состояние после, который определяется по уходу провели в подготовке к этому событию.

Page 28: Подъязыки в системах машинного перевода

an unpleasant inevitability, to which one has to be faced sooner or later• Для студента-медика выпускные

экзамены являются чем-то, как смерть: неприятная неизбежность, с которой приходится сталкиваться рано или поздно свое состояние после, который определяется по уходу провели в подготовке к этому событию.

Page 29: Подъязыки в системах машинного перевода

is determined by the attention, that is paid to in preparing

• Для студента-медика выпускные экзамены являются чем-то, как смерть: неприятная неизбежность, с которой приходится сталкиваться рано или поздно свое состояние после, которая определяется тем вниманием, которое уделяется в подготовке к этому событию.

Page 30: Подъязыки в системах машинного перевода

sooner or later, and one’s state after

• Для студента-медика выпускные экзамены являются чем-то, как смерть: неприятная неизбежность, с которой приходится сталкиваться рано или поздно, и свое государство после, которая определяется тем вниманием, которое уделяется в подготовке к этому событию.

Page 31: Подъязыки в системах машинного перевода

one’s condition after

• Для студента-медика выпускные экзамены являются чем-то, как смерть: неприятная неизбежность, с которой приходится сталкиваться рано или поздно и свое состояние после, которая определяется тем вниманием, которое уделяется в подготовке к этому событию.

Page 32: Подъязыки в системах машинного перевода

is paid to during preparing

• Для студента-медика выпускные экзамены являются чем-то, как смерть: неприятная неизбежность, с которой приходится сталкиваться рано или поздно, и свое состояние после, которая определяется тем вниманием, которое уделяется в ходе подготовки к этому событию.

Page 33: Подъязыки в системах машинного перевода

Изменённый текст на исходном языке

• To a medical student the final examinations are something like death: an unpleasant inevitability, to which one has to be faced sooner or later, and one’s condition after, which is determined by the attention which is paid to during preparing for the event.