14

Аннотация к рабочей программе дисциплиныfit.nsu.ru/data_/docs/mag/OOP/4_RPD/AnD/_AnD_FTD.2_rpd.pdfадания выполняются на языке

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Аннотация к рабочей программе дисциплиныfit.nsu.ru/data_/docs/mag/OOP/4_RPD/AnD/_AnD_FTD.2_rpd.pdfадания выполняются на языке
Page 2: Аннотация к рабочей программе дисциплиныfit.nsu.ru/data_/docs/mag/OOP/4_RPD/AnD/_AnD_FTD.2_rpd.pdfадания выполняются на языке
Page 3: Аннотация к рабочей программе дисциплиныfit.nsu.ru/data_/docs/mag/OOP/4_RPD/AnD/_AnD_FTD.2_rpd.pdfадания выполняются на языке

3

Аннотация к рабочей программе дисциплины

«Машинный перевод»

Дисциплина «Машинный перевод» реализуется в рамках образовательной программы высшего

образования – программы магистратуры 09.04.01 ИНФОРМАТИКА И

ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА. АНАЛИЗ ДАННЫХ по очной форме обучения на

русском языке.

Место в образовательной программе: Для освоения дисциплины необходимы знания из

области дискретной математики и программирования базового уровня.

Дисциплина «Машинный перевод» реализуется во втором семестре в рамках вариативной

части дисциплин (модулей) Блока 1, блок факультативных дисциплин.

Дисциплина «Машинный перевод» направлена на формирование компетенции:

СПК-1 способность к применению современных технологий и методологий получения,

хранения, передачи, обработки больших данных; в части следующих результатов

обучения: СПК-1.4. знать и уметь применять на практике основные математические модели в области

специализации

Перечень основных разделов дисциплины: Дисциплина «Машинный перевод» предусматривает проведение практических занятий в

интерактивной форме и самостоятельную работу.

Курс посвящен ключевым моделям алгоритмам машинного перевода. Весь материал разбит на

три части. Основные темы:

1. Краткая история машинного перевода. Машинный перевод в СССР и России.

2. Лингвистика и машинный перевод. Уровни и подуровни представления единиц текста.

Анализ и синтез текста.

3. Неоднозначность языковых единиц как ключевая проблема машинного перевода.

4. Автоматический морфологический анализ и синтез. Морфологическая структура.

Морфологические категории и их значения.

5. Автоматический синтаксический анализ и синтез. Основные типы синтаксического

представления предложения. Дерево составляющих и дерево зависимостей.

Синтаксические отношения. Синтаксические признаки.

6. Семантический анализ и синтез. Глубокая семантика. Дескрипторы и концепты.

Онтологическая семантика. Логика здравого смысла.

7. Грамматика и словарь в машинном переводе. Толково-комбинаторный словарь.

Предикатные слова, валентности и актанты. Лексические функции.

8. Трансфер. Интерлингва. Интерактивность при машинном переводе.

9. Разбор конкретной правиловой системы МП (ЭТАП-3).

Общий объем дисциплины – 2 зачетных единицы (72 час)

Правила аттестации по дисциплине. В соответствии с учебным планом устанавливаются следующие формы контроля: текущий

контроль студентов в течение 2 семестра в форме приема заданий и промежуточная аттестация

во 2 семестре в виде зачета.

Page 4: Аннотация к рабочей программе дисциплиныfit.nsu.ru/data_/docs/mag/OOP/4_RPD/AnD/_AnD_FTD.2_rpd.pdfадания выполняются на языке

4

Оценка за курс формируется с учетом выполненных заданий и сданного зачета во 2 семестре.

Текущий контроль по дисциплине проводится в течение всего семестра. Студенты в течение

семестра должны выполнить 7 заданий: 3 задания по статистическому машинному переводу, 4

задания - по правиловому машинному переводу.

Задания выполняются на языке Python, срок - не менее 3 недель. Задание предварительно

разбирается на практическом занятии.

Задания выдаются 1 раз в 2 недели.

Сроки сдачи заданий: 9, 16, 22 и 24 марта, 20 и 30 апреля, 16 и 20 мая.

Условия заданий, необходимые данные, сроки сдачи и баллы за задание указаны на странице

курса

https://wiki.school.yandex.ru/shad/groups/2014/Semester4/MachineTranslate/

Выполненные задания высылаются на адрес, который сообщается студентам на первом занятии,

адрес также указан на странице курса.

Промежуточная аттестация по дисциплине проводится по завершению семестра.

Суммарное количество баллов по статистическому машинному переводу и правиловому

машинному переводу

Баллы Оценка

80+ отлично

[60; 79] хорошо

[40; 59] удовлетворительно

Результаты оцениваются по шкале «зачет», «незачет». «Зачет» ставится за оценку

«удовлетворительно» и выше. «Зачет» означает успешное прохождение промежуточной

аттестации.

Учебно-методическое обеспечение дисциплины.

Учебно-методические материалы по дисциплине «Машинный перевод» выложены на странице

курса в сети Интернет:

https://wiki.school.yandex.ru/shad/groups/2014/Semester4/MachineTranslate/

Page 5: Аннотация к рабочей программе дисциплиныfit.nsu.ru/data_/docs/mag/OOP/4_RPD/AnD/_AnD_FTD.2_rpd.pdfадания выполняются на языке

5

1. Внешние требования к дисциплине

Таблица 1.1

Компетенция СПК-1 способность к применению современных технологий и

методологий получения, хранения, передачи, обработки больших данных; в части

следующих результатов обучения:

СПК-1.4. знать и уметь применять на практике основные математические модели в

области специализации

2. Требования к результатам освоения дисциплины

Таблица 2.1

Результаты изучения дисциплины по уровням освоения

(иметь представление, знать, уметь, владеть)

Формы организации занятий

Практика Самостоятель

ная работа

СПК-1.4. знать и уметь применять на практике основные математические модели в области

специализации

1. знать и уметь решать задачи, связанные со

статистическим машинным переводом + +

2. знать и уметь решать реальные в области правилового

машинного перевода + +

3. Содержание и структура учебной дисциплины

Таблица 3.1

Темы практических занятий

Активные

формы,

час.

Часы

Ссылки на

результаты

обучения

Учебная деятельность

Семестр: 2

Тема 1

Введение в машинный перевод

и статистическое

моделирование.

4 4 1 Разбор теоретического

материала темы, решение

задач по темам:

Оценка максимального

правдоподобия

Тема 2.

Выравнивание слов и обучение

со скрытыми данными

4 4 1 Разбор теоретического

материала темы, решение

задач по темам:

Максимальное

правдоподобие со скрытыми

данными.

Тема 3.

Машинный перевод,

основанный на фразах,

языковые модели.

Декодирование

4 4 1 Разбор теоретического

материала темы, решение

задач по темам:

Машинный перевод,

основанный на фразах,

языковые модели.

Reordering for MT: Tree

based reordering

Тема 4.

Аналитика аудиторных

показателей поиска

4 4 1 Разбор теоретического

материала темы, решение

задач по темам:

Устройство поискового

рынка на примере открытых

данных.

Процесс построения модели

Page 6: Аннотация к рабочей программе дисциплиныfit.nsu.ru/data_/docs/mag/OOP/4_RPD/AnD/_AnD_FTD.2_rpd.pdfадания выполняются на языке

6

от сбора данных до

визуализации.

Примеры инструментов,

полезные техники и

практические рекомендации.

Тема 5.

Нейронные сети для NLP:

Word embeddings,

Convolutional NN

Модели машинного перевода

sequence-to-Sequence models

4 4 1 Разбор теоретического

материала темы, решение

задач по темам:

Нейронные сети для NLP:

Word embeddings,

Convolutional NN

Модели машинного

перевода sequence-to-

Sequence models

Тема 6.

История машинного перевода.

Лингвистика и машинный

перевод

4 4 1 Разбор теоретического

материала темы, решение

задач по темам:

Лингвистика и машинный

перевод

Тема 7.

Синтаксис и машинный

перевод.

Глобальные свойства

синтаксической структуры.

Синтаксические признаки.

Лексические функции.

Словарь в машинном переводе.

Трансфер. Лингвистическая

семантика. Онтологическая

семантика

2 2 1 Разбор теоретического

материала темы, решение

задач по темам:

Синтаксис и машинный

перевод.

Глобальные свойства

синтаксической структуры.

Синтаксические признаки.

Лексические функции.

Словарь в машинном

переводе. Трансфер.

Лингвистическая семантика.

Онтологическая семантика

Тема 8.

Синтаксис:

Две проблемы в МП:

sparsity и порядок слов.

(Эта лекция про

порядок слов.)

Примеры разного

порядка слов, SVO и

SOV.

Как переставляются

слова в иерархическом,

фразовом и

нейросетевом переводе

(кратко). Почему все

методы не очень

хорошо работают.

Как победить порядок

слов: pre-ordering и

post-ordering

Синтаксис, dependency

деревья. Тезис о том,

что синтаксис нам

2 2 1, 2

Разбор теоретического

материала темы, решение

задач по темам:

Разбор задания по

правиловому машинному

переводу.

Page 7: Аннотация к рабочей программе дисциплиныfit.nsu.ru/data_/docs/mag/OOP/4_RPD/AnD/_AnD_FTD.2_rpd.pdfадания выполняются на языке

7

поможет сделать

перестановки.

Парсер: treebanks

Парсер: transition-based

dependency parsing, arc-

greedy система

переходов, beam search

Парсер:

структурированное

обучение,

структурированный

персептрон

Парсер: типы

структурированного

персептрона,

приложение к другим

задачам (в т.ч. к

переводу)

Парсер: специфика

greedy transition-based

парсинга, error

propagation

Переставлятор: на чем

учимся, как измеряем

качество

Переставлятор: Ручные

правила

Переставлятор:

Permutation Trees, ICG

Переставлятор:

Intractability

перестановок и способы

это побороть

Тема 9.

Морфология

Две проблемы в МП:

sparsity и порядок слов.

(Эта лекция про

sparsity.)

Примеры sparsity из-за

морфологии

Как sparsity снижается в

в иерархическом,

фразовом и

нейросетевом переводе

(спойлер: никак)

Морфология, кратко о

типах. Тезис о том, что

морфология нам

поможет победить

sparsity.

Две задачи: перевод с

морфологически

богатого языка (RU-

2 2 1, 2 Разбор теоретического

материала темы, решение

задач по темам:

Разбор задания.

Page 8: Аннотация к рабочей программе дисциплиныfit.nsu.ru/data_/docs/mag/OOP/4_RPD/AnD/_AnD_FTD.2_rpd.pdfадания выполняются на языке

8

EN), и перевод на

морфологически

богатый язык (EN-RU)

Морфология: OOV

(хрюкотающие зелюки,

саакашвили --

саакашвилят -- будут

саакашвить).

Морфология: дизамб

(lives -> life + s / live +

s)

Морфология: ручные

правила

Морфология:

трансдьюсеры

Морфология:

автоморфология c

помощью word2vec

RUEN:

морфологические

разрезания

RUEN: кодирование

служебных слов в

морфологических

признаках

RUEN: связь

синтаксиса и

морфологии, пример

inflectional groups в

турецком

ENRU: классы слов,

языковая модель на

классах

ENRU: предсказание

морфологических

признаков по контексту

и по исходному

предложению

ENRU: задача синтеза

слова из основы и

морф. признаков, n-best,

решетки

Тема 10.

Машинное обучение в

реальной жизни

2 2 1, 2 Разбор теоретического

материала темы, решение

задач по темам:

Разбор задания.

Итого: 32 32

Page 9: Аннотация к рабочей программе дисциплиныfit.nsu.ru/data_/docs/mag/OOP/4_RPD/AnD/_AnD_FTD.2_rpd.pdfадания выполняются на языке

9

4. Самостоятельная работа магистрантов

Таблица 4.1

№ Виды самостоятельной работы

Ссылки на

результаты

обучения

Часы на

выполнени

е

Часы на

консультаци

и

Семестр: 2

1

Самостоятельная работа с учебным

материалом: основной учебной литературой, с

дополнительной литературой

1 15

Изучение учебного материала по статистическому и правиловому машинному переводу,

решение практических задач машинного перевода.

Учебно-методические материалы по дисциплине «Машинный перевод» выложены на

странице курса в сети Интернет

https://wiki.school.yandex.ru/shad/groups/2014/Semester4/MachineTranslate/

2

Подготовка к практическим работам, к текущему

контролю знаний и промежуточной аттестации 1, 2 20

Разбор выполненных заданий, самостоятельное выполнение заданий в количестве 7, перечень

задач представлен на странице курса

https://wiki.school.yandex.ru/shad/groups/2014/Semester4/MachineTranslate/

3 Подготовка к зачету 1 3

Повторение теоретического материала по вопросам, совпадающим с темами практических

занятий

Итого: 38

5. Образовательные технологии

В ходе реализации учебного процесса по дисциплине проводятся практические занятия с

изучением теоретического материала и выполнением практических заданий. По вопросам,

вызывающим затруднения, проводятся консультации.

В ходе реализации учебного процесса по дисциплине проводятся практические занятия, а

также применяются следующие интерактивные формы обучения (таблица 5.1).

Таблица 5.1

1 Портфолио СПК-1.4

Формируемые умения: СПК-1.4 знать и уметь применять на практике основные математические модели в области

специализации

Краткое описание применения: магистранты ведут портфолио (коллекцию решенных

задач), которое является основой для проведения аттестации по дисциплине

Для организации и контроля самостоятельной работы магистрантов, а также проведения

консультаций применяются информационно-коммуникационные технологии (таблица 5.2).

Таблица 5.2

Информирование https://wiki.school.yandex.ru/shad/groups/2014/Semester4/Machin

eTranslate/

Консультирование https://wiki.school.yandex.ru/shad/groups/2014/Semester4/Machin

eTranslate/

Контроль Адрес почты – сообщается студентам на первом занятии.

Размещение учебных

материалов

https://wiki.school.yandex.ru/shad/groups/2014/Semester4/Machin

eTranslate/

Page 10: Аннотация к рабочей программе дисциплиныfit.nsu.ru/data_/docs/mag/OOP/4_RPD/AnD/_AnD_FTD.2_rpd.pdfадания выполняются на языке

10

6. Правила аттестации магистрантов по учебной дисциплине

По дисциплине «Машинный перевод» проводится текущая и промежуточная аттестация

(итоговая по дисциплине).

Текущая аттестация по дисциплине «Машинный перевод» осуществляется на

практических занятиях и заключается в сдаче решенных задач («портфолио»).

Текущий контроль по дисциплине проводится в течение всего семестра. Студенты в течение

семестра должны выполнить 7 заданий: 3 задания по статистическому машинному переводу, 4

задания - по правиловому машинному переводу.

Задания выполняются на языке Python, срок - не менее 3 недель. Задание предварительно

разбирается на практическом занятии.

Задания выдаются 1 раз в 2 недели.

Сроки сдачи заданий: 9, 16, 22 и 24 марта, 20 и 30 апреля, 16 и 20 мая.

Условия заданий, необходимые данные, сроки сдачи и баллы за задание указаны на странице

курса https://wiki.school.yandex.ru/shad/groups/2014/Semester4/MachineTranslate/

Выполненные задания высылаются на адрес, который сообщается студентам на первом занятии,

адрес также указан на странице курса.

Промежуточная аттестация по дисциплине проводится по завершению семестра.

Суммарное количество баллов по статистическому машинному переводу и правиловому

машинному переводу

Баллы Оценка

80+ отлично

[60; 79] хорошо

[40; 59] удовлетворительно

Результаты оцениваются по шкале «зачет», «незачет». «Зачет» ставится за оценку

«удовлетворительно» и выше. «Зачет» означает успешное прохождение промежуточной

аттестации.

В таблице 6.1 представлено соответствие форм аттестации заявляемым требованиям к

результатам освоения дисциплины.

Таблица 6.1

Коды

компете

нций

ФГОС

Результаты обучения

Формы аттестации

семестр 2

портфолио зачет

СПК-1 СПК-1.4 знать и уметь применять на практике

основные математические модели в области

специализации

+ +

Требования к структуре и содержанию портфолио, оценочные средства, а также критерии

оценки сформированности компетенций и освоения дисциплины в целом, представлены в

Фонде оценочных средств, являющемся приложением 1 к настоящей рабочей программе

дисциплины.

Page 11: Аннотация к рабочей программе дисциплиныfit.nsu.ru/data_/docs/mag/OOP/4_RPD/AnD/_AnD_FTD.2_rpd.pdfадания выполняются на языке

11

7. Литература

Основная литература

1. Загорулько Ю.А.Инженерия знаний : учебное пособие : [для студентов, изучающих курс

"Инженерия знаний"] / Ю.А. Загорулько, Г.Б. Загорулько ; М-во образования и науки

РФ, Новосиб. гос. ун-т, Фак. информ. технологий .— Новосибирск : Редакционно-

издательский центр НГУ, 2016 .— 92 с. : схемы, ил. ; 20 см. — Библиогр.: с.88-90 .—

ISBN 978-5-4437-0452-4, 70 экз. — <URL:http://e-lib.nsu.ru/dsweb/Get/Resource-

1052/page001.pdf>.

Дополнительная литература:

2. Лбов Г.С. Анализ данных и знаний : учебное пособие / Г.С. Лбов ; Федер. агентство по

образованию, Новосиб. гос. ун-т, Мех.-мат. фак .— Новосибирск : Новосибирский

государственный университет, 2010 .— 107 с. ; 20 см. — Библиогр.: с.107. — ISBN 978-

5-94356-907-4, 100 экз.

Интернет-ресурсы

Таблица 7.1

п/п Наименование Интернет-ресурса Краткое описание

1. http://www.aclweb.org/anthology/N09-1028 SOV reordering, Xu et al. 2009

2. http://www.aclweb.org/anthology/W10-1736 Head final reordering, Isozaki et al.

2010

3. http://static.googleusercontent.com/media/research.googl

e.com/en/us/pubs/archive/41651.pdf

Classifier based reordering, Lerner &

Petrov 2013,

4. http://www.aclweb.org/anthology/W11-2102 Reordering evaluation, Talbot et al.

2011

8. Учебно-методическое и программное обеспечение дисциплины

8.1. Учебно-методическое обеспечение

Страница курса в сети Интернет

https://wiki.school.yandex.ru/shad/groups/2014/Semester4/MachineTranslate/

8.2. Программное обеспечение

Для обеспечения реализации дисциплины используется стандартный комплект

программного обеспечения (ПО), включающий регулярно обновляемое лицензионное ПО

Windows и MS Office.

Перечень специализированного программного обеспечения для изучения дисциплины

представлен в таблице 8.1.

Специализированное программное обеспечение Таблица 8.1

№ Наименование ПО Назначение Место размещения

1 Python Среда для выполнения

заданий

Аудитории 4220, 4218, 4214, 4213,

4211, 4210, 3213, 3212, 2221, 2213

Учебного корпуса №1

Page 12: Аннотация к рабочей программе дисциплиныfit.nsu.ru/data_/docs/mag/OOP/4_RPD/AnD/_AnD_FTD.2_rpd.pdfадания выполняются на языке

12

ПО для лиц с ограниченными возможностями здоровья Таблица 8.2

№ Наименование ПО Назначение Место размещения

1 Jaws for Windows Программа экранного доступа к системным и

офисным приложениям, включая интернет-

обозреватели. Информация с экрана

считывается вслух, обеспечивая возможность

речевого доступа к самому разнообразному

контенту. Jaws также позволяет выводить

информацию на обновляемый дисплей

Брайля. JAWS включает большой набор

клавиатурных команд, позволяющих

воспроизвести действия, которые обычно

выполняются только при помощи мыши.

Ресурсный центр,

читальные залы

библиотеки НГУ,

компьютерные

классы (сетевые

лицензии)

2 Duxbury Braille

Translator v11.3 для

Брайлевского

принтера

Программа перевода текста в текст Брайля, и

печати на Брайлевском принтере

Ресурсный центр

3 "MAGic Pro 13"

(увеличение+речь)

Программа для людей со слабым зрением и

для незрячих людей. Программа позволяет

увеличить изображение на экране до 36 крат,

есть функция речевого сопровождения

Ресурсный центр,

читальные залы

библиотеки НГУ

9. Профессиональные базы данных и информационные справочные системы

1. Полнотекстовые журналы Springer Journals за 1997-2015 г., электронные книги (2005-

2016 гг.), коллекция научных биомедицинских и биологических протоколов SpringerProtocols,

коллекция научных материалов в области физических наук и инжиниринга SpringerMaterials,

реферативная БД по чистой и прикладной математике zbMATH.

2. Электронная библиотека диссертаций Российской государственной библиотеки (ЭБД

РГБ)

3. Электронные ресурсы Web of Science Core Collection (Thomson Reuters Scientific LLC.),

Journal Citation Reports + ESI

4. БД Scopus (Elsevier)

10. Материально-техническое обеспечение

Таблица 10.1

№ Наименование Назначение

1 Презентационное оборудование

(мультимедиа-проектор, экран, компьютер

для управления)

Для проведения лекционных и

практических занятий

2 Компьютерный класс (с выходом в Internet) Для организации самостоятельной работы

обучающихся

Page 13: Аннотация к рабочей программе дисциплиныfit.nsu.ru/data_/docs/mag/OOP/4_RPD/AnD/_AnD_FTD.2_rpd.pdfадания выполняются на языке

13

Оборудование, обеспечивающее адаптацию электронных и печатных образовательных ресурсов

для обучающиеся из числа лиц с ограниченными возможностями здоровья

Таблица 10.2

№ Наименование

оборудования Назначение Место размещения

1 Принтер Брайля Печать рельефно-точечным шрифтом

Брайля Ресурсный центр

2 Увеличитель Prodigi

Duo Tablet 24

Устройство для чтения и увеличения

плоскопечатного текста

Ресурсный центр,

читальные залы

библиотеки НГУ

Специализированное

мобильное рабочее

место «ЭлНот 311»

Мобильный компьютер с дисплеем

брайля Ресурсный центр

Портативный

тактильный дисплей

Брайля “Focus 40 Blue”

Навигация в операционных системах,

программах и интернете с помощью

отображения рельефно-точечным

шрифтом Брайля получаемой информации

Ресурсный центр,

читальные залы

библиотеки НГУ

Устройство для печати

тактильной графики

«PIAF»

Печать тактильных графических

изображений Ресурсный центр

Портативный видео-

увеличитель RUBY XL

HD

Увеличение текста и подбор контрастных

схем изображения Ресурсный центр

Складной настольный

электронный видео-

увеличитель «TOPAZ

PHD 15»

Увеличение текста и подбор контрастных

схем изображения Ресурсный центр

Электронный ручной

видео-увеличитель

ONYX Deskset HD 22”

Увеличение текста и подбор контрастных

схем изображения Ресурсный центр

Смартфон EISmart G3 Смартфон клавишным управлением и

озвученным интерфейсом, обучение

спутниковой навигации.

Ресурсный центр

FM-система «Сонет-

РСМ» РМ-3-1

Звуковая FM-система для людей с

нарушением слуха, улучшающая

восприятие голосовой информации

Большая физическая

аудитория главного

корпуса НГУ

Page 14: Аннотация к рабочей программе дисциплиныfit.nsu.ru/data_/docs/mag/OOP/4_RPD/AnD/_AnD_FTD.2_rpd.pdfадания выполняются на языке