39
Корпусная лингвистика: компиляция корпуса устной речи Наталья Карлова-Бурбонус n [email protected] Университет имени Юстуса Либиха (г. Гиссен, Германия)

Корпусная лингвистика:компиляция корпуса устной речи

Embed Size (px)

Citation preview

Page 1: Корпусная лингвистика:компиляция корпуса устной речи

Корпусная лингвистика:компиляция корпуса устной речи

Наталья Карлова-Бурбонус[email protected]Университет имени Юстуса Либиха

(г. Гиссен, Германия)

Page 2: Корпусная лингвистика:компиляция корпуса устной речи

План лекции

Что такое корпус? Корпус устной речи? Виды Корпусы устной речи (фокус: слявянские языки) Компиляция корпуса устной речи: основные этапы,

принципы, инструменты

2Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 3: Корпусная лингвистика:компиляция корпуса устной речи

Что такое корпус? Корпус устной речи?

Корпус = совокупность текстов (письменных и устных) в электронной форме.

Корпус устной речи = коллекция аудиозаписей устной речи включая транскрипты к ним.

Корпус устной речи обычно дополняет – информация о словах и частоте их употребления– метаданные (основная информация о корпусе)

3Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 4: Корпусная лингвистика:компиляция корпуса устной речи

Зачем нужен корпус устной речи?

Основной материал для анализа устной речи Примеры использования

– Сравнение произношений в различных диалектах– Сравнение произношения мужчин и женщин– Анализ спонтанной речи– Разработка систем для автоматического распознавания и

синтеза речи (заказ авиабилета)

4Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 5: Корпусная лингвистика:компиляция корпуса устной речи

Виды корпусов устной речи (1)

Начитанная речь– Список слов– Отрывки из книг– Новостная лента– Последовательность чисел

Спонтанная речь– Диалоги и встречи (свободная беседа между 2-мя и более

собеседниками)– Стимулированные нарративы (один человек рассказывает

историю)– Задание назначить встречу (день и место)– Симуляция естественных ситуаций

5Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 6: Корпусная лингвистика:компиляция корпуса устной речи

Виды корпусов устной речи (2)

Готовый корпус– Datenbank Gesprochenes Deutsch (DGD) (немецкий язык)– CHILDES database, CMU Pittsburgh (английский язык)– CLAPI: Corpus des langues parlées en interaction

(французский язык)– CGN: Corpus Gesproken Nederlands (голландский язык)– Multimedia Corpus of Spoken Bulgarian (болгарский язык)– Pražský mluvený korpus (Cesky národni korpus (CNC))

(чешский язык) Собственный корпус

6Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 7: Корпусная лингвистика:компиляция корпуса устной речи

Корпуса устной речи (фокус: славянские языки)

Multimedia Corpus of Spoken Bulgarian Pražský mluvený korpus (Český národní korpus (ČNK))

7Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 8: Корпусная лингвистика:компиляция корпуса устной речи

Национальный корпус чешского языка

8Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 9: Корпусная лингвистика:компиляция корпуса устной речи

Пражский речевой корпус (1)

Под руководством František Čermák (Карлов университет в Праге)

Корпус создан в 2001 304 аудиозаписи (анонимные), 1988-1996 675 000 слов

9Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 10: Корпусная лингвистика:компиляция корпуса устной речи

Пражский речевой корпус (2)

Сбалансированный корпус 4 переменные и их комбинации (MIBF, MIAF и т.д.)

– пол M-F (male/female)– возраст I-V (junior- vetus)– образование (basis-altus)– формальный/неформальнй тип беседы (formal/non-formal)

• Формальный тип: монолог, секвенция ответов на заранее подготовленные вопросы, сами вопросы не записываются и не транскрибируются; темы: школа, работа, молодежные темы

• Неформальный тип: диалог между двумя собеседниками, темы не были заданы

10Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 11: Корпусная лингвистика:компиляция корпуса устной речи

Многомедийный речевой корпус болгарского языка (1)

11Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 12: Корпусная лингвистика:компиляция корпуса устной речи

Многомедийный речевой корпус болгарского языка(2)

2013-2014 Аудио- и видеозаписи с соответствующими транскриптами Аутентичные диалоги Орфографический тип транскрипции Транскрипты также содержат информацию о

невербальных средствах (паузы, смех, шум, мимика, жесты).

Синхронизация видео- и аудиозаписей с транскриптами была осуществлена с помощью EXMARaLDA

Доступ: онлайн

12Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 13: Корпусная лингвистика:компиляция корпуса устной речи

Многомедийный речевой корпус болгарского языка(3)

13

Page 14: Корпусная лингвистика:компиляция корпуса устной речи

Компиляция корпуса

Появление новых технологий за последние 10 лет открыло многочисленные возможности для сбора данных, а также обработки и анализа устной речи.

Комплексная задача Четкое планирование

14Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 15: Корпусная лингвистика:компиляция корпуса устной речи

Основные этапы компиляции корпуса устной речи

Сбор данных (первичные данные) Транскрибирование Аннотация и метаданные Доступ к данным

15Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 16: Корпусная лингвистика:компиляция корпуса устной речи

Основные этапы компиляции корпуса устной речи

Сбор данных (первичные данные) Транскрибирование Аннотация и метаданные Доступ к данным

16Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 17: Корпусная лингвистика:компиляция корпуса устной речи

Сбор данных (1)

Составление заявлений о согласии автора / интервьюируемого о последующем использовании записи

Заявление о согласии д.б. подписано интервьюируемыми Выбор форматов для записей, оборудования, места и

условий, где будет сделана запись и т.д. Процесс сбора данных:

– В лабораторных условиях– В естественных условиях

Выбор фокуса: количество или деталь Данные д.б. релевантны и репрезентативны

17Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 18: Корпусная лингвистика:компиляция корпуса устной речи

Сбор данных (2)

Технические рекомендации*:– Данные в цифровом формате

• Flash mobile recorder• Ноутбук (звуковая карта высокого качества, внешний микрофон,

ноутбук в хорошем техническом состоянии, качественная программа для записи – напр. Audicity)

• Для видеозаписей подходят обычые камеры (MPEG2 или MPEG4/H.264 с высоким битрейтом)

– Условия и инструменты для аудио- и видеозаписи высокого качества

* Рекомендации Немецкого научно-исследовательского института (DFG)18Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 19: Корпусная лингвистика:компиляция корпуса устной речи

Сбор данных (3)

Технические рекомендации:– Записи без потери качества из-за сжатия файла– Конвертация форматов для использования записей в

выбранных инструментах для машинной обработки– Форматы:

• Аудио: несжатый линейный формат PCM (.WAV) (при отсутствии посторонних звуков 16бит/22kHz – 16бит/48kHz )

• Видео:– Стандартное качество: 720px x 576px или 704px x 480px с сжатием

MPEG-2 до 9Mbit/s (3.5 Mbit/s)– Высокое качество (подходит для анализа жестов и мимики): 1280px

x 720px или 1920px x 1080px с сжатием H.264/MPEG-4 AVC до 48Mbit/s (9Mbit/s)

– Резервное сохранение оригинальных записей

19Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 20: Корпусная лингвистика:компиляция корпуса устной речи

Основные этапы компиляции корпуса устной речи

Сбор данных (первичные данные) Транскрибирование Аннотация и метаданные Доступ к данным

20Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 21: Корпусная лингвистика:компиляция корпуса устной речи

Транскрибирование (1)

Сложность работы с записями устной речи– Представление устной речи с помощью символов

(орфография, интонация, сбои речи, невербальные средства)

Синхронизация аудио-/видеозаписи с транскрипцией Выбор типа транскрипции:

• Орфографическая• Фонетическая

21Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 22: Корпусная лингвистика:компиляция корпуса устной речи

Орфографический вид транскрипции

Ориентир:– Орфографический словарь (нормированная

орфография слов) Как кодировать в транскрипции „не“, „че“?

Нормированная орфографическая передача? Xарактериcтика речи интервьюируемого.

Иностранные слова:– Твит(т)ер, фе(э)йсбук или twitter и facebook

22Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 23: Корпусная лингвистика:компиляция корпуса устной речи

Орфографический вид транскрипции

Представление невербальной информации (контекстуальная информация, жесты, паузы, частичное наложение) в транскрипте:– Паузы:

• Главное отличие устной речи от письменной• Колебания, паузы-хезитации(мэканье)• Короткие паузы vs. долгие паузы сколько по времени длятся? • Обычно варьируются от < 0.2 сек до < 0.5 сек в зависимости от

функции паузы– Самоисправления– Наложение речи– Смех– Шум

23Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 24: Корпусная лингвистика:компиляция корпуса устной речи

Нормы

Для орфографического типа транскрипции:– CHAT– GAT (Selting et al. 1998)– HIAT (Ehlich/Rehbein 1976) [3]

Для фонетического типа транскрипции:– IPA (International Phonetic Association)

24Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 25: Корпусная лингвистика:компиляция корпуса устной речи

IPA для русского языка

*Источник http://russisch.urz.uni-leipzig.de/online-woerterbuch/ipadescr.htm

25Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 26: Корпусная лингвистика:компиляция корпуса устной речи

Рекомендации для транскрибирования

Ориентация на аудио- и видеозапись, а не на собственные языковые представления

Единые правила для составления транскрипции консистенция в процессе

Транскрипции должны быть четкими и удобочитаемыми Выбор программы, которая

– основана на UNICODE– с достаточной документацией– позволяет синхронизацию аудио-/видеозаписи с транскрипцией– работает с форматами (XML), которые совместимы с другими

программами

26Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 27: Корпусная лингвистика:компиляция корпуса устной речи

Основные этапы компиляции корпуса устной речи

Сбор данных (первичные данные) Транскрибирование Аннотация и метаданные Доступ к данным

27Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 28: Корпусная лингвистика:компиляция корпуса устной речи

Стандарты для аннотирования

Морфосинтаксический тип аннотации– STTS

Синтаксический тип аннотации– Tiger

Семантический тип аннотации– SALSA

Грамматические отношения и одушевленность имен существительных в дискурсе– GRAID

Просодия и интонация– ToBi

28Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 29: Корпусная лингвистика:компиляция корпуса устной речи

Метаданные

Сфера функционирования: публичная, непубличная, кино

Тип: беседа, интервью, микродиалог и пр. Тематика: частная жизнь, медицина и здоровье,

политика и общественная жизнь и пр. Место и время записи Характеристики говорящих: возраст, пол,

национальность

29Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 30: Корпусная лингвистика:компиляция корпуса устной речи

Стандарты для метаданных

Dublin Core Metadata Initiative (DCMI) Open Language Archives Community (OLAC) Component MetaData Infrastructure (CMDI) Data Category Registry (ISOcat) ISLE Meta Data Initiative (IMDI)

30Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 31: Корпусная лингвистика:компиляция корпуса устной речи

Инструменты

ANVIL ELAN FOLKER EXMARaLDA* Praat Phon

• Workshop “Компиляция и транскрибирование корпуса устной речи с EXMARaLDA“ (ул.Сурганова 6, каб.100, 14:00-16:00)

31Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 32: Корпусная лингвистика:компиляция корпуса устной речи

Что такое EXMARaLDA?

Extensible Markup Language for Discourse Annotation Набор инструментов для работы с видео и

аудиофайлами Разработан в Университете Гамбурга (Universität

Hamburg) Написан в Java Поддерживается Windows, Mac OS, Linux

32Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 33: Корпусная лингвистика:компиляция корпуса устной речи

Почему EXMARaLDA?

Доступен для бесплатного (законного) скачивания и использования (некоммерческая лицензия)

Основан на стандарте UNICODE (многоязычность) Отличная документация +

обучающие уроки (на англ. и нем. языках) Все необходимые инструменты для компиляции

корпуса устной речи и работы с ним– Partitur-Editor: инструмент для многоуровневого

транскрибирования и аннотирования аудио- и видеофайлов– COMA: инструмент для организации/компиляции корпуса и

его управления– Exakt: инструмент для поиска и анализа корпуса

33Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 34: Корпусная лингвистика:компиляция корпуса устной речи

Проекты и EXMARaLDA

34Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 35: Корпусная лингвистика:компиляция корпуса устной речи

Praat

Бесплатный инструмент для детального фонетического анализа

Аспекты анализа:– duration– vowel formants– fundamental frequency – pitch– intensity – loudness

Обучающее видео / руководство

35Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 36: Корпусная лингвистика:компиляция корпуса устной речи

Основные этапы компиляции корпуса устной речи

Сбор данных (первичные данные) Транскрибирование Аннотация и метаданные Доступ к данным

36Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 37: Корпусная лингвистика:компиляция корпуса устной речи

Доступ

Виды– Оффлайн (возможность скачивания)– Онлайн– Платный / бесплатный– Необходимость регистрации

Весь корпус целиком? Отдельные элементы. Только транскрипции или аудиозаписи также?

Формат? HTML, SGML

37Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 38: Корпусная лингвистика:компиляция корпуса устной речи

Вопросы?

Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Page 39: Корпусная лингвистика:компиляция корпуса устной речи

Основные источники DFG-Handreichung "Empfehlungen zu datentechnischen Standards

und Tools bei der Erhebung von Sprachkorpora".

DFG-Handreichung "Informationen zu rechtlichen Aspekten bei der Handhabung von Sprachkorpora".

Leech, Geoffrey, Greg Myers & Jenny Thomas, eds. (1995). Spoken English on Computer. London: Longman.

39Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015