Корпусная лингвистика:компиляция корпуса устной речи

Preview:

Citation preview

Корпусная лингвистика:компиляция корпуса устной речи

Наталья Карлова-Бурбонусnatali.karlova-bourbonus@zmi.uni-giessen.deУниверситет имени Юстуса Либиха

(г. Гиссен, Германия)

План лекции

Что такое корпус? Корпус устной речи? Виды Корпусы устной речи (фокус: слявянские языки) Компиляция корпуса устной речи: основные этапы,

принципы, инструменты

2Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Что такое корпус? Корпус устной речи?

Корпус = совокупность текстов (письменных и устных) в электронной форме.

Корпус устной речи = коллекция аудиозаписей устной речи включая транскрипты к ним.

Корпус устной речи обычно дополняет – информация о словах и частоте их употребления– метаданные (основная информация о корпусе)

3Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Зачем нужен корпус устной речи?

Основной материал для анализа устной речи Примеры использования

– Сравнение произношений в различных диалектах– Сравнение произношения мужчин и женщин– Анализ спонтанной речи– Разработка систем для автоматического распознавания и

синтеза речи (заказ авиабилета)

4Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Виды корпусов устной речи (1)

Начитанная речь– Список слов– Отрывки из книг– Новостная лента– Последовательность чисел

Спонтанная речь– Диалоги и встречи (свободная беседа между 2-мя и более

собеседниками)– Стимулированные нарративы (один человек рассказывает

историю)– Задание назначить встречу (день и место)– Симуляция естественных ситуаций

5Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Виды корпусов устной речи (2)

Готовый корпус– Datenbank Gesprochenes Deutsch (DGD) (немецкий язык)– CHILDES database, CMU Pittsburgh (английский язык)– CLAPI: Corpus des langues parlées en interaction

(французский язык)– CGN: Corpus Gesproken Nederlands (голландский язык)– Multimedia Corpus of Spoken Bulgarian (болгарский язык)– Pražský mluvený korpus (Cesky národni korpus (CNC))

(чешский язык) Собственный корпус

6Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Корпуса устной речи (фокус: славянские языки)

Multimedia Corpus of Spoken Bulgarian Pražský mluvený korpus (Český národní korpus (ČNK))

7Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Национальный корпус чешского языка

8Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Пражский речевой корпус (1)

Под руководством František Čermák (Карлов университет в Праге)

Корпус создан в 2001 304 аудиозаписи (анонимные), 1988-1996 675 000 слов

9Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Пражский речевой корпус (2)

Сбалансированный корпус 4 переменные и их комбинации (MIBF, MIAF и т.д.)

– пол M-F (male/female)– возраст I-V (junior- vetus)– образование (basis-altus)– формальный/неформальнй тип беседы (formal/non-formal)

• Формальный тип: монолог, секвенция ответов на заранее подготовленные вопросы, сами вопросы не записываются и не транскрибируются; темы: школа, работа, молодежные темы

• Неформальный тип: диалог между двумя собеседниками, темы не были заданы

10Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Многомедийный речевой корпус болгарского языка (1)

11Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Многомедийный речевой корпус болгарского языка(2)

2013-2014 Аудио- и видеозаписи с соответствующими транскриптами Аутентичные диалоги Орфографический тип транскрипции Транскрипты также содержат информацию о

невербальных средствах (паузы, смех, шум, мимика, жесты).

Синхронизация видео- и аудиозаписей с транскриптами была осуществлена с помощью EXMARaLDA

Доступ: онлайн

12Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Многомедийный речевой корпус болгарского языка(3)

13

Компиляция корпуса

Появление новых технологий за последние 10 лет открыло многочисленные возможности для сбора данных, а также обработки и анализа устной речи.

Комплексная задача Четкое планирование

14Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Основные этапы компиляции корпуса устной речи

Сбор данных (первичные данные) Транскрибирование Аннотация и метаданные Доступ к данным

15Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Основные этапы компиляции корпуса устной речи

Сбор данных (первичные данные) Транскрибирование Аннотация и метаданные Доступ к данным

16Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Сбор данных (1)

Составление заявлений о согласии автора / интервьюируемого о последующем использовании записи

Заявление о согласии д.б. подписано интервьюируемыми Выбор форматов для записей, оборудования, места и

условий, где будет сделана запись и т.д. Процесс сбора данных:

– В лабораторных условиях– В естественных условиях

Выбор фокуса: количество или деталь Данные д.б. релевантны и репрезентативны

17Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Сбор данных (2)

Технические рекомендации*:– Данные в цифровом формате

• Flash mobile recorder• Ноутбук (звуковая карта высокого качества, внешний микрофон,

ноутбук в хорошем техническом состоянии, качественная программа для записи – напр. Audicity)

• Для видеозаписей подходят обычые камеры (MPEG2 или MPEG4/H.264 с высоким битрейтом)

– Условия и инструменты для аудио- и видеозаписи высокого качества

* Рекомендации Немецкого научно-исследовательского института (DFG)18Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Сбор данных (3)

Технические рекомендации:– Записи без потери качества из-за сжатия файла– Конвертация форматов для использования записей в

выбранных инструментах для машинной обработки– Форматы:

• Аудио: несжатый линейный формат PCM (.WAV) (при отсутствии посторонних звуков 16бит/22kHz – 16бит/48kHz )

• Видео:– Стандартное качество: 720px x 576px или 704px x 480px с сжатием

MPEG-2 до 9Mbit/s (3.5 Mbit/s)– Высокое качество (подходит для анализа жестов и мимики): 1280px

x 720px или 1920px x 1080px с сжатием H.264/MPEG-4 AVC до 48Mbit/s (9Mbit/s)

– Резервное сохранение оригинальных записей

19Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Основные этапы компиляции корпуса устной речи

Сбор данных (первичные данные) Транскрибирование Аннотация и метаданные Доступ к данным

20Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Транскрибирование (1)

Сложность работы с записями устной речи– Представление устной речи с помощью символов

(орфография, интонация, сбои речи, невербальные средства)

Синхронизация аудио-/видеозаписи с транскрипцией Выбор типа транскрипции:

• Орфографическая• Фонетическая

21Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Орфографический вид транскрипции

Ориентир:– Орфографический словарь (нормированная

орфография слов) Как кодировать в транскрипции „не“, „че“?

Нормированная орфографическая передача? Xарактериcтика речи интервьюируемого.

Иностранные слова:– Твит(т)ер, фе(э)йсбук или twitter и facebook

22Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Орфографический вид транскрипции

Представление невербальной информации (контекстуальная информация, жесты, паузы, частичное наложение) в транскрипте:– Паузы:

• Главное отличие устной речи от письменной• Колебания, паузы-хезитации(мэканье)• Короткие паузы vs. долгие паузы сколько по времени длятся? • Обычно варьируются от < 0.2 сек до < 0.5 сек в зависимости от

функции паузы– Самоисправления– Наложение речи– Смех– Шум

23Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Нормы

Для орфографического типа транскрипции:– CHAT– GAT (Selting et al. 1998)– HIAT (Ehlich/Rehbein 1976) [3]

Для фонетического типа транскрипции:– IPA (International Phonetic Association)

24Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

IPA для русского языка

*Источник http://russisch.urz.uni-leipzig.de/online-woerterbuch/ipadescr.htm

25Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Рекомендации для транскрибирования

Ориентация на аудио- и видеозапись, а не на собственные языковые представления

Единые правила для составления транскрипции консистенция в процессе

Транскрипции должны быть четкими и удобочитаемыми Выбор программы, которая

– основана на UNICODE– с достаточной документацией– позволяет синхронизацию аудио-/видеозаписи с транскрипцией– работает с форматами (XML), которые совместимы с другими

программами

26Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Основные этапы компиляции корпуса устной речи

Сбор данных (первичные данные) Транскрибирование Аннотация и метаданные Доступ к данным

27Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Стандарты для аннотирования

Морфосинтаксический тип аннотации– STTS

Синтаксический тип аннотации– Tiger

Семантический тип аннотации– SALSA

Грамматические отношения и одушевленность имен существительных в дискурсе– GRAID

Просодия и интонация– ToBi

28Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Метаданные

Сфера функционирования: публичная, непубличная, кино

Тип: беседа, интервью, микродиалог и пр. Тематика: частная жизнь, медицина и здоровье,

политика и общественная жизнь и пр. Место и время записи Характеристики говорящих: возраст, пол,

национальность

29Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Стандарты для метаданных

Dublin Core Metadata Initiative (DCMI) Open Language Archives Community (OLAC) Component MetaData Infrastructure (CMDI) Data Category Registry (ISOcat) ISLE Meta Data Initiative (IMDI)

30Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Инструменты

ANVIL ELAN FOLKER EXMARaLDA* Praat Phon

• Workshop “Компиляция и транскрибирование корпуса устной речи с EXMARaLDA“ (ул.Сурганова 6, каб.100, 14:00-16:00)

31Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Что такое EXMARaLDA?

Extensible Markup Language for Discourse Annotation Набор инструментов для работы с видео и

аудиофайлами Разработан в Университете Гамбурга (Universität

Hamburg) Написан в Java Поддерживается Windows, Mac OS, Linux

32Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Почему EXMARaLDA?

Доступен для бесплатного (законного) скачивания и использования (некоммерческая лицензия)

Основан на стандарте UNICODE (многоязычность) Отличная документация +

обучающие уроки (на англ. и нем. языках) Все необходимые инструменты для компиляции

корпуса устной речи и работы с ним– Partitur-Editor: инструмент для многоуровневого

транскрибирования и аннотирования аудио- и видеофайлов– COMA: инструмент для организации/компиляции корпуса и

его управления– Exakt: инструмент для поиска и анализа корпуса

33Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Проекты и EXMARaLDA

34Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Praat

Бесплатный инструмент для детального фонетического анализа

Аспекты анализа:– duration– vowel formants– fundamental frequency – pitch– intensity – loudness

Обучающее видео / руководство

35Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Основные этапы компиляции корпуса устной речи

Сбор данных (первичные данные) Транскрибирование Аннотация и метаданные Доступ к данным

36Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Доступ

Виды– Оффлайн (возможность скачивания)– Онлайн– Платный / бесплатный– Необходимость регистрации

Весь корпус целиком? Отдельные элементы. Только транскрипции или аудиозаписи также?

Формат? HTML, SGML

37Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Вопросы?

Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Основные источники DFG-Handreichung "Empfehlungen zu datentechnischen Standards

und Tools bei der Erhebung von Sprachkorpora".

DFG-Handreichung "Informationen zu rechtlichen Aspekten bei der Handhabung von Sprachkorpora".

Leech, Geoffrey, Greg Myers & Jenny Thomas, eds. (1995). Spoken English on Computer. London: Longman.

39Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Recommended