Upload
nlprocby
View
783
Download
11
Embed Size (px)
Citation preview
Корпусная лингвистика:компиляция корпуса устной речи
Наталья Карлова-Бурбонус[email protected]Университет имени Юстуса Либиха
(г. Гиссен, Германия)
План лекции
Что такое корпус? Корпус устной речи? Виды Корпусы устной речи (фокус: слявянские языки) Компиляция корпуса устной речи: основные этапы,
принципы, инструменты
2Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Что такое корпус? Корпус устной речи?
Корпус = совокупность текстов (письменных и устных) в электронной форме.
Корпус устной речи = коллекция аудиозаписей устной речи включая транскрипты к ним.
Корпус устной речи обычно дополняет – информация о словах и частоте их употребления– метаданные (основная информация о корпусе)
3Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Зачем нужен корпус устной речи?
Основной материал для анализа устной речи Примеры использования
– Сравнение произношений в различных диалектах– Сравнение произношения мужчин и женщин– Анализ спонтанной речи– Разработка систем для автоматического распознавания и
синтеза речи (заказ авиабилета)
4Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Виды корпусов устной речи (1)
Начитанная речь– Список слов– Отрывки из книг– Новостная лента– Последовательность чисел
Спонтанная речь– Диалоги и встречи (свободная беседа между 2-мя и более
собеседниками)– Стимулированные нарративы (один человек рассказывает
историю)– Задание назначить встречу (день и место)– Симуляция естественных ситуаций
5Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Виды корпусов устной речи (2)
Готовый корпус– Datenbank Gesprochenes Deutsch (DGD) (немецкий язык)– CHILDES database, CMU Pittsburgh (английский язык)– CLAPI: Corpus des langues parlées en interaction
(французский язык)– CGN: Corpus Gesproken Nederlands (голландский язык)– Multimedia Corpus of Spoken Bulgarian (болгарский язык)– Pražský mluvený korpus (Cesky národni korpus (CNC))
(чешский язык) Собственный корпус
6Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Корпуса устной речи (фокус: славянские языки)
Multimedia Corpus of Spoken Bulgarian Pražský mluvený korpus (Český národní korpus (ČNK))
7Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Национальный корпус чешского языка
8Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Пражский речевой корпус (1)
Под руководством František Čermák (Карлов университет в Праге)
Корпус создан в 2001 304 аудиозаписи (анонимные), 1988-1996 675 000 слов
9Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Пражский речевой корпус (2)
Сбалансированный корпус 4 переменные и их комбинации (MIBF, MIAF и т.д.)
– пол M-F (male/female)– возраст I-V (junior- vetus)– образование (basis-altus)– формальный/неформальнй тип беседы (formal/non-formal)
• Формальный тип: монолог, секвенция ответов на заранее подготовленные вопросы, сами вопросы не записываются и не транскрибируются; темы: школа, работа, молодежные темы
• Неформальный тип: диалог между двумя собеседниками, темы не были заданы
10Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Многомедийный речевой корпус болгарского языка (1)
11Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Многомедийный речевой корпус болгарского языка(2)
2013-2014 Аудио- и видеозаписи с соответствующими транскриптами Аутентичные диалоги Орфографический тип транскрипции Транскрипты также содержат информацию о
невербальных средствах (паузы, смех, шум, мимика, жесты).
Синхронизация видео- и аудиозаписей с транскриптами была осуществлена с помощью EXMARaLDA
Доступ: онлайн
12Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Многомедийный речевой корпус болгарского языка(3)
13
Компиляция корпуса
Появление новых технологий за последние 10 лет открыло многочисленные возможности для сбора данных, а также обработки и анализа устной речи.
Комплексная задача Четкое планирование
14Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Основные этапы компиляции корпуса устной речи
Сбор данных (первичные данные) Транскрибирование Аннотация и метаданные Доступ к данным
15Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Основные этапы компиляции корпуса устной речи
Сбор данных (первичные данные) Транскрибирование Аннотация и метаданные Доступ к данным
16Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Сбор данных (1)
Составление заявлений о согласии автора / интервьюируемого о последующем использовании записи
Заявление о согласии д.б. подписано интервьюируемыми Выбор форматов для записей, оборудования, места и
условий, где будет сделана запись и т.д. Процесс сбора данных:
– В лабораторных условиях– В естественных условиях
Выбор фокуса: количество или деталь Данные д.б. релевантны и репрезентативны
17Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Сбор данных (2)
Технические рекомендации*:– Данные в цифровом формате
• Flash mobile recorder• Ноутбук (звуковая карта высокого качества, внешний микрофон,
ноутбук в хорошем техническом состоянии, качественная программа для записи – напр. Audicity)
• Для видеозаписей подходят обычые камеры (MPEG2 или MPEG4/H.264 с высоким битрейтом)
– Условия и инструменты для аудио- и видеозаписи высокого качества
* Рекомендации Немецкого научно-исследовательского института (DFG)18Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Сбор данных (3)
Технические рекомендации:– Записи без потери качества из-за сжатия файла– Конвертация форматов для использования записей в
выбранных инструментах для машинной обработки– Форматы:
• Аудио: несжатый линейный формат PCM (.WAV) (при отсутствии посторонних звуков 16бит/22kHz – 16бит/48kHz )
• Видео:– Стандартное качество: 720px x 576px или 704px x 480px с сжатием
MPEG-2 до 9Mbit/s (3.5 Mbit/s)– Высокое качество (подходит для анализа жестов и мимики): 1280px
x 720px или 1920px x 1080px с сжатием H.264/MPEG-4 AVC до 48Mbit/s (9Mbit/s)
– Резервное сохранение оригинальных записей
19Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Основные этапы компиляции корпуса устной речи
Сбор данных (первичные данные) Транскрибирование Аннотация и метаданные Доступ к данным
20Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Транскрибирование (1)
Сложность работы с записями устной речи– Представление устной речи с помощью символов
(орфография, интонация, сбои речи, невербальные средства)
Синхронизация аудио-/видеозаписи с транскрипцией Выбор типа транскрипции:
• Орфографическая• Фонетическая
21Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Орфографический вид транскрипции
Ориентир:– Орфографический словарь (нормированная
орфография слов) Как кодировать в транскрипции „не“, „че“?
Нормированная орфографическая передача? Xарактериcтика речи интервьюируемого.
Иностранные слова:– Твит(т)ер, фе(э)йсбук или twitter и facebook
22Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Орфографический вид транскрипции
Представление невербальной информации (контекстуальная информация, жесты, паузы, частичное наложение) в транскрипте:– Паузы:
• Главное отличие устной речи от письменной• Колебания, паузы-хезитации(мэканье)• Короткие паузы vs. долгие паузы сколько по времени длятся? • Обычно варьируются от < 0.2 сек до < 0.5 сек в зависимости от
функции паузы– Самоисправления– Наложение речи– Смех– Шум
23Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Нормы
Для орфографического типа транскрипции:– CHAT– GAT (Selting et al. 1998)– HIAT (Ehlich/Rehbein 1976) [3]
Для фонетического типа транскрипции:– IPA (International Phonetic Association)
24Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
IPA для русского языка
*Источник http://russisch.urz.uni-leipzig.de/online-woerterbuch/ipadescr.htm
25Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Рекомендации для транскрибирования
Ориентация на аудио- и видеозапись, а не на собственные языковые представления
Единые правила для составления транскрипции консистенция в процессе
Транскрипции должны быть четкими и удобочитаемыми Выбор программы, которая
– основана на UNICODE– с достаточной документацией– позволяет синхронизацию аудио-/видеозаписи с транскрипцией– работает с форматами (XML), которые совместимы с другими
программами
26Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Основные этапы компиляции корпуса устной речи
Сбор данных (первичные данные) Транскрибирование Аннотация и метаданные Доступ к данным
27Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Стандарты для аннотирования
Морфосинтаксический тип аннотации– STTS
Синтаксический тип аннотации– Tiger
Семантический тип аннотации– SALSA
Грамматические отношения и одушевленность имен существительных в дискурсе– GRAID
Просодия и интонация– ToBi
28Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Метаданные
Сфера функционирования: публичная, непубличная, кино
Тип: беседа, интервью, микродиалог и пр. Тематика: частная жизнь, медицина и здоровье,
политика и общественная жизнь и пр. Место и время записи Характеристики говорящих: возраст, пол,
национальность
29Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Стандарты для метаданных
Dublin Core Metadata Initiative (DCMI) Open Language Archives Community (OLAC) Component MetaData Infrastructure (CMDI) Data Category Registry (ISOcat) ISLE Meta Data Initiative (IMDI)
30Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Инструменты
ANVIL ELAN FOLKER EXMARaLDA* Praat Phon
• Workshop “Компиляция и транскрибирование корпуса устной речи с EXMARaLDA“ (ул.Сурганова 6, каб.100, 14:00-16:00)
31Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Что такое EXMARaLDA?
Extensible Markup Language for Discourse Annotation Набор инструментов для работы с видео и
аудиофайлами Разработан в Университете Гамбурга (Universität
Hamburg) Написан в Java Поддерживается Windows, Mac OS, Linux
32Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Почему EXMARaLDA?
Доступен для бесплатного (законного) скачивания и использования (некоммерческая лицензия)
Основан на стандарте UNICODE (многоязычность) Отличная документация +
обучающие уроки (на англ. и нем. языках) Все необходимые инструменты для компиляции
корпуса устной речи и работы с ним– Partitur-Editor: инструмент для многоуровневого
транскрибирования и аннотирования аудио- и видеофайлов– COMA: инструмент для организации/компиляции корпуса и
его управления– Exakt: инструмент для поиска и анализа корпуса
33Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Проекты и EXMARaLDA
34Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Praat
Бесплатный инструмент для детального фонетического анализа
Аспекты анализа:– duration– vowel formants– fundamental frequency – pitch– intensity – loudness
Обучающее видео / руководство
35Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Основные этапы компиляции корпуса устной речи
Сбор данных (первичные данные) Транскрибирование Аннотация и метаданные Доступ к данным
36Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Доступ
Виды– Оффлайн (возможность скачивания)– Онлайн– Платный / бесплатный– Необходимость регистрации
Весь корпус целиком? Отдельные элементы. Только транскрипции или аудиозаписи также?
Формат? HTML, SGML
37Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Вопросы?
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Основные источники DFG-Handreichung "Empfehlungen zu datentechnischen Standards
und Tools bei der Erhebung von Sprachkorpora".
DFG-Handreichung "Informationen zu rechtlichen Aspekten bei der Handhabung von Sprachkorpora".
Leech, Geoffrey, Greg Myers & Jenny Thomas, eds. (1995). Spoken English on Computer. London: Longman.
39Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015