23
Анатолий Владимирович Венцов, Юлия Олеговна Нигматулина, Ольга Васильевна Раева, Елена Игоревна Риехакайнен, Наталия Арсеньевна Слепокурова (СПбГУ) КОРПУС РУССКИХ СПОНТАННЫХ ТЕКСТОВ: СТРУКТУРА И ЕДИНИЦЫ

корпус русских спонтанных текстов: структура и единицы

Embed Size (px)

DESCRIPTION

Анатолий Владимирович Венцов , Юлия Олеговна Нигматулина , Ольга Васильевна Раева , Елена Игоревна Риехакайнен , Наталия Арсеньевна Слепокурова (СПбГУ). корпус русских спонтанных текстов: структура и единицы. Цель создания корпуса. - PowerPoint PPT Presentation

Citation preview

Page 1: корпус русских спонтанных текстов: структура и единицы

Анатолий Владимирович Венцов,Юлия Олеговна Нигматулина,

Ольга Васильевна Раева,Елена Игоревна Риехакайнен,

Наталия Арсеньевна Слепокурова(СПбГУ)

КОРПУС РУССКИХ СПОНТАННЫХ ТЕКСТОВ: СТРУКТУРА И ЕДИНИЦЫ

Page 2: корпус русских спонтанных текстов: структура и единицы

Цель создания корпусаизучение особенностей сигнала, с которым слу шающий сталкивается при восприятии речи в естественных усло виях

разработка возможных алгоритмов преобразования непрерывного речевого акустического сигнала в линейную по следовательность лексических единиц

ФУНКЦИОНАЛЬНАЯ МОДЕЛЬ ВОСПРИЯТИЯ РЕЧИ

Page 3: корпус русских спонтанных текстов: структура и единицы

Виды аннотирования:

- орфографическая расшифровка;

- акустико-фонетическая транскрипция

Page 4: корпус русских спонтанных текстов: структура и единицы

Общая информация

- расшифровки теле- и радиопередач;

- орфографическая расшифровка: 224 минуты звучания;

- Орфографическая расшифровка + акустико-фонетическая транскрипция: 90 минут звучания.

Page 5: корпус русских спонтанных текстов: структура и единицы

Принципы транскрибирования

Page 6: корпус русских спонтанных текстов: структура и единицы

Принципы транскрибирования

Согласные

Символы (латиница)

ГлухиеЗвонкие и

озвонченные

/ʒ/ - Z

/ʦ/ c D

/x/ x h

/ʨ/ C G

/ʃ/ S -

/ɕ/ $ Z'

Мягкость согласных

'

Page 7: корпус русских спонтанных текстов: структура и единицы

Принципы транскрибированияУсловное обозначение /

маркерОписание

(нрзб) неразборчиво произнесенное слово или фраза

(ансмбл) одновременная речь нескольких дикторов

pause глухая пауза

inh вдох

sigh вздох

(gst) гортанная смычка или участки ларингализации

(pXX) краткая пауза (ХХ -длительность в мс)

Page 8: корпус русских спонтанных текстов: структура и единицы

Принципы транскрибирования

Пример:

pause 0,202

по [po+] 0,238

inh 0, 493

а-а причинам н-н-ну таким вот [ao pr'iCi+n*m n::u te"k'i+m v*t] 1,712

небесным, наверное, [n'ib'E+sn*m na"v'Erne::+] 1,214

Page 9: корпус русских спонтанных текстов: структура и единицы

Доступ к Корпусу

Корпус русского литературного языка http://narusco.ru/

Раздел «Наши ресурсы»

Создание конкорданса по текстам речевого корпуса

Page 10: корпус русских спонтанных текстов: структура и единицы

Доступ к Корпусу

Речевой корпус:

-монологическое (спонтанные монологи);

-дикторское (радиосводки Ю.Б. Левитана);

-прочитанное;

-диалоги.

Page 11: корпус русских спонтанных текстов: структура и единицы

Доступ к Корпусу

Page 12: корпус русских спонтанных текстов: структура и единицы

Доступ к Корпусу

Page 13: корпус русских спонтанных текстов: структура и единицы

Частотный словарь словоформ русской спонтанной речи

Орфографическая расшифровка

Транскрипция Частотность

городу [go+r*du] 2

Количество уникальных строк С/ф С/у

6651 3664 10488

потом [patu+m] 3потом [pato+m] 8потом [p*tu+] 1

Page 14: корпус русских спонтанных текстов: структура и единицы

Граница между словами в корпусе устных текстов

«Составные слова» = «сочетания эквивалентные слову»потому_чтокак_быто_есть … и др.

Венцов А.В., Грудева Е.В., Касевич В.Б., Ягунова Е.В. Идиомы в Национальном корпусе русского литературного языка // Международная конференция «Корпусная лингвистика–2004» Тезисы докладов (12-14 октября 2004 г., С.-Петербург). СПб, 2004. С. 17–18.

Венцов А.В., Грудева Е.В. Частотный словарь словоформ русского языка (проект). Череповец, 2008. 204 с.

Page 15: корпус русских спонтанных текстов: структура и единицы

Граница между словами в корпусе устных текстов

потому_что [gua+S / guáʃ]

Page 16: корпус русских спонтанных текстов: структура и единицы

Граница между словами в корпусе устных текстов

человека_общаться [C*lE+kap$a+c* / ʨəlɛ+kapɕa+ʦə]

Стяжение – слияние двух смежных звуков, приводящее к возникновению одного.

театр [t’&tr / tʲætr]ему_уже [Qimu+Z / ɨmu+ʒ]

дети_оттуда [d’Et’&tuda / dʲε+tʲætuda]при своём_мнении [pr* sa+emn’E+n’i / prə

sa+emnʲɛ+nʲi]

Page 17: корпус русских спонтанных текстов: структура и единицы

Спектрограмма сочетания когда_он [kagda+ o+n] – стяжения не произошло

Page 18: корпус русских спонтанных текстов: структура и единицы

Спектрограмма стяжения щи_ото [$&ta / ɕʲæta] (из словосочетания вещи_отождествлять [v'E+

$&taZd'istl'&+t’ / vʲɛ+ɕætaʒdʲistlʲæ+tʲ])

стяжение

Page 19: корпус русских спонтанных текстов: структура и единицы

Стяжения гласных и согласных в Корпусе русских спонтанных текстов

Стяжения Количество Процент от общего числа проанализи-

рованных сочетаний V+V или C+C на

стыке словоформ, %

гласных 310 55,5

согласных 106 74,1

Page 20: корпус русских спонтанных текстов: структура и единицы

Стяжения в спонтанной и прочитанной речи

гласные согласные

всего сочетаний

стяжения всего сочетаний

стяжения

спонтанная (115 мин)

559 310 (55,5%)

143 106 (74,1%)

прочитанная (46 мин)

303 191 (63,0%)

39 38

(97,9%)

Page 21: корпус русских спонтанных текстов: структура и единицы

Три вида единиц:

• отдельные словоформы (я, четыре и т.д);

• составные слова (то_есть, всё_равно и др.);

• словоформы, подвергшиеся стяжению (что_он [Ston / ʃton], дайте_им [da+et’im / daetjim] и др.)

Page 22: корпус русских спонтанных текстов: структура и единицы

Перспективы

• верификация со зданной транскрипции;

• дальнейшая фонетическая рас шифровка

записей;

• пополнение общего объема корпуса, в том числе

за счет привлечения записей подготовленной

русской речи (дикторской речи, прочитанных

текстов);

• разработка более совершенной системы поиска.

Page 23: корпус русских спонтанных текстов: структура и единицы

Спасибо за внимание!