32
Корпус спонтанной Корпус спонтанной компьютерно- компьютерно- опосредованной опосредованной коммуникации: коммуникации: цель, принципы и методы цель, принципы и методы формирования и разметки формирования и разметки Евгений Чухарев, РГПУ им. А. И. Герцена [email protected]

Корпус спонтанной компьютерно-опосредованной коммуникации:

  • Upload
    paniz

  • View
    43

  • Download
    1

Embed Size (px)

DESCRIPTION

Корпус спонтанной компьютерно-опосредованной коммуникации:. цель, принципы и методы формирования и разметки. Евгений Чухарев, РГПУ им. А. И. Герцена [email protected]. План доклада. Определения Актуальность лингвистического исследования Обеспечение понимания - PowerPoint PPT Presentation

Citation preview

Page 1: Корпус спонтанной компьютерно-опосредованной коммуникации:

Корпус спонтанной Корпус спонтанной компьютерно-компьютерно-

опосредованнойопосредованнойкоммуникации:коммуникации:

цель, принципы и методы цель, принципы и методы формирования и разметкиформирования и разметки

Евгений Чухарев, РГПУ им. А. И. Герцена[email protected]

Page 2: Корпус спонтанной компьютерно-опосредованной коммуникации:

План докладаПлан доклада

ОпределенияОпределения

Актуальность лингвистического Актуальность лингвистического исследованияисследования

Обеспечение пониманияОбеспечение понимания

Корпус как инструмент верификации Корпус как инструмент верификации гипотезгипотез

Контроль надёжностиКонтроль надёжности

Page 3: Корпус спонтанной компьютерно-опосредованной коммуникации:

СпонтанностьСпонтанность

порождение речи:порождение речи: латентный процесс (семиозис) – латентный процесс (семиозис) –

конструирование знаковконструирование знаков объективацияобъективация

спонтанная письменная коммуникация спонтанная письменная коммуникация продуктивнапродуктивна в квазисинхронных в квазисинхронных условияхусловиях

Page 4: Корпус спонтанной компьютерно-опосредованной коммуникации:

Компьютерно-опосредованная Компьютерно-опосредованная коммуникациякоммуникация

Алфавитно-цифровой канал связиАлфавитно-цифровой канал связи

Объективация высказываний путём Объективация высказываний путём набора на клавиатуренабора на клавиатуре

Считывание сообщений с экрана Считывание сообщений с экрана мониторамонитора

Технологический субстрат – Технологический субстрат – взаимосвязь открытых системвзаимосвязь открытых систем

Page 5: Корпус спонтанной компьютерно-опосредованной коммуникации:

СинхронностьСинхронность

котемпоральностькотемпоральность ( (cotemporalitycotemporality): ): задержка в канале связи субъективно задержка в канале связи субъективно маламала

одновременностьодновременность ( (simultaneitysimultaneity): ): дуплекс канала связи, одновременный дуплекс канала связи, одновременный приём и передача сигналаприём и передача сигнала

квазисинхронностьквазисинхронность = = котемпоральность – одновременностькотемпоральность – одновременность

Page 6: Корпус спонтанной компьютерно-опосредованной коммуникации:

ЧатЧат

Многокомнатные Многокомнатные многопользовательские чатымногопользовательские чаты

Системы мгновенного обмена Системы мгновенного обмена сообщениями (сообщениями (Instant Messengers)Instant Messengers)

Многопользовательские ролевые игры Многопользовательские ролевые игры ((MUD)MUD)

Page 7: Корпус спонтанной компьютерно-опосредованной коммуникации:

Актуальность лингвистического Актуальность лингвистического исследованияисследования

Изучение характера речемыслительной Изучение характера речемыслительной деятельности по косвенным деятельности по косвенным объективирующим показателям объективирующим показателям спонтанностиспонтанностиФиксация в корпусе Фиксация в корпусе всейвсей информации, информации, которая передаётся в ходе которая передаётся в ходе коммуникациикоммуникацииПредставление в форме, удобной для Представление в форме, удобной для автоматической обработкиавтоматической обработки

Page 8: Корпус спонтанной компьютерно-опосредованной коммуникации:

Обеспечение пониманияОбеспечение понимания

Зашумлённость на графематическом, Зашумлённость на графематическом, морфологическом и синтаксическом морфологическом и синтаксическом уровняхуровнях

Широкий диапазон синтаксического Широкий диапазон синтаксического варьирования при сохранении варьирования при сохранении семантики (О.А.Лаптева)семантики (О.А.Лаптева)

Базовая синтаксическая единица – Базовая синтаксическая единица – клауза (А.А.Кибрик)клауза (А.А.Кибрик)

Page 9: Корпус спонтанной компьютерно-опосредованной коммуникации:

Предикатное выражениеПредикатное выражение

Языковая реализация пропозицииЯзыковая реализация пропозиции

Примеры:Примеры: Инженеры выполняют работы по Инженеры выполняют работы по

проведению эксплуатации системыпроведению эксплуатации системы А я стою на тебя смотрюА я стою на тебя смотрю

Page 10: Корпус спонтанной компьютерно-опосредованной коммуникации:

Значение Значение vs. vs. смыслсмысл

Смысл – информация (мыслительное Смысл – информация (мыслительное содержание), передаваемая от содержание), передаваемая от отправителя получателю в ходе отправителя получателю в ходе коммуникациикоммуникации

Пример:Пример: ТолькоТолько Иван успешно сдал экзамен Иван успешно сдал экзамен

Page 11: Корпус спонтанной компьютерно-опосредованной коммуникации:

«Здесь продаётся славянский «Здесь продаётся славянский шкаф»шкаф»

Page 12: Корпус спонтанной компьютерно-опосредованной коммуникации:

Значение Значение vs. vs. смыслсмысл

Ну, ты что?Ну, ты что?

Да я вот, тут…Да я вот, тут…

А, ну ладно…А, ну ладно…

Page 13: Корпус спонтанной компьютерно-опосредованной коммуникации:

www.justchat.ruwww.justchat.ru

Page 14: Корпус спонтанной компьютерно-опосредованной коммуникации:

Что? Где? Когда?Что? Где? Когда?

команды соревнуются в умении находить команды соревнуются в умении находить правильный ответ на поставленный перед правильный ответ на поставленный перед ними вопрос в ограниченное времяними вопрос в ограниченное времяигры проводятся в чате, без личного контакта игры проводятся в чате, без личного контакта игроковигроковвремя на обсуждение вопроса составляет время на обсуждение вопроса составляет четыре минуты, предупредительный сигнал четыре минуты, предупредительный сигнал подаётся за 30 секунд до окончания подаётся за 30 секунд до окончания отведённого времениотведённого времениколичество игроков в команде не количество игроков в команде не регламентируетсярегламентируется

Page 15: Корпус спонтанной компьютерно-опосредованной коммуникации:

Корпус протоколов чатаКорпус протоколов чата

1115181518 реплик (сообщений)реплик (сообщений)

5005002727 словоупотреблений словоупотреблений ( (с/у)с/у)

~~1411417676 русских словоформ (с/ф) русских словоформ (с/ф)

4242 продуцента всего продуцента всего

3636 продуцентов (испытуемых) продуцентов (испытуемых) с количеством реплик с количеством реплик 1010 кроме исследователейкроме исследователей

Page 16: Корпус спонтанной компьютерно-опосредованной коммуникации:

Распределение реплик по Распределение реплик по испытуемымиспытуемым

0

500

1000

1500

2000

2500

1 4 7 10 13 16 19 22 25 28 31 34

Кол-во реплик

Page 17: Корпус спонтанной компьютерно-опосредованной коммуникации:

Виды разметки корпусаВиды разметки корпуса

токенизациятокенизация (автоматически)(автоматически)

орфографическая нормализация орфографическая нормализация (вручную)(вручную)

морфологический анализ морфологический анализ (автоматически)(автоматически)

выделение предикатных выраженийвыделение предикатных выражений (вручную)(вручную)

Page 18: Корпус спонтанной компьютерно-опосредованной коммуникации:

Типы токеновТипы токенов

словоупотреблениесловоупотребление ( (WW или или LL)) привет, кто-нибудь, дпривет, кто-нибудь, д’’АртаньянАртаньян

пунктуаторпунктуатор ( (PP))

цифровой комплексцифровой комплекс (D) (D) 25, 10.02.21, 555-12-3425, 10.02.21, 555-12-34

электронный адресэлектронный адрес (E)(E)

никник одного из участников чата ( одного из участников чата (AA))

эмотиконэмотикон ((S)S)

Page 19: Корпус спонтанной компьютерно-опосредованной коммуникации:

Комбинированные типыКомбинированные типы

WLWL ( (Windows’Windows’ныйный))

WDWD ((1177й, 40-летний)й, 40-летний)

**LD (LD (1717-th-th))

**WLDWLD

PS PS – непарная круглая скобка: – непарная круглая скобка: Привет)Привет)

Page 20: Корпус спонтанной компьютерно-опосредованной коммуникации:

Орфографическая нормализацияОрфографическая нормализация

нормативность определяется на основании нормативность определяется на основании собственной языковой интуиции и словарейсобственной языковой интуиции и словарейпри отсутствии слова в словарях коррекция при отсутствии слова в словарях коррекция осуществляется по принципу аналогии осуществляется по принципу аналогии ((чегэкашник чегэкашник ~ ~ кагэбэшниккагэбэшник))разделение нескольких нормативных слов, разделение нескольких нормативных слов, ошибочно объединённых в одно ошибочно объединённых в одно словоупотребление (словоупотребление (незнаюнезнаю; ; миру-мирмиру-мир))объединение последовательности из объединение последовательности из нескольких токенов в одно нескольких токенов в одно словоупотребление (словоупотребление (не навижуне навижу; ; кто - кто - нибудьнибудь))

Page 21: Корпус спонтанной компьютерно-опосредованной коммуникации:

Орфографическая нормализацияОрфографическая нормализация

все аббревиатуры и сокращения, кроме все аббревиатуры и сокращения, кроме собственных имён (собственных имён (МГУМГУ, , ЧГКЧГК, , ЖЖЖЖ, , А.С.ПушкинА.С.Пушкин), ), разворачиваются в соответствии с контекстомразворачиваются в соответствии с контекстоминоязычные слова, в том числе сокращения, не иноязычные слова, в том числе сокращения, не корректируются и не переводятся на русский языккорректируются и не переводятся на русский языкмеждометия не подвергаются орфографической междометия не подвергаются орфографической коррекции, однако особым образом помечаются коррекции, однако особым образом помечаются для дальнейшего анализадля дальнейшего анализанормализуются иноязычные собственные имена (в нормализуются иноязычные собственные имена (в том числе аббревиатуры), официально том числе аббревиатуры), официально употребляемые в латинской графикеупотребляемые в латинской графике

Page 22: Корпус спонтанной компьютерно-опосредованной коммуникации:

Орфографическая нормализацияОрфографическая нормализация

в откорректированном варианте регистр в откорректированном варианте регистр букв выбирается согласно правилам для букв выбирается согласно правилам для середины предложениясередины предложенияесли единственным отклонением от нормы если единственным отклонением от нормы в исходном слове является употребление в исходном слове является употребление регистра, то оно не подлежит коррекции в регистра, то оно не подлежит коррекции в случаях, когда заглавными является либо случаях, когда заглавными является либо только первая буква (только первая буква (МолотокМолоток), либо все ), либо все буквы слова (буквы слова (СТОЛСТОЛ))при наличии нескольких вариантов при наличии нескольких вариантов коррекции выбирается наиболее близкий коррекции выбирается наиболее близкий корректируемому слову корректируемому слову

Page 23: Корпус спонтанной компьютерно-опосредованной коммуникации:

Орфографическая нормализацияОрфографическая нормализация

Page 24: Корпус спонтанной компьютерно-опосредованной коммуникации:

Выделение ПВВыделение ПВ

Page 25: Корпус спонтанной компьютерно-опосредованной коммуникации:

Лингвистические решенияЛингвистические решения

алгоритмическиеалгоритмические (принимаются (принимаются лингвистическим автоматом по лингвистическим автоматом по формализованным правилам)формализованным правилам)

экспертныеэкспертные (вручную, на основании (вручную, на основании собственной языковой интуиции собственной языковой интуиции эксперта) – необходимо обеспечить эксперта) – необходимо обеспечить достоверностьдостоверность

Page 26: Корпус спонтанной компьютерно-опосредованной коммуникации:

Коэффициент надёжности – Коэффициент надёжности – Reliability IndexReliability Index

инвариантен к количеству экспертовинвариантен к количеству экспертов

основан на действительном распределении основан на действительном распределении объектов по категориямобъектов по категориям

задаётся на численной шкале с двумя задаётся на численной шкале с двумя опорными точкамиопорными точками

учитывает математическую природу учитывает математическую природу параметрапараметра

характеризуется известным или по крайней характеризуется известным или по крайней мере вычислимым распределениеммере вычислимым распределением

Page 27: Корпус спонтанной компьютерно-опосредованной коммуникации:

Коэффициенты надёжностиКоэффициенты надёжности

процент согласияпроцент согласия

Bennet et al.’s Bennet et al.’s SS

Scott’s Scott’s Cohen’s Cohen’s Fleiss’sFleiss’s K K

Cronbach’sCronbach’s CC

Krippendorff’s Krippendorff’s

Page 28: Корпус спонтанной компьютерно-опосредованной коммуникации:

Альфа КриппендорфаАльфа Криппендорфа

e

o1D

D

c k

ckcko on

D 21

c kckkce nn

nnD 2

)1(

1

Page 29: Корпус спонтанной компьютерно-опосредованной коммуникации:

Интерпретация надёжностиИнтерпретация надёжности

Степень согласия экспертовСтепень согласия экспертов

< 0,00< 0,00 плохое плохое ((poor)poor)

0,00 – 0,200,00 – 0,20 незначительное незначительное ((slight)slight)

0,21 – 0,400,21 – 0,40 посредственное посредственное ((fair)fair)

0,41 – 0,600,41 – 0,60 умеренное умеренное ((moderate)moderate)

0,61 – 0,800,61 – 0,80 существенное существенное ((substantial)substantial)

0,81 – 1,000,81 – 1,00 почти идеальное почти идеальное ((almost perfect)almost perfect)

Page 30: Корпус спонтанной компьютерно-опосредованной коммуникации:

Надёжность разметки Надёжность разметки предикатных выраженийпредикатных выражений

ТокенТокен aa bb cc dd ee

Эксп. Эксп. AA

00 11 00 11 11

Эксп. Эксп. BB

00 11 22 22 33

Эксп. Эксп. CC

11 22 11 11 33

Page 31: Корпус спонтанной компьютерно-опосредованной коммуникации:

ВыводыВыводы

Выделение предикатных выражений в Выделение предикатных выражений в корпусе чата оказывается очень надёжным.корпусе чата оказывается очень надёжным.

Реальность порождения спонтанной речи Реальность порождения спонтанной речи семантическими «порциями» – предикатными семантическими «порциями» – предикатными выражениями – может быть верифицирована выражениями – может быть верифицирована психолингвистически.психолингвистически.

В чате широко используются механизмы В чате широко используются механизмы смыслопорождения, повышающие смыслопорождения, повышающие эффективность коммуникации.эффективность коммуникации.

Page 32: Корпус спонтанной компьютерно-опосредованной коммуникации:

Спасибо!Спасибо!