15
Зачем нужен Sketch Engine лексикографам? Деление на значения Описание значения Описание конструкций и сочетаемости Языковые примеры

зачем нужен чистый корпус

Embed Size (px)

Citation preview

Зачем нужен Sketch Engine лексикографам?

• Деление на значения

• Описание значения

• Описание конструкций и сочетаемости

• Языковые примеры

Каковы достоинства и недостатки веб-базированных корпусов Sketch Engine

• Большой объем => точная статистика

• Легкодоступностьтекстов

• Возможность постоянного обновления

• Нет равномерного представления разных слоев языка =>статистике не всегда можно доверять

• «Грязный» - много ошибок в разметке, много повторений, много нецензурной лексики

Почему плохо, что есть повторения?

• Это влияет на статистику

Почему плохо, что много нецензурной лексики?

• Корпуса используются не только лексикографами, но и преподавателями языка, а также людьми, изучающими язык

• Учебные ресурсы должны быть «чистыми»

• Запросы на нейтральные темы часто дают нецензурные выдачи

Решение

• Sketch Engine – закрытый платный ресурс для лексикографов с 20 млрд грязным корпусом

• Skell Sketch Engine – открытый бесплатный ресурс с 1 млрд чистым корпусом, тремя простыми видами поиска и выдачей коротких примеров – удобно для широкого, не слишком искушенного пользователя, для понимания того, как используется языковая единица, для создания языковых тренажеров

Русского Skell’а нет

• Если вы почистите 1 млрд корпус, то он будет

• На НКРЯ пока нет таких удобных опций, которые предоставляет Skell – коллокациипо грамматическим отношениям, близкие слова, короткие примеры

• Skell очень нужен!

Чистка корпуса

• Две задачи –

• Нецензурная лексика

• Повторы