15
КОРПУСНАЯ ЛИНГВИСТИКА

корпусная лингвистика

Embed Size (px)

Citation preview

КОРПУСНАЯ ЛИНГВИСТИКА

ИСТОРИЯ

Брауновский корпус, 1963 г

(БК, англ. Brown Corpus, BC)

По модели близкой к БК был создан

Уппсальский корпус русского языка, 1980 г

ОСНОВНЫЕ НАПРАВЛЕНИЯ КОРПУСА

Лексикография

Грамматика

Лингвистика текста (в том числе устного)

Лингводидактика

Многоязычные (переводные) корпусы

ЛЕКСИЧЕСКОЕ УЧЕНИЕСэмьюэл Джонсон

Отказался от расположения слов «по темам», например, отдельно

все растения или все морские животные, и положил в основу

алфавитный принцип.

Проработал обширную литературу всех жанров и направлений,

отобрал огромное количество примеров и включил их в каждую

словарную статью, чтобы проиллюстрировать употребление

слова.

Упорядочил написание и произношение слов

Впервые поставил на титульном листе название Dictionary –

«Словарь»

ОСНОВНЫЕ КОМПЬЮТЕРНЫЕ КОРПУСА

1960-е: Брауновский корпус, (США), 1 млн. слов

1970-е: LOB корпус (Великобритания, Норвегия), 1 млн.

Уппсальский корпус русского языка (Швеция), 1 млн.

1990-е: British National Corpus, 100 млн.

Национальный корпус русского языка, 140 млн.

Oxford English corpus, 2 млрд.

ТИПЫ КОРПУСНОЙ РАЗМЕТКИ

морфологическая

синтаксическая

семантическая

анафорическая

просодическая

КОРПУСНЫЕ МЕНЕДЖЕРЫ Поиск конкретных словоформ

Поиск словоформ по леммам

Поиск группы словоформ в виде разрывной или

неразрывной синтагмы

Поиск словоформ по набору морфологических

признаков

Получение различных лексико-грамматических

статистических данных

Сохранение отобранных строк конкорданса

ПРИМЕРЫ

– Национальный корпус русского языка 

http://ruscorpora.ru/

– British National Corpus http://www.natcorp.ox.ac.uk/

– International Corpus of English 

http://ice-corpora.net/ice/

НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА

БРИТАНСКИЙ НАЦИОНАЛЬНЫЙ КОРПУС

МЕЖДУНАРОДНЫЙ КОРПУС АНГЛИЙСКОГО ЯЗЫКА

АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА

ПОЛЬЗОВАТЕЛИ

Прикладные лингвисты

Лингвисты-теоретики

Преподаватели

Компьютерные лингвисты

Специалисты по общественным наукам (историки,

социологи)

Корпусы, как инструмент для разработки и

настройки различных автоматизированных систем

РЕЗУЛЬТАТЫ

Все употребления выбранного слова в непосредственном

контексте

Слова, которые чаще всего стоят рядом с выбранным

словом

Наиболее важные различия между двумя наборами

текстов

Как тот или иной писатель использует слова и фразы

СПАСИБО ЗА

ВНИМАНИЕ!