Upload
maymarina19
View
160
Download
5
Embed Size (px)
Citation preview
Корпус современного американского
английского
Выполнила студентка 1 курса Южного федерального университетаотделения МККгруппы 1БКосякова Марина
Содержание• 1.Определение• 2.История• 3.Содержание• 4.Доступ• 5.Уровни доступа зарегистрированных пользователей• 6.Инструкция• А)Простой запрос• Б)Лемматизированный поиск• В)Поиск по синонимам• Г)Поиск по любому из заданных слов• Д)Подстановочные знаки• Е)Поиск по частям речи• Ж)Поиск по соседним словам• З)Сравнительный поиск
Корпус Современного Американского Английского (англ. Corpus of Contemporary American English, сокр. COCA)- самый большой, обеспечивающий возможность бесплатного поиска, корпус американского английского и единственный общедоступный корпус американского английского, содержащий широкий спектр текстов разных жанров. Адрес корпуса: http://corpus.byu.edu/coca/
История
Корпус был создан Марком Дэвисом, профессором корпусной лингвистики из университета Бригама Янга в 2008 году. Марк Дэвис собирал и редактировал электронные тексты, он спроектировал и внедрил архитектуру корпуса, разработал его веб-интерфейс.
Содержание Корпус составлен из более, чем 450 миллионов слов из
более, чем 160 000 текстов. Корпус в равных долях поделен на 5 жанров: устный, художественная литература, популярные журналы, газеты и академические журналы. Тексты взяты из различных источников:
1) Устный: (85 миллионов слов) Записи разговоров с почти 150 телевизионных каналов и радио передач.
2)Художественная литература: (81 миллион слов) Короткие рассказы и пьесы, первые главы книг 1990-настоящее время, сценарии кинофильмов.
3)Популярные журналы: (86 миллионов слов) Почти 100 журналов различной тематики, такой как например, новости, здоровье, дом садоводство, женские, финансовые, религиозные и спортивные журналы.
4)Газеты: (81 миллион слов) Десять газет США, тексты взяты из различных разделов, таких как местные новости, мнения, спортивный и финансовый разделы.
5)Академические журналы: (81 миллион слов). Почти 100 различных рецензированных научных журналов.
Доступ Поиск по корпусу является полностью
бесплатным. Число запросов для незарегистрированных
пользователей ограничивается 10-15.
Уровни доступа зарегистрированных пользователей
Количество запросов, доступных для зарегистрированного пользователя, зависит от его статуса.
Статус «researcher» (профессора или студенты магистратуры/аспирантуры университетов с языковым или лингвистическим образованием) соответствует 3 уровню и дает возможность осуществлять 300 запросов в день.
Статус «semi-researcher» (профессора, которые не занимаются языками или лингвистикой, неуниверситетские преподаватели языков, профессиональные переводчики и создатели авторитетных языковых блогов) открывает доступ 2 уровня и позволяет осуществлять 200 запросов в день.
Статус «non-researcher» (студенты программы бакалавриата, а также студенты магистратуры/аспирантуры, не занимающиеся языками или лингвистикой) открывает доступ 1 уровня и позволяет осуществлять 100 запросов в день.
При выборе статуса, соответствующего 2 или 3 уровню, необходимо представить ссылку на веб-страницу, содержащую подтверждение указанного статуса.
Инструкция Интерфейс корпуса
представлен 3 областями:
1)область слева: здесь вводится запрос, задаются параметры поиска
2)верхняя область: здесь отображаются списки найденных слов
3)нижняя область: списки конкордансов
Простой запрос Введем в поле «word(s)» слово «thing», нажмем
«search». В верхней области интерфейса напротив заданного слова отображается цифра, соответствующая общему количеству употреблений этого слова в корпусе.
Кликнув по заданному слову, мы откроем конкордансы в нижней области интерфейса.
В нижней области, кликнув по любому из первых 4 столбцов, мы откроем расширенный контекст и информацию об его источнике.
В верхней строке области слева мы можем выбрать «сhart» вместо «list». Тогда мы увидим распределение частоты встречаемости заданного слова в различных жанрах и на различных временных промежутках.
Кликнув по вертикальному прямоугольнику, мы откроем список конкордансов.
Кликнув на название жанра, можно увидеть распределение по поджанрам.
Также доступен формат KWIC.
Лемматизированный поиск Лемматизированный поиск задается квадратными
скобками [ ]. Например, при введении запроса [say], в результатах поиска отображаются все его возможные формы – said, says, say, saying.
Поиск по синонимам Поиск по синонимам задается следующим
образом: [=слово]. Например, введя [=beautiful], в результатах поиска отобразятся его синонимы – wonderful, attractive, striking и т.д.
Поиск по любому из заданных слов Поиск по любому из заданных слов
задается вертикальной (|) либо косой (/) чертой. Например:
Подстановочные знаки
В качестве подстановочных знаков используются звездочка (*) и вопросительный знак (?).
(*) соответствует любому количеству букв. (?) соответствует одной единственной
букве.
Например, задав запрос *ous, мы можем узнать, какие прилагательные с суффиксом «-ous» встречаются чаще всего.
Пример запроса с использованием подстановочного знака(?)
Поиск по частям речи
Всем известно, что в английском языке часто встречаются слова, являющиеся разными частями речи, но при этом полностью совпадающие по написанию.
Чтобы в результатах поиска отображалось употребление слова в значении конкретной части речи, используется поиск по частям речи.
Поиск по частям речи задается следующим образом: кликаем на «POS List», появляется выпадающий список, где можно выбрать необходимую часть речи, соответствующий тег автоматически появится в строке запроса. Но он появится через пробел после заданного слова. Это не совсем то, что нужно нам в данной ситуации. Стираем пробел, на его место cтавим точку (.)
В результате такого запроса отобразятся употребления заданного слова только в значении заданной части речи.
Интересным может быть посмотреть, например, какие существительные чаще всего следуют сразу же за заданным словом. Тогда мы просто оставляем тег таким, каким он вставляется автоматически, не меняя пробел на точку.
Поиск по соседним словам То же самое можно сделать, воспользовавшись поиском
по соседним словам. Для этого нажимаем на «collocates», при помощи выпадающего списка «POS List» ставим тег нужной части речи, сужаем интервал до 0 слов слева и 1 слова справа от заданного слова.
Поиск по соседним словам помогает лучше разобраться в структуре и синтаксисе английских предложений и словосочетаний.Например, мы хотим узнать, какие предлоги чаще всего следуют за глаголом «talk»:
Кроме того, в некоторых случаях, поиск по соседним словам позволяет обнаружить позитивное либо негативное значение исследуемого слова. Например, если мы возьмем слово «rife» (изобилующий), и посмотрим, какие существительные чаще всего появляются рядом с ним, мы заметим, что его семантическое значение имеет негативный характер.
Сравнительный поиск В корпусе также представлена возможность
сравнительного поиска. Например, сравним, какие прилагательные чаще всего сопутствуют слову «evening», а какие - слову «morning».
Числовые значения из столбцов «W1» И «W2» обозначают общее количество вхождений для каждого прилагательного, сопутствующего слову «evening» и слову «morning» соответственно.
Слова в каждой таблице сортированы по релевантности, которая определяется количеством взаимной информации (эти данные размещены в столбце под названием «score»).
Спасибо за внимание!