45
ЛЕКЦІЯ 1 КОРПУСНА ЛІНГВІСТИКА. Історія становлення.

ЛЕКЦІЯ 1 корпус

Embed Size (px)

Citation preview

ЛЕКЦІЯ 1КОРПУСНА ЛІНГВІСТИКА.

Історія становлення.

ПЛАН

1. Корпусна лінгвістика як галузь прикладного мовознавства.

2. Історія корпусних досліджень.

3. Корпусні студії в Україні.

• Корпусна лінгвістика – розділ прикладної лінгвістики, що займається розробкою загальних принципів побудови й використання лінгвістичних корпусів (корпусів текстів) з використанням комп’ютерних технологій.

• Лінгвістичний (мовний) корпус текстів - це великий за обсягом, представлений в електронному вигляді, уніфікований, структурований, розмічений, філологічно компетентний масив мовних даних, створений для вирішення конкретних лінгвістичних завдань.

• Доелектронні корпуси

• Біблійні конкорданси

• Cardinal Hugo’s Concordance• a Latin concordance of the Bible (the 13 th century)• Hebrew Concordance written by Isaak Nathan ben

Kalonymus (the 15 th century)• конкорданс Александра Крудена (18 століття)

• Конкорданси літературних текстів

конкорданс праць Чосера (1871)

Граматики 18 століття• Robert Lowth “A Short Introduction to English

Grammar”

• 19-20 століття George Curme, Otto Jespersen, Hendrik

Poutsma, Henry Sweet, and Charles Fries.

Лексикографічні джерела• словник Самуеля Джонсона (1755)

• Електронні корпуси.

• У 1963 р. в Брауновському університеті (США) У. Френсис (W. Francis) і Г. Кучера (H. Kucera) уклали Браунівський корпус

• Електронні корпуси.

• Корпус супроводжувався значною кількістю матеріалів його первинної статистичної обробки — частотний і алфавітно-частотний словник, різноманітні статистичні розподіли.

• Електронні корпуси.

• Lund corpus of spoken British English (від University College London and Lund University),

• Електронні корпуси.

• Британський національний корпус (British National Corpus),

• Міжнародний корпус англійської мови (International Corpus of English),

• лінгвістичний Банк англійської мови (Bank of English)

• Електронні корпуси.

• Національний корпус російської мови Національний корпус української мови

• Електронні корпуси.

• У першій половині 90-х рр. корпусна лінгвістика остаточно сформувалася як окремий розділ науки про мову.

• Електронні корпуси.

• „Корпус текстів”

• Термін „корпус” латинською означає „тіло”, таким чином корпус може бути визначений як будь-яке тіло тексту

• Електронні корпуси.

Корпус текстів – це певним чином організована множина, елементами якої є тексти.

• Електронні корпуси.

Вибірковість та репрезентативність;Кінцевий визначений обсяг;Форма, що може читатися

комп’ютером (електронна форма) Стандартне співвідношення: тобто

імпліцитно розуміється, що корпус функціонує як формальне заміщення для тієї мови, яку він представляє.

• Електронні корпуси.

• З 1990 „корпус текстів” розуміється як:• 1. великий обсяг: мільйони, навіть сотні мільйонів

слововживань, відібрані з сотень чи тисяч окремих текстів;• 2. комп'ютерний (електронний) формат: доступні з

програмним забезпеченням таким, як конкордати, які можуть знаходити, укладати списки та сортувати необхідні лінгвістичні одиниці.

• 3. організований (спроектований) для лінгвістичних досліджень: відібрані згідно соціолінгвістичної теорії мовної варіації з метою забезпечення вибірки текстів визначеного типу, жанру, стилю чи значна та збалансована вибірка для представлення певної мови чи підмови.

• Електронні корпуси.

• репрезентативність• відбір• збалансованість

• Електронні корпуси.

• Комп’ютерний корпус текстів характеризується такими ознаками як

логічна єдність задуму;кінцевий розмір;обов’язкове його розміщення на

машинному носії;стандартне представлення чи розмітка

словесного матеріалу в корпусі для зручності його програмної обробки.

• Розмітка (tagging, annotation) полягає в приписуванні текстам і їх компонентам спеціальних міток (tag, tags)

• Метарозмітка

Лінгвістичні типи розмітки:• морфологічна розмітка• синтаксична розмітка• семантична розмітка• анафорична розмітка• просодичная розмітка

• 1. Визначення переліку джерел.• 2. Оцифровка текстів.• 3. Попередня обробка тексту. • 4. Конвертування й графематичний аналіз. • 5. Розмітка тексту. • 6. Коректування результатів автоматичної розмітки• 7. Конвертування розмічених текстів у структуру

спеціалізованої лінгвістичної інформаційно-пошукової системи (corpus manager), що забезпечує швидкий багатоаспектний пошук і статистичну обробку.

• 8. Забезпечення доступу до корпуса.

Технологія створення корпусів

• Автоматична розмітка

• Формати даних і стандартизація• проект Text Encoding Initiative (TEI)

рекомендації EAGLES (Expert Advisory Group on Language Engineering Standards).

• У якості формальної мови розмітки широко застосовуються мови SGML і XML.

• Корпусні менеджери

• Користувачі й способи використання корпусів

Класифікація корпусів

Ознака Типи корпусів

Тип даних письмові мовні змішані

Мова текстів російська англійська українська і т.д.

«Паралельність» одномовні двомовні багатомовні

«Літературність», специфічність

літературні діалектні розмовні термінологічні змішані

Жанр літературні фольклорні драматургічні публіцистичні

Доступність вільно доступні комерційні закриті

Призначення дослідницькі ілюстративні

Динамічність динамічні (мониторні) статичні

Розмітка розмічені нерозмічені

Характер розмітки морфологічні синтаксичні семантичні просодичні і т.д.

Обсяг текстів повнотекстові «фрагментнотекстові»

Хронологічний аспект синхронічні діахронічні

«Спільність» загальні одного письменника

Структура центральні й архівні ядерні й периферійні

Title

• Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Vivamus et magna. Fusce sed sem sed magna suscipit egestas.

• Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Vivamus et magna. Fusce sed sem sed magna suscipit egestas.

Title

• Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Vivamus et magna. Fusce sed sem sed magna suscipit egestas.

• Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Vivamus et magna. Fusce sed sem sed magna suscipit egestas.