20
КОМПЬЮТЕРНАЯ ЛЕКСИКОГРАФИЯ КАК РАЗДЕЛ ПРИКЛАДНОЙ ЛИНГВИСТИКИ

компьютерная лексикография

Embed Size (px)

DESCRIPTION

Power point Presentation is dedicated to the question of the computational lexicography

Citation preview

Page 1: компьютерная лексикография

КОМПЬЮТЕРНАЯ ЛЕКСИКОГРАФИЯ

КАК РАЗДЕЛ ПРИКЛАДНОЙ ЛИНГВИСТИКИ

Page 2: компьютерная лексикография

*

*Лексикография как одно из направлений традиционной и прикладной лингвистики.

*Традиционная лексикография.

*Типология словарей.

*Строение словаря и словарнои статьи.

*Современные тенденции развития лексикографии.

*Компьютерные словари и их классификация.

*Особенности электронного словаря, существующего в среде многомерного гипертекста.

*Электронные библиотеки.

Page 3: компьютерная лексикография

*

*Собирание слов какого-либо языка, приведение их в систему в виде словаря, лексикона; словарное дело, составление словарей;

*Совокупность печатных трудов словарного типа, словарная литература;

*раздел языкознания, занимающийся вопросами составления словарей и их изучения; наука, изучающая семантическую структуру слова, особенности слов, их толкование.

Page 4: компьютерная лексикография

*

* Глосса - (гр. glossa - устаревшее или малоупотребительное слово) перевод или толкование непонятного слова или выражения, преимущественно в древних памятниках письменности.

* Глоссарий ( лат. glossarium словарь глосс)–толковый словарь устаревших и малоупотребительных слов к какому-л. тексту, преимущественно древнему

* Шумерские глоссы - сер. III тыс. до н.э.;

* Китайские глоссы – рубеж III–II тыс. до

н.э.;

* Глоссы Древней Греции - сер. I тыс. до

н.э.;

* «Эпинальский кодекс» - VII в.

* Vocabulista – 1492;

* «A Compendious Dictionary of the English

Language» («Краткий словарь

английского языка») Ноа Уэбстера – 1806

г. ;

* «Немецкий словарь» братьев Я. и В.

Гримм – 1854 г.;

* «Немецкий словарь» братьев Я. и В.

Гримм – 1854 г.;

* «Словарь французского языка» Эмиля

Литре - 1863—1872 гг.;

* «Оксфордский английский словарь» -

1884—1928 гг..

Page 5: компьютерная лексикография

** Рукописный глоссарий (174 слова) -

1282 г. ;

* «Лексис, сиречь речения вкратце собранны и из словенского языка на просты русский диялект истолкованы» Лаврентия Зизания Тустановского -1596 г.;

* «Лексикон славеноросский и имен толкование» Памвы Берынды – 1627 г.;

* «Лексикон вокабулам новым по алфавиту» - составлен в начале XVIII в., опубликован в 1910;

* «Русский Целлариус» этимологический словарь Ф. Гельтергофа – 1771 г.;

* «Опыт российского сословника» словарь синонимов Д. И. Фонвизина –1783 г.;

* «Словарь Академии Российской» в 6 частях - 1789—1794 гг.;

* «Толковый словарь живого великорусского языка» В.И.Даля 1863-1866 гг.;

Page 6: компьютерная лексикография

*

*«Хотя человечество очень давно начало заниматься составлением словарей разных типов, однако какой-либо общей лексикографической теории, по-видимому, не существует еще и до сих пор. …Одним из первых вопросов лексикографии является, конечно, вопрос о различных типах словарей. В основе его лежит ряд теоретических противоположений, которые и необходимо вскрыть».

«Опыт общей теории лексикографии»

Page 7: компьютерная лексикография

*

*особая область

языкознания, изучающая

принципы составления

словарей разных типов;

*практика составление

словарей;

*совокупность словарей

данного языка.

Page 8: компьютерная лексикография

* 1. Собрание слов (обычно в алфавитном порядке), устойчивых выражений с пояснениями, толкованиями (в которых описываются особенности их структуры и/или функционирования) или с переводом на другой язык.

2. Совокупность слов какого-нибудь языка, а также слов, употреблѐнных в ка-ком-нибудь одном произведении, в произведениях какого-нибудь писателя или вообще употребляемых кем-нибудь.

3. Справочная книга слов, расположенных в определенном порядке, дающая кому-либо информацию о том или ином слове.

Основная задача словаря –эпредставление либо описание лексики языка и ее особенностей для решения конкретных задач.

Page 9: компьютерная лексикография

*Типы словарей

СЛОВАРИ

энциклопедические лингвистические

Описываются предметы, явления,

сообщаются сведения о различных

событиях

Толкуют значения слов

одноязычные многоязычные

Тезаурусы, современного литературного языка, исторические,

этимологические, диалектов, синонимов, антонимов,

фразеологизмов, иностранных слов, орфографические,

орфоэпические, словообразовательные, сокращений, жаргонные,

эпитетов, метафор, словари писателя, словари отдельных

произведений, конкордансы и т.д.

Page 10: компьютерная лексикография

*

язык толковые словари, грамматические словари,

обратные словари, ассоциативные словари,

этимологические словари, исторические словари,

ономастиконы

речь словари метафор и эпитетов, словари сочетаемости,

словари трудностей, авторские словари

синхрония толковые словари, грамматические словари,

обратные словари, словари метафор и эпитетов,

словари сочетаемости и трудностей

диахрония исторические словари, диахронические словари,

авторские словари (часто), словари собственных

имен (с этимологиями)

парадигматика толковые словари, грамматические словари,

обратные словари, этимологические словари,

исторические словари

синтагматика словари метафор и эпитетов, словари сочетаемости

и трудностей

семантика толковые словари, исторические словари

прагматика лингвострановедческие словари, ассоциативные

словари

Page 11: компьютерная лексикография

** лексический вход (вокабула или

лемма);

* грамматическая информация;

* стилистические пометы;

* значение:

- номер значения

- дополнительные грамматические и стилистические пометы;

* толкование;

* пример/иллюстрация;

* оттенки значения;

* фразеологизмы.

В тезаурусе используется понятие таксона.

таксон — это множество единиц описания, объединенных в группу по единым семантическим основаниям любого уровня абстракции.

МАГИСТР м. глава и старшина некоторых военно-духовных орденов или братств. Получивший ученую степень магистра, среднюю между докторскою и кандидатскою. -ров, ему принадлежащ.;

-рский, к нему относящ. Магистерство ср. звание, степень, сан магистра. Магистрат м. городское распорядительное и судебное место, заведующее горожанами. Магистратский, к нему относящ.

Page 12: компьютерная лексикография

*

*Прикладная научная дисциплина, изучающая методы использования компьютерной техники для составления словарей. Это —временная дисциплина периода перехода от ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям

Википедия

Page 13: компьютерная лексикография

*

* Основная задача - разработка технологии составления электронных словареи и управления терминологиеи(Terminology Management);

* Основные направления :

* автоматическое получение из текста различных словареи (например, терминологических, частотных словареи , словареи конкордансов и др.);

* Создание словареи , являющихся электроннымиверсиями традиционных словареи (например, словарь Даля), или комплексных электронных лингвистических словареи для традиционных словарных работ;

* разработка теоретических и практических аспектов составления специальных компьютерных словарей для информационного поиска, машинного перевода

Page 14: компьютерная лексикография

**особый лексикографический

объект, в котором могут быть реализованы и введены в обращение многие продуктивные идеи, не востребованные в бумажных словарях.

*Электронный словарь:

- сочетает большой объем информации с удобством пользования.

- отвечает на запросы пользователя с различным языковым опытом;

- в словарной статье каждыйэлемент информации о слове может являться гиперссылкой к другой словарной статье.

Page 15: компьютерная лексикография

* Чем больше объем словаря, чем полнее и доказательнее описание лексических значений, тем сложнее им пользоваться.

* Чем полнее и глубже описание лексических значений, тем в меньшей степени словарь соответствует текущей языковой и культурной ситуации

* Чем интереснее лексикографическая концепция словаря, интегральнее средства описания лексических значений, тем ýже его лексическая база.

* Существенно более

изощренные возможности

показа содержания словарной

статьи, включая возможность

частичного показа по разным

критериям (различные

"проекции" словаря),

разнообразные графические

средства, которые не

используются в обычных

словарях.

* Использование для доступа к

содержанию различных

лингвистических технологий,

таких как морфологический и

синтаксический анализ,

полнотекстовый поиск,

распознавание и синтез звука

и т.п.

*

Page 16: компьютерная лексикография

**формирование корпуса текстов

и параллельно создание словника;

*автоматическое формирование корпуса примеров;

*написание словарных статей;

*ввод словарных статей в базу данных;

*редактирование словарных статей в базе данных;

*корректура текста в базе данных;

*порождение текста словаря и формирование оригинал-макета;

*печать словаря.

Page 17: компьютерная лексикография

** По количеству баз данных:

* простые (одна база данных);

* сложные (две и более базы данных);

* По способу загрузки:

* нерезидентные словари (обладают подстрочной структурой);

* резидентные словари (основаны на фоновом присутствии в оперативной памяти ПК);

* По режиму перевода:

* автоматические пакетные -предназначаются для работы с отдельными текстами или группами текстовых файлов.;

* интерактивные - обрабатывают фрагменты текстов или отдельные слова.

Page 18: компьютерная лексикография

* * многократное увеличение скорости поиска;

* множество входов в словарь: словник, алфавитный индекс, ввод слова и словосочетания с клавиатуры, из текстового редактора;

* поиск слов с недостаточно точным правописанием;

* полнотекстовый поиск (не только в словнике, но и в текстах всех словарных статей);

* применение средств мультимедиа для семантизации лексики;

* наличие системы гиперссылок;

* наличие перекрестных ссылок ко всем словам, имеющимся в словаре;

* возможность хранения большого объема информации;

* в двуязычных словарях - возможность прямого и обратного перевода;

* включение в структуру компьютерного словаря нескольких словарей разных типов и жанров;

* одновременный поиск сразу в нескольких словарях;

* ограничение области поиска ключевыми словами, тематическими группами, частями речи и т.п.;

* пополнение словаря пользователем, или создание пользовательского словаря;

* сохранение последовательности поиска в течение сеанса работы (так называемая хронология / история поиска);

* сохранение «закладок» в словаре;

совместимость с текстовыми редакторами, возможность копирования словарных статей и обращения к словарю из редактора;

совместимость с программами машинного перевода;

совместимость с веб-браузерами и другими типами программ (прикладными, обучающими, игровыми);

предоставление дополнительной справочной информации по фонетике, грамматике, стилю и другим аспектам языка;

возможность использования словарей в локальной и глобальной сетях и др.

Page 19: компьютерная лексикография

*

*должно найти отражение понятие лексической функции, позволяющее описывать несвободную сочетаемость слов, например: «идет заседание»;

*не нашла отражение проблема описания семантики и практической реализации грамматического словоизменения и словообразования.

*не существует системы понятий, с помощью которой синтаксическая информация могла быть доведена до обычного читателя.

Page 20: компьютерная лексикография

*

*это упорядоченные

коллекции разнородных

электронных

документов, снабженны

е средствами навигации

и поиска.

*Появились в эпоху

«информационного

взрыва» в США (Project

Gutenberg, 1971 г.)).