Компьютерный анализ естественно - языкового текста

Preview:

DESCRIPTION

Компьютерный анализ естественно - языкового текста. Кафедра информационных систем в искусстве и гуманитарных науках. Компьютерный анализ естественно - языкового текста СТРУКТУРА КУРСА. Введение в дисциплину Автоматический анализ текста на морфологическом уровне - PowerPoint PPT Presentation

Citation preview

Компьютерный анализ естественно-языкового текста

Кафедра информационных систем в искусстве и гуманитарных науках

Компьютерный анализ естественно-языкового текста

СТРУКТУРА КУРСА

1. Введение в дисциплину

2. Автоматический анализ текста на морфологическом уровне

3. Автоматический анализ текста на синтаксическом уровне

4. Семантический компонент в системах автоматического анализа текста

Компьютерный анализ естественно-языкового текста

СТРУКТУРА КУРСА

2. Автоматический анализ текста на морфологическом уровне

1. Морфологический уровень в ЛИТ2. Основные понятия морфологии в

компьютерной морфологии

3. Основные процедуры компьютерной морфологии

4. Компьютерная морфология русского языка

5. Технологии морфологического анализа

6. «Предсказание» (типизация)

7. Вопросы, смежные с синтаксисом

ПЕРИОДИЗАЦИЯ РАЗРАБОТОК ПО КОМПЬЮТЕРНОЙ МОРФОЛОГИИ РУССКОГО ЯЗЫКА

• Первые разработки (для машинного перевода) – сер. 50-х – конец 60-х гг.

• Освоение новых функций – конец 60-х – конец 80-х гг.

• Освоение словаря Зализняка – конец 80-х - конец 90-х гг.

• Компьютерная морфология русского языка – «написанная книга»?.. – 2000-е гг.

ПЕРВЫЕ РАЗРАБОТКИ В ОБЛАСТИ КОМПЬЮТЕРНОЙ МОРФОЛОГИИ РУССКОГО ЯЗЫКА

1954 г.- Джорджтаунский эксперимент (январь)- Начало разработок систем МП в СССР:

- с английского (Институте точной механики и вычислительной техники)- и французского (в Институте прикладной математики) языков

Конец 50-х гг.:- Разработки систем МП с русского языка в США:

- в Вашингтонском университете (1956-1957 г.) – со словарем словоформ

- в Гарвардском университете (1959-1961) – с модулем морфологического анализа «справа налево» (inverse inflection)

- Группа под руководством Ю.А.Моторина (1956/1958 г.) – англо-русский перевод

Начало 60-х гг.:- Университет Уэйна (США) – перевод со словарем словоформ- Национальное бюро стандартов, Джорджтаунский университет (США)

- с модулем морфологического анализа.- Перевод с русского в Гренобльском университете (Франция)

МОРФОЛОГИЧЕСКИЕ МОДУЛИ В НОВЫХ ФУНКЦИЯХ

• Систематизация опыта построения морфологических синтезаторов в работах З.М.Волоцкой (1958), Т.М.Николаевой (1961), далее - О.А.Штерновой (1977)

• Работа А.А.Раскиной и Т.С.Чепиго в ВИНИТИ (1967): построение словаря словоформ (нач. с 10 тыс.) с конечной целью – система перифразирования предложений на тему «Космос»

• Комплексная система обработки информации в ВИНИТИ (группа Г.Г.Белоногова): ИП вместе с набором автоматизированных вспомогательных функций (описан в публикациях 1984-89 гг.)

ИСПОЛЬЗОВАНИЕ МОРФОЛОГИЧЕСКОГО АНАЛИЗА В ТЕХНОЛОГИЧЕСКОЙ ЦЕПОЧКЕ ВИНИТИ

СЛОВАРЬ ЗАЛИЗНЯКА

1974• «Обратный словарь русского языка»1977• «Грамматический словарь русского языка»1980• 2-е изд. ГСРЯ1987• 3-е изд. ГСРЯ2003• 4-е изд. ГСРЯ (добавлены имена собственные)

Автор – Андрей Анатольевич Зализняк (с 1997 г. академик РАН)

ПЕРЕНОС СЛОВАРЯ ЗАЛИЗНЯКА НА МАШИННЫЕ НОСИТЕЛИ

• Автоматизированная лексикографическая система УНИЛЕКС (1987), УНИЛЕКС-2 (1989), УНИЛЕКС-Т (1993)

• Объявление в журнале “Language” о возможности приобрести электронную версию ГСРЯ у Университета Бригема Янга (Brigham Young University, штат Юта) (1992)

• Интеграция словаря Зализняка в STARLING - рабочую программную среду для лингвиста (ок.1989, в Интернете с 1998 - starling.rinet.ru)

ФРАГМЕНТ СТРАНИЦЫ СЛОВАРЯ ЗАЛИЗНЯКА

ДОСТОИНСТВА СЛОВАРЯ ЗАЛИЗНЯКА

• полнота словника

• детальность словоизменительной характеристики

ФРАГМЕНТ СЛОВАРЯ ЗАЛИЗНЯКА, ЭКСПОРТИРУЕМОГО ИЗ STARLING

WORD GRAMMAR TRANS

-де 3 (_без удар._) част.

-ка 3 (_без удар._) част.

-либо 5 част.

-нибудь 5 (_без удар._) част.

-с 0 част.

-таки 5 част.

-то 3 (_без удар._) част.

а 1 (_без удар._) союз ah and butI eh

а 1 част.

а 1 межд.

а 1 с 0 (_название буквы а_)

а-конто 4 с 0

СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ

Идентификатор лексемы Идентификатор парадигмы

порогов 302

пород 005

породнени 002

порожда 401

СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ

Идентификатор лексемы

Основа Идентификатор парадигмы

пороговый порогов 302

порода пород 005

породнение породнени 002

порождать порожда 401

ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ КОДОВ ГСРЯ В МОРФОЛОГИЧЕСКИХ МОДУЛЯХ

• Могут быть слишком дробными (для обработки письменного текста)

дол м 1е//1апорт м 1е имеют одинаковый набор окончанийклён м 1а

• Могут быть недостаточно точными (для некоторых процедур компьютерной морфологии)

восстановление начальной формы:

бугор м 1*b бугра: (- ра), (+ ор)котёл м 1*b котла: (- ла), (+ ёл)псалом м 1*b псалма: (- ма), (+ ом)сон м 1*b сна: (- на), (+ он)хребет м 1*b хребта: (- та), (+ ет)

НЕДОСТАТКИ СЛОВАРЯ ЗАЛИЗНЯКА

• сложная структура словоизменительной характеристики

• формальная «вседозволенность» (свобода образования форм множественного числа - вреды, зарезы, неонацизмы, кратких форм - бегл, кредитово, соляны, сравнительной степени - тяжелораненее, убитее, изюбревее)

• неполнота словника

РАЗРАБОТКИ МОРФОЛОГИЧЕСКИХ МОДУЛЕЙ ДЛЯ РУССКОГО ЯЗЫКА ПОСЛЕ СЛОВАРЯ ЗАЛИЗНЯКА

• Коммерческие модули проверки орфографии – «ОРФО», «ПРОПИСЬ»; в составе текстовых редакторов «ЛЕКСИКОН», «ДЕЛА В ПОРЯДКЕ»

• Вопрос как строить морфологические модули решается на уровне кандидатских диссертаций (О.В.Минтусова 1990, И.В.Жарков 1995, Г.О.Сидоров 1995)

КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В XXI ВЕКЕ

• Модули морфологической обработки предлагаются в качестве готового к употреблению товара (Руссикон, ABBYY, Медиа-Лингва, Гарант-Парк-Интернет,… )

• Модули морфологической обработки распространяются свободно (АОТ, А.Поминов, С.Сикорский…)

• Что дальше?

КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В ИНТЕРНЕТЕ (1)

http://www.multitran.ru “Морфологический анализатор”

он-лайн развертывание парадигмыанализ

Морфологический анализатор

загруж. анализ

“Морфологические классы русского языка”

он-лайн представление морфологии

http://starling.rinet.ru Морфологический анализатор - генератор парадигмы

он-лайн типизация словарных слованализразвертывание парадигмы

Словарь ГСРЯ в текстовом формате

загруж. типизация словарных слов

Словарь ГСРЯ в формате базы данных dbf

загруж. типизация словарных слов

http://axofiber.no-ip.org Проект “Русская морфология” (RMU/RMS)

он-лайн анализразвертывание парадигмытипизация несловарных слов

КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В ИНТЕРНЕТЕ (2)

http://www.aot.ru Морфологический анализатор - генератор парадигмы

он-лайн анализразвертывание парадигмы

“Программа морфологического анализа”

загруж. анализтипизация несловарных слов

“Русский морфологический словарь”

загруж. представление морфологиитипизация словарных слов

http://www.xrce.xerox.com/competencies/content-analysis/demos/russian.en.html

“Russian Morphological Analysis”

он-лайн анализ

http://www.keva.ru/ “Демонстрационная версия русского морфологического анализатора”

он-лайн / загруж.

анализразвертывание парадигмы

http://www.geocities.com/SiliconValley/Bit/1116/

“Russian Morphological Dictionary”

загруж. анализ

КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В XXI ВЕКЕ: повестка дня

• Потребность в свободно распространяемых готовых решениях (АОТ, …)

• Проблемы технической эффективности (анализа, типизации)

• Качество лингвистических баз данных и их адаптируемость к конкретным задачам

ПРЕЗЕНТАЦИЯ МОРФОЛОГИЧЕСКИХ МОДУЛЕЙ АОТ

См. http://www.aot.ru/docs/sokirko/MorphPPT-Dateien/frame.htm

Recommended