22
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках

Компьютерный анализ естественно - языкового текста

Embed Size (px)

DESCRIPTION

Компьютерный анализ естественно - языкового текста. Кафедра информационных систем в искусстве и гуманитарных науках. Компьютерный анализ естественно - языкового текста СТРУКТУРА КУРСА. Введение в дисциплину Автоматический анализ текста на морфологическом уровне - PowerPoint PPT Presentation

Citation preview

Page 1: Компьютерный анализ естественно - языкового текста

Компьютерный анализ естественно-языкового текста

Кафедра информационных систем в искусстве и гуманитарных науках

Page 2: Компьютерный анализ естественно - языкового текста

Компьютерный анализ естественно-языкового текста

СТРУКТУРА КУРСА

1. Введение в дисциплину

2. Автоматический анализ текста на морфологическом уровне

3. Автоматический анализ текста на синтаксическом уровне

4. Семантический компонент в системах автоматического анализа текста

Page 3: Компьютерный анализ естественно - языкового текста

Компьютерный анализ естественно-языкового текста

СТРУКТУРА КУРСА

2. Автоматический анализ текста на морфологическом уровне

1. Морфологический уровень в ЛИТ2. Основные понятия морфологии в

компьютерной морфологии

3. Основные процедуры компьютерной морфологии

4. Компьютерная морфология русского языка

5. Технологии морфологического анализа

6. «Предсказание» (типизация)

7. Вопросы, смежные с синтаксисом

Page 4: Компьютерный анализ естественно - языкового текста

ПЕРИОДИЗАЦИЯ РАЗРАБОТОК ПО КОМПЬЮТЕРНОЙ МОРФОЛОГИИ РУССКОГО ЯЗЫКА

• Первые разработки (для машинного перевода) – сер. 50-х – конец 60-х гг.

• Освоение новых функций – конец 60-х – конец 80-х гг.

• Освоение словаря Зализняка – конец 80-х - конец 90-х гг.

• Компьютерная морфология русского языка – «написанная книга»?.. – 2000-е гг.

Page 5: Компьютерный анализ естественно - языкового текста

ПЕРВЫЕ РАЗРАБОТКИ В ОБЛАСТИ КОМПЬЮТЕРНОЙ МОРФОЛОГИИ РУССКОГО ЯЗЫКА

1954 г.- Джорджтаунский эксперимент (январь)- Начало разработок систем МП в СССР:

- с английского (Институте точной механики и вычислительной техники)- и французского (в Институте прикладной математики) языков

Конец 50-х гг.:- Разработки систем МП с русского языка в США:

- в Вашингтонском университете (1956-1957 г.) – со словарем словоформ

- в Гарвардском университете (1959-1961) – с модулем морфологического анализа «справа налево» (inverse inflection)

- Группа под руководством Ю.А.Моторина (1956/1958 г.) – англо-русский перевод

Начало 60-х гг.:- Университет Уэйна (США) – перевод со словарем словоформ- Национальное бюро стандартов, Джорджтаунский университет (США)

- с модулем морфологического анализа.- Перевод с русского в Гренобльском университете (Франция)

Page 6: Компьютерный анализ естественно - языкового текста

МОРФОЛОГИЧЕСКИЕ МОДУЛИ В НОВЫХ ФУНКЦИЯХ

• Систематизация опыта построения морфологических синтезаторов в работах З.М.Волоцкой (1958), Т.М.Николаевой (1961), далее - О.А.Штерновой (1977)

• Работа А.А.Раскиной и Т.С.Чепиго в ВИНИТИ (1967): построение словаря словоформ (нач. с 10 тыс.) с конечной целью – система перифразирования предложений на тему «Космос»

• Комплексная система обработки информации в ВИНИТИ (группа Г.Г.Белоногова): ИП вместе с набором автоматизированных вспомогательных функций (описан в публикациях 1984-89 гг.)

Page 7: Компьютерный анализ естественно - языкового текста

ИСПОЛЬЗОВАНИЕ МОРФОЛОГИЧЕСКОГО АНАЛИЗА В ТЕХНОЛОГИЧЕСКОЙ ЦЕПОЧКЕ ВИНИТИ

Page 8: Компьютерный анализ естественно - языкового текста

СЛОВАРЬ ЗАЛИЗНЯКА

1974• «Обратный словарь русского языка»1977• «Грамматический словарь русского языка»1980• 2-е изд. ГСРЯ1987• 3-е изд. ГСРЯ2003• 4-е изд. ГСРЯ (добавлены имена собственные)

Автор – Андрей Анатольевич Зализняк (с 1997 г. академик РАН)

Page 9: Компьютерный анализ естественно - языкового текста

ПЕРЕНОС СЛОВАРЯ ЗАЛИЗНЯКА НА МАШИННЫЕ НОСИТЕЛИ

• Автоматизированная лексикографическая система УНИЛЕКС (1987), УНИЛЕКС-2 (1989), УНИЛЕКС-Т (1993)

• Объявление в журнале “Language” о возможности приобрести электронную версию ГСРЯ у Университета Бригема Янга (Brigham Young University, штат Юта) (1992)

• Интеграция словаря Зализняка в STARLING - рабочую программную среду для лингвиста (ок.1989, в Интернете с 1998 - starling.rinet.ru)

Page 10: Компьютерный анализ естественно - языкового текста

ФРАГМЕНТ СТРАНИЦЫ СЛОВАРЯ ЗАЛИЗНЯКА

Page 11: Компьютерный анализ естественно - языкового текста

ДОСТОИНСТВА СЛОВАРЯ ЗАЛИЗНЯКА

• полнота словника

• детальность словоизменительной характеристики

Page 12: Компьютерный анализ естественно - языкового текста

ФРАГМЕНТ СЛОВАРЯ ЗАЛИЗНЯКА, ЭКСПОРТИРУЕМОГО ИЗ STARLING

WORD GRAMMAR TRANS

-де 3 (_без удар._) част.

-ка 3 (_без удар._) част.

-либо 5 част.

-нибудь 5 (_без удар._) част.

-с 0 част.

-таки 5 част.

-то 3 (_без удар._) част.

а 1 (_без удар._) союз ah and butI eh

а 1 част.

а 1 межд.

а 1 с 0 (_название буквы а_)

а-конто 4 с 0

Page 13: Компьютерный анализ естественно - языкового текста

СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ

Идентификатор лексемы Идентификатор парадигмы

порогов 302

пород 005

породнени 002

порожда 401

Page 14: Компьютерный анализ естественно - языкового текста

СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ

Идентификатор лексемы

Основа Идентификатор парадигмы

пороговый порогов 302

порода пород 005

породнение породнени 002

порождать порожда 401

Page 15: Компьютерный анализ естественно - языкового текста

ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ КОДОВ ГСРЯ В МОРФОЛОГИЧЕСКИХ МОДУЛЯХ

• Могут быть слишком дробными (для обработки письменного текста)

дол м 1е//1апорт м 1е имеют одинаковый набор окончанийклён м 1а

• Могут быть недостаточно точными (для некоторых процедур компьютерной морфологии)

восстановление начальной формы:

бугор м 1*b бугра: (- ра), (+ ор)котёл м 1*b котла: (- ла), (+ ёл)псалом м 1*b псалма: (- ма), (+ ом)сон м 1*b сна: (- на), (+ он)хребет м 1*b хребта: (- та), (+ ет)

Page 16: Компьютерный анализ естественно - языкового текста

НЕДОСТАТКИ СЛОВАРЯ ЗАЛИЗНЯКА

• сложная структура словоизменительной характеристики

• формальная «вседозволенность» (свобода образования форм множественного числа - вреды, зарезы, неонацизмы, кратких форм - бегл, кредитово, соляны, сравнительной степени - тяжелораненее, убитее, изюбревее)

• неполнота словника

Page 17: Компьютерный анализ естественно - языкового текста

РАЗРАБОТКИ МОРФОЛОГИЧЕСКИХ МОДУЛЕЙ ДЛЯ РУССКОГО ЯЗЫКА ПОСЛЕ СЛОВАРЯ ЗАЛИЗНЯКА

• Коммерческие модули проверки орфографии – «ОРФО», «ПРОПИСЬ»; в составе текстовых редакторов «ЛЕКСИКОН», «ДЕЛА В ПОРЯДКЕ»

• Вопрос как строить морфологические модули решается на уровне кандидатских диссертаций (О.В.Минтусова 1990, И.В.Жарков 1995, Г.О.Сидоров 1995)

Page 18: Компьютерный анализ естественно - языкового текста

КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В XXI ВЕКЕ

• Модули морфологической обработки предлагаются в качестве готового к употреблению товара (Руссикон, ABBYY, Медиа-Лингва, Гарант-Парк-Интернет,… )

• Модули морфологической обработки распространяются свободно (АОТ, А.Поминов, С.Сикорский…)

• Что дальше?

Page 19: Компьютерный анализ естественно - языкового текста

КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В ИНТЕРНЕТЕ (1)

http://www.multitran.ru “Морфологический анализатор”

он-лайн развертывание парадигмыанализ

Морфологический анализатор

загруж. анализ

“Морфологические классы русского языка”

он-лайн представление морфологии

http://starling.rinet.ru Морфологический анализатор - генератор парадигмы

он-лайн типизация словарных слованализразвертывание парадигмы

Словарь ГСРЯ в текстовом формате

загруж. типизация словарных слов

Словарь ГСРЯ в формате базы данных dbf

загруж. типизация словарных слов

http://axofiber.no-ip.org Проект “Русская морфология” (RMU/RMS)

он-лайн анализразвертывание парадигмытипизация несловарных слов

Page 20: Компьютерный анализ естественно - языкового текста

КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В ИНТЕРНЕТЕ (2)

http://www.aot.ru Морфологический анализатор - генератор парадигмы

он-лайн анализразвертывание парадигмы

“Программа морфологического анализа”

загруж. анализтипизация несловарных слов

“Русский морфологический словарь”

загруж. представление морфологиитипизация словарных слов

http://www.xrce.xerox.com/competencies/content-analysis/demos/russian.en.html

“Russian Morphological Analysis”

он-лайн анализ

http://www.keva.ru/ “Демонстрационная версия русского морфологического анализатора”

он-лайн / загруж.

анализразвертывание парадигмы

http://www.geocities.com/SiliconValley/Bit/1116/

“Russian Morphological Dictionary”

загруж. анализ

Page 21: Компьютерный анализ естественно - языкового текста

КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В XXI ВЕКЕ: повестка дня

• Потребность в свободно распространяемых готовых решениях (АОТ, …)

• Проблемы технической эффективности (анализа, типизации)

• Качество лингвистических баз данных и их адаптируемость к конкретным задачам

Page 22: Компьютерный анализ естественно - языкового текста

ПРЕЗЕНТАЦИЯ МОРФОЛОГИЧЕСКИХ МОДУЛЕЙ АОТ

См. http://www.aot.ru/docs/sokirko/MorphPPT-Dateien/frame.htm