35
Вычислительная лингвистика Фёдор Царёв [email protected] 02 ноября 2005 года

Вычислительная лингвистика

  • Upload
    pennie

  • View
    61

  • Download
    0

Embed Size (px)

DESCRIPTION

Вычислительная лингвистика. Фёдор Царёв [email protected] 0 2 ноября 2005 года. Язык – исторически сложившаяся система звуковых, словарных и грамматических средств, объективирующая работу мышления и являющаяся орудием общения, обмена мыслями и взаимного понимания людей в обществе - PowerPoint PPT Presentation

Citation preview

Page 1: Вычислительная лингвистика

Вычислительная лингвистика

Фёдор Царёв[email protected]

02 ноября 2005 года

Page 2: Вычислительная лингвистика

Язык – исторически сложившаяся система звуковых, словарных и грамматических средств, объективирующая работу мышления и являющаяся орудием общения, обмена мыслями и взаимного понимания людей в обществе

Толковый словарь русского языка

Page 3: Вычислительная лингвистика

Цель

• Дать общее представление о моделях и методах вычислительной лингвистики, не вдаваясь особо в подробности

Page 4: Вычислительная лингвистика

План доклада

1. Что это такое? 2. История3. Основные методы4. Конкретный пример5. Открытые вопросы и перспективы

Page 5: Вычислительная лингвистика

План доклада

1. Что это такое? 2. История3. Основные методы4. Конкретный пример5. Открытые вопросы и перспективы

Page 6: Вычислительная лингвистика

Что это такое?

• Это наука, рассматривающая методы создания приложений, использующих знания о языке

Page 7: Вычислительная лингвистика

Зачем это нужно?

• Огромное количество информации доступно в форме текстов

• Создание новых типов интерфейсов• Проверка правописания• Автоматический перевод• Информационный поиск• Системы автоматического ответа на

вопросы

Page 8: Вычислительная лингвистика

Простой пример

• Программа wc в UNIX’е– Когда считает байты и строки – просто

программа– Когда считает слова – использует знания о

языке

Page 9: Вычислительная лингвистика

6 разделов языкознания

• Фонетика• Морфология• Синтаксис• Семантика• Pragmatics – использование языка для

достижения неких целей• Discourse – изучение лингвистических

категорий, более широких, чем предложение

Page 10: Вычислительная лингвистика

Основная проблема - неоднозначность

• Вход называется неоднозначным, если существует несколько различных лингвистических структур для него

• Пример: I made her duck

Page 11: Вычислительная лингвистика

План доклада

1. Что это такое? 2. История3. Основные методы4. Конкретный пример5. Открытые вопросы и перспективы

Page 12: Вычислительная лингвистика

1940-1957

• Два подхода:– Автоматный (Kleene, Chomsky, Backus,

Naur)– Теоретико-информационный, или

вероятностный (Shannon)• Из возможных вариантов выбрать

наиболее вероятный• 1952 год – статистическая система

распознавания цифр на слух

Page 13: Вычислительная лингвистика

Тест Тьюринга• Предложен Аланом

Тьюрингом (Alan Turing) в 1950 году

• Игра для трех игроков

• Цель компьютера – обмануть людей

• Цель человека – помочь обнаружить компьютер

Человек

Игрок 1 Игрок 2

Page 14: Вычислительная лингвистика

1957-1970

• Два подхода:– Символический (symbolic)– Стохастический (stochastic)

Page 15: Вычислительная лингвистика

1970-1983

• Четыре парадигмы:– Stochastic– Logic-based– Natural language understanding– Discourse modeling

Page 16: Вычислительная лингвистика

1983-1993

• Finite-state phonology • Finite-state morphology• Использование эмпирических моделей

Page 17: Вычислительная лингвистика

1994-…

• Использование всего, что использовалось когда-либо…

Page 18: Вычислительная лингвистика

План доклада

1. Что это такое? 2. История3. Основные методы4. Конкретный пример5. Открытые вопросы и перспективы

Page 19: Вычислительная лингвистика

Разрешение неоднозначности

• Многие алгоритмы разрешают неоднозначность на том или ином уровне– Лексическая неоднозначность– Синтаксическая неоднозначность– и т.д.

Page 20: Вычислительная лингвистика

Алгоритмы и модели - процедурные модели

• Детерминированные конечные автоматы

• Недетерминированные конечные автоматы

• Finite-state transcuders (могут записывать в выходной поток)

• Взвешенные автоматы

Page 21: Вычислительная лингвистика

Алгоритмы и модели – описательные модели

• Регулярные выражения• Контекстно-свободные грамматики• Их вероятностные варианты

Page 22: Вычислительная лингвистика

Пример

• Грамматика для простых предложений английского языка<предложение> ::= <вопросительное предложение> | <повествовательное предложение>

Page 23: Вычислительная лингвистика

Пример (продолжение)

<вопросительное предложение> ::= <вопросительное слово> <вспомогательный глагол> <подлежащее> <основной глагол> <второстепенные члены предложения>

<повествовательное предложение> ::= <подлежащее> <сказуемое> <второстепенные члены предложения>

Page 24: Вычислительная лингвистика

Алгоритмы и модели – алгоритмы

• Поиск по некоторому множеству гипотез:– Поиск в глубину– Динамическое программирование– Различные вероятностные варианты

Page 25: Вычислительная лингвистика

Алгоритмы и модели – другие

• Машинное обучение• Использование логики первого порядка• Языки типа PROLOG’а• Нейронные сети

Эти подходы сегодня рассматриваться не будут

Page 26: Вычислительная лингвистика

План доклада

1. Что это такое? 2. История3. Основные методы4. Конкретный пример5. Открытые вопросы и перспективы

Page 27: Вычислительная лингвистика

Алгоритм Витерби

• Применяется для распознавания речи• Пусть уже входной звук разбит на

последовательность известных нам звуков

• Осталось выяснить, что конкретно было сказано

Page 28: Вычислительная лингвистика

Постановка задачи – 1

• Дан ориентированный граф G=<V,E>• Дано множество звуков Σ• Каждой дуге uv сопоставлены:

– Звук σ(uv)– Вероятность p(uv) издать этот звук

• Заданы:– Начальная вершина v0

– Последовательность звуков w1…wn

Page 29: Вычислительная лингвистика

Постановка задачи – 2

• Сумма вероятностей на дугах, исходящих из некой вершины, равна единице

• Произнесения последовательных звуков независимы

• Найти наиболее вероятный путь в графе

Page 30: Вычислительная лингвистика

Решение – динамическое программирование

• Пусть a(i, j) – максимальная вероятность «попасть» в вершину i после произнесения последовательности звуков w1w2…wj

Page 31: Вычислительная лингвистика

Решение – инициализация и рекуррентное соотношение

• Инициализация: a(v0,0) = 1 • Рекуррентное соотношение:

p(uv))a(u,ka(v,k)kwσ(uv)

Euv

1max

Как теперь получить ответ?

Page 32: Вычислительная лингвистика

План доклада

1. Что это такое? 2. История3. Основные методы4. Конкретный пример5. Открытые вопросы и перспективы

Page 33: Вычислительная лингвистика

Перспективы

• Создание интерфейса с пользователем, использующего естественный язык

• Создание систем, способных анализировать тексты

Page 34: Вычислительная лингвистика

Заключительный слайдЕсли не запомнили ничего другого:

Вопросы?

• Приложения, использующие знание языка – очень перспективная область• Основная проблема – неоднозначность • В вычислительной лингвистике широко используются методы теории алгоритмов

Page 35: Вычислительная лингвистика

Источники

• http://www.cs.colorado.edu/~martin/slp.html• Кормен, Лейзерон, Ривест «Алгоритмы.

Построение и анализ»