80
Компьютерная лингвистика Анисья Катинская

4 встреча — Компьютерная лингвистика (А. Катинская)

Embed Size (px)

DESCRIPTION

4 встреча Smolensk Computer Science Club Презентация Анисьи Катинской про компьютерную лингвистику ВКонтакте: http://vk.com/scsc4

Citation preview

Page 1: 4 встреча — Компьютерная лингвистика (А. Катинская)

Компьютерная лингвистика

Анисья Катинская

Page 2: 4 встреча — Компьютерная лингвистика (А. Катинская)

Компьютерная лингвистика — направление в прикладной лингвистике, ориентированное на использование компьютерных программ и технологий организации и обработки данных для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах.

(А. Н. Баранов, Введение в прикладную лингвистику)

Page 3: 4 встреча — Компьютерная лингвистика (А. Катинская)

Computational linguistics

Компьютерная лингвистика

Вычислительная лингвистика

Page 4: 4 встреча — Компьютерная лингвистика (А. Катинская)

Джорджтаунский эксперимент. 1954 г.

Page 5: 4 встреча — Компьютерная лингвистика (А. Катинская)

Лингвистика (языкознание) — наука о естественном человеческом языке вообще и о всех языках мира как индивидуальных его представителях. Лингвистика изучает язык вообще, как явление, не данное в непосредственном наблюдении.

Язык есть естественно (на определенной стадии развития человеческого общества) возникшая и закономерно развивающаяся семиотическая (знаковая) система, обладающая свойством социальной предназначенности. Это система, существующая прежде всего не для отдельного индивида, а для определенного социума. Кроме того, на эту знаковую систему наложены ограничения, связанные с ее функциями и используемым субстанциальным (звуковым) материалом

(А. Е. Кибрик)

Page 6: 4 встреча — Компьютерная лингвистика (А. Катинская)

Определение В. П. Селегея

Это формализованная, полная и логически непротиворечивая лингвистика, модели которой могут использоваться при создании программ для обработки текстов.

Компьютерная лингвистика 1 Компьютерная лингвистика 2

Это технология и методология решения практических задач, компьютерного анализа и синтеза языка.

Page 7: 4 встреча — Компьютерная лингвистика (А. Катинская)

Компьютерная лингвистика (The Association for Computational Linguistics)

Компьютерная лингвистика как исследование языка с вычислительной точки зрения. Компьютерная лингвистика занимается созданием вычислительных моделей различных лингвистических феноменов.

Natural language processing или Автоматическая обработка текста

Преимущественно область Computer Science, искусственного интеллекта и лингвистики. Имеет отношение к человеко-компьютерному взаимодействию, и современные модели АОТ чаще строятся на машинном обучении и статистике, а не моделировании языка.Т.е. для решения своих задач АОТ может использовать формальные модели языка, разных уровней языка, создаваемые компьютерной лингвистикой.

Page 8: 4 встреча — Компьютерная лингвистика (А. Катинская)

Igor A. Bolshakov and Alexander Gelbukh “COMPUTATIONAL LINGUISTICS: Models, Resources, Applications”

“Intelligent natural language processing is based on the science called computational linguistics. Computational linguistics is closely connected with applied linguistics and linguistics in general.”

Page 9: 4 встреча — Компьютерная лингвистика (А. Катинская)

© Igor A. Bolshakov, Alexander Gelbukh

Page 10: 4 встреча — Компьютерная лингвистика (А. Катинская)

Проблемы компьютерной лингвистики

• синтез и распознавание речи;• создание парсеров, морфологических

анализаторов;• вычислительная семантика;• машинный перевод;• симуляция языковой эволюции и ее изучение;• корпусная лингвистика;• создание электронных словарей, тезаурусов.

Page 11: 4 встреча — Компьютерная лингвистика (А. Катинская)

Проблемы АОТ

1. Хранение текстов и организация поиска по ним

Page 13: 4 встреча — Компьютерная лингвистика (А. Катинская)

3. Автоматическое аннотирование и реферирование (automatic abstracting)

http://extractorlive.com/on_line_demo.html

Проблемы АОТ

Page 14: 4 встреча — Компьютерная лингвистика (А. Катинская)

4. Проверка правописания (spelling correction)

Проблемы АОТ

Page 15: 4 встреча — Компьютерная лингвистика (А. Катинская)

© Daniel Jurafsky, James H. Martin

Page 16: 4 встреча — Компьютерная лингвистика (А. Катинская)

Минимальное редакционное расстояние

© Daniel Jurafsky, Christopher Manning

Page 17: 4 встреча — Компьютерная лингвистика (А. Катинская)

© Daniel Jurafsky, Christopher Manning

Минимальное редакционное расстояние

Page 18: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 19: 4 встреча — Компьютерная лингвистика (А. Катинская)

5. Извлечение отношений (relationship extraction)

6. Извлечение именных сущностей (named entity recognition)

http://www.alchemyapi.com

Проблемы АОТ

Page 20: 4 встреча — Компьютерная лингвистика (А. Катинская)

7. Анализ тональности текста (sentiment analysis)

Проблемы АОТ

© Daniel Jurafsky, Christopher Manning

Page 21: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 22: 4 встреча — Компьютерная лингвистика (А. Катинская)

8. Графематический анализ (word segmentation)

houses.said,

Crazy?positive.”

http://nlp.lsi.upc.edu/freeling/demo/demo.php

Проблемы АОТ

Page 23: 4 встреча — Компьютерная лингвистика (А. Катинская)

9. Сегментация текста на предложения (sentence breaking or sentence boundary disambiguation)

http://nlp.lsi.upc.edu/freeling/demo/demo.php

Проблемы АОТ

Page 24: 4 встреча — Компьютерная лингвистика (А. Катинская)

10. Морфологический анализ: стемминг (выделение основы), выделение аффиксов, моделирование словоизменения и словообразования (morphological segmentation)

Проблемы АОТ

Page 25: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 26: 4 встреча — Компьютерная лингвистика (А. Катинская)

Конечный автомат, моделирующий образование форм английского глагола

© Daniel Jurafsky, James H. Martin

Page 27: 4 встреча — Компьютерная лингвистика (А. Катинская)

Конечный автомат, моделирующий образование форм множественного числа

существительных

© Daniel Jurafsky, James H. Martin

Page 28: 4 встреча — Компьютерная лингвистика (А. Катинская)

11. Морфологический парсинг (part-of-speech tagging)

Проблемы АОТ

Page 31: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 32: 4 встреча — Компьютерная лингвистика (А. Катинская)

Скобочное представление структуры предложения

© Daniel Jurafsky, James H. Martin

Page 33: 4 встреча — Компьютерная лингвистика (А. Катинская)

Представление структуры предложения в виде дерева

© Daniel Jurafsky, James H. Martin

Page 34: 4 встреча — Компьютерная лингвистика (А. Катинская)

13. Оптическое распознавание символов (optical character recognition)

Проблемы АОТ

Page 35: 4 встреча — Компьютерная лингвистика (А. Катинская)

14. Анализ дискурса (discourse analysis)

15. Автоматическое понимание текста (natural language understanding)АПТ с точки зрения лингвиста Н. Н. Леонтьевой (автор учебника «Автоматическое понимание текстов. Системы, модели, ресурсы»)

Естественный текст 1) тест перевода2) реферат3) ответы на вопросы4) рисунок или таблица

1) сравнение (выявление общего и различного)2) извлечение знаний

Несколько текстов

Проблемы АОТ

Page 36: 4 встреча — Компьютерная лингвистика (А. Катинская)

16. Автоматическая генерация языка (natural language generation)

Яндекс.РефератыГенерация шуток

http://www.abdn.ac.uk/ncs/computing/research/nlg/demonstrations/joking/

Проблемы АОТ

Page 37: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 38: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 39: 4 встреча — Компьютерная лингвистика (А. Катинская)

17. Сегментация речи (speech segmentation)

18. Автоматическое распознавание речи (automatic speech recognition)

19. Синтез звучащей речи (speech synthesis)

http://nlpub.ru/wiki/Распознавание_речи

Проблемы АОТ

Page 40: 4 встреча — Компьютерная лингвистика (А. Катинская)

© Daniel Jurafsky, James H. Martin

Page 41: 4 встреча — Компьютерная лингвистика (А. Катинская)

© Daniel Jurafsky, James H. Martin

Page 42: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 43: 4 встреча — Компьютерная лингвистика (А. Катинская)

20. Машинный перевод (machine translation)

«Car firms hope to turn windscreens into giant computer displays that overlay the real world with useful information, such as directions or even social media feeds.»

— «Cars turn to augmented reality», J. Stewart, BBC

Проблемы АОТ

Page 44: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 45: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 46: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 47: 4 встреча — Компьютерная лингвистика (А. Катинская)

21. Автоматическое установление кореферентных связей в тексте (сoreference resolution)

Проблемы АОТ

Page 48: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 49: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 50: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 51: 4 встреча — Компьютерная лингвистика (А. Катинская)

22. Вопросно-ответные системы (question-answering system)

Проблемы АОТ

Page 52: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 53: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 54: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 55: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 56: 4 встреча — Компьютерная лингвистика (А. Катинская)

• Category: General ScienceClue: When hit by electrons, a phosphor gives off electromagnetic energy in this form.Answer: Light (or Photons)

• Category: “Rap” SheetClue: This archaic term for a mischievous or annoying child can also mean a rogue or scamp.Subclue 1: This archaic term for a mischievous or annoying child.Subclue 2: This term can also mean a rogue or scamp.Answer: Rapscallion

• Category: Before and After Goes to the MoviesClue: Film of a typical day in the life of the Beatles, which includes running from bloodthirsty zombie fans in a Romero classic.Subclue 2: Film of a typical day in the life of the Beatles. Answer 1: (A Hard Day’s Night)Subclue 2: Running from bloodthirsty zombie fans in a Romero classic.Answer 2: (Night of the Living Dead)Answer: A Hard Day’s Night of the Living Dead

• Category: Decode the Postal CodesVerbal instruction from host: We’re going to give you a word comprising two postal abbreviations; you have to identify the states.Clue: VainAnswer: Virginia and Indiana

© AAAI

Page 57: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 59: 4 встреча — Компьютерная лингвистика (А. Катинская)

23. Разрешение многозначности (word-sense disambiguation)

Проблемы АОТ

Page 60: 4 встреча — Компьютерная лингвистика (А. Катинская)

Почему данную задачу так трудно решить?

• Все словари разные и не эквивалентны друг другу.• В некоторых языках проблема определения части речи

тесно связана с разрешением многозначности, эти две задачи могут мешать друг другу.

• Человеческий фактор.• Здравый смысл. «Jill and Mary are sisters.» — они являются сёстрами по отношению друг к другу.«Jill and Mary are mothers.» — каждая независимо является матерью.• Зависимость от задачи.• Дискретное представление значений слова.

Page 61: 4 встреча — Компьютерная лингвистика (А. Катинская)

Основные подходы к решению проблемы

1. «Глубокий» подход (deep approach)«Зеленый» в сочетании с одуш. сущ. Обозначает «неопытный». В значении «имеющий отношение к зеленому цвету» только с неодуш. сущ.

2. «Поверхностный» подход (shallow approach)«The dogs bark at the tree» bark – гл. «лаять» и сущ. «кора»

Page 62: 4 встреча — Компьютерная лингвистика (А. Катинская)

Методы решения

• методы, основанные на знаниях (dictionary- и knowledge-based methods);

• методы обучения с учителем (supervised methods);

• методы частичного обучения с учителем (semi-supervised learning);

• методы обучения без учителя (unsupervised methods.

Page 63: 4 встреча — Компьютерная лингвистика (А. Катинская)

© Daniel Jurafsky, James H. Martin

Page 64: 4 встреча — Компьютерная лингвистика (А. Катинская)

© Daniel Jurafsky, James H. Martin

Page 65: 4 встреча — Компьютерная лингвистика (А. Катинская)

«Неудобные» свойства языка

• Неоднозначность

«Сергей вернулся из командировки в Москву».«Мы встретили сына художника, приехавшего из Парижа».«критика ученого»«посещение родственников»«приглашение композитора»

Page 66: 4 встреча — Компьютерная лингвистика (А. Катинская)

• Несимметричность языков• Избыточность• Конвенциональность языка• Эллиптичность «Дан приказ ему на запад, /Ей — в другую сторону» — М. В. Исаковский); «Тане — 5, а Вале — 3» «Моя мать — врач»• Сложные средства референции

«Неудобные» свойства языка

Page 67: 4 встреча — Компьютерная лингвистика (А. Катинская)

The approval of CFO is required

Page 68: 4 встреча — Компьютерная лингвистика (А. Катинская)
Page 69: 4 встреча — Компьютерная лингвистика (А. Катинская)

Хомский vs. Норвиг

Page 70: 4 встреча — Компьютерная лингвистика (А. Катинская)

“On Chomsky and the Two Cultures of Statistical Learning”

http://norvig.com/chomsky.html

Page 71: 4 встреча — Компьютерная лингвистика (А. Катинская)

Deep linguistic processing

Page 72: 4 встреча — Компьютерная лингвистика (А. Катинская)

HMM Part-of-Speech tagging

“Secretariat Is expected to race tomorrow”

Формула Байеса:

Page 73: 4 встреча — Компьютерная лингвистика (А. Катинская)

HMM Part-of-Speech tagging

Page 74: 4 встреча — Компьютерная лингвистика (А. Катинская)

HMM Part-of-Speech tagging

Page 75: 4 встреча — Компьютерная лингвистика (А. Катинская)

HMM Part-of-Speech tagging

Page 76: 4 встреча — Компьютерная лингвистика (А. Катинская)

HMM Part-of-Speech tagging

© Daniel Jurafsky, James H. Martin

Page 77: 4 встреча — Компьютерная лингвистика (А. Катинская)

HMM Part-of-Speech tagging

Page 78: 4 встреча — Компьютерная лингвистика (А. Катинская)

www.coursera.org

Page 79: 4 встреча — Компьютерная лингвистика (А. Катинская)

Источники

• Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Daniel Jurafsky, James H. Martin

• COMPUTATIONAL LINGUISTICS: Models, Resources, Applications. Igor A. Bolshakov, Alexander Gelbukh

• Введение в прикладную лингвистику. А. Н. Баранов.• Автоматическое понимание текстов. Системы, модели,

ресурсы. Н. Н. Леонтьева• Лекция В. П. Селегея «Компьютерная лингвистика

сегодня» (9.10.2012)

Page 80: 4 встреча — Компьютерная лингвистика (А. Катинская)

Спасибо за внимание