Transcript
Page 1: Автоматическая обработка ЕЯ (обработка текста)

Автоматическая обработка ЕЯ(обработка текста)

2 курс

Page 2: Автоматическая обработка ЕЯ (обработка текста)

План

• Примеры интеграции NLP в различные системы обработки контента

• Этапы лингвистической обработки• Примеры лингвистических платформ

Page 3: Автоматическая обработка ЕЯ (обработка текста)

Примеры

• Яндекс• OpenCalais http://viewer.opencalais.com/• News360.com• http://translate.google.cn/?hl=en#en/ru/ • Что еще???

Page 4: Автоматическая обработка ЕЯ (обработка текста)

Этапы• Распознавание языка• Графематический анализ• Разбиение на предложения• Токенизация• Морфологический анализ• Частичный синтаксический / синтаксический анализ• Приписывание семантических ролей (semantic role labeling)• Распознавание анафоры (установление кореференции)• Дискурсивный анализ• Распознавание именованных сущностей

Page 5: Автоматическая обработка ЕЯ (обработка текста)

Графематический анализ

• Лектор: канд. физ.-мат. наук Турдаков Денис Юрьевич.• Технические вопросы: Бабаков Александр Валентинович.• Спецкурс будет проходить по пятницам в 18.00 в ауд. П-6

во 2-м учебном корпусе МГУ.• Аннотация• Спецкурс предназначен для студентов 3-5 курсов,

желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению.

Page 6: Автоматическая обработка ЕЯ (обработка текста)

Графематический анализ АОТ

• Разделение входного текста на слова, разделители и т.д.

• Сборка слов, написанных в разрядку; • Выделение устойчивых оборотов, не имеющих

словоизменительных вариантов; • Выделение ФИО (фамилия, имя, отчество), когда

имя и отчество написаны инициалами; • Выделение электронных адресов и имен файлов; • Выделение предложений из входного текста; • Выделение абзацев, заголовков, примечаний.

Page 7: Автоматическая обработка ЕЯ (обработка текста)

Морфологический анализ

• ruscorpora.ru• aot.ru• http://cst.dk/online/pos_tagger/uk/

Page 8: Автоматическая обработка ЕЯ (обработка текста)

Морфологический анализ

• Лемматизация• Частеречная разметка• Морфологический анализ• Снятие омонимии

Page 9: Автоматическая обработка ЕЯ (обработка текста)

Синтаксический анализ

• testsynt.soiza.com• Connexor• VISL• http://nlp.stanford.edu:8080/parser/

Page 10: Автоматическая обработка ЕЯ (обработка текста)

Semantic role labeling

• http://cogcomp.cs.illinois.edu/demo/srl/• aot.ru


Recommended