25
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках

Компьютерный анализ естественно - языкового текста

Embed Size (px)

DESCRIPTION

Компьютерный анализ естественно - языкового текста. Кафедра информационных систем в искусстве и гуманитарных науках. Компьютерный анализ естественно - языкового текста СТРУКТУРА КУРСА. Введение в дисциплину Автоматический анализ текста на морфологическом уровне - PowerPoint PPT Presentation

Citation preview

Page 1: Компьютерный анализ естественно - языкового текста

Компьютерный анализ естественно-языкового текста

Кафедра информационных систем в искусстве и гуманитарных науках

Page 2: Компьютерный анализ естественно - языкового текста

Компьютерный анализ естественно-языкового текста

СТРУКТУРА КУРСА

1. Введение в дисциплину

2. Автоматический анализ текста на морфологическом уровне

3. Автоматический анализ текста на синтаксическом уровне

4. Семантический компонент в системах автоматического анализа текста

Page 3: Компьютерный анализ естественно - языкового текста

Компьютерный анализ естественно-языкового текста

СТРУКТУРА КУРСА

3. Автоматический анализ текста на синтаксическом уровне

– Задачи анализа текста на синтаксическом уровне

– Модели представления структуры высказывания

– Примеры реализации синтаксического анализа

Page 4: Компьютерный анализ естественно - языкового текста

Компьютерный анализ естественно-языкового текста

СТРУКТУРА КУРСА

3. Автоматический анализ текста на синтаксическом уровне

– Задачи анализа текста на синтаксическом уровне

– Модели представления структуры высказывания

– Примеры реализации синтаксического анализа

Page 5: Компьютерный анализ естественно - языкового текста

ЗАДАЧИ АНАЛИЗА ТЕКСТА НА СИНТАКСИЧЕСКОМ УРОВНЕ

• Задача - построение синтаксического представления текста, т.е. синтаксической структуры

• Сфера действия ограничена предложением • На входе – цепочка словоформ с

приписанными им грамматическими характеристиками (в том объеме, в котором это позволяет сделать лексико-морфоло-гический анализ и снятие грамматических неоднозначностей)

• На выходе полного синтаксического анализа – иерархическая структура (обычно дерево).

Page 6: Компьютерный анализ естественно - языкового текста

МЕСТО СИНТАКСИЧЕСКОГО АНАЛИЗА В ЛИТ

Учет правил построения:

слова из букв высказывания из слов

текста из высказываний

Типовые операции:

Форм. Содерж. Форм. Содерж. Форм. Содерж.

Коррекция + – + ± – –

Перевод + + + + (±) (±)

Компрессия + (±) (±) (±) ± (±)

Информ. запрос

+ ± ± ± – –

Page 7: Компьютерный анализ естественно - языкового текста

Компьютерный анализ естественно-языкового текста

СТРУКТУРА КУРСА

3. Автоматический анализ текста на синтаксическом уровне

– Задачи анализа текста на синтаксическом уровне

– Модели представления структуры высказывания

– Примеры реализации синтаксического анализа

Page 8: Компьютерный анализ естественно - языкового текста

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА

Page 9: Компьютерный анализ естественно - языкового текста

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА

• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?

Page 10: Компьютерный анализ естественно - языкового текста

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА

• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?

Мама мыла раму

Page 11: Компьютерный анализ естественно - языкового текста

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА

• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?

Мама мыла раму

1 Мама подлежащее

2 мыла сказуемое

3 раму прямое дополнение

Page 12: Компьютерный анализ естественно - языкового текста

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА

• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?

Мама мыла раму

1 Мама подлежащее

2 мыла сказуемое

3 раму прямое дополнение

Как формально

интерпретировать???

Page 13: Компьютерный анализ естественно - языкового текста

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА

• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?

Мама мыла раму

Объединено в группу вместе с:

1 Мама (мыла + раму)

2 мыла раму

3 раму мыла

Первый вариант формального метаязыка:

Page 14: Компьютерный анализ естественно - языкового текста

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА

• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?

(Мама (мыла раму))

Объединено в группу вместе с:

1 Мама (мыла + раму)

2 мыла раму

3 раму мыла

Первый вариант формального метаязыка:

Структура составляющих

Page 15: Компьютерный анализ естественно - языкового текста

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА

• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?

Мама мыла раму

Объединено в группу вместе с:

1 Мама (мыла + раму)

2 мыла раму

3 раму мыла

Первый вариант формального метаязыка:

Структура составляющих

Page 16: Компьютерный анализ естественно - языкового текста

СТРУКТУРА СОСТАВЛЯЮЩИХнеформальное определение

• Составляющие – общее название для отдельных слов и групп в предложении, где группы – это отрезки предложения разной длины, которые объединяют более тесно связанные друг с другом единицы меньшего размера (тоже группы или отдельные слова)

(Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))

Page 17: Компьютерный анализ естественно - языкового текста

СОСТАВЛЯЮЩИЕ(почти) формальное определение - преамбула

• Предложение рассматривается как конечное множество (элемент множества - словоупотребление) с определенным на нем отношением линейного порядка (следование слева направо). Благодаря линейному порядку может быть введено понятие отрезка.

• Составляющие определяются в виде системы, т.е. в виде их (составляющих – одиночных слов и групп слов в виде отрезков) множества, на элементы которого накладываются некоторые, чисто формальные, ограничения.

Page 18: Компьютерный анализ естественно - языкового текста

СОСТАВЛЯЮЩИЕ(почти) формальное определение - формулировка

• Система составляющих для конечного линейно упорядоченного множества S – это такое множество C отрезков этого множества S, которое удовлетворяет следующим условиям:- SC (само предложение целиком является элементом системы своих составляющих)- wS wC (каждое отдельно взятое словоупотребление в предложении является элементом системы составляющих этого предложения)- α,β, являющихся отрезками предложения S и входящих в C, либо αβ=, либо αβ, либо βα (любые две составляющие некоторого предложения или не пересекаются, или содержатся друг в друге)

Page 19: Компьютерный анализ естественно - языкового текста

РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХмотивировка

• В примере ниже: целесообразно отразить то общее, что есть между составляющими {Эти школьники}, {диктант по русскому языку}, {русскому языку} путем отнесения их к одному классу

• Ответив на вопрос: какие слова или группы слов (т.е. составляющие) в предложении относятся к одному и тому же грамматическому классу?, можно будет перейти к ответу на вопрос: по каким правилам составляющие одного класса складываются из составляющих других классов? (вопрос собственно о структуре)

(Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))

Page 20: Компьютерный анализ естественно - языкового текста

РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХформальное определение

• Размеченная система составляющих –упорядоченная тройка <C, W, φ>, где

C – система составляющих,

W – множество меток(список классов, введенных в данной классификации, иначе

называемых «фразовые категории»),

φ – отображение C в множество всех непустых подмножеств W(список пар «составляющая + метка/метки, приписанные

данной составляющей»).

Page 21: Компьютерный анализ естественно - языкового текста

РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 1

(Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))

W = {S – предложение Det – местоименное прилагательное

NP – именная группа N – имя существительное

VP – глагольная группа Adv – наречие

AnV – аналитическая форма Aux – вспомогательный глагол

глагола V – глагол

PP – предложная группа Prep – предлог

A – имя прилагательное}

NP

Det N Adv Aux V

AnV

VP

N NAPrep

NP

NP

PP

S

Page 22: Компьютерный анализ естественно - языкового текста

РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 1

(Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))

Эти,Det скоро будут писать, VP Эти школьники скоро будут писать

школьники, N диктант, N диктант по русскому языку, S

Эти школьники, NP по, Prep

скоро, Adv русскому, A

будут, Aux языку, N

писать, V русскому языку, NP

будут писать, AnV по русскому языку, PP

NP

Det N Adv Aux V

AnV

VP

N NAPrep

NP

NP

PP

S

Page 23: Компьютерный анализ естественно - языкового текста

РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 2

Page 24: Компьютерный анализ естественно - языкового текста

РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 3

Page 25: Компьютерный анализ естественно - языкового текста

РЕКОМЕНДОВАННАЯ ЛИТЕРАТУРА

• Тестелец Я. Г. Введение в общий синтаксис. М., 2001. (Глава II)

• Гладкий А. В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., 1985.(Глава 2)