Upload
teegan-macias
View
31
Download
6
Embed Size (px)
DESCRIPTION
Компьютерный анализ естественно - языкового текста. Кафедра информационных систем в искусстве и гуманитарных науках. Компьютерный анализ естественно - языкового текста СТРУКТУРА КУРСА. Введение в дисциплину Автоматический анализ текста на морфологическом уровне - PowerPoint PPT Presentation
Citation preview
Компьютерный анализ естественно-языкового текста
Кафедра информационных систем в искусстве и гуманитарных науках
Компьютерный анализ естественно-языкового текста
СТРУКТУРА КУРСА
1. Введение в дисциплину
2. Автоматический анализ текста на морфологическом уровне
3. Автоматический анализ текста на синтаксическом уровне
4. Семантический компонент в системах автоматического анализа текста
Компьютерный анализ естественно-языкового текста
СТРУКТУРА КУРСА
3. Автоматический анализ текста на синтаксическом уровне
– Задачи анализа текста на синтаксическом уровне
– Модели представления структуры высказывания
– Примеры реализации синтаксического анализа
Компьютерный анализ естественно-языкового текста
СТРУКТУРА КУРСА
3. Автоматический анализ текста на синтаксическом уровне
– Задачи анализа текста на синтаксическом уровне
– Модели представления структуры высказывания
– Примеры реализации синтаксического анализа
ЗАДАЧИ АНАЛИЗА ТЕКСТА НА СИНТАКСИЧЕСКОМ УРОВНЕ
• Задача - построение синтаксического представления текста, т.е. синтаксической структуры
• Сфера действия ограничена предложением • На входе – цепочка словоформ с
приписанными им грамматическими характеристиками (в том объеме, в котором это позволяет сделать лексико-морфоло-гический анализ и снятие грамматических неоднозначностей)
• На выходе полного синтаксического анализа – иерархическая структура (обычно дерево).
МЕСТО СИНТАКСИЧЕСКОГО АНАЛИЗА В ЛИТ
Учет правил построения:
слова из букв высказывания из слов
текста из высказываний
Типовые операции:
Форм. Содерж. Форм. Содерж. Форм. Содерж.
Коррекция + – + ± – –
Перевод + + + + (±) (±)
Компрессия + (±) (±) (±) ± (±)
Информ. запрос
+ ± ± ± – –
Компьютерный анализ естественно-языкового текста
СТРУКТУРА КУРСА
3. Автоматический анализ текста на синтаксическом уровне
– Задачи анализа текста на синтаксическом уровне
– Модели представления структуры высказывания
– Примеры реализации синтаксического анализа
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?
Мама мыла раму
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?
Мама мыла раму
1 Мама подлежащее
2 мыла сказуемое
3 раму прямое дополнение
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?
Мама мыла раму
1 Мама подлежащее
2 мыла сказуемое
3 раму прямое дополнение
Как формально
интерпретировать???
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?
Мама мыла раму
Объединено в группу вместе с:
1 Мама (мыла + раму)
2 мыла раму
3 раму мыла
Первый вариант формального метаязыка:
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?
(Мама (мыла раму))
Объединено в группу вместе с:
1 Мама (мыла + раму)
2 мыла раму
3 раму мыла
Первый вариант формального метаязыка:
Структура составляющих
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?
Мама мыла раму
Объединено в группу вместе с:
1 Мама (мыла + раму)
2 мыла раму
3 раму мыла
Первый вариант формального метаязыка:
Структура составляющих
СТРУКТУРА СОСТАВЛЯЮЩИХнеформальное определение
• Составляющие – общее название для отдельных слов и групп в предложении, где группы – это отрезки предложения разной длины, которые объединяют более тесно связанные друг с другом единицы меньшего размера (тоже группы или отдельные слова)
(Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))
СОСТАВЛЯЮЩИЕ(почти) формальное определение - преамбула
• Предложение рассматривается как конечное множество (элемент множества - словоупотребление) с определенным на нем отношением линейного порядка (следование слева направо). Благодаря линейному порядку может быть введено понятие отрезка.
• Составляющие определяются в виде системы, т.е. в виде их (составляющих – одиночных слов и групп слов в виде отрезков) множества, на элементы которого накладываются некоторые, чисто формальные, ограничения.
СОСТАВЛЯЮЩИЕ(почти) формальное определение - формулировка
• Система составляющих для конечного линейно упорядоченного множества S – это такое множество C отрезков этого множества S, которое удовлетворяет следующим условиям:- SC (само предложение целиком является элементом системы своих составляющих)- wS wC (каждое отдельно взятое словоупотребление в предложении является элементом системы составляющих этого предложения)- α,β, являющихся отрезками предложения S и входящих в C, либо αβ=, либо αβ, либо βα (любые две составляющие некоторого предложения или не пересекаются, или содержатся друг в друге)
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХмотивировка
• В примере ниже: целесообразно отразить то общее, что есть между составляющими {Эти школьники}, {диктант по русскому языку}, {русскому языку} путем отнесения их к одному классу
• Ответив на вопрос: какие слова или группы слов (т.е. составляющие) в предложении относятся к одному и тому же грамматическому классу?, можно будет перейти к ответу на вопрос: по каким правилам составляющие одного класса складываются из составляющих других классов? (вопрос собственно о структуре)
(Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХформальное определение
• Размеченная система составляющих –упорядоченная тройка <C, W, φ>, где
C – система составляющих,
W – множество меток(список классов, введенных в данной классификации, иначе
называемых «фразовые категории»),
φ – отображение C в множество всех непустых подмножеств W(список пар «составляющая + метка/метки, приписанные
данной составляющей»).
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 1
(Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))
W = {S – предложение Det – местоименное прилагательное
NP – именная группа N – имя существительное
VP – глагольная группа Adv – наречие
AnV – аналитическая форма Aux – вспомогательный глагол
глагола V – глагол
PP – предложная группа Prep – предлог
A – имя прилагательное}
NP
Det N Adv Aux V
AnV
VP
N NAPrep
NP
NP
PP
S
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 1
(Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))
Эти,Det скоро будут писать, VP Эти школьники скоро будут писать
школьники, N диктант, N диктант по русскому языку, S
Эти школьники, NP по, Prep
скоро, Adv русскому, A
будут, Aux языку, N
писать, V русскому языку, NP
будут писать, AnV по русскому языку, PP
NP
Det N Adv Aux V
AnV
VP
N NAPrep
NP
NP
PP
S
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 2
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 3
РЕКОМЕНДОВАННАЯ ЛИТЕРАТУРА
• Тестелец Я. Г. Введение в общий синтаксис. М., 2001. (Глава II)
• Гладкий А. В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., 1985.(Глава 2)