28
Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний — лекции 1-2. 1.2. Количественная спецификация ЕЯ систем — лекции 3-4, 8. 1.3. Логико-статистические методы извлечения знаний — лекция 5-7. ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ 1.4. Технология автоматизированного построения словаря-тезауруса. 1.5. Пример исследования ЕЯ ресурса.

лекция 7 тема 1

Embed Size (px)

Citation preview

Page 1: лекция 7 тема 1

Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ

ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ1.1. Модели и методы представления и организации знаний —

лекции 1-2. 1.2. Количественная спецификация ЕЯ систем —

лекции 3-4, 8. 1.3. Логико-статистические методы извлечения знаний —

лекция 5-7.

ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ

1.4. Технология автоматизированного построения словаря-тезауруса.

1.5. Пример исследования ЕЯ ресурса.

Page 2: лекция 7 тема 1

Лекция 7.

ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ

ТЕКСТА

Парадигматическая модель ЕЯ описания ПОРМ

Производные парадигматические конструктивы

Page 3: лекция 7 тема 1

Литература

Материал лекции представлен в книге:

Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. /

Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM— С. 64–73.

Page 4: лекция 7 тема 1

ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ ЕЯ ОПИСАНИЯ ПОРМ

}{KGPRD

i

ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТАпредставление его в виде множества основных

парадигматических конструктивов, или интерпретированных синтагматических конструктивов, полученных путем

преобразования текста на основе его формально-языкового теоретико-множественного описания:

GStgKSTG

}{}{Pr ,, IGStgIKGdKSTGPRD

i

IСТОG

ЕЯО ПОРМ

СТО ПОРМ

СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ СТО ПОРМ

Page 5: лекция 7 тема 1

СТРУКТУРА ПАРАДИГМАТИЧЕСКОГО КОНСТРУКТИВА

KIPRD

i

1 }{Pr 11, IIStgIdK

PRD

i

}{ ,1,...,2,1, IIStgIStgIStgGStgGX

PRD X

}}{{ 1,, IIStgGStgG

xPRD x

ЧАСТИ ПАРАДИГМАТИЧЕСКОГО КОНСТРУКТИВА

Синтагматическая — формально-языковое описание.

Парадигматическая — естественно-языковое описание,формально-языковое описание, словарно-тезаурусное описание.

парадигматическая модель

— множество синтагматических моделей текста и его интерпретаций

Page 6: лекция 7 тема 1

Литература

Ю.Н.Филиппович Интеграция предмета, образа и субъекта в концептуальном проектировании информационных технологий и систем // Интеллектуальные технологии и системы. Сборник статей аспирантов, стажеров и студентов. Вып. 1. – М.: Изд-во МГТУ им Н.Э.Баумана,1998. С. 9–33.

Ю.Н. Филиппович Семиотическая концепция интеграции информационных технологий // Sсriрtа linguistiсае аррliсаtае. Проблемы прикладной линг вистики – 2001. Сб.ст. / Отв. ред. А.И. Новиков.– М.: «Азбуковник», 2001.С. 319–342.

Page 7: лекция 7 тема 1

ПАРАДИГМАТИЧЕСКИЕ

КОНСТРУКТИВЫ ПАРАДИГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА

— комплекс основных и производных парадигматических конструктивов.

Основные парадигматические конструктивы: словарные статьи, парадигматические отношения.

Производные парадигматические конструктивы: частичные словники

(ограниченные неформальным признаком), словоуказатели (предметные, именные, и т.п.), конкордансы, словари, ареалы, тезаурусы и др.

Page 8: лекция 7 тема 1

ПРЕДМЕТНЫЙ (ТЕРМИНОЛОГИЧЕСКИЙ) УКАЗАТЕЛЬ

.

,

.

,

,

},{Pr , IGStgGdKПУПУPRD УПУ

GStgУ IПУ

— указатель слов, — выбор слов, обозначающих предметы реального

мира.

где:

Предметный указатель получается путем интерпретации указателя слов, образованного на основе формально-языкового преобразования

текста.

Интерпретация состоит в выделении в нем «слов-предметов».

В предметный (терминологический) указатель могут быть включены основные термины и понятия ПОРМ, выраженные

словами, словосочетаниями (2-х и 3-х словными). Отдельно могут быть представлены аббревиатуры.

Page 9: лекция 7 тема 1

ИМЕННОЙ УКАЗАТЕЛЬ

.

,

.

GStgУ — указатель слов, — выбор слов, являющихся именами.

где:

IУИ

},{Pr ,И

IGStgGdKИУУPRD УИУ

Именной указатель получается путем интерпретации указателя слов, образованного на основе формально-языкового преобразования текста.

Интерпретация состоит в выделении в нем «слов-имен».

В именной указатель могут быть включены все имена собственные, в т.ч. и представленные словосочетаниями. Отдельно могут быть

представлены различные их типы: аббревиатуры, персоналии, организации,топонимы и др.

Page 10: лекция 7 тема 1

ГРАММАТИЧЕСКИЙ СЛОВАРЬ

Грамматический словарь ЕЯ описания ПОРМ может включать:существительные, прилагательные, глаголы, наречия, числительные,

предлоги, междометия, союзы, частицы и местоимения.

Структура словарной статьи грамматического словаря<ЛЕММА> <МИ> {S} [S] <СЛОВОФОРМА1> <МИ1> [i1]<СЛОВОФОРМА2> <МИ2> [i2]...

<СЛОВОФОРМАk> <МИk> [ik]

ЛЕММА — слово в основной форме; МИ — морфологическая информация о слове; МИj — подробная грамматическая информация; s — количество словоформ в тексте; S — общее количество словоформ в тексте; ij — частота j-ой словоформы.

Интерпретация состоит в лемматизации путем формального морфологического анализа с последующим разрешением

проблем омонимии субъектом.

Page 11: лекция 7 тема 1

Литература

Г.О.Сидоров. Лемматизация в автоматизированной системе построения словарей языка писателей // Слово Достоевского. Сб. ст. / Под ред. Ю.Н.Караулова. – М.: Инт.Русск. яз. РАН, 1996. С.266–300.

Page 12: лекция 7 тема 1

СЛОВАРЬ СЛОВОСОЧЕТАНИЙ

.

Структура словарной статьи словаря словосочетаний<ЛЕММА> (СЛОВОСОЧЕТАНИЕ1),(СЛОВОСОЧЕТАНИЕ2), ... (СЛОВОСОЧЕТАНИЕk).

Здесь: ЛЕММА — слово в основной форме из грамматического словаря; СЛОВОСОЧЕТАНИЕ — двух-, трехсловное словосочетание из предметного указателя, являющееся термином или основным понятием ЕЯ описания ПО.

Интерпретация состоит в выборе устойчивых словосочетаний.

Page 13: лекция 7 тема 1

КОНКОРДАНС (СЛОВАРЬ КОНТЕКСТОВ)

Структура словарной статьи конкорданса (словаря контекстов)

<ЛЕММА/ СЛОВОСОЧЕТАНИЕ> <КОНТЕКСТ> <АДРЕС>.

Здесь: КОНТЕКСТ — ближайшее “окружение” словоформы или словосочетания, размер которого может быть выбран произвольно, однако в большинстве случаев его следует ограничить предложением (количество контекстов для одной леммы должно быть от трех до пяти, а для словосочетания достаточно одного – двух); АДРЕС — указание на источник контекста.

Интерпретация состоит в выборе контекстов, их величины и количества.

Page 14: лекция 7 тема 1

СЛОВАРЬ ОПРЕДЕЛЕНИЙ (1)

Словарь определений может включать описание основных понятий ПОРМ, взятых из предметного указателя.

Словарная статья может включать следующие сведения:•заголовочное слово (понятие из предметного указателя),•варианты определений (толкований) из других словарей определений, •устойчивые словосочетания (из словаря словосочетаний)•эксцерпции (примеры контекстов из текстов ЕЯ описания ПО)•указания источников контекстов из конкорданса•и др.

Интерпретация состоит в определении состава и структуры словарной статьи

Page 15: лекция 7 тема 1

СЛОВАРЬ ОПРЕДЕЛЕНИЙ (2)

СЛОВАРЬ РУССКОГО ЯЗЫКА XI–XVII ВВ.

ИСКУССТВО, с. 1. Умение, знание, искусство. Како не зримъ прилежно

мысленнымъ своимъ окомъ древняго дракона, врага нашего бодрого, и никогда же спящаго, и множаишими л#ты искуство злобы имущаго.

Курб. Пис., 387. XVII в. XVI в. 4 ч<еловека> бомбардировъ, немец кой породы,

которые бы им#ли въ своей наук# и въ воинскихъ д#л#хъ доброе и свид#телствованное искуство.

ДАИ XII, 383. 1695 г.2. Опыт; способ к узнаванию чего-л., эксперимент.

Искусством бо сие разум#хомъ. М. Гр. I, 300. XVI—XVII вв. XVI в. Т#мъ искусствомъ опознаваемъ. Травник Любч., 407. XVII в. 1534 г.

Page 16: лекция 7 тема 1

СЛОВАРЬ ОПРЕДЕЛЕНИЙ (3)

ВОКАБУЛА морф. призн.

I.

II. Толкование.

А.

Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }

Толкование.

1. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }

2. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }

Б. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }

III. Толкование.

1. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }

2. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }

ВОКАБУЛА морф. призн. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }

Структура словарной статьи Словаря русского языка XI-XVII вв.

Page 17: лекция 7 тема 1

ТЕЗАУРУС (1)

Парадигматический конструктив тезаурус может быть представлен как тройка формальных объектов:

или

{<синтагма XI ><отношение R ><синтагма XJ >}.

Такое представление парадигматического конструктива позволяет рассматривать его как

элемент формального языка RX-кодов:X-термины; R-релатемы

}{ KKK STG

J

PRD

R

STG

I

Page 18: лекция 7 тема 1

ТЕЗАУРУС (2)

Примерами парадигматических отношений являются

формальные модели оценки «силы связи» между языковыми

элементами — коэффициенты .

В частности можно представить конструктив

парадигматического отношения в следующем виде:

, где является

соответствующей интерпретацией R коэффициента.

KR

AB

}{ , IKKR

AB

R

AB

PRD

R I

R

AB

Парадигматическое отношение является элементом графа

одной из формальных моделей представления знаний, (сетевых, фреймовых и т.п.).

}}{,}{{ KKVTPRD

R

STG

I

Page 19: лекция 7 тема 1

ТЕЗАУРУС (3)

Ui

Uj

R(u i, u j)

<u i, u j>

L = (U, V), где:U – множество вершин сети (лемм), V – множество связей.U = { u1, u2, ..., uK }, где:k – число выделенных лемм.V U2 , V = { <ui,uj> }R(ui,uj) – функция, определенная на множестве U2 – количественная мера связи между вершинами ui и uj.

Свойства:R(ui,uj): R(ui,uj) = 0 <ui,uj> V;если <ui, uj> <uj, ui>, то R(ui,uj) R(uj,ui).

Описание тезауруса в виде простой семантической сети

<ui, uj> – ориентированная связь от вершины ui к

вершине uj

Page 20: лекция 7 тема 1

ТЕЗАУРУС (4)

Задача построения функции R(ui,uj) на основе корпуса текстов

T = C1(T)+...+Cq(T), где Сi(T) Cj(T)=, i,j (ij) [1,q]Введем характеристики: |T| – число слов в тексте T, |Сi(T)| – число слов в i-ом контексте текста T.

При условии, что Сi(T) Cj(T)=, i,j (ij) [1,q], имеем

, где q – гранулярность разбиения, т.е. число

непересекающихся контекстов, на которые разбивается текст T.

Будем считать, что |Ci(T)|=|Cj(T)|, для i,j [1,q], тогда|T| = q|C(T)|, где С(T) некоторый контекст из выбранных.

q

ii TCT

1

|)(|||

Page 21: лекция 7 тема 1

ТЕЗАУРУС (5)

Поскольку С(T) тоже является текстом, то для него можно определить частотную функцию N(w,C(T)), значение которой

равно числу слов w в контексте С(T).

Такая частотная функция вводится на всех контекстахN(w,C1(T)), N(w,C2(T)),..., N(w,Cq(T)).

Будем рассматривать два слова w1 и w2, принадлежащие тексту T. Для них можно записать два ряда:

N(w1,C1(T)), N(w1,C2(T)),..., N(w1,Cq(T))N(w2,C1(T)), N(w2,C2(T)),..., N(w2,Cq(T))

Обозначим:N(w1,C(T)) – число слов w1 в некотором контексте из числа

выбранных;N(w2,C(T)) – число слов w2 в некотором контексте из числа

выбранных;

Page 22: лекция 7 тема 1

ТЕЗАУРУС (6)

N(w1,C(T))=1 N(w1,C(T))=2 ... N(w1,C(T))=R nу

N(w2,C(T))=1 n(1,1) n(1,2) n(1,R)

N(w2,C(T))=2 n(2,1) n(2,2) n(2,R)

N(w2,C(T))=3 n(3,1) n(3,2) n(3,R)

...

N(w2,C(T))=R n(R,1) n(R,2) n(R,R)

ух

Определим функцию n(х, у) числа контекстов, в которых слово w1 имело частоту х, а слово w2 – частоту у.

n(х,у) = n(N(w1,C(T)), N(w2,C(T)))

R = |С(T)| – размер контекста, nх – суммы по столбцам, nу – суммы по строкам,

– средние значения по столбцам =xy

R

yx

yxynn 1

),(1

Page 23: лекция 7 тема 1

ТЕЗАУРУС (7)

Для построения семантической сети требуется построение корреляционной матрицы для имеющихся в T пар слов <wi, wj>.

В качестве меры связи между словами w1 и w2 могут использоваться значения коэффициентов корреляции или

корреляционного отношения.

Факторы построении семантической сети : а) процедуру лемматизации исходного множества слов; б) размерность корреляционной матрицы RхR, ее избыточность; в) гранулярность разбиения q; г) «направленность» связи.

Page 24: лекция 7 тема 1

Литература

А.В.Прохоров. Методы исследования естественно-языкового описания предметной области «Информатика и вычислительная техника» // Интеллектуальные технологии и системы. Сб. ст. аспирантов, стажеров и студентов. Вып. 1. – М.: Изд-во МГТУ им. Н.Э.Баумана, 1998.

Page 25: лекция 7 тема 1

АРЕАЛ (1)

Парадигматический конструктив ареал

— часть тезауруса, выделенная по значению селективного критерия, например коэффициента «силы связи».

Построения парадигматических ареалов — задача кластерного анализа.

В случае представления тезауруса в виде простой семантической сети задача сводится к нахождению подграфа с заданными свойствами вершин (лемм) или дуг (коэффициентов

«силы связи»).

Page 26: лекция 7 тема 1

АРЕАЛ (2)

,

u 1

u 2R(u 1 , u 2)

u 3

u 4

u NR(u 1 , u 3)

R(u 3 , u 4)

R(u 4 , u 2)

R(u 4 , u N )

R(u N , u 3)

u N-1

u 5

R(u 2 , u 1)

Тезаурус — неполносвязанный ориентированный

граф L = (U,V) :

U = { u1, u2, ..., uN },

V U2 , V = { <ui,uj> },

R(ui,uj) = k(ui,uj)

Page 27: лекция 7 тема 1

АРЕАЛ (3)

Тезаурус в виде простой семантической сети L = (U,V)

Удаление ребер <ui, uj>, для которых R(ui,uj)<R0 и Vij < V0.

Приведенная семантическая сеть

L(R0,V0)

Семантическим ареалом A в семантической сети L(R0,V0) будем называть совокупность вершин A = { ui }, для которых

выполняются следующие условия:

Для ui, uj A, Vij > V0;Для ui, uj A верно, что R(ui,uj) > R0Для ui A и uj A верно, что R(ui,uj) R0

Page 28: лекция 7 тема 1

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ

1. Что такое парадигматическая модель текста?2. Какую структуру имеет парадигматический конструктив?3. Какую структуру имеют парадигматические конструктивы:

предметный и именной указатели, словарь?4. Какую структуру имеют парадигматические конструктивы

словарей: грамматического, словосочетаний, текстов, определений?

5. Какую структуру имеет парадигматический конструктив тезаурус?

6. Какую структуру имеет парадигматический конструктив ареал?