24
Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний — лекции 1-2. 1.2. Количественная спецификация ЕЯ систем — лекции 3-4, 8. 1.3. Логико-статистические методы извлечения знаний — лекция 5-7. ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ 1.4. Технология автоматизированного построения словаря-тезауруса. 1.5. Пример исследования ЕЯ ресурса.

лекция 5 тема 1

Embed Size (px)

Citation preview

Page 1: лекция 5 тема 1

Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ

ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ1.1. Модели и методы представления и организации знаний —

лекции 1-2. 1.2. Количественная спецификация ЕЯ систем —

лекции 3-4, 8. 1.3. Логико-статистические методы извлечения знаний —

лекция 5-7.

ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ

1.4. Технология автоматизированного построения словаря-тезауруса.

1.5. Пример исследования ЕЯ ресурса.

Page 2: лекция 5 тема 1

Лекция 5.

ЛОГИКО-СТАТИСТИЧЕСКИЕ МЕТОДЫ

ИЗВЛЕЧЕНИЯ ЗНАНИЙ

Дистрибутивно-статистический метод Компонентный анализ Частотно-семантический метод

Page 3: лекция 5 тема 1

Литература

Материал лекции представлен в книге:

Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. /

Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM— С. 46–54.

Page 4: лекция 5 тема 1

ДИСТРИБУТИВНО-СТАТИСТИЧЕСКИЙ

МЕТОД Основная гипотеза:

Значимые элементы языка (слова), встречающиеся вместе в пределах некоторого текстового

интервала, семантически связаны между собой

количественные (частотные) характеристики одиночной и совместной встречаемости

значимых элементов языка

формула коэффициента «силы связи»

семантическая классификация значимых элементов языка

Page 5: лекция 5 тема 1

ЧАСТОТНЫЕ ХАРАКТЕРИСТИКИ КОНТЕКСТОВ

Контекст Сi(T) — отрезок текста, последовательность (цепочка) синтагм.

T = C1(T)+...+Cq(T), где Сi(T) Cj(T)=, i,j (ij) [1,q]

Если синтагма значимый элемент языка (слово), то:

NA, fA=NA/N — количество и частота контекстов, где встретилось только слово A;

NB , fB=NB/N — количество и частота контекстов, где встретилось только слово B;

NAB , fAB=NAB/N — количество и частота контекстов, в которых наблюдалась совместная встречаемость слов A и B;

N — общее количество контекстов.

Page 6: лекция 5 тема 1

ФОРМУЛЫ КОЭФФИЦИЕНТОВ «СИЛЫ СВЯЗИ» (1)

K fN

NAB ABAB

K f fN N N

NAB AB ABA B

f

N N N N

NABAB A B

.

,

.

KN

N N NABAB

A B AB

— Т.Танимото (T.T.Tаnimоtо), Л.Дойл (L.B.Dоуlе).

N

ffNK BAABAB

— М.Мэйрон (M.E.Mаrоn),

Дж.Кунс (J.Kuhns).

Page 7: лекция 5 тема 1

ФОРМУЛЫ КОЭФФИЦИЕНТОВ «СИЛЫ СВЯЗИ» (2)

.

,

.

Kf N

f fABAB

A B

— А.Я.Шайкевич, Дж.Солтон (G.Sаltоn), Р.Куртис (R.M.Curtiсе).

Kf N f f

f f N f N fAB

AB A B

A B A B

( ) ( )

KN N N

N NABAB A B

A B

— С.Деннис (S.Dеnnis).

Kf N f f

NN

f f N f N fAB

AB A B

A B A B

log

[( ) ]

( ) ( )10

2

2— Х.Е. Стайлз (H.E.Stilеs)

Page 8: лекция 5 тема 1

АНАЛИЗ ФОРМУЛ КОЭФФИЦИЕНТОВ «СИЛЫ СВЯЗИ» (1)

Все формулы коэффициентов «силы связи» объединяет рассмотрение событий, связанных с появлением слов A и B

как системы случайных явлений.

Процедура метода позволяет установить факт:если A и B – независимые события, то P(AB)=P(A)P(B).

Расчетное значение коэффициента «силы связи» требует интерпретации (объяснения)

Величина контекста (количества соседних слов) позволяет наиболее вероятно устанавливать:

а) 1–2 слова — контактные синтагматические связи словосочетаний;

б) 5–10 слов — дистантные синтагматические связи и парадигматические отношения;

в) 50–100 слов — тематические связи между словами.

Page 9: лекция 5 тема 1

АНАЛИЗ ФОРМУЛ КОЭФФИЦИЕНТОВ «СИЛЫ СВЯЗИ» (2)

Матрица связности языковых единиц (слов) или ассоциативная матрица

слово ... аi ...

слово частота fа

...

bj fb ... fаb ...

...

• формирование ядра тематически связанных текстов; • автоматизированное составление тезауруса; • информационный поиск и индексирование; • автоматизированное реферирование.

Направления использования метода:

Page 10: лекция 5 тема 1

МЕТОДИКА РАЗРАБОТКИ ТЕЗАУРУСА НА ОСНОВЕ ДИСТРИБУТИВНО-СТАТИСТИЧЕСКОГО МЕТОДА

Составление частотных словников и конкордансов. Анализ совместной встречаемости слов (языковых

единиц) и составление на его основе матрицы ассоциативных связей.

Субъектная интерпретация матрицы ассоциативных связей и формирование классов типовых связей (отношений).

Группировка (выделение) отдельных типов отношений (родовидовых, каузальных и др.).

Интерпретация отдельных связей слов. Группировка семантических полей.

Page 11: лекция 5 тема 1

КОМПОНЕНТНЫЙ АНАЛИЗ

Метод компонентного анализа позволяет установить связь между двумя понятиями на

основе анализа их дефиниций

Дефиниция понятия

A

Понятие A fAB Понятие B

Дефиниция понятия B

Основные модификации метода:

• Количественная спецификация связи.• Гипертекстовая ссылка.

Page 12: лекция 5 тема 1

КОЛИЧЕСТВЕННАЯ СПЕЦИФИКАЦИЯ СВЯЗИ

Два слова А и В считаются связанными силой связи fаb = k,

если в дефинициях каждого из них есть k общих слов

— множество одинаковых слов, используемых в дефинициях слов A и B;

}{xAB

i

— количество одинаковых слов. xAB

ik , где = k >1

Кластеры слов, связанных между собой силой связи f = k , k = 1, 2, 3, ..., K.

Page 13: лекция 5 тема 1

ГИПЕРТЕКСТОВАЯ ССЫЛКА

Два слова А и В считаются связаннымиесли в дефиниции каждого из них есть общее слово,

fаb = k =1.

Использование гипертекстовых ссылок:• лексикографические системы (электронные словари и энциклопедии), • электронные тексты, • информационно-справочные системы и т.д.

Возможные применения для анализа знаний

• анализа системы определений, или словаря определений; • оценка качества словарных статей (по числу связей с другими словарными статьями, по длине цепочки); • исследования эксцерпций в словарях определений; • анализ словарей текстов;• Исследование hеlр-систем.

Page 14: лекция 5 тема 1

ЧАСТОТНО-СЕМАНТИЧЕСКИЙ МЕТОД

В частотно-семантическом методе в качестве критерия оценки «силы связи» используются две характеристики

дефиниций слов: общность элементов и частота.

Идея метода:«...представьте себе силы семантического притяжения в виде повсеместно существующего, разлитого в языке поля, в которое помещены тела — лексические единицы языка. Разные единицы в этом поле взаимодействуют между собой также, как атомы, молекулы, макротела, планеты, и космические объекты — и на одном уровне, т.е. с однородными единицами, и межуровнево.»

Исходные данные:• идеографические словари.• краткий толковый словарь русского языка для иностранцев.• толковые словари С.И. Ожегова и Д.Н.Ушакова

Page 15: лекция 5 тема 1

Литература

Караулов Ю.Н. Частотный словарь семантических множителей русского языка. – М.: Наука, 1980.

Караулов Ю.Н., В.И.Молчанов, В.А.Афанасьев, Н.В.Михалев. Анализ метаязыка словаря с использованием ЭВМ. – М.: Наука, 1982. – 96 с.

Page 16: лекция 5 тема 1

ФОРМИРОВАНИЕ СЕМАНТИЧЕСКИХ ПОЛЕЙ (1)

Aak

DWwd ij Dw ji

a ijwd

Ak

DW

,

если , то , где:

— значение силы семантической связи между

словом wi и дескриптором dj ; — множество допустимых значений силы семантической связи дескрипторов и слов;

Dj = {wij} — множество слов дескриптора;

wi — слово, i = 1...|W|, W = {wi} — множество слов;

dj — дескриптор, j = 1...|D|, D = {dj} — множество дескрипторов.

Практическая задача: распределить 9000 слов по 1600 дескрипторам

Page 17: лекция 5 тема 1

ФОРМИРОВАНИЕ СЕМАНТИЧЕСКИХ ПОЛЕЙ (2)

ВОПРОСЫ РЕШЕНИЯ ПРАКТИЧЕСКОЙ ЗАДАЧИ

1. Установление способа сравнения слов

• Выбор способа получения (означивания) семантического множителя (лемматизация, свертка, выделение корня, выделение основы слова, выделение квазиосновы слова)• Разработка методики получения семантического кода слова

2. Установление частотных параметров семантических множителей.

3. Определение критерия семантической связи слов и дескрипторов.

• Феноменологическая модель единичной связанности • Феноменологическая модель связанности K • Модель связанности с учетом частот множителей

Page 18: лекция 5 тема 1

УСТАНОВЛЕНИЕ СПОСОБА СРАВНЕНИЯ СЛОВ

Дефиниция слова/дескриптора — ~10 словоформ,

всего в эксперименте — ~110000 словоформ.

семантический множитель — элементарная единица содержательного плана.

Основные предположения : а) семантическое пространство языка дискретно; б) набор элементов пространства конечен и обозрим; в) число комбинаций практически бесконечно; г) семантическое пространство элементарно, т.е. состоит из неразложимых элементов; д) семантические элементы одноплановы, т.е относятся к содержанию (являются единицами познания и мышления); е) семантические элементы образуют универсальный набор, т.е. носят общесубъектный характер и их число и набор одинаковы для различных языков.

Page 19: лекция 5 тема 1

СПОСОБЫ ПОЛУЧЕНИЯ (ОЗНАЧИВАНИЯ) СЕМАНТИЧЕСКОГО МНОЖИТЕЛЯ

Лемматизация — получение канонической формы слова.

Свертка — свертывание слова, т.е. удаление гласных, кроме гласной первого слога.

Выделение корня — представление слова корневой морфемой.

Выделение основы слова — представление слова несколькими морфемами, например, префиксом (приставкой) и корнем.

Выделение квазиосновы слова — произвольной начальной части слова, на основании факта сдвига смысла слова (его содержания) к его началу.

Page 20: лекция 5 тема 1

МЕТОДИКА ПОЛУЧЕНИЯ СЕМАНТИЧЕСКОГО КОДА СЛОВА

ПРОЦЕДУРЫ МЕТОДИКИ

1. Внесение самого кодируемого слова в его код.2. Исключение повторений семантического множителя.3. Фильтрация (удаление):

«нулевых» семантических множителей (например, явление, совокупность, система, и т.п.), грамматических слов (например, повести, поискать, придержать и т.п.), предлогов, союзов и т.п.

4. Лексикализация устойчивых словосочетаний(например, железная дорога — желдор).

5. Формирование квазиоснов слов.

РЕЗУЛЬТАТЫ РЕАЛИЗАЦИИ МЕТОДИКИ

}{s jd

x а) дескрипторы — dj = б) слова — wi = }{s iw

x

Page 21: лекция 5 тема 1

УСТАНОВЛЕНИЕ ЧАСТОТНЫХ ПАРАМЕТРОВ СЕМАНТИЧЕСКИХ МНОЖИТЕЛЕЙ

Семантическому множителю х ставится в соответствие две частотные характеристики:

||

|,}{|

Wf wsw ixiWx

||

|,}{|

Df

dsw jxiDx

— частота встречаемости семантического множителя в дефинициях дескрипторов

— частота встречаемости семантического

множителя в дефинициях слов

Методика частотного анализа семантических множителей

а) вычисление частот;

б) ранжирование и упорядочение множителей в дефинициях по возрастанию их ранга.

Page 22: лекция 5 тема 1

ОПРЕДЕЛЕНИЕ КРИТЕРИЯ СЕМАНТИЧЕСКОЙ СВЯЗИ СЛОВ И ДЕСКРИПТОРОВ

Этапы разработки критерия семантической связи

1. Феноменологическая модель единичной связанности есть хотя бы один общий семантический множитель в дефинициях слов и дескрипторов:

| dj wi | = 1; 1}{}{ ss ij w

x

d

x

2. Феноменологическая модель связанности K есть K общих семантических множителей в дефинициях слов и дескрипторов:

| dj wi | = K; K}{}{ ss ij w

x

d

x

3. Модель связанности с учетом частот множителей (селективный критерий Караулова).

;2K fD

x .6

Page 23: лекция 5 тема 1

СЕЛЕКТИВНЫЙ КРИТЕРИЙ КАРАУЛОВА

61}{}{

2}{}{

fK

K

Dx

iw

xjd

x

w

x

d

xwd

ss

ssa ij

ij

Слово и дескриптор семантически связаны друг с другом, если их дефиниции содержат более двух одинаковых семантических

множителя, или если их дефиниции содержат хотя бы один общий семантический множитель и его частота на множестве

дескрипторов больше шести

Процедуры построения семантических полей

1. Построение поля по модели единичной связанности.2. Сужение поля за счет учета числа совпадающих множителей. 3. Сужение поля за счет учета частоты семантических множителей.

Dw ji

Если

, то

Page 24: лекция 5 тема 1

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ

Перечислите логико-статистические методы извлечения знаний из текстов.

Изложите методику дистрибутивно-статистического анализа текста.

Изложите частотно-семантический метод анализа текстов. Изложите метод компонентного анализа текста.