62
Индуктивное моделирование: содержание и примеры применения в задачах обработки текстов М. Александров Академия народного хозяйства при Правительстве РФ Автономный Университет Барселоны, Испания Петербург 2010 Академия народного хозяйства при Правительстве РФ Кафедра системного анализа и информатики

Михаил Александров, Индуктивное моделирование

Embed Size (px)

Citation preview

Page 1: Михаил Александров, Индуктивное моделирование

Индуктивное моделирование: содержание и примеры применения

в задачах обработки текстов

М. Александров Академия народного хозяйства при Правительстве РФАвтономный Университет Барселоны, Испания

Петербург 2010

Академия народного хозяйства при Правительстве РФ

Кафедра системного анализа и информатики

Page 2: Михаил Александров, Индуктивное моделирование

Коллеги и со-авторыPavel Makagonov

Research Professor

Mixteca University of Technology, Mexico

Ex-Subdirector of Moscow Mayor Office

mpp2003@ inbox.ru

Xavier Blanco

Titled Professor of French Philology Department

Universidad Autonoma de Barcelona, Spain

xavier.blanco@ uab.cat

Angels Catena

Coordinator of Master Program

Professor of French Philology Department

Universidad Autonoma de Barcelona, Spain

angels.catena@ uab.cat

Page 3: Михаил Александров, Индуктивное моделирование

Коллеги и со-авторы

Alexander Gelbukh

Chief of NLP Laboratory

Center for Computing Research

National Polytechnic Institute, Mexico

gelbukh@ gelbukh.com

Natalia Ponomareva

Ph.D. student

Mathematician-Programmer

Wolwergampton University, UK

nata.ponomareva@ gmail.com

Page 4: Михаил Александров, Индуктивное моделирование

Индуктивное МоделированиеИстория

ИМСОМ = Индуктивный Метод Самоопределения Моделей

- Был разработан в в 80 годы акад. А.Г. Ивахненко и его учениками - Принадлежит к числу эволюционных алгоритмов Искусственного Интеллекта

Определения

Класс моделей зависит от рассматриваемой задачи. Это может быть: - полиномы одной переменной - линейные функции многих переменных - кластеры объектов и т.п.Сложность модели – число параметров модели

Page 5: Михаил Александров, Индуктивное моделирование

Индуктивное Моделирование

Возможности

ИМСОМ позволяет выбрать модель оптимальной сложностииз заданного класса моделей, чтобы описать ограниченныйнабор экспериментальных данных

Приложения

- Аппроксимация функций- Выбор вычислительной схемы- Cluster validity - Self-organizing Data Mining- Обучение нейронных сетей

и т.д.

Page 6: Михаил Александров, Индуктивное моделирование

Индуктивное моделирование

Каноническая проблема

Описание временного ряда некоторой

формулой

Начальная информация дана

Заданная информация

- Тип зависимости (формула)

- Серия моделей из заданного класса и уровень шума

и т.п.

Экспериментальные данные

Page 7: Михаил Александров, Индуктивное моделирование

Индуктивное моделирование

Мы имеем начальную информацию

Заданная регрессионная модель

Ym= a0 + a1t or Ym=a0+a1t + a2t2 , etc.

|| Ym – Ye || => мин (используем МНК)

Серия моделей из заданного класса

с заданным уровнем шума

Ym=a0+a1t + a2t2 + .....

|| Ym – Ye || => ε2 (используем МНК)

МНК = метод наименьших квадратов

Точки – эксперим. данные

Красные линии – возм. модели

Корридор отражает ошибку ε2

Page 8: Михаил Александров, Индуктивное моделирование

Индуктивное моделирование

Каноническая проблема

Описание временного ряда некоторой формулой

Начальная информация отсутствует

У нас нет начальной информации

В этом случае мы используем Инндуктивное Моделирование

Для этого мы фиксируем класс моделей

Замечание: класс моделей должен отражать возрастающую сложность

модели

Экспериментальные данные

Page 9: Михаил Александров, Индуктивное моделирование

Индуктивное Моделирование

Принцип индуктивности

Метод не может найти самую оптимальную модель

в непрерывном классе моделей.

Он основан на соревновании моделей из заданного класса

Пример класса моделей: полиномы одной пременной (t)

Y0 = a0

Y1 = a0+a1t

Y2 = a0+a1t + a2t2;

........

Пример класса моделей: линейные многих пременных (x1,x2..)

Y0 = a0

Y11 = a0 + a1x1; Y12 = a0+a2x2 ................ Y1...= a0+a10x10 ...........

Y21 = a0 + a1x1 + a2x2 Y22 = a0 + a1x1 + a3x3 ... Y2...= a0 + a9x9 +a99x99 ..

Page 10: Михаил Александров, Индуктивное моделирование

Индуктивное моделирование

Подход 1

Мы должны обеспечить хорошие свойства

прогнозирования, то есть низкую

чувствительность к новым данным

Критерий 1 (регулярность)

Mодель, oбученная на 1-м наборе данных должна давать хорошие

результаты на втором наборе данных ( T обучение, C контроль)

Точки - эксперим. данные

Красные линии – возм. модель

Page 11: Михаил Александров, Индуктивное моделирование

Индуктивное моделирование

Подход 2

Мы должны обеспечить хорошее

описательное свойство.

Критерий 2 (несмещенность)

Модель, обученная на 1-м наборе и проверенная на 2-м наборе

(красная линия) должна быть подобна модели, обученной на 2-м

наборе и проверенной на 1-м наборе (фиолетовая прямая)

Экспериментальные данные

Page 12: Михаил Александров, Индуктивное моделирование

Индуктивное моделирование

Шаги ИМСОМ

1. Определить серию моделей

2. Экспериментальные данные =

Данные для обучения +

Данные для контроля

3. Для заданной сложности

определяется лучшая модель

для каждого набора,

используется внутренний критерий

4. Обе модели сравниваются

с помощью внешних критериев

(регулярность, несмещенность)

5. Если внешний критерий

достигает минимума,

то STOP

Иначе идем на шаг 3

Page 13: Михаил Александров, Индуктивное моделирование

Статистический стеммер

Построение эмпирической формулы, обученной на примерах

Page 14: Михаил Александров, Индуктивное моделирование

Постановка задачи

Стемминг

Состоит в выборе части слова, отражающей основное

значение слова

Примеры

sad, sadly, sadness, sadden, saddened

move, moving, moved, [moveable <= ? ]

Применение

Индексация ( параметризация ) текстов,

где используются частотные списки слов

Page 15: Михаил Александров, Индуктивное моделирование

Постановка задачи

Проблема

Построить формулу для принятия решения

о подобии пары слов

Актуальность

Нам приходится обрабатывать многоязыковые корпуса и

документов. Реальность: 25 официальных языков в Европе

Ограничения подхода

Только для флективных языков

Page 16: Михаил Александров, Индуктивное моделирование

Эмпирические формулы

Модели для принятия решений

Какую формулу стоит настраивать под примеры, заданные экспертом?

n/s < C n/s < F (s) n/s < F(y) n/s < F (y/s) etc.

Здесь:C константаy длина общей части пары слов (y-yes)n длина финальных частей (n-no)s общая длина пары слов (s-sum)F (t) = a0+a1 t+a2t2+a3t3....

Примеры

1) asking asked y = 3 n = 5 s = 11

2) translation translated y = 8 n = 5 s = 21

Page 17: Михаил Александров, Индуктивное моделирование

Эмпирические формулы

Рекомендации лингвистов

Построенная формула должна отражать два обстоятельства:

1) Поддержать факт, что небольшое относительное число

несовпавших букв n/s есть индикатор подобия слов

translation – translated

2) Провести дискриминацию длинных слов. А именно:

Чем слова длинее, тем менее вероятно, что они подобны

при том же отношении n/s ratio.

Page 18: Михаил Александров, Индуктивное моделирование

Дискриминация длинных слов

yyynn yyynn n/s = 0.4

yyyyyynnnn yyyyyynnnn n/s = 0.4

<= Пусть они подобны

<= Меньшая вероятность,

что они подобны

Объяснение

Финальная флективная часть в среднем имеет имеет ту же самую длину независимо от начальной основной части. Действительно:

-ing, -ly, -ingly, -al, -able, -ed, ....

те же самые как для длинных, так и для коротких слов

Эмпирические формулы

Page 19: Михаил Александров, Индуктивное моделирование

Эмпирические формулы

Сложность модели F(y) ?

Чтобы опредеить сложность модели (степень полинома), мы используемИМСОМ = Индуктивный Метод Самоопределения модели

ИМСОМ позволяет построить подходящую модель приограниченном наборе экспериментальных данных

Наше решение

n/s < F(y), F(y) = a0 + a1y + a2 y2 + a3 y3+... ak yk+...

y – длина начальной общей части

n – общая длина финальных несовпадающих частей

s – общая длина двух слов

Page 20: Михаил Александров, Индуктивное моделирование

Подход

1) Мы рассматриваем

экстремальные случаи (равенство)

n/s = a0 + a1y + a2y2 + ...

2) Эксперт готовит «вручную»

пары подобных слов

Примеры

asking asked

translation translated

Перед началом эксперимента весь набор

исходных данных (пары подобных слов)

делится на обучающую и контрольную

выборки

ИМСОМ - Реализация

Page 21: Михаил Александров, Индуктивное моделирование

ИМСОМ - Реализация

Пример

n/s = a0 + a1y + a2y2+.... 

asking asked

n = 5 s = 11 y = 3

0-порядок

5/11 = a0  

Линейная

5/11 = a0 + a13  

Квадратичная

5/11 = a0 + a13 + a29

и т.д.

Решение

Для решения системы линейных уравнениймы используем мы используем МНК – метод наименьших квадратов

Page 22: Михаил Александров, Индуктивное моделирование

Внешние критерии

Регулярность Kr

Несмещенность Ku

Комбинированный критерий

K = 2/3 Kr + 1/3 Ku

Эксперимент

Динамика критерия K

Порядок 0 1 2 3

French 0.19 0.15 0.25 2.78

Italian 0.24 0.17 0.19 0.29

Portugal 0.25 0.20 0.22 2.30

Spanish 0.20 0.16 0.16 0.21

Таким образом, общая формула

может быть записана так:

n/s a - by

Combined criterion (French)

0,00

1,00

2,00

3,00

0 1 2 3

Page 23: Михаил Александров, Индуктивное моделирование

Результаты

Формулы (линейные модели)

French n/s  0.48 – 0.024 y

Italian n/s  0.57 – 0.035 y

Portugal n/s  0.53 – 0.029 y

Spanish n/s  0.55 – 0.029 y

Common n/s 0.53 – 0.029 y

Точность

Лемматизация 100%,~100% Стемминг (Porter) > 90% Эмпирическая формула ~ 80%-90%

Page 24: Михаил Александров, Индуктивное моделирование

ДемонстрацияПример

Initial list 1-st step 2-nd step 3-rd steptransform (7) transform (12) transform (19) transform (19) transformed(5) transformation(7) translating (6) translat (13)transformation(7) translating (6) translator (7) transport (11)translating (6) translator (7) transport (11) transported (2)translator (7) transport (11) transported (2)transport (11) transported (2) transported (2)

Здесь:Скобки содержат число появлений слов в тексте.Значения сумируются, когда слова рассматриваются, как подобные

Page 25: Михаил Александров, Индуктивное моделирование

Дискуссия и выводы

Недостатки стеммера

- Относительно низкая точность (80%-90%)- Зависимость результатов применения от длины текста

Преимущества стеммера

Языково независим – легко настраивается на язык и тему Простая настройка на заданный уровень ошибок 1 и 2 рода

Page 26: Михаил Александров, Индуктивное моделирование

Subjectivity/Sentiment Analysis

Построение эмпирических формул для автоматической оценки вежливости,

удовлетворенности и компетентности на основе диалогов

Page 27: Михаил Александров, Индуктивное моделирование

Введение

Subjectivity/Sentiment анализ это область обработки естественных языков (NLP), которая направлена на

автоматическую оценку

эмоций и мнений людей по отношению к некоторому объекту или событию. event. Эта тема стала популярной в эпоху Web 2.0

Это может быть интересно для таких бизнесс приложений, как:

1. Удовлетворенность покупателей товарами и услугами2. Мнениями, относящимися к продуктам или событиям3. Компетенции, касающейся существующего сервиса

Page 28: Михаил Александров, Индуктивное моделирование

Введение

Одно из приложений SSA это обработка диалогов. В настоящее время такая обработка широко используетсядля построения автоматических диалоговых систем и для улучшения качества обслуживания.

В данной работе мы рассмотрим построение эмпирической

формулы для оценки вежливости и приведем формулы

для оценки удовлетворенности и компетенции

Будут использованы:

(i) объективные лексико-грамматические индикаторы,

связанные с этими характеристиками

(ii) субъективные экспертные оценки диалогов

Page 29: Михаил Александров, Индуктивное моделирование

Пример: Вежливость

Page 30: Михаил Александров, Индуктивное моделирование

Параметризация

А. Индиктор первого приветствия (g - greeting)

Двоичный параметр, имеет значение 1, при первом

приветствии«Could you please inform me ...»

и значение 0, если нетt:«I need the information about ...»

Б. Вежливые слова (w-words): «please», «thank you», «excuse me»

В. Вежливые грамматические формы (v-verbs): глаголы в состагательном наклонении, то есть «could», «would»,...

Page 31: Михаил Александров, Индуктивное моделирование

Параметризация

Для числового представления v и w следует учесть

- длину документа- информационный аспект появления слов

Вежливые слова: w =Ln (l + Nw /L),

Вежливые формы: v =Ln (l + Nv/L),

где Nw, Nv число вежливых слов и грамматических форм

соответственно, и L число фраз.

Page 32: Михаил Александров, Индуктивное моделирование

Параметризация

Ручные оценки учитывают только вежливость

(но не грубость) по шкале:

0 - обычная вежливость

0.5 - повышенная вежливость

1 - чрезмерная вежливость

Page 33: Михаил Александров, Индуктивное моделирование

Параметризация

Page 34: Михаил Александров, Индуктивное моделирование

Исходные данные

Данные состояли из 85 диалогов между пассажирами и справочной железнодорожного вокзала Барселоны

Язык – испанский и каталанский

Page 35: Михаил Александров, Индуктивное моделирование

ИМСОМ – Реализация

Мы предположили, что зависимость между числовыми

индикаторами и и уровнем вежливости может быть описана

полиномиальной моделью.

Серия моделей увеличивающейся сложности:

Model 1: F(g,w,v) = A0

Model 2: F(g,w,v) = C0g

Model 3: F(g,w,v) = A0 + C0g

Model 4: F(g,w,v) = A0 + C0g + B10w + B01v

Model 5: F(g,w,v) = A0 + C0g + B10w + B01v + B11vw

Model 6: F(g,w,v) = A0 + C0g + B10w2 + B01v2

Model 7: F(g,w,v) = A0 + C0g + B11vw + B20w2 + B02v2

Model 8: F(g,w,v) = A0 + C0g + B10w + B01v + B11vw + B20w2 + B02v2

Page 36: Михаил Александров, Индуктивное моделирование

ИМСОМ – Реализация

Обучение: 30

Контроль: 30

Экзамен: 25

Model 1: F(g,w,v) = A0

Model 2: F(g,w,v) = C0g

Model 3: F(g,w,v) = A0 + C0g

Model 4: F(g,w,v) = A0 + C0g + B10w + B01v

Model 5: F(g,w,v) = A0 + C0g + B10w + B01v + B11vw

Model 6: F(g,w,v) = A0 + C0g + B10w2 + B01v2

Model 7: F(g,w,v) = A0 + C0g + B11vw + B20w2 + B02v2

Model 8: F(g,w,v) = A0 + C0g + B10w + B01v + B11vw +B20w2 +B02v2

Criterion of regularity

0

0,5

1

1,5

2

1 2 3 4 5 6 7 8

Page 37: Михаил Александров, Индуктивное моделирование

Результаты

Итоговая формула для оценки вежливости:

F(g, w, v) = -0.14 + 0.28g + 3.59w + 3.67v

После пересчета без свободного члена (intercept) было

получено:

F(g, w, v) = 0.2g + 3.7w + 3.1v

Statistical analysis

Среднеквадратичная оценка ε = 0.24 (чуть менее шага)

first greeting polite words polite verb forms

2.91 7.22 5.48

<<0.01 <<0.01 <<0.01

t-val

p-val

Page 38: Михаил Александров, Индуктивное моделирование

Удовлетворенность, параметризация

Серия моделей

Model 0: F(b,f,q) = A0

Model 1: F(b,f,q) = B100b + B010f + B001q

Model 2: F(b,f,q) = B100b + B010f + B001q + B110bf + B101bq + B011fq

Model 3: F(b,f,q) = B200b2 + B020f2 + B002q2

Model 4: F(b,f,q) = B110bf + B101bq + B011fq + B200b2 + B020f2 + B002q2

Model 5: F(b,f,q) = B100b + B010f + B001q + B110bf + B101bq + B011fq +

B200b2 + B020f2 + B002q2

где:

b and f – положительная обратная связь с пользователем,

в теле диалога ('well', 'ok', 'all right', 'correct', 'splendid', etc) и конце

q – вопрос-ответ, что отражает неудовлетворенность

Page 39: Михаил Александров, Индуктивное моделирование

Удовлетворенность, результаты

Наилучшие модели

F(b,f,q) = 0.18b + 0.06f - 1.11q F(b,f,q) = 0.20b2 + 0.006f2 - 1.78q2

Page 40: Михаил Александров, Индуктивное моделирование

Компетентность,параметризация

Серия моделей

Model 0: F(b,f,q) = A0

Model 1: F(b,f,q) = B100l + B010f + B001q

Model 2: F(b,f,q) = B100l + B010f + B001q + B110lf + B101lq + B011fq

Model 3: F(b,f,q) = B200l2 + B020f2 + B002q2

и т.д., как в предыдущем случае

где:

f – уровень компетентности в первом вопросе пассажира

('any train to…?‘ vs. 'regional express at night to…?', etc.)

l –использованная специализированная лексика (номер поезда,..)

q – вопрос-ответ, который относится к вопросам пассажира и

может отражать положительный и отрицательный ответ

Page 41: Михаил Александров, Индуктивное моделирование

Компетентность, результаты

Наилучшая модель

F(f,l,q) = 0.52f + 0.19l + 0.16q

Page 42: Михаил Александров, Индуктивное моделирование

Выводы

1. ИМСОМ обеспечивает методологию для автоматической

оценки различных «размытых» характеристик диалога,

имеющих высоктй уовень субъективности

2. Построенные формулы правильно отражают

вклад выбранных факторов в оцениваемую

характеристику. Ошибки сравнимы с шагом

ручной оценки диалога

Page 43: Михаил Александров, Индуктивное моделирование

Индексация Текстов

Выявление гранулярности терминологии предметной области

Page 44: Михаил Александров, Индуктивное моделирование

Метод

Introduction

Введение Определения Эксперимент

Индексация это процесс отбора и взвешивания ключевых слов

Ключевые слова используются для: A. Суммаризации документовБ. Кластеризация документовВ. Построение онтологии

Мы полагаем, что- корпус документов отражает несколько тем имеющих различную степень гранулярности- имеются слова ответственные за каждый уровень

Page 45: Михаил Александров, Индуктивное моделирование

Метод

Введение

Введение Определения Эксперимент

Главные термины

областиРост специфичности

Применения гранулированных терминов:

1. Суммаризация документов по различным уровням детальности2. Кластеризация документов на различных уровнях детальности3. Построение онтологий для различных уровней детальности

Мы можем назвать общие термины предметной области как coarse-grained terms и очень специализированные термины как fine-grained terms

Проблема: собрать вместетермины, связанные с одним уровнем гранулярности

Page 46: Михаил Александров, Индуктивное моделирование

Введение Определения Метод Эксперимент

Определения

Определение гранулярности на основе корпуса текстов (corpus-based granularity):

Уровни гранулярности это классы терминов, имеющих близкие значения специфичности

Пусть s0, s1,..., sn расщепление шкалы специфичности на nсегментов, так что si ≥ si+1, s0=S, sn=s.

Точки si называются точками перехода так как они находятся на границах между примыкающими уровнями гранулярности

Page 47: Михаил Александров, Индуктивное моделирование

Definitions

Определение проблемы:

Выявление уровней гранулярности эквивалентно проблеме размещения точек перехода на оси специфичности.

Проблема гранулярности может быть разделена на две подпроблемы:

1. Aппроксимация специфичности терминов предметной области посредством некоторой схемы взвешивания – основанной на энтропии – основанной на стандартной девиации

2. Размещение точек перехода на оси специфичности Мы будем использовать идеи индуктивного моделирования

Введение Определения Метод Эксперимент

Определения

Page 48: Михаил Александров, Индуктивное моделирование

Введение Определения Метод Эксперимент

Аппроксимация специфичности

Пусть D=(d1, ..., dN) коллекция документов и X=(x1, ..., xN) частота слова w в документе di.

1. Общность/гранулярность основанная на энтропии:

где

2. Общность/гранулярность, основанная на станд. девиации:

где

Page 49: Михаил Александров, Индуктивное моделирование

Введение Определения Метод Эксперимент

Описание ИМСОМ

Мы используем ИМСОМ-подобный алгоритм

Напомним основные шаги ИМСОМ:

1. Эксперт определяет последовательность моделей от простейшей к более сложным

2. Экспериментальные данные делятся на обучающую и контрольную выборки

3. Для заданного вида модели определяются наилучшие параметры на обучающей выборке с помощью некоторого внутреннего критерия (например МНК) <= сейчас шаг исключен

4. Полученная модель проверяется на контрольной выборке на основе некоторого внешнего критерия. Глобальный минимум внешнего критерия определяет оптимальную модель

Page 50: Михаил Александров, Индуктивное моделирование

Введение Оределения Метод Эксперимент

Метод

Первое, мы делим данные на два набора: обучающийи контрольный и затем мы упорядочиваем все слова согласно их специфичности:

Затем мы вычисляем расстояние между двумя наборами, используя скользящее окно

Page 51: Михаил Александров, Индуктивное моделирование

Введение Определения Метод Эксперимент

Метод

Шаги алгоритма

1. Фиксируем длину окна специфичности, прикладываем его к началу диапазона специфичности и берем термины внутри этого окна для обоих наборов данных

2. Вычисляем расстояние (внешний критерий) между распределениями специфичности обоих наборов данных.

В наших экспериментах мы используем относительную энтропиюдля специфичности, основанной на энтропии, и евклидово расстояние длдя энтропии, основанной на девиации.

3. Перемещаем окно специфичности и переходим к Шагу 2.

Page 52: Михаил Александров, Индуктивное моделирование

Введение Определения Метод Эксперимент

Метод

Главная гипотеза:

Если распределения специфичностей обучающей и контрольной выборки документов внутри некоторого окна специфичностиблизки, то термины, содержащиеся в этом окне принадлежат одному и тому же уровню гранулярности.

Окна, где два распределения достигают максимального расстояния, содержит точки неустойчивости, т.е. точки переходаот одного уровня гранулярности к другому.

Page 53: Михаил Александров, Индуктивное моделирование

Введение Определения Метод Эксперимент

Метод

Внешние критерииДавайте зафиксируем одно и тоже окно Δs = [s1,s2] внутри диапазонов специфичности обучащего и контрольного наборов данных и давайте обозначим pt=pt(Δs) и pc=pc(Δs) распределения специфичности терминов, покрываемых этим окном для обоих наборов данных соответственно. 1. Относительная энтропия (или расстояние Кульбака-Лейбла):

2. Нормализованная версия Евклидова расстояния:

Page 54: Михаил Александров, Индуктивное моделирование

Введение Определения Метод Эксперимент

Характеристики корпуса

Мы используем корпус, названный hep-ex, изначальнопринадлежащий CERN -у.

Он состоит из абстрактов статей, связанных с различными направлениями физики.

Техника препроцессинга: удаление стоп-слов и стемминг

Page 55: Михаил Александров, Индуктивное моделирование

Введение Определение Метод Эксперимент

Результаты экспериментов (крит. K1)Поведение критерия K1 (основанный на энтропии)

для различной длины окна

Границы между уровнями гранулярности

Page 56: Михаил Александров, Индуктивное моделирование

Введение Определения Метод Эксперимент

Результаты экспериментов (крит. K1) Поведение критерия K1 (основанного на энтропии)

для различных разбиений корпуса

Границы между уровнями гранулярности

Page 57: Михаил Александров, Индуктивное моделирование

Введение Определения Метод Эксперимент

Результаты экспериментов (крит. K2)Поведение критерия K2 (основанного на девиации)

для различных длин окна

Границы между уровнями

Page 58: Михаил Александров, Индуктивное моделирование

Введение Определения Метод Эксперимент

Результаты экспериментов (крит. K2)Поведение критерия K2 (основанного на девиации)

для различных разбиений корпуса

Границы между уровнями гранулярности

Page 59: Михаил Александров, Индуктивное моделирование

Введение Определения Метод Эксперимент

Примеры списков терминов

Слова в Таблице упорядочены согласно их специфичности

Page 60: Михаил Александров, Индуктивное моделирование

Введение Определения Метод Эксперимент

Выводы

1) Мы постарались формализовать понятие

гранулярности для терминологии предметной области.

Для этого мы ввели различные меры специфичности

терминов и оределили класс гранулярности как множество

терминов с близкой специфичностью

2) Был предложен ИМСОМ подобный алгоритм для

выявления границ уровней гранулярностей

3) Приблизительно 10%-15% слов были расположены

не на своих местах. Таким образом, метод подходит для

экспресс обработки, но должен быть улучшен для

получения более точных результатов

Page 61: Михаил Александров, Индуктивное моделирование

Ресурсы

http://www.mgua.irtc.org.ua/ru/index.php?page=index

http://www.gmdh.net/index.html

Отдел информационных технологий индуктивного моделирования

Международный научно-учебный центр информационных технологий

и систем, НАН и МОН Украины; пр.Глушкова 40, Киев, 03680, Украина

профессор, д.т.н. В.С. Степашко

============

http:// www.machinelearning.ru

Машинное обучение (курс лекций, К.В.Воронцов)

Page 62: Михаил Александров, Индуктивное моделирование

Индуктивное моделирование: содержание и примеры применения

в задачах обработки текстов

М. Александров

Академия народного хозяйства при Правительстве РФАвтономный Университет Барселоны, Испания

MAlexandrov@ mail.ru

Петербург 2010