8
Интеллектуальный анализ данных Лекция 2

Анализ данных. Лекция 2

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Анализ данных. Лекция 2

Интеллектуальный анализ данных

Лекция 2

Page 2: Анализ данных. Лекция 2

Классификация задач анализа данных

• по расположению

предсказываемых элементов

– в одной строке

– в одном столбце

– иначе

• по количеству предсказываемых

элементов

– один

– часть

– все

• по шкалам, в которых измеряются

предсказываемые элементы

– (Н) наименований

– (П) порядка

– (К) количественные

– (Р) разнотипные

объ

ект

ы

a1 . . ai . . am

Таблица Объект-Свойство-Время

а) обнаружение закономерных связей

между элементами таблицы

б) использование обнаруженных

закономерностей для прогнозирования

элементов таблицы

Page 3: Анализ данных. Лекция 2

Классификация задач анализа данных

ТОС\В

семейство

задач

предсказание

элементов столбца

предсказание

элементов строки

предсказание

элементов таблицы

классы задач 1.1

q=1

1.2

1<q<m

1.3

q=m

2.1

q=1

2.2

1<q<n

2.3

q=n

3.2

1<q<mn

3.3

q=mn

Т

и

п

ы

з

а

д

а

ч

ш

к

а

л

ы

Н

П

К

Р

распознавание

нахождение

места в порядке

прогнозирование

таксономия

упорядочивание

оценка

распознавание

нахождение

места в порядке

прогнозирование

таксономия

признаков

упорядочивание

признаков

оценка

качества

признаков

з

а

п

о

л

н

е

н

и

е

п

р

о

б

е

л

о

в

г

е

н

е

р

а

ц

и

я

т

а

б

л

и

ц

Page 4: Анализ данных. Лекция 2

Существующие подходы к решению

задач анализа данных • Статистические

– параметрические • оценка параметров распределений;

– непараметрические • метод парзеновского окна;

• Эвристические – сходство

• метод ближайших соседей;

• метод потенциальных функций;

• отбор эталонных объектов.

– разделимость • линейный дискриминант Фишера;

• метод опорных векторов

– логические закономерности • деревья решений;

• ассоциативные правила;

• Нейронные сети

Page 5: Анализ данных. Лекция 2

Гипотеза компактности

• В задачах классификации это предположение о том, что схожие объекты гораздо чаще лежат в одном классе, чем в разных; или, другими словами, что классы образуют компактно локализованные подмножества в пространстве объектов. Это также означает, что граница между классами имеет достаточно простую форму.

• Унимодальная компактность

• Полимодальная компактность

• Локальная компактность

Page 6: Анализ данных. Лекция 2

Статистический подход к задаче

распознавания. Основные обозначения.

• Генеральная совокупность изучаемых объектов Г.

• Данное множество объектов (явлений, ситуаций) разбито на ряд подмножеств (классов, образов) Г1,…,Г,…,Гk, где k – число образов, k>1;

• каждый объект из Г описывается набором характеристик Х={X1,…,Xj,…,Xn};

• j – множество возможных значений признака Xj,

• = 1х…хjх… n задает многомерное пространство переменных;

• Произвольному объекту аГ может быть поставлен в соответствие вектор Х(а)=( X1(a),…,Xj(a),…,Xn(a)), Х(а) будем обозначать через х, Xj(a) – через xj;

• Номинальная переменная Y c множеством значений Y={1, 2, … , , …, k} соответствует имени класса.

Page 7: Анализ данных. Лекция 2

Статистический подход к задаче распознавания.

Основные обозначения и определения

• Задача распознавания образов состоит в том, чтобы для произвольного аГ по значениям x1,…,xj,…xn предсказать y.

• Отображение d: Y назовем решающей функцией. Ей соответствует разбиение множества на k непересекающихся подмножеств 1,…, ,… k покрывающих , где ={x | d(x)=}. Через D0 обозначим множество всевозможных отображений Y.

• Объект а из генеральной совокупности Г выбирается случайным образом. Поэтому величины , X1,…,Xj,…,Xn являются случайными величинами.

• Под стратегией природы понимается совместное распределение Р(у, х) случайной величины Y и n-мерной случайной величины Х=( X1,…,Xj,…,Xn), уY , х. В дальнейшем стратегию природы будем обозначать через с.

• P(y, x)=P(y)P(x|y)=P(x)P(y|x)

• P(s) – априорная вероятность образа s.

• P(x|y)=Ps(x)

• P(y|x)=Px(s)

Page 8: Анализ данных. Лекция 2

• Вероятность ошибки для фиксированной стратегии природы с в случае использования решающего правила d обозначим P(d, c);

• P(d, c)=P(1)*P1+…+P(s)*Ps+…+P(k)*Pk, где Ps – вероятность ошибки s-го образа, т.е. вероятность того, что объект другого образа будет ошибочно распознан как объект s-го образа;

• Оптимальной решающей функцией в случае произвольной стратегии природы с называется такая функция d0, при которой выполняется соотношение: P(d0, c)= inf{P(d, c)| d D0};

• Байесовской решающей функцией в случае произвольной стратегии природы с называется такая функция d*, которая при эмпирическом факте Х(а)=х объект а относит к тому образу , при котором условная вероятность Px()=P{Y(a)=|X(a)=} максимальна, то есть Px()=max {Px()| =1..k}. Когда максимальное значение достигается на нескольких образах, объект а относится к любому из них.;

• Оптимальной решающей функцией является Байесовская решающая функция d*

Байесовская решающая функция