Анализ данных. Лекция 2

  • View
    1.341

  • Download
    0

  • Category

    Sports

Preview:

DESCRIPTION

 

Citation preview

Интеллектуальный анализ данных

Лекция 2

Классификация задач анализа данных

• по расположению

предсказываемых элементов

– в одной строке

– в одном столбце

– иначе

• по количеству предсказываемых

элементов

– один

– часть

– все

• по шкалам, в которых измеряются

предсказываемые элементы

– (Н) наименований

– (П) порядка

– (К) количественные

– (Р) разнотипные

объ

ект

ы

a1 . . ai . . am

Таблица Объект-Свойство-Время

а) обнаружение закономерных связей

между элементами таблицы

б) использование обнаруженных

закономерностей для прогнозирования

элементов таблицы

Классификация задач анализа данных

ТОС\В

семейство

задач

предсказание

элементов столбца

предсказание

элементов строки

предсказание

элементов таблицы

классы задач 1.1

q=1

1.2

1<q<m

1.3

q=m

2.1

q=1

2.2

1<q<n

2.3

q=n

3.2

1<q<mn

3.3

q=mn

Т

и

п

ы

з

а

д

а

ч

ш

к

а

л

ы

Н

П

К

Р

распознавание

нахождение

места в порядке

прогнозирование

таксономия

упорядочивание

оценка

распознавание

нахождение

места в порядке

прогнозирование

таксономия

признаков

упорядочивание

признаков

оценка

качества

признаков

з

а

п

о

л

н

е

н

и

е

п

р

о

б

е

л

о

в

г

е

н

е

р

а

ц

и

я

т

а

б

л

и

ц

Существующие подходы к решению

задач анализа данных • Статистические

– параметрические • оценка параметров распределений;

– непараметрические • метод парзеновского окна;

• Эвристические – сходство

• метод ближайших соседей;

• метод потенциальных функций;

• отбор эталонных объектов.

– разделимость • линейный дискриминант Фишера;

• метод опорных векторов

– логические закономерности • деревья решений;

• ассоциативные правила;

• Нейронные сети

Гипотеза компактности

• В задачах классификации это предположение о том, что схожие объекты гораздо чаще лежат в одном классе, чем в разных; или, другими словами, что классы образуют компактно локализованные подмножества в пространстве объектов. Это также означает, что граница между классами имеет достаточно простую форму.

• Унимодальная компактность

• Полимодальная компактность

• Локальная компактность

Статистический подход к задаче

распознавания. Основные обозначения.

• Генеральная совокупность изучаемых объектов Г.

• Данное множество объектов (явлений, ситуаций) разбито на ряд подмножеств (классов, образов) Г1,…,Г,…,Гk, где k – число образов, k>1;

• каждый объект из Г описывается набором характеристик Х={X1,…,Xj,…,Xn};

• j – множество возможных значений признака Xj,

• = 1х…хjх… n задает многомерное пространство переменных;

• Произвольному объекту аГ может быть поставлен в соответствие вектор Х(а)=( X1(a),…,Xj(a),…,Xn(a)), Х(а) будем обозначать через х, Xj(a) – через xj;

• Номинальная переменная Y c множеством значений Y={1, 2, … , , …, k} соответствует имени класса.

Статистический подход к задаче распознавания.

Основные обозначения и определения

• Задача распознавания образов состоит в том, чтобы для произвольного аГ по значениям x1,…,xj,…xn предсказать y.

• Отображение d: Y назовем решающей функцией. Ей соответствует разбиение множества на k непересекающихся подмножеств 1,…, ,… k покрывающих , где ={x | d(x)=}. Через D0 обозначим множество всевозможных отображений Y.

• Объект а из генеральной совокупности Г выбирается случайным образом. Поэтому величины , X1,…,Xj,…,Xn являются случайными величинами.

• Под стратегией природы понимается совместное распределение Р(у, х) случайной величины Y и n-мерной случайной величины Х=( X1,…,Xj,…,Xn), уY , х. В дальнейшем стратегию природы будем обозначать через с.

• P(y, x)=P(y)P(x|y)=P(x)P(y|x)

• P(s) – априорная вероятность образа s.

• P(x|y)=Ps(x)

• P(y|x)=Px(s)

• Вероятность ошибки для фиксированной стратегии природы с в случае использования решающего правила d обозначим P(d, c);

• P(d, c)=P(1)*P1+…+P(s)*Ps+…+P(k)*Pk, где Ps – вероятность ошибки s-го образа, т.е. вероятность того, что объект другого образа будет ошибочно распознан как объект s-го образа;

• Оптимальной решающей функцией в случае произвольной стратегии природы с называется такая функция d0, при которой выполняется соотношение: P(d0, c)= inf{P(d, c)| d D0};

• Байесовской решающей функцией в случае произвольной стратегии природы с называется такая функция d*, которая при эмпирическом факте Х(а)=х объект а относит к тому образу , при котором условная вероятность Px()=P{Y(a)=|X(a)=} максимальна, то есть Px()=max {Px()| =1..k}. Когда максимальное значение достигается на нескольких образах, объект а относится к любому из них.;

• Оптимальной решающей функцией является Байесовская решающая функция d*

Байесовская решающая функция

Recommended