Практический курс «Основы Data Mining»

LOGO

Практический курс«Основы Data Mining»

LOGO

Что обычно принято считать под обучением

программы?

Компьютерная программа обучается на основе опыта E по отношению к классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E.

T.M.Mitchell. Machine Learning. McGraw-Hill, 1997.

LOGO

СПОСОБЫ ОБУЧЕНИЯУ людей обучение происходит в результате ознакомления с правилами, теориями, инструкциями и т.п. и/или на основе опыта (собственного или чужого). По аналогичному принципу можно выделить два основных способа обучения и в искусственных системах:

Дедуктивное, или аналитическое, обучение.Имеются знания, сформулированные экспертом и как-то формализованные. Программа выводит из этих правил конкретные факты и новые правила.

Такой способ обучения относится к области экспертных систем.

1

2 Индуктивное обучение (≈ статистическое обучение).На основе эмпирических данных программа строит общее правило. Эмпирические данные могут быть получены самой программой в предыдущие сеансы ее работы или просто предъявлены ей.

К области Machine Learning относится только индуктивное обучение!!

LOGO

Вид обучения

БАЗОВАЯ КЛАССИФИКАЦИЯ ЗАДАЧ ИНДУКТИВНОГО ОБУЧЕНИЯ

Обучение с учителемили

обучение по прецедентам

(supervised learning)

Обучение без учителя

(unsupervised learning)

LOGO

Основные понятия, используемые в Data Mining

Под признаком х подразумевается количественное или качественное описание того или иного свойства исследуемого объекта или явления.

Признак, объект, класс, обучающая выборка (ОВ), классификатор

Объект Х описывается в виде набора Х = (х1 ,..., хn) значений признаков в пространстве признаков размерностью n, по осям х1, х2, ... , хn которого откладываются значения этих признаков.

Классом принято называть множество объектов Х, имеющих некоторые общие свойства, отсутствующие у объектов других классов. Класс будем обозначать через Y.

Множество пар {Хi,Yi} (i=1 … m), где m - количество объектов, принято называть обучающей выборкой (ОВ).

Классификатор – правило (функция), с помощью которого принимается решение о принадлежности к классу предъявленного к распознаванию объекта Х.

LOGO

ОБУЧЕНИЕ С УЧИТЕЛЕМФормальная постановка задачи

Множество YМножество Yответы, отклики,ответы, отклики,«метки» «метки» ((labelslabels))

Множество XМножество Xобъекты, примерыобъекты, примеры

((ssamplesamples))

Имеется некоторая зависимость (детерминированная или вероятностная), позволяющая по xX предсказать yY, т. е. если зависимость детерминированная, существует функция f : X→Y.

Задача Задача обучения по прецедентамобучения по прецедентам: : восстановить зависимость, т. е. научиться по новымвосстановить зависимость, т. е. научиться по новым объектам xобъектам xX X

предсказывать ответы yпредсказывать ответы yY .Y .

Объекты изОбъекты изобучающей выборкиобучающей выборки::{(x{(x11, y, y11),. . . , (x),. . . , (xNN, y, yNN)})}

Пара Пара (x(xii,y,yii))X×YX×Y — — прецедентпрецедент..

LOGO

ПРИЗНАКОВОЕ ОПИСАНИЕ ОБЪЕКТОВ

x X = Q1 × Q2 × . . . × Qd, где Qj = R или Qj — конечно

x=(x1,x2,...,xn)X, xj — j-й признак (свойство, атрибут) объекта x.

Т.е. объект x – это точка в n-мерном пространстве

признаков.

Если Qj конечно, то j-й признак

категориальный или фактор.

Можно считать, что, Qj = {1,2, ... ,sj}.

Если |Qj| = 2, то признак бинарный и можно считать, что Qj = {0,1}.

Если Qj = R, то признак количественный

Признаки бывают, Признаки бывают, в основном, двух типовв основном, двух типов

LOGO

Типыпризнаков

Разнотипность признаков и шкалы измерений

признаков

Шкала наименований

Шкала порядка

Шкала интервалов

Шкала отношений

LOGO

ВИДЫ ЗАДАЧ ОБУЧЕНИЯ

С УЧИТЕЛЕМ11

22

Задача классификации или распознавания образов: Множество меток (Y) конечно, например, Y = {1, 2, … K}.

Тогда множество объектов (X) разбивается на K классов:

Xk = {x X : f(x) = k} (k = 1, 2, . . . ,K).

По Х требуется предсказать, какому классу он принадлежит.

Задача восстановления регрессии (Y = R)

Требуется найти функцию f*(x), аппроксимирующую f(x).

LOGO

РАЗДЕЛЯЮЩИЕ ПОВЕРХНОСТИ

Многие методы классификации пытаются построить такие поверхности в пространстве признаков, которые бы проходит между классами (разделяли их). Эти поверхности называются разделяющими. Тогда задача сводится к определению положения неклассифицированного x относительно разделяющей поверхности.

Если классы могут быть разделены плоскостью, они называются линейно-разделимыми

Как правило, между линейно-разделимыми классами можно провести произвольное число разделяющих плоскостей.

Т.е. решение задачи классификации заведомо неоднозначно!

LOGO

ЛИНЕЙНО-НЕРАЗДЕЛИМЫЕ КЛАССЫ

Если классы линейно неразделимы, то линейный классификатор будет ошибаться на части объектов даже из обучающей выборки.

LOGO

Информативность признаков

Информация о найденном классификационном правиле используется в дальнейшем для решения задачи о номере класса, к которому относятся предъявленные объекты, не участвующие в обучении.

Обычно построение классификационного правила производится по данным ОВ с учетом наиболее информативных признаков. Для нахождения таких признаков и их сочетаний необходимо уметь оценивать количественно информативность признаков.

Вопрос о выборе признаков при построении классификационного правила является одним из важнейших. Основная трудность решения этой проблемы заключается в том, что не существует формальных правил, позволяющих заранее, априори, указать такой набор признаков, с помощью которого можно проводить классификацию с заданной точностью.

LOGO

Дискриминантные функции

Построение правила распознавания

Для построения правила распознавания используются различные методы. Вот некоторые из них, достаточно широко известные и наиболее часто применяемые на практике.

Правило Байеса

Логические методы

Методы распознающих

деревьев

В условиях априорной неопределенности и разнотипного

описания объектов в качестве классификационного правила (КП) для

принятия решения, как показывает опыт и исследования, достаточно адекватным представляется метод распознающих деревьев (РД). Их достоинством являются быстрое

время работы, нелинейный характер получаемой разделяющей

поверхности. Также к их достоинству следует отнести наглядность,

простоту использования, хорошую интерпретируемость,

последовательное, а не одновременное предъявление признаков при классификации

LOGO

Принятие решения с помощью РД

x4

2x1

x3

3 1 2

1

2

0

1

1

1

0

0

2

2

Пример РД приведен на рисунке справа.

Принятие решения с помощью РД осуществляется следующим образом: мы двигаемся от начальной вершины к конечной по одному из путей.

Пусть для классификации предъявлен объект X=(0020), т.е. x1=0, x2=0, x3=2, x4=0. Движение по РД начинаем с начальной вершины, в которой расположен признак x4. Так как значение признака x4 равно 0, то двигаемся из начальной вершины вдоль ребра помеченного 0 до следующей вершины, в которой находится признак x1. Значение x1 в Х равно 0, следовательно из вершины с признаком x1 движемся по ребру, помеченному 0 к следующей вершине. Ею является конечная вершина, в которой записан после обучения номер (индекс) класса равный 2. Следовательно, объект Х=(0020) относится к классу с номером 2.

LOGO

ЗАДАЧА ОБУЧЕНИЯ БЕЗ УЧИТЕЛЯ(UNSUPERVISED LEARNING)

ДанныеДанные ЦельЦель ДопущенияДопущения

Группировка объектов Группировка объектов по похожести их по похожести их

свойств (синонимы: свойств (синонимы: "самообучение", "самообучение",

"кластеризация" или "кластеризация" или "кластерный анализ", "кластерный анализ",

"автоматическая "автоматическая классификация", классификация",

"численная "численная таксономия", таксономия",

"алгоритм разбиения "алгоритм разбиения на группына группы”” и т.д.) и т.д.)

упрощает решение упрощает решение многих практических многих практических

задач анализа данных.задач анализа данных.

Алгоритмы кластеризации Алгоритмы кластеризации нашли широкое применение внашли широкое применение в различных областях: приразличных областях: приизучении социальных проблем, в изучении социальных проблем, в задачах анализа статистических задачах анализа статистических данных экономического характера данных экономического характера и многих других.и многих других.

Данные должны бытьДанные должны быть организованы в виде организованы в виде таблицы "объект - таблицы "объект - свойство" (ТОС). свойство" (ТОС). Свойствами могут быть Свойствами могут быть признаки, значения, признаки, значения, количественные оценки количественные оценки фондов, показатели фондов, показатели развития и другие развития и другие характеристики, характеристики, которыми обладают которыми обладают элементы исследуемойэлементы исследуемойсовокупности совокупности объектов. объектов.

Практически все алгоритмы Практически все алгоритмы этого типа используют или этого типа используют или

основаны на так называемой основаны на так называемой гипотезе компактности, гипотезе компактности,

которая заключается в том, которая заключается в том, что реализации одного и того что реализации одного и того

же хорошо организованного же хорошо организованного образа обычно отражаются в образа обычно отражаются в

признаковом пространстве впризнаковом пространстве в геометрически близкие точки, геометрически близкие точки, образуя "компактные" сгустки.образуя "компактные" сгустки.

LOGO

ЗАДАЧА ОБУЧЕНИЯ БЕЗ УЧИТЕЛЯ(Продолжение)

В этом случае нет учителя и обучающая выборка состоит только из объектов (без меток классов).

Алгоритм, имея только список объектов (x1, x2, ... , xN) должен

определить, как объекты связаны друг с другом.

Основная задача обучения без учителя - кластеризация.

Кластеризация - задача разбиения заданной выборки

объектов на непересекающиеся подмножества, называемые

кластерами, так, чтобы каждый кластер состоял из схожих

объектов, а объекты разных кластеров существенно отличались.

LOGO

ЦЕЛИ КЛАСТЕРИЗАЦИИ

Упростить дальнейшую

обработку данных.Разбить

множество X на группы схожих

объектов, чтобы работать с

каждой группой в отдельности

Сократить объём

хранимых данных.оставив по

одному представителю

от каждого кластера

(задачи сжатия данных).

Выделить нетипичные

объекты.

которые не подходят ни к

одному из кластеров

Построить иерархию множества объектов

(задачи

таксономии)

LOGO

ТИПЫ КЛАСТЕРНЫХ СТРУКТУР

1

2

3

Сгущения: внутрикластерные расстояния, как правило, меньше межкластерных

Кластеры с центром: в каждом кластере найдётся объект, такой, что почти все объекты кластера лежат внутри шара с центром в этом объекте.

Ленты: для любого объекта найдётся близкий к нему объект другого кластера, в то же время существуют объекты одного кластера, которые не являются близкими.

(часть 1/3)

LOGO


4

5

6

Кластеры могут соединяться перемычками, что затрудняет работу многих алгоритмов кластеризации.

(часть 2/3)

Кластеры могут накладываться на разреженный фон из редких нетипичных объектов.

Кластеры могут перекрываться

LOGO


7

8

Кластеры могут образовываться не по принципу сходства, а по каким-либо иным, заранее неизвестным, свойствам объектов. Стандартные методы кластеризации здесь бессильны.

(часть 3/3)

Кластеры могут вообще отсутствовать. В этом случае надо применять не кластеризацию, а иные методы анализа данных.

Первостепенная задача – правильный выбор пространства признаков!

LOGO

ПОСТАНОВКА ЗАДАЧИ КЛАСТЕРИЗАЦИИ

Дано: Найти:

X - пространство объектовX - пространство объектов

Обучающая выборкаОбучающая выборкаXXℓℓ == { {xxii} (i=1..} (i=1..ℓℓ) )

Функция расстояния Функция расстояния между объектамимежду объектамиρρ(x(x11, x, x22) ) → [0,∞) → [0,∞)

Множество кластеров YИ

Алгоритм кластеризацииА: X → Y

такие, что:

1)каждый кластер состоит из близких объектов;

2)объекты разных кластеров существенно различны.

LOGO

1 2 3Примеры задач распознавания

Распознавание Распознавание градоопасности градоопасности

облаков по облаков по данным метео- данным метео-

и радио- и радио- локационных локационных измерений. измерений.

Распознавание геологических

структур по данным полевых

измерений.

Выделение групп «похожих» друг на друга предприятий,

описываемых с помощью ТОС.

Построение

номенклатуры

изделий.

5 64Выбор недвижимости

(офисов, складов, квартир) – построение

правила, позволяющего

назначить правильную цену в зависимости от признаков, таких как

город, район, количество комнат,

этаж, тип дома и т.д.

Урожайность агрокультур. Урожайность агрокультур. Измерения - сорт, регион, Измерения - сорт, регион, почва, удобрение, средняя почва, удобрение, средняя

температура воздуха, температура воздуха, уровень осадков, другие уровень осадков, другие признаки, влияющие на признаки, влияющие на урожайность. Как найти урожайность. Как найти

правило, которое правило, которое позволило бы выявить позволило бы выявить

лучшие сорта для данного лучшие сорта для данного региона?региона?

LOGO

Решение задач распознавания

У Вас есть реальная обучающая выборка и Вы

хотите оценить информативность признаков

и качество обучающей выборки?

Воспользуйтесь сервисом

Datamind.info!!

LOGO

Education

Практический курс «Основы Data Mining»