25
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год

Data Mining - lecture 3 - 2014

Embed Size (px)

DESCRIPTION

Data Mining - Lecture 3

Citation preview

Page 1: Data Mining - lecture 3 - 2014

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

Data Mining

Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук

Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год

Page 2: Data Mining - lecture 3 - 2014

ЛЕКЦИЯ 2Узнаем больше о своих данных. Часть 2

Page 3: Data Mining - lecture 3 - 2014

ИЗМЕРЕНИЕ РАЗБРОСА ДАННЫХ

Page 4: Data Mining - lecture 3 - 2014

ДИАПАЗОН, КВАРТИЛИ И МЕЖКВАРТИЛЬНЫЙ ДИАПАЗОН

• Пусть x1, x2, … xN - множество значений (наблюдений) численного атрибута x

• Диапазоном называется разница между наибольшим и наименьшим значением

• Квантилями называется множество точек распределения, которые разбивают его на равные подмножества

Page 5: Data Mining - lecture 3 - 2014

• k-я q-квантиль (0<k<q) для заданного распределения данных - это некоторое значение x, такое что k/q значений меньше x, и (q-k)/q значений больше x

• Всего существует (q-1) q-квантилей

• 2-квантиль разделяет данные на 2 равные части и соответствует медиане

• 4-квантили - это 3 точки, разделяющие данные на 4 равные части, называющиеся квартилями

Page 6: Data Mining - lecture 3 - 2014

• p-я перцентиль - это квантиль уровня q = p/100 (т.е. перцентили разбивают данные на 100 равных частей)

• медиана (2 -квантиль , Q2) является 50 -ой перцентилью, а первый квартиль (Q1) и третий квартиль (Q3) являются 25-ой и 75-ой перцентилями, соответственно.

медиана25-я перцентиль 75-я перцентиль

Q1 Q2 Q3

25%

Page 7: Data Mining - lecture 3 - 2014

• Расстояние между первым и третим квантилями называется межквартильный диапазон (IQR) - простейшая мера разброса данных, которая задает диапазон, покрывающий среднюю половину данных:

IQR = Q3 - Q1 • Пример: пусть атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0

• Данные в примере уже отсортированы по возрастанию, поэтому квартилями выступают 3-й, 6-й и 9-й элементы: Q1=4700, Q2=5200, Q3=6300.

• Межквартильный диапазон равен Q3 - Q1 = 6300 - 4700 = 1600

Page 8: Data Mining - lecture 3 - 2014

ПЯТИ-ЧИСЛОВАЯ СВОДКА

• 5-числовая сводка (предложена Дж. Тьюки) - один из способов краткого представления выборки и состоит из: • медианы (Q2) • первого (Q1) и третьего (Q3) квартилей • наименьшего (min) и наибольшего (max) значений

Page 9: Data Mining - lecture 3 - 2014

ПРОБЛЕМЫ АСИММЕТРИЧНЫХ РАСПРЕДЕЛЕНИЙ• Для асимметрических данных IQR не может в полной мере характеризовать разброс, однако применяется для выявления аномалий (аутлаеров), которыми считаются значения располагающиеся на 1.5 • IQR выше третьего или ниже первого квартиля

• Меры центральной тенденции (медиана и т.п.) не разбивают данные на равные половины

• 5-числовая оценка позволяет в полной мере оценить центра л ьн ую тенденцию и ра зброс и для асиметрических распределений

Page 10: Data Mining - lecture 3 - 2014

ДИСПЕРСИЯ И СТАНДАРТНЫЙ РАЗБРОС• Дисперсия (отклонение) N наблюдений

x1, x2, … xN для числового атрибута x это величина

!

• где - среднее значение атрибута

• Величина σ называется среднеквадратическим отклонением (стандартным разбросом)

• Дисперсия и среднеквадратическое отклонение характеризуют разброс данных атрибута

σ2= ∑(xi - x)2 = i=1

N1N̄ ( 1

N̄ ∑ xi 2

i=1

N

) - x2¯ ¯

Page 11: Data Mining - lecture 3 - 2014

Основные свойства среднеквадратического отклонения:

• σ измеряет отклонение данных от среднего значения и его имеет смысл рассматривать только, если среднее выбрано в качестве меры центра

• σ > 0

• σ = 0 только когда нет отклонения (т.е. когда все данные имеют одинаково значение)

Page 12: Data Mining - lecture 3 - 2014

• Пример: пусть атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0

• Ранее мы вычислили среднее значение для данного атрибута, равное 5.8

• Т а к и м о б р а з о м , д и с п е р с и я и среднеквадратическое отклонение будут равны

σ2 = (3.02 + 3.62 + … + 11.02) - 5.8 ≈ 37.91412

σ ≈ 1.947

Page 13: Data Mining - lecture 3 - 2014

ВИЗУАЛИЗАЦИЯ ДАННЫХ

Page 14: Data Mining - lecture 3 - 2014

Q-Q ГРАФИК• Квантиль-Квантиль график (Q-Q график) отображает квантили одного распределения в сравнении с соответствующими квантилями другого распределения

• точке (х, у) на графике соответствует один из квантилей второго распределения (у-координата), построенная вместе с аналогичним квантилем первого распределения (х-координата).

• линия на Q-Q графике является параметрической кривой с параметром, равным количеству интервалом для квантилей

Page 15: Data Mining - lecture 3 - 2014

• Пусть x1, x2, … xN - значения числового атрибута x и y1, y2, … yM для числового атрибута y (все значения отсортированы в порядке возрастания)

• Если M = N, тогда просто наносим точки (xi, yi), где xi, yi уже являются (i-0.5)/N квантилями соответствующих наборов данных

• Если M < N, тогда в графике может быть только M точек. Здесь yi уже является (i-0.5)/M квантилем, а для данных атрибута x необходимо вычислить (i-0.5)/M квантиль

Page 16: Data Mining - lecture 3 - 2014

ПРИМЕР: АНАЛИЗ Q-Q ГРАФИКА• Рассмотрим q-q график для атрибута средняя цена проданного товара для двух филиалов одной компании за некоторый период времени

• Для Q1 средняя цена для филиала 1 меньше, чем для филиала 2 => 25% проданного товара филиалом 1 меньше или равно 60 грн, в то время как 25% проданных товаров филиалом 2 меньше или равно 64 грн

• Общий тренд показывает, что средняя цена проданного товара в филиале 1 меньше, чем в филиале 2

Филиал

1 (цена в грн)

40

56

72

88

104

120

Филиал 2 (цена в грн)

40 48 56 64 72 80 88 96 104 112 120

Q1

Q2

Q3

Page 17: Data Mining - lecture 3 - 2014

ГИСТОГРАММА• Для построения гистограммы для некоторого численного атрибута его диапазон значений р а з д е л я е т с я н а н е к о т о р ы й н а б о р непресекающихся равных поддиапазонов (интервалов группировки)

• Для каждого интервала группировки вычисляется и отображается на графике количество значений, попавших в данный интервал

Page 18: Data Mining - lecture 3 - 2014

ПРИМЕР: ГИСТОГРАММА• пусть атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0

Количество

зарплат

(шт.)

0

1

2

3

4

зарплата (тыс. грн)

3-4 4-5 5-6 6-7 7-8 8-9 9-10 10-11 11-12

Page 19: Data Mining - lecture 3 - 2014

BOXPLOT (ЯЩИЧКОВАЯ ДИАГРАММА)• График “ящичковая диаграмма” (ящик с усами или box-and-

whiskers diagram) был разработан Джоном Тьюки в 70-х годах.

• Ящичковая диаграмма - это быстрый способ визуального представления 5-числовой сводки: • Начинается и заканчивается “ящик” в первом и третьем квартилях, т.е. его высота равна межквартильному диапазону

• Медиана отмечена линией на “ящике” • Две линии вне “ящика” (называются whiskers или усы) отображают минимальное и максимальное значение, принимаемое атрибутом

Page 20: Data Mining - lecture 3 - 2014

ПРИМЕР: BOXPLOT• пусть атрибут возраст принимает следующие значения: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70

5-числовая сводка: Q2=25, Q1=20.5, Q3=35, min=13, max=70

70.0

13.0

20.525.0

35.0

возраст

Page 21: Data Mining - lecture 3 - 2014

ДИАГРАММА РАССЕЯНИЯ• Диаграмма рассеяния (scatter plot, точечная диаграмма) изображает значения двух переменных в виде точек на декартовой плоскости

• Каждая точка диаграммы рассеяния имеет координаты (в декартовой системе координат), равные значениям двух выбранных для изучения атрибутов

• Диаграммы рассеяния - это самый простой способ поиска кластеров, аномалий, а также возможной корреляции значений атрибутов

Page 22: Data Mining - lecture 3 - 2014

• Два атрибута называются коррелирующими между собой, если один атрибут влияет на другой (например, один атрибут всегда убывает, когда другой растет)

атрибут

2

0

5

10

15

20

атрибут 1

0 3 6 9 12

атрибут

2

0

5

10

15

20

атрибут 1

0 3 6 9 12

положительная корреляция отрицательная корреляция

Page 23: Data Mining - lecture 3 - 2014

атрибут

2

0

3

6

9

12

атрибут 1

0 3 6 9 12

атрибут

2

0

3

6

9

12

атрибут 1

0 3 6 9 12

атрибут

2

0

2,25

4,5

6,75

9

атрибут 1

0 3 6 9 12

Примеры: отсутствие корреляции

Page 24: Data Mining - lecture 3 - 2014

ПРИМЕР: ДИАГРАММА РАССЕЯНИЯ• Рассмотрим два атрибута зарплата и стаж работы. Атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0, а соответствующие значения атрибута стаж работы (лет) есть: 4, 5, 6, 7, 7, 8, 8,10, 10, 15,12, 18

Стаж

(лет

)

2

6

10

14

18

Зарплата (тыс. грн)

2 4,25 6,5 8,75 11

Наблюдается положительная корреляция (т.е. чем выше стаж работы, тем выше зарплата)

Page 25: Data Mining - lecture 3 - 2014

ЗАДАНИЯ• Значения атрибутов рост (см) и вес (кг) для студентов группы представлены в таблице:

!

!

!

• Необходимо: • построить Q-Q график • построить гистограмму для каждого из атрибутов • построить ящичковую диаграмму для каждого из атрибутов и разместить их на одном графике

• построить диаграмму рассеяния и указать на наличие или отсутствие корреляции между атрибутами

рост вес рост вес рост вес рост вес рост вес

185 77 163 68 173 82 193 70 175 83

170 66 188 82 180 84 183 79 165 66

183 75 185 74 178 100 175 77 178 67

183 77 165 61 183 84 183 70 188 95

175 76 185 77 188 84 185 76 178 63