Data Mining - lecture 3 - 2014

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

Data Mining

Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук

Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год

ЛЕКЦИЯ 2Узнаем больше о своих данных. Часть 2

ИЗМЕРЕНИЕ РАЗБРОСА ДАННЫХ

ДИАПАЗОН, КВАРТИЛИ И МЕЖКВАРТИЛЬНЫЙ ДИАПАЗОН

• Пусть x1, x2, … xN - множество значений (наблюдений) численного атрибута x

• Диапазоном называется разница между наибольшим и наименьшим значением

• Квантилями называется множество точек распределения, которые разбивают его на равные подмножества

• k-я q-квантиль (0<k<q) для заданного распределения данных - это некоторое значение x, такое что k/q значений меньше x, и (q-k)/q значений больше x

• Всего существует (q-1) q-квантилей

• 2-квантиль разделяет данные на 2 равные части и соответствует медиане

• 4-квантили - это 3 точки, разделяющие данные на 4 равные части, называющиеся квартилями

• p-я перцентиль - это квантиль уровня q = p/100 (т.е. перцентили разбивают данные на 100 равных частей)

• медиана (2 -квантиль , Q2) является 50 -ой перцентилью, а первый квартиль (Q1) и третий квартиль (Q3) являются 25-ой и 75-ой перцентилями, соответственно.

медиана25-я перцентиль 75-я перцентиль

Q1 Q2 Q3

25%

• Расстояние между первым и третим квантилями называется межквартильный диапазон (IQR) - простейшая мера разброса данных, которая задает диапазон, покрывающий среднюю половину данных:

IQR = Q3 - Q1 • Пример: пусть атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0

• Данные в примере уже отсортированы по возрастанию, поэтому квартилями выступают 3-й, 6-й и 9-й элементы: Q1=4700, Q2=5200, Q3=6300.

• Межквартильный диапазон равен Q3 - Q1 = 6300 - 4700 = 1600

ПЯТИ-ЧИСЛОВАЯ СВОДКА

• 5-числовая сводка (предложена Дж. Тьюки) - один из способов краткого представления выборки и состоит из: • медианы (Q2) • первого (Q1) и третьего (Q3) квартилей • наименьшего (min) и наибольшего (max) значений

ПРОБЛЕМЫ АСИММЕТРИЧНЫХ РАСПРЕДЕЛЕНИЙ• Для асимметрических данных IQR не может в полной мере характеризовать разброс, однако применяется для выявления аномалий (аутлаеров), которыми считаются значения располагающиеся на 1.5 • IQR выше третьего или ниже первого квартиля

• Меры центральной тенденции (медиана и т.п.) не разбивают данные на равные половины

• 5-числовая оценка позволяет в полной мере оценить центра л ьн ую тенденцию и ра зброс и для асиметрических распределений

ДИСПЕРСИЯ И СТАНДАРТНЫЙ РАЗБРОС• Дисперсия (отклонение) N наблюдений

x1, x2, … xN для числового атрибута x это величина

!

• где - среднее значение атрибута

• Величина σ называется среднеквадратическим отклонением (стандартным разбросом)

• Дисперсия и среднеквадратическое отклонение характеризуют разброс данных атрибута

σ2= ∑(xi - x)2 = i=1

N1N̄ ( 1

N̄ ∑ xi 2

i=1

N

) - x2¯ ¯

x̄

Основные свойства среднеквадратического отклонения:

• σ измеряет отклонение данных от среднего значения и его имеет смысл рассматривать только, если среднее выбрано в качестве меры центра

• σ > 0

• σ = 0 только когда нет отклонения (т.е. когда все данные имеют одинаково значение)

• Пример: пусть атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0

• Ранее мы вычислили среднее значение для данного атрибута, равное 5.8

• Т а к и м о б р а з о м , д и с п е р с и я и среднеквадратическое отклонение будут равны

σ2 = (3.02 + 3.62 + … + 11.02) - 5.8 ≈ 37.91412

σ ≈ 1.947

ВИЗУАЛИЗАЦИЯ ДАННЫХ

Q-Q ГРАФИК• Квантиль-Квантиль график (Q-Q график) отображает квантили одного распределения в сравнении с соответствующими квантилями другого распределения

• точке (х, у) на графике соответствует один из квантилей второго распределения (у-координата), построенная вместе с аналогичним квантилем первого распределения (х-координата).

• линия на Q-Q графике является параметрической кривой с параметром, равным количеству интервалом для квантилей

• Пусть x1, x2, … xN - значения числового атрибута x и y1, y2, … yM для числового атрибута y (все значения отсортированы в порядке возрастания)

• Если M = N, тогда просто наносим точки (xi, yi), где xi, yi уже являются (i-0.5)/N квантилями соответствующих наборов данных

• Если M < N, тогда в графике может быть только M точек. Здесь yi уже является (i-0.5)/M квантилем, а для данных атрибута x необходимо вычислить (i-0.5)/M квантиль

ПРИМЕР: АНАЛИЗ Q-Q ГРАФИКА• Рассмотрим q-q график для атрибута средняя цена проданного товара для двух филиалов одной компании за некоторый период времени

• Для Q1 средняя цена для филиала 1 меньше, чем для филиала 2 => 25% проданного товара филиалом 1 меньше или равно 60 грн, в то время как 25% проданных товаров филиалом 2 меньше или равно 64 грн

• Общий тренд показывает, что средняя цена проданного товара в филиале 1 меньше, чем в филиале 2

Филиал

1 (цена в грн)

40

56

72

88

104

120

Филиал 2 (цена в грн)

40 48 56 64 72 80 88 96 104 112 120

Q1

Q2

Q3

ГИСТОГРАММА• Для построения гистограммы для некоторого численного атрибута его диапазон значений р а з д е л я е т с я н а н е к о т о р ы й н а б о р непресекающихся равных поддиапазонов (интервалов группировки)

• Для каждого интервала группировки вычисляется и отображается на графике количество значений, попавших в данный интервал

ПРИМЕР: ГИСТОГРАММА• пусть атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0

Количество

зарплат

(шт.)

0

1

2

3

4

зарплата (тыс. грн)

3-4 4-5 5-6 6-7 7-8 8-9 9-10 10-11 11-12

BOXPLOT (ЯЩИЧКОВАЯ ДИАГРАММА)• График “ящичковая диаграмма” (ящик с усами или box-and-

whiskers diagram) был разработан Джоном Тьюки в 70-х годах.

• Ящичковая диаграмма - это быстрый способ визуального представления 5-числовой сводки: • Начинается и заканчивается “ящик” в первом и третьем квартилях, т.е. его высота равна межквартильному диапазону

• Медиана отмечена линией на “ящике” • Две линии вне “ящика” (называются whiskers или усы) отображают минимальное и максимальное значение, принимаемое атрибутом

ПРИМЕР: BOXPLOT• пусть атрибут возраст принимает следующие значения: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70

5-числовая сводка: Q2=25, Q1=20.5, Q3=35, min=13, max=70

70.0

13.0

20.525.0

35.0

возраст

ДИАГРАММА РАССЕЯНИЯ• Диаграмма рассеяния (scatter plot, точечная диаграмма) изображает значения двух переменных в виде точек на декартовой плоскости

• Каждая точка диаграммы рассеяния имеет координаты (в декартовой системе координат), равные значениям двух выбранных для изучения атрибутов

• Диаграммы рассеяния - это самый простой способ поиска кластеров, аномалий, а также возможной корреляции значений атрибутов

• Два атрибута называются коррелирующими между собой, если один атрибут влияет на другой (например, один атрибут всегда убывает, когда другой растет)

атрибут

2

0

5

10

15

20

атрибут 1

0 3 6 9 12

атрибут

2

0

5

10

15

20

атрибут 1

0 3 6 9 12

положительная корреляция отрицательная корреляция

атрибут

2

0

3

6

9

12

атрибут 1

0 3 6 9 12

атрибут

2

0

3

6

9

12

атрибут 1

0 3 6 9 12

атрибут

2

0

2,25

4,5

6,75

9

атрибут 1

0 3 6 9 12

Примеры: отсутствие корреляции

ПРИМЕР: ДИАГРАММА РАССЕЯНИЯ• Рассмотрим два атрибута зарплата и стаж работы. Атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0, а соответствующие значения атрибута стаж работы (лет) есть: 4, 5, 6, 7, 7, 8, 8,10, 10, 15,12, 18

Стаж

(лет

)

2

6

10

14

18

Зарплата (тыс. грн)

2 4,25 6,5 8,75 11

Наблюдается положительная корреляция (т.е. чем выше стаж работы, тем выше зарплата)

ЗАДАНИЯ• Значения атрибутов рост (см) и вес (кг) для студентов группы представлены в таблице:

!

!

!

• Необходимо: • построить Q-Q график • построить гистограмму для каждого из атрибутов • построить ящичковую диаграмму для каждого из атрибутов и разместить их на одном графике

• построить диаграмму рассеяния и указать на наличие или отсутствие корреляции между атрибутами

рост вес рост вес рост вес рост вес рост вес

185 77 163 68 173 82 193 70 175 83

170 66 188 82 180 84 183 79 165 66

183 75 185 74 178 100 175 77 178 67

183 77 165 61 183 84 183 70 188 95

175 76 185 77 188 84 185 76 178 63

Education

Data Mining - lecture 3 - 2014