14
РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ. ПРЕОБРАЗОВАНИЕ ДАННЫХ. Презентация подготовлена студентом гр. 423 Масленниковым Игорем

Разведочный анализ данных. Преобразование данных

Embed Size (px)

Citation preview

Page 1: Разведочный анализ данных. Преобразование данных

РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ.

ПРЕОБРАЗОВАНИЕ ДАННЫХ.Презентация подготовлена студентом гр. 423

Масленниковым Игорем

Page 2: Разведочный анализ данных. Преобразование данных

РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ

Применяется для нахождения систематических связей

между переменными в ситуациях, когда отсутствуют

(или имеются недостаточные) априорные

представления о природе этих связей.

У женщин,частота приема

снотворных средств

увеличивается

с возрастом быстрее,

чем у мужчин.

Page 3: Разведочный анализ данных. Преобразование данных

ЦЕЛИ

• Максимальное «проникновение» в данные.

• Выявление основных структур.

• Выбор наиболее важных переменных.

• Обнаружение отклонений и аномалий.

• Проверка основных гипотез (предположений).

• Разработка начальных моделей.

Page 4: Разведочный анализ данных. Преобразование данных

ПРЕОБРАЗОВАНИЯ

Подходы к преобразованиям данных

позволяют удовлетворить те или

иные требования рассматриваемых

моделей.

Page 5: Разведочный анализ данных. Преобразование данных

• Позволяют оценить

информацию о структуре

распределения данных.

• Имеет смысл применять

распределение около 100 и

более отношении.

ПРОСТЫЕ

1 𝑥 ; 1 𝑥; lg 𝑥 ; 𝑥; 𝑥

Наиболее часто применяемые

преобразования

Диаграмма «Стебель с листьями»

0

1

2 5 9

3 8

4 2

Диаграмма «Ящик с усами»

Page 6: Разведочный анализ данных. Преобразование данных

Диаграмма

«Стебель с листьями»

Представлен список из 15

учеников, сдавших экзамен по

100 бальной системе.

0

1

2 5 9

3 8

4 2

5 3 6

6 1 2 3 7

7 5

8 7 7

9 4

10 0

Десятки

Единицы

Это 87

Page 7: Разведочный анализ данных. Преобразование данных

Диаграмму «Стебель с листьями», можно так же представить в виде

гистограммы.

Однако, она менее подробна.

0

1

2

3

4

5

0 1 2 3 4 5 6 7 8 9 1 0

ПРЕДСТАВЛЕНИЕ В ВИДЕ ГИСТОГРАММЫ

Десятки балов

Page 8: Разведочный анализ данных. Преобразование данных

Диаграмма «Ящик с усами». Из диаграммы видна медиана- Среднее.

Нижний квартиль – 2Q и верхний квартиль 3Q. Так же диапазон данных

(усы).

Page 9: Разведочный анализ данных. Преобразование данных

ПРЕОБРАЗОВАНИЯ ЗАВИСИМОСТЕЙ…а затем…

y=𝑥2

0

5

10

15

20

25

30

0 2 4 6

0

1

2

3

4

5

6

0 2 4 6

Page 10: Разведочный анализ данных. Преобразование данных

Данные количества испарившейся жидкости в единицу времени,

представленные в графическом виде.

0

5

10

15

20

25

30

0 1 2 3 4 5 6

Ко

ли

чес

тв

о

Время

СКОРОСТЬ ИСПАРЕНИЯ ЖИДКОСТИ

Page 11: Разведочный анализ данных. Преобразование данных

Видно, что «Скорость испарения жидкости» стремится к графику функции y=x*x. Это позволяет нам построить новую функцию:

Y=X. Где X=x*x.

0

5

10

15

20

25

30

0 1 2 3 4 5 6

КО

ЛИ

ЧЕ

СТ

ВО

ВРЕМЯ

y=x^2 Скорость испарения жидкости

Page 12: Разведочный анализ данных. Преобразование данных

Это называет линеаризацией. В общем случае Для линеаризации могут

потребоваться различные сочетания видов преобразований x и y.

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Y

X

Зависимость (Y,X)

Page 13: Разведочный анализ данных. Преобразование данных

ОБРАТНЫЕ ПРЕОБРАЗОВАНИЯ

• Предоставление результата в исходных единицах

измерения.

• Нахождение смещений.

• Смещение, как правило возрастает с ростом объема

выборки.

Page 14: Разведочный анализ данных. Преобразование данных

Конец?