36
Практическое применение Data Mining-технологий Гринчук Александр ООО «Нанотех» ИБМТ БГУ

Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

Embed Size (px)

DESCRIPTION

Александр дал общую характеристику рынка бизнес-аналитики в Беларуси. На примере реальных бизнес-задач он рассказал о проблемах, с которыми сталкиваются специалисты при внедрении Data Mining, и о том, как эти проблемы можно решить при помощи программного обеспечения

Citation preview

Page 1: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

Практическое применение Data Mining-технологий

Гринчук Александр

ООО «Нанотех»

ИБМТ БГУ

Page 2: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

2

Текущее состояние дел Точно знаем надо Примерно знаем почему Плохо знаем как

Page 3: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

3

Национальные особенности Банки – в аутсайдерах Лидеры: телеком и игровая

индустрия Торговые сети: сдержанный

интерес

Page 4: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

4

Данные Собираются не для анализа Собираются не всегда, когда

можно Собираются некачественно

Page 5: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

5

Проблемы Малая выборка Несоблюдение чистоты Недооценка динамики Недоверие к первым результатам

Page 6: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

6

«Малые» данные Много для статистики Мало для автоматизации Пример: прогнозирование

Page 7: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

7

«Ручное» прогнозирование Много для статистики Мало для DataMining

Page 8: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

8

«Ручное» прогнозирование Много для статистики Мало для DataMining

Page 9: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

9

«Ручное» прогнозирование Стратегия:

выявить шаблоны «вручную» применить автоматически

Page 10: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

10

Несоблюдение чистоты Сложность выявления Сложность обработки Последствия серьезнее, чем

кажутся на первый взгляд

Page 11: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

11

Примеры (реальные случаи) ошибки при вводе марки автомобиля: 14 (!)

вариантов написания марки “Mercedes”. DEU указано вместо DAEWOO в 6-ти анкетах, все заемщики рассчитались с кредитом. Ошибочный вывод: наличие автомобиля марки DEU свидетельствует о высокой надежности клиента;

указана область проживания как БРЕСЦКАЯ (4 случая – все «плохие»). На практике выяснилось, что значимость региона не столь высока;

количество не столь очевидных примеров велико. Доля строк хотя бы с одной ошибкой, опечаткой или пропуском может достигать 70%.

Page 12: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

12

Сравним Между прочим: алгоритмы

разрабатывались для первой ситуации!Требования теории Банковская практика

Образцы для исследования берутся в одинаковых условиях

Клиенты приходят в разное время и их качественный состав меняется

Измерения производятся точно, результаты тщательно регистрируются

Работают люди: ошибаются, пропускают, путают

Отбираются образцы в пропорциях, отражающих реальное положение дел

Есть сведения только о клиентах, получивших одобрение на выдачу кредита

Page 13: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

13

Способ решения Предобработка данных Модификация алгоритмов

Page 14: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

14

Пример: квантование

Page 15: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

15

Недооценка динамики Банки: старение кредитов Отток: смешивание групп Причина: из-за недостатка данных

объединяются наблюдения за относительно большой промежуток времени

Page 16: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

16

Эффект старения Ложное ощущение опасности, из-

за роста доли «старых»

0%

1%

2%

3%

4%

5%

6%

7%

8%

0 2 4 6 8 10 12 14 16

янв.10

фев.10

мар.10

апр.10

Page 17: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

17

Отток клиентов Три группы, не одна Остались «упрямые», а не

улучшилась ситуация

1 2 3 4 5

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0 2 4 6 8 10

0.1

0.2

0.3

0.4

0.5

Page 18: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

18

Недоверие к результатам Требование «обзорности» Требование «привычности» Результат должен «выражаться в

денежных единицах»

Page 19: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

19

Ошибки Заранее задаются:

вид результата ограничения по набору данных

Ошибки бывают в разные стороны

Page 20: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

20

Пример: успеваемость Факторный анализ: 2 фактора

№ Фамилия

МЕНЕДЖ

МАТЕМ_1

ОСЕ ЭКОН_1

ИТ МАТЕМ_2

БУХУЧЕТ

ЭКОН_2

77 … 7 2 6 4 7 6 6 778 … 8 4 7 4 5 6 7 779 … 6 6 7 3 5 4 7 780 … 7 9 7 7 8 8 9 981 … 10 5 5 7 8 9 8 882 … 6 4 5 4 6 4 6 683 … 7 8 6 7 8 7 10 884 … 9 4 8 7 8 4 8 885 … 9 10 9 9 9 9 9 986 … 4 2 4 2 4 2 5 5

Входные поля Корреляция с выходными полями

№ Поле Фактор 1 Фактор 21 МЕНЕДЖ 0,842 0,0832 МАТЕМ_1 0,881 0,2493 ОСЕ 0,804 0,3964 ЭКОН_1 0,951 -0,1725 ИТ 0,784 -0,5366 МАТЕМ_2 0,901 -0,1857 БУХУЧЕТ 0,846 0,0588 ЭКОН_2 0,92 0,101

Page 21: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

21

Отслеживание динамики

-3

-2,5

-2

-1,5

-1

-0,5

0

0,5

1

1,5

2

-2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5

Page 22: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

22

Игнорирование известного Результаты отличаются от соседей и

аналогичных организаций? Причина ошибка или особенности? Пример: продажи мобильных телефонов,

особенности для категории «Образование среднее специальное»

Page 23: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

23

Доведение до результата

Page 24: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

24

Ограничения по алгоритмам Интерпретируемые Проверяемые Необходимость взаимопроверки

Page 25: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

25

Пример: деревья решений

Page 26: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

26

Пример: карты Кохонена

Page 27: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

27

Взаимная подстраховка

Page 28: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

28

Кластеризация и деревья решений

Page 29: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

29

«Госзаказ» Тестирование Складские задачи

Page 30: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

30

Тестирование Применение ассоциативного

анализа

Page 31: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

31

Платформа Требования

Гибкость в работе Удобство вместо наворотов Возможность маневра

Page 32: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

32

Алгоритмы Дерево решений Логистическая регрессия Самоорганизующиеся сети Apriory Линейная регрессия Возможности комбинирования

Page 33: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

33

Варианты ПО Deductor Studio RExcel

Page 34: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

34

Deductor Простота в освоении и

«промышленная мощность»

Page 35: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

35

RExcel Привычный интерфейс и

алгоритмы R

Page 36: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

36

Заключение Часто наблюдается: недостаток

данных и их неготовность к непосредственному анализу

В такой ситуации предпочтительнее использование комбинации простых и прозрачных алгоритмов вместо разработки и применения сложных

Поэтому удобное ПО хотя бы с минимальным «джентельменским набором» лучше неудобных «комбайнов»