Upload
wg-events
View
300
Download
1
Embed Size (px)
DESCRIPTION
Александр дал общую характеристику рынка бизнес-аналитики в Беларуси. На примере реальных бизнес-задач он рассказал о проблемах, с которыми сталкиваются специалисты при внедрении Data Mining, и о том, как эти проблемы можно решить при помощи программного обеспечения
Citation preview
Практическое применение Data Mining-технологий
Гринчук Александр
ООО «Нанотех»
ИБМТ БГУ
2
Текущее состояние дел Точно знаем надо Примерно знаем почему Плохо знаем как
3
Национальные особенности Банки – в аутсайдерах Лидеры: телеком и игровая
индустрия Торговые сети: сдержанный
интерес
4
Данные Собираются не для анализа Собираются не всегда, когда
можно Собираются некачественно
5
Проблемы Малая выборка Несоблюдение чистоты Недооценка динамики Недоверие к первым результатам
6
«Малые» данные Много для статистики Мало для автоматизации Пример: прогнозирование
7
«Ручное» прогнозирование Много для статистики Мало для DataMining
8
«Ручное» прогнозирование Много для статистики Мало для DataMining
9
«Ручное» прогнозирование Стратегия:
выявить шаблоны «вручную» применить автоматически
10
Несоблюдение чистоты Сложность выявления Сложность обработки Последствия серьезнее, чем
кажутся на первый взгляд
11
Примеры (реальные случаи) ошибки при вводе марки автомобиля: 14 (!)
вариантов написания марки “Mercedes”. DEU указано вместо DAEWOO в 6-ти анкетах, все заемщики рассчитались с кредитом. Ошибочный вывод: наличие автомобиля марки DEU свидетельствует о высокой надежности клиента;
указана область проживания как БРЕСЦКАЯ (4 случая – все «плохие»). На практике выяснилось, что значимость региона не столь высока;
количество не столь очевидных примеров велико. Доля строк хотя бы с одной ошибкой, опечаткой или пропуском может достигать 70%.
12
Сравним Между прочим: алгоритмы
разрабатывались для первой ситуации!Требования теории Банковская практика
Образцы для исследования берутся в одинаковых условиях
Клиенты приходят в разное время и их качественный состав меняется
Измерения производятся точно, результаты тщательно регистрируются
Работают люди: ошибаются, пропускают, путают
Отбираются образцы в пропорциях, отражающих реальное положение дел
Есть сведения только о клиентах, получивших одобрение на выдачу кредита
13
Способ решения Предобработка данных Модификация алгоритмов
14
Пример: квантование
15
Недооценка динамики Банки: старение кредитов Отток: смешивание групп Причина: из-за недостатка данных
объединяются наблюдения за относительно большой промежуток времени
16
Эффект старения Ложное ощущение опасности, из-
за роста доли «старых»
0%
1%
2%
3%
4%
5%
6%
7%
8%
0 2 4 6 8 10 12 14 16
янв.10
фев.10
мар.10
апр.10
17
Отток клиентов Три группы, не одна Остались «упрямые», а не
улучшилась ситуация
1 2 3 4 5
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0 2 4 6 8 10
0.1
0.2
0.3
0.4
0.5
18
Недоверие к результатам Требование «обзорности» Требование «привычности» Результат должен «выражаться в
денежных единицах»
19
Ошибки Заранее задаются:
вид результата ограничения по набору данных
Ошибки бывают в разные стороны
20
Пример: успеваемость Факторный анализ: 2 фактора
№ Фамилия
МЕНЕДЖ
МАТЕМ_1
ОСЕ ЭКОН_1
ИТ МАТЕМ_2
БУХУЧЕТ
ЭКОН_2
77 … 7 2 6 4 7 6 6 778 … 8 4 7 4 5 6 7 779 … 6 6 7 3 5 4 7 780 … 7 9 7 7 8 8 9 981 … 10 5 5 7 8 9 8 882 … 6 4 5 4 6 4 6 683 … 7 8 6 7 8 7 10 884 … 9 4 8 7 8 4 8 885 … 9 10 9 9 9 9 9 986 … 4 2 4 2 4 2 5 5
Входные поля Корреляция с выходными полями
№ Поле Фактор 1 Фактор 21 МЕНЕДЖ 0,842 0,0832 МАТЕМ_1 0,881 0,2493 ОСЕ 0,804 0,3964 ЭКОН_1 0,951 -0,1725 ИТ 0,784 -0,5366 МАТЕМ_2 0,901 -0,1857 БУХУЧЕТ 0,846 0,0588 ЭКОН_2 0,92 0,101
21
Отслеживание динамики
-3
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5
22
Игнорирование известного Результаты отличаются от соседей и
аналогичных организаций? Причина ошибка или особенности? Пример: продажи мобильных телефонов,
особенности для категории «Образование среднее специальное»
23
Доведение до результата
24
Ограничения по алгоритмам Интерпретируемые Проверяемые Необходимость взаимопроверки
25
Пример: деревья решений
26
Пример: карты Кохонена
27
Взаимная подстраховка
28
Кластеризация и деревья решений
29
«Госзаказ» Тестирование Складские задачи
30
Тестирование Применение ассоциативного
анализа
31
Платформа Требования
Гибкость в работе Удобство вместо наворотов Возможность маневра
32
Алгоритмы Дерево решений Логистическая регрессия Самоорганизующиеся сети Apriory Линейная регрессия Возможности комбинирования
33
Варианты ПО Deductor Studio RExcel
34
Deductor Простота в освоении и
«промышленная мощность»
35
RExcel Привычный интерфейс и
алгоритмы R
36
Заключение Часто наблюдается: недостаток
данных и их неготовность к непосредственному анализу
В такой ситуации предпочтительнее использование комбинации простых и прозрачных алгоритмов вместо разработки и применения сложных
Поэтому удобное ПО хотя бы с минимальным «джентельменским набором» лучше неудобных «комбайнов»