7
Обучение Продвинутый курс Прикладная аналитика с использованием SAS Enterprise Miner Первая часть Москва — 2015

Витрина продвинутого курса "Прикладная аналитика с использованием SAS EM" (Часть I)

Embed Size (px)

Citation preview

Page 1: Витрина продвинутого курса "Прикладная аналитика с использованием SAS EM" (Часть I)

Обучение

Продвинутый курс

Прикладная аналитика с использованием SAS Enterprise Miner

Первая

часть

Москва — 2015

Page 2: Витрина продвинутого курса "Прикладная аналитика с использованием SAS EM" (Часть I)

1

СОДЕРЖАНИЕ

ГЛАВА 1: СТРАТЕГИЯ ИССЛЕДОВАНИЯ ………………………………………………. 1 Введение ………………………………………………………………………………………… 2 Шкалы измерения переменных …………………………………………………….. 3 Определение целевой переменной ………………………………………………. 3.1 Прогнозирование отклика на почтовую рассылку …………………………. 3.2 Прогнозирование риска в автостраховании …………………………………… 3.3 Прогнозирование влияния ставки на размер банковского сберегательного счета ………………………….………………………….…………………… 3.4 Прогнозирование оттока клиентов ………………………………………………… 3.5 Прогнозирование категориальной номинальной (неупорядоченной полихотомической) целевой переменной……………. 4 Источники данных для моделирования ……………………………………….. 4.1 Соответствие характеристик выборки характеристикам генеральной совокупности …………………………………………………………………… 4.2 Веса наблюдений …………………………………………………………………………….. 5 Предварительная обработка данных ……………………………………………. 5.1 Очистка данных перед запуском SAS Enterprise Miner …………………. 5.2 Очистка данных после запуска SAS Enterprise Miner …………………….. 6 Альтернативные стратегии моделирования …………………………………. 6.1 Регрессия с умеренным количеством входных переменных ……….. 6.2 Регрессия с большим количеством входных переменных …………… ГЛАВА 2: ВВЕДЕНИЕ В ПРОГНОЗНОЕ МОДЕЛИРОВАНИЕ ………………….. 1 Введение ………………………………………………………………………………………… 2 Запуск SAS Enterprise Miner 12.1 …………………………………………………….. 3 Создание нового проекта в SAS Enterprise Miner 12.1 …………………… 4 Окно SAS Enterprise Miner ………………………………………………………………. 5 Создание источника данных SAS ……………………………………………………. 6 Создание диаграммы потока …………………………………………………………. 7 Узлы вкладки Sample (Выборка данных) ……………………………………….. 7.1 Узел Input Data (Ввод данных) ………………………………………………………. 7.2 Узел Data Partition (Разделение данных) ……………………………………… 7.3 Узел Filter (Фильтрация данных) ……………………………………………………. 7.4 Узел File Import (Импорт файла) ……………………………………………………. 7.5 Узел Time Series (Временные ряды) ……………………………………………… 7.6 Узел Merge (Слияние данных) ………………………………………………………..

7 7 8 9 9 10 12 13 15 17 17 17 19 19 20 22 22 22 24 24 25 26 27 30 42 43 43 45 46 50 54 65

Page 3: Витрина продвинутого курса "Прикладная аналитика с использованием SAS EM" (Часть I)

2

7.7 Узел Append (Добавление данных) ……………………………………………….. 8 Инструменты предварительного исследования данных ………………. 8.1 Узел Stat Explore (Статистический анализ) ……………………………………. 8.2 Узел MultiPlot (Множественный график) ……………………………………… 8.3 Узел Graph Explore (Графический анализ) …………………………………….. 8.4 Узел Variable Clustering (Кластеризация переменных) ………………… 8.5 Узел Cluster (Кластерный анализ) ………………………………………………….. 8.6 Узел Variable Selection (Выбор переменных) ……………………………….. 9 Инструменты модификации данных …………………………………………….. 9.1 Узел Drop (Удаление) ……………………………………………………………………… 9.2 Узел Replacement (Замена) …………………………………………………………….. 9.3 Узел Impute (Импутация данных) ………………………………………………….. 9.4 Узел Interactive Binning (Интерактивная категоризация) ……………. 9.5 Узел Principal Components (Главные компоненты) ……………………… 9.6 Узел Transform Variables (Преобразование переменных) …………… 10 Узлы Utility (Полезные инструменты) …………………………………………… 10.1 Узел SAS Code (Код SAS) ………………………………………………………………… 11 Приложение ………………………………………………………………………………….. 11.1 Тип, шкала и число уровней переменной ……………………………………. 11.2 Собственные значения, собственные векторы и главные компоненты …………………………………………………………………………………………… 11.3 V Крамера ………………………………………………………………………………………. 11.4 Вычисление статистики хи-квадрат и V Крамера для непрерывной входной переменной …………………………………………………….. 12 Упражнения ………………………………………………………………………………….. ГЛАВА 3: ОТБОР И ПРЕОБРАЗОВАНИЕ ПЕРЕМЕННЫХ ……………………….. 1 Введение …………………………………………………………………………………………. 2 Отбор переменных ………………………………………………………………………….. 2.1 Непрерывная целевая переменная с числовыми интервальными входными переменными (Пример 1) …………………………………………………… 2.2 Непрерывная целевая переменная с категориальными номинальными входными переменными (Пример 2) ………………………… 2.3 Бинарная целевая переменная с числовыми интервальными входными переменными (Пример 3) …………………………………………………… 2.4 Бинарная целевая переменная с категориальными номинальными входными переменными (Пример 4) …………………………

69 73 74 81 83 88 98 103 113 113 114 117 118 126 133 142 142 149 149 153 157 158 161 163 163 164 165 172 179 186

Page 4: Витрина продвинутого курса "Прикладная аналитика с использованием SAS EM" (Часть I)

3

3 Отбор переменных с помощью узла Variable Clustering ……………….. 3.1 Выбор наилучшей переменной в каждом кластере ………………………. 3.2 Выбор кластерных компонент ………………………………………………………… 4 Отбор переменных с помощью узла Decision Tree ……………………….. 5 Преобразование переменных ………………………………………………………… 5.1 Узел Transform Variables …………………………………………………………………. 5.2 Преобразование перед отбором переменных ………………………………. 5.3 Преобразование после отбора переменных …………………………………. 5.4 Передача нескольких типов преобразования интервальных входных переменных в следующий узел …………………………………………….. 5.5 Сохранение и экспорт кода, сгенерированного узлом Transform Variables ………………………………………………………………………………………………… 6 Выводы …………………………………………………………………………………………… 7 Приложение ……………………………………………………………………………………. 7.1 Изменение шкалы измерения переменной в источнике данных … 7.2 Код SAS для сравнения сгруппированных категориальных переменных с несгруппированными переменными ………………………….. Упражнения ……………………………………………………………………………………….. ГЛАВА 4: ПОСТРОЕНИЕ МОДЕЛЕЙ ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ПРОГНОЗИРОВАНИЯ ОТКЛИКА И РИСКА ………………………………………….. 1 Введение ……………………………………………………………………………………….. 2 Обзор методологии деревьев в SAS Enterprise Miner …………………… 2.1 Деревья решений ………………………….………………………………………………… 2.2 Модели деревьев решений ………………………….………………………………… 2.3 Сравнение модели дерева решений и модели логистической регрессии ………………………….………………………….……………………………………… 2.4 Применение модели дерева решений для исследования данных 2.5 Расчет прогностической ценности (worth) дерева ………………………… 2.6 Роли обучающего и проверочного наборов данных в разработке дерева решений………………………….………………………….……………………………… 2.7 Дерево регрессии ………………………….………………………….…………………….. 3 Разработка дерева в SAS Enterprise Miner ………………………….………… 3.1 Построение исходного дерева ………………………….…………………………… 3.2 Настройки корректировки p-значения …………………………………………… 3.3 Регулировка роста дерева: правила остановки ………………………………

191 193 203 206 210 210 212 214 217 222 223 224 224 225 226 228 228 229 229 230 233 233 233 237 239 240 240 254 258

Page 5: Витрина продвинутого курса "Прикладная аналитика с использованием SAS EM" (Часть I)

4

3.4 Обрезка дерева (прунинг): Выбор дерева правильного размера при помощи проверочного набора данных…………………………………………. 3.5 Пошаговое рассмотрение выращивания и обрезки дерева ………… 3.6 Сравнение средней прибыли и итоговой прибыли при сопоставлении деревьев различных размеров …………………………………… 3.7 Критерий точности / ошибочной классификации при выборе дерева правильного размера: Классификация записей и узлов с помощью максимизации точности ………………………….…………………………… 3.8 Оценка дерева или поддерева с использованием среднеквадратичной ошибки ………………………….………………………….……….. 3.9 Выбор дерева правильного размера ………………………….………………….. 4 Модель дерева решений для прогнозирования отклика в директ-маркетинге ………………………….………………………….………………………………….. 4.1 Тестирование эффективности модели с помощью тестового набора данных ………………………….………………………….………………………………. 4.2 Применение модели дерева решений для скоринга данных ………. 5 Разработка модели дерева регрессии для прогнозирования риска…………………………………………………………………………………………………… 5.1 Модель дерева регрессии для прогнозирования риска: выводы … 6 Построение деревьев решений в интерактивном режиме …………… 6.1 Интерактивное изменение уже построенного дерева решений …. 6.2 Интерактивное построение дерева с корневого узла …………………… 6.3 Построение максимального дерева в интерактивном режиме …… 7 Выводы ………………………….………………………….………………………….………… 8 Приложения ………………………….………………………….…………………………….. 8.1 Тест хи-квадрат Пирсона ………………………….………………………….………….. 8.2 Корректировка спрогнозированных вероятностей при оверсамплинге ………………………….………………………….………………………………. 8.3 Ожидаемые прибыли с использованием нескорректированных вероятностей ………………………….………………………….………………………….………. 8.4 Ожидаемые прибыли с использованием скорректированных вероятностей ………………………….………………………….………………………………….. 9 Упражнения ………………………….………………………….………………………….….

258 262 271 271 274 275 277 288 289 294 301 303 304 316 325 329 331 331 332 334 334 335

Page 6: Витрина продвинутого курса "Прикладная аналитика с использованием SAS EM" (Часть I)

5

ГЛАВА 5: МОДЕЛИ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ПРОГНОЗИРОВАНИЯ ОТКЛИКА И РИСКА ……………………………………………………………………………… 1 Введение …………………………………………………………………………………………. 1.1 Целевые переменные моделей ……………………………………………………… 1.2 Подробная информация об узле Neural Network …………………………. 2 Общий пример модели нейронной сети ……………………………………….. 2.1 Входной слой …………………………………………………………………………………… 2.2 Скрытые слои …………………………………………………………………………………… 2.3 Выходной слой или целевой слой ………………………………………………….. 2.4 Функция активации выходного слоя ………………………………………………. 3 Оценка весов в модели нейронной сети ………………………………………. 4 Модель нейронной сети для прогнозирования отклика ………………. 4.1 Настройка свойств узла Neural Network ………………………………………… 4.2 Оценка прогностической эффективности построенной модели ….. 4.3 Графики ROC-кривых ………………………………………………………………………. 4.4 Каким образом узел Neural Network определил оптимальные веса для данной модели? …………………………………………………………………….. 4.5 Скоринг новых данных с помощью модели нейронной сети ………. 4.6 Оценочный (скоринговый) код ………………………………………………………. 5 Модель нейронной сети для прогнозирования частоты убытков в автостраховании ………………………………………………………………………………… 5.1 Частота убытков в качестве порядковой целевой переменной…….. 5.2 Скоринг новых данных с помощью построенной модели ……………. 5.3 Классификация рисков для определения ставки автострахования с помощью спрогнозированных вероятностей ………………………………………. 6 Альтернативные спецификации нейронных сетей ……………………….. 6.1 Нейронная сеть Многослойный перцептрон …………………………………. 6.2 Нейронная сеть Радиальная базисная функция …………………………….. 7 Сравнение архитектур, доступных в узле Neural Network …………….. 7.1 Нейронная сеть Многослойный перцептрон (MLP)………………………… 7.2 Обычная RBF-сеть с равными высотами и ширинами (ORBFEQ)……. 7.3 Обычная RBF-сеть с равными высотами и неравными ширинами (ORBFUN) ………………………………………………………………………………………………… 7.4 Нормализованная RBF-сеть с равными ширинами и высотами (NRBFEQ) ………………………………………………………………………………………………… 7.5 Нормализованная RBF-сеть с равными высотами и неравными ширинами (NRBFEH) ………………………………………………………………………………

337 337 337 338 340 341 341 346 346 348 350 352 356 359 363 365 369 370 370 383 385 387 387 390 397 398 399 402 404 406

Page 7: Витрина продвинутого курса "Прикладная аналитика с использованием SAS EM" (Часть I)

6

7.6 Нормализованная RBF-сеть с равными ширинами и неравными высотами (NRBFEW) ………………………………………………………………………………. 7.7 Нормализованная RBF-сеть с равными объемами (NRBFEV) ………… 7.8 Нормализованная RBF-сеть с неравными ширинами и высотами (NRBFUN) ………………………………………………………………………………………………… 7.9 Архитектура, определяемая пользователем …………………………………. 8 Узел AutoNeural ………………………………………………………………………………. 9 Узел DMNeural …………………………………………………………………………………. 10 Узел Dmine Regression …………………………………………………………………… 11 Сравнение моделей, построенных с помощью узлов DMNeural, AutoNeural и Dmine Regression ………………………………………………………….. 12 Выводы ………………………………………………………………………….………………. 13 Приложение …………………………………………………………………………………… 14 Упражнения ……………………………………………………………………………………

409 412 415 417 421 423 427 430 432 434 436