4
Обучение Продвинутый курс Прикладная аналитика с использованием SAS Enterprise Miner Вторая часть Москва — 2015

Витрина продвинутого курса "Прикладная аналитика с использованием SAS EM" (Часть II)

Embed Size (px)

Citation preview

Page 1: Витрина продвинутого курса "Прикладная аналитика с использованием SAS EM" (Часть II)

Обучение

Продвинутый курс

Прикладная аналитика с использованием SAS Enterprise Miner

Вторая

часть

Москва — 2015

Page 2: Витрина продвинутого курса "Прикладная аналитика с использованием SAS EM" (Часть II)

1

СОДЕРЖАНИЕ

ГЛАВА 6: РЕГРЕССИОННЫЕ МОДЕЛИ ……………………………………………… 1 Введение ……………………………………………………………………………………… 2 Какие типы моделей могут быть построены с помощью узла Regression? ……………………………………………………………………………………. 2.1 Модель с бинарной целевой переменной…………………………………. 2.2 Модель с порядковой целевой переменной …………………………….. 2.3 Модель с номинальной (неупорядоченной) целевой переменной………………………………………………………………………………………… 2.4 Модель с непрерывной целевой переменной ………………………….. 3 Обзор некоторых свойств узла Regression ………………………………… 3.1 Свойство Regression Type (Тип регрессионной модели) ………….. 3.2 Свойство Link Function (Связывающая функция) ……………………… 3.3 Свойство Selection Model (Модель отбора) ………………………………. 3.4 Свойство Selection Criterion (Критерий отбора) ………………………… 4 Практические примеры……………………………………………………………… 4.1 Логистическая регрессия для прогнозирования отклика на почтовую рассылку …………………………………………………………………………… 4.2 Регрессия для непрерывной целевой переменной …………………… 5 Выводы ………………………………………………………………………………………… 6 Приложение ………………………………………………………………………………… 7 Упражнения ………………………………………………………………………………… ГЛАВА 7: СРАВНЕНИЕ И ОБЪЕДИНЕНИЕ РАЗЛИЧНЫХ МОДЕЛЕЙ ….. 1 Введение ……………………………………………………………………………………… 2 Модели для бинарных целевых переменных: пример прогнозирования оттока ………………………………………………………………… 2.1 Логистическая регрессия для прогнозирования оттока ……………. 2.2 Модель дерева решений для прогнозирования оттока ……………. 2.3 Модель нейронной сети для прогнозирования оттока …………….. 3 Модели для порядковых целевых переменных: пример прогнозирования риска автоаварии …............................................. 3.1 Диаграммы прироста и проценты охвата для моделей с порядковыми целевыми переменными ………………………………………….. 3.2 Логистическая регрессия с пропорциональными шансами для прогнозирования риска в автостраховании ……………………………………..

4 4 5 5 9 16 20 21 21 22 25 43 59 62 78 88 89 92 93 93 94 97 99 101 105 106 107

Page 3: Витрина продвинутого курса "Прикладная аналитика с использованием SAS EM" (Часть II)

2

3.3 Модель дерева решений для прогнозирования риска в автостраховании ………………………………………………………………………………… 3.4 Модель нейронной сети для прогнозирования риска в автостраховании ………………………………………………………………………………… 4 Сравнение всех трех моделей для прогнозирования риска автоаварии….............................................…....................................... 5 Бустинг и объединение прогнозных моделей …........................... 5.1 Градиентный бустинг …………………………………………………………………… 5.2 Стохастический градиентный бустинг ………………………………………… 5.3 Применение бустинга с помощью узла Gradient Boosting ………… 5.4 Узел Ensemble ……………………………………………………………………………… 5.5 Сравнение эффективности применения методов градиентного бустинга и ансамбля для объединения моделей …………………………….. 6 Приложение к главе 7….................................................................. 6.1 Функция потерь: метод наименьших квадратов ………………………… 6.2 Функция потерь: метод наименьшего абсолютного отклонения 6.3 Функция потерь: метод М-оценки Хубера ………………………………….. 6.4 Функция потерь: метод логита ……………………………………………………. 7 Упражнения …................................................................................. ГЛАВА 8: АНАЛИЗ ПРИБЫЛЬНОСТИ КЛИЕНТОВ …………………………….. 1 Введение ……………………………………………………………………………………… 2 Acquisition Cost (Стоимость приобретения) ……………………………….. 3 Cost of Default (Убытки в результате дефолта) …………………………. 4 Revenue (Доход) ………………………………………………………………………….. 5 Profit (Прибыль) …………………………………………………………………………… 6 Optimum Cut-off Point (Оптимальная точка отсечки) …………………. 7 Альтернативные сценарии оценки отклика и риска ………………….. 8 Customer Lifetime Value (Пожизненная ценность клиента) ……….. 9 Дальнейшее применение полученных результатов ………………….. ГЛАВА 9: ВВЕДЕНИЕ В ПРОГНОЗНОЕ МОДЕЛИРОВАНИЕ НА ОСНОВЕ ТЕКСТОВЫХ ДАННЫХ ………………………………………………………… 1 Введение ……………………………………………………………………………………… 1.1 Квантификация текстовых данных: упрощенный пример …………. 1.2 Сокращение размерности и латентно-семантическое индексирование …………………………………………………………………………………

110 114 116 117 117 122 122 124 129 132 132 132 132 132 134 135 135 137 139 140 141 143 145 146 147 148 148 149 152

Page 4: Витрина продвинутого курса "Прикладная аналитика с использованием SAS EM" (Часть II)

3

1.3 Выводы по этапам квантификации текстовой информации ……… 2 Получение документов из Интернета …………………………………………. 2.1 %TMFILTER макрос ……………………………………………………………………….. 3 Создание набора данных SAS из текстовых файлов …………………… 4 Узел Text Import ……………………………………………………………………………. 5 Создание источника данных для text mining ………………………………. 6 Узел Text Parsing …………………………………………………………………………… 7 Узел Text Filter……………………………………………………………………………….. 7.1 Взвешивание частот ……………………………………………………………………… 7.2 Взвешивание термов ……………………………………………………………………. 7.3 Скорректированные частоты ……………………………………………………….. 7.4 Методы взвешивания частот ………………………………………………………. 7.5 Методы взвешивания термов ……………………………………………………… 8 Узел Text Topic………………………………………………………………………………. 8.1 Получение прогнозного уравнения с помощью выходного набора данных, созданного узлом Text Topic ………………………………….. 9 Узел Text Cluster……………………………………………………………………………. 9.1 Иерархическая кластеризация ……………………………………………………. 9.2 Максимизация ожидания ……………………………………………………………. 9.3 Использование узла Text Cluster …………………………………………………. 10 Упражнения…………………………………………………………………………………

157 159 159 161 164 165 166 172 172 172 172 173 173 179 184 186 187 188 196 201