Upload
rusbase
View
3.321
Download
1
Embed Size (px)
Citation preview
Предсказание увольнения сотрудников с помощью больших данных Case Study
Реальный сектор
Основы бизнеса Яндекса
Дата центры
Большие данные
Машинное обучение
Школа анализа данных
4
Наша экспертиза
5
Будущее
Описательная аналитика
Диагностическая аналитика
Предсказательная аналитика
Предписывающая аналитика
Business Intelligence
Прошлое
Партнеры и клиенты в первый год работы
6
Прогнозирование намерений сотрудников уволиться
Завершенный проект
Описание проекта
Входные данные
▌ Анонимные данные о более чем
1000 сотрудниках из внутренней БД
за период с 2008 по 2012 год:
› Общие данные о сотрудниках (пол, возраст, дата выхода на работу, должность, уровень дохода и т. д.)
› Отпуска, больничные, отгулы, сверхурочные
› Образование, тренинги, аттестации
› Проектная деятельность (проекты, задачи, ошибки и т. д.)
Цель – оценить пригодность технологий и методик компании «Яндекс» в области Big Data и Machine Learning
для решения задач инженерной компании для снижения расходов на поиск и привлечение новых сотрудников.
8
Задача
▌ Построить модель прогнозирования
вероятности увольнения сотрудников и оценить
качество модели
▌ Оценить «вес» различных факторов в связи с
намерением уволиться
Входные данные от заказчика Основные данные о сотрудниках ▌ Пол, год рождения, дата выхода на работу
▌ Гражданство
▌ Дата увольнения, код причины увольнения
▌ Должность, изменения должности,
форма занятости
▌ Относительный уровень ЗП
▌ Образование, тренинги, уровень знания иностранного языка
▌ Отпуска, больничные, отгулы, сверхурочные
▌ Командировки
▌ Аттестации, квалификация
9
Проектная команда ▌ ID проекта, проектная команда
▌ Структура проектной команды,
проектное направление,
административное подчинение
Задачи, итерации и ошибки ▌ ID задачи, дата задачи, сложность задачи и т. д.
▌ ID ошибки, внешняя/внутренняя ошибка,
ID проверяющего
▌ Итерация, дата начала и дата окончания итерации
Входы в систему ▌ Здание, размер офиса
▌ Время входа, время выхода
Описание модели
▌ Увольнения прогнозировались на 2012 год отдельно для каждого квартала ▌ Использовался буферный период – 1 месяц ▌ Обучающая выборка строилась за период с 2008 года до начала соответствующего буферного периода ▌ Тип используемой модели – MatrixNet, более 250 факторов
10
Прогнозируемый период Кол-во
увольнений за период
Обучающая выборка Буферный период
01.01.2012 – 31.03.2012 ~20 01.01.2008 – 30.11.2011 01.12.2011 – 31.12.2011
Качество модели
▌ Точность прогноза модели превзошла первоначальные ожидания заказчика в 5 раз.
▌ Модель устойчива к переобучению
и чувствительна к изменению поведения сотрудников, т. е. применима на данных за другие периоды.
11
Ожидания заказчика
5 из топ-50 за год
Результаты
26 из топ-50 за год
Возможный способ расчета экономического эффекта
Затраты на поиск сотрудника ▌ Оплата услуг HR-агентства (15% от ЗП) ▌ Снижение производительности в первые 3
месяца. Коэффициент 0,5 ▌ Снижение объемов работ на период поиска (3
месяца). Коэффициент 0,5 ▌ Оплата тренингов и повышение квалификации
Затраты на удержание сотрудника ▌ Повышение зарплаты на 15-20% ▌ Оплата тренингов и повышение квалификации
сотрудника ▌ Изменение должности
12
Стоимость поиска нового сотрудника
= (3*0,5 + 3*0,5)*ставка + 0,15*12*ЗП
Стоимость удержания сотрудника
= (0.2*12)*ЗП
Пример расчета экономического эффекта
13
Предложение по удержанию +15% ЗП Отношение ставки к ЗП 3,5 ЗП специалиста в месяц, USD 2 000,00$ Ставка специалиста, USD в месяц 7 000,00$ Стоимость поиска нового сотрудника, USD 24 600,00$ Стоимость удержания сотрудника, USD 3 600,00$
Текущие затраты Кол-во уволившихся*Стоимость поиска нового сотрудника
Затраты с использованием прогноза (Кол-во уволившихся-TP)*Стоимость поиска нового сотрудника+(ТP+FP)*Стоимость удержания
2012 год Кол-во уволившихся
Top-60
Текущие затраты Затраты с использованием прогноза Экономия TP FP 1-й квартал 20 12 48 492 000,00$ 412 800,00$ 79 200,00$ 2-й квартал 22 7 53 541 200,00$ 585 000,00$ -43 800,00$ 3-й квартал 24 14 46 590 400,00$ 462 000,00$ 128 400,00$ 4-й квартал 23 14 46 565 800,00$ 437 400,00$ 128 400,00$ Итого: 2 189 400,00$ 1 897 200,00$ 292 200,00$
Наиболее полезные данные
▌ Изменение роли в проекте ▌ Количество посещенных тренингов, продолжительность тренингов ▌ Количество отгулов ▌ Больничные ▌ Переработки ▌ Изменение проектного направления
14
Что еще умеет Yandex Data Factory? ▌ Поведенческая аналитика
› Данные: профили клиентов, транзакции, заказы, история покупок, данные биллинга, click-stream и т. д.
› Решения: сегментация, поведенческие паттерны, персонализированные предложения, “next best offer”, и т. д.
▌ Временные ряды и аномалии › Данные: телеметрия, счетчики потребления, исторические данные о событиях › Решения: выявление мошенничества, оптимизация технического обслуживания,
предсказание спроса и т. д. ▌ Пространственная (geospatial) аналитика
› Данные: геолокационные данные, данные о движении транспорта, маршруты и т. д. › Решения: оптимизация логистики, управление дорожной сетью, прогнозирование
проходимости магазинов ▌ Распознавание речи, компьютерное зрение
15
Тел: +7 495 739-70-00 Факс: +7 495 739-70-70 yandexdatafactory.com [email protected] 119021, Москва ул. Льва Толстого, 16 Россия
16
Другие применения в управлении персоналом
Скрининг персонала Проблема: у заказчика большая филиальная сеть со
значительным количеством линейного персонала,
выполняющего рутинные операции. Для поддержания
эффективности и снижения потерь, вызванных
«человеческим фактором», необходим постоянный
мониторинг.
Данные заказчика ▌ Данные систем контроля доступа
▌ Логи операций (телефонные звонки, чеки, отметки
электронной очереди и т. п.)
▌ Аудиозаписи (для колл-центров)
▌ Данные геолокации для «полевого» персонала 18
Наши технологии › Сегментация и микросегментация
› Выявление поведенческих паттернов
› Обнаружение аномалий
› Распознавание речи
Результаты › Автоматизированный мониторинг деятельности
линейного персонала
› Выявление аномалий, данные для оценки
производительности и рисков
Повышение эффективности колл-центра
Проблема: в ходе работы колл-центра накапливаются
терабайты аудиозаписей, которые хранятся, но
используются лишь для разбора конфликтных ситуаций,
менее 1% записей анализируется вручную для контроля
качества обслуживания.
Данные заказчика ▌ Записи разговоров
▌ Скрипты, инструкции, регламенты для операторов
19
Наши технологии › Распознавание речи (ограниченный словарь)
› Распознавание эмоциональной окраски
› Анализ текстов
Результаты › Автоматическая оценка качества работы оператора,
соответствия инструкциям и скриптам, динамики
эмоций звонившего клиента.
Поиск по ключевым словам в разговорах