18

Сергей Чернов — Yandex Data Factory — ICBDA 2015

  • Upload
    rusbase

  • View
    3.321

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Сергей Чернов — Yandex Data Factory — ICBDA 2015
Page 2: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Предсказание увольнения сотрудников с помощью больших данных Case Study

Реальный сектор

Page 3: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Основы бизнеса Яндекса

Дата центры

Большие данные

Машинное обучение

Школа анализа данных

4

Page 4: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Наша экспертиза

5

Будущее

Описательная аналитика

Диагностическая аналитика

Предсказательная аналитика

Предписывающая аналитика

Business Intelligence

Прошлое

Page 5: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Партнеры и клиенты в первый год работы

6

Page 6: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Прогнозирование намерений сотрудников уволиться

Завершенный проект

Page 7: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Описание проекта

Входные данные

▌  Анонимные данные о более чем

1000 сотрудниках из внутренней БД

за период с 2008 по 2012 год:

›  Общие данные о сотрудниках (пол, возраст, дата выхода на работу, должность, уровень дохода и т. д.)

›  Отпуска, больничные, отгулы, сверхурочные

›  Образование, тренинги, аттестации

›  Проектная деятельность (проекты, задачи, ошибки и т. д.)

Цель – оценить пригодность технологий и методик компании «Яндекс» в области Big Data и Machine Learning

для решения задач инженерной компании для снижения расходов на поиск и привлечение новых сотрудников.

8

Задача

▌  Построить модель прогнозирования

вероятности увольнения сотрудников и оценить

качество модели

▌  Оценить «вес» различных факторов в связи с

намерением уволиться

Page 8: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Входные данные от заказчика Основные данные о сотрудниках ▌  Пол, год рождения, дата выхода на работу

▌  Гражданство

▌  Дата увольнения, код причины увольнения

▌  Должность, изменения должности,

форма занятости

▌  Относительный уровень ЗП

▌  Образование, тренинги, уровень знания иностранного языка

▌  Отпуска, больничные, отгулы, сверхурочные

▌  Командировки

▌  Аттестации, квалификация

9

Проектная команда ▌  ID проекта, проектная команда

▌  Структура проектной команды,

проектное направление,

административное подчинение

Задачи, итерации и ошибки ▌  ID задачи, дата задачи, сложность задачи и т. д.

▌  ID ошибки, внешняя/внутренняя ошибка,

ID проверяющего

▌  Итерация, дата начала и дата окончания итерации

Входы в систему ▌  Здание, размер офиса

▌  Время входа, время выхода

Page 9: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Описание модели

▌  Увольнения прогнозировались на 2012 год отдельно для каждого квартала ▌  Использовался буферный период – 1 месяц ▌  Обучающая выборка строилась за период с 2008 года до начала соответствующего буферного периода ▌  Тип используемой модели – MatrixNet, более 250 факторов

10

Прогнозируемый период Кол-во

увольнений за период

Обучающая выборка Буферный период

01.01.2012 – 31.03.2012 ~20 01.01.2008 – 30.11.2011 01.12.2011 – 31.12.2011

Page 10: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Качество модели

▌  Точность прогноза модели превзошла первоначальные ожидания заказчика в 5 раз.

▌  Модель устойчива к переобучению

и чувствительна к изменению поведения сотрудников, т. е. применима на данных за другие периоды.

11

Ожидания заказчика

5 из топ-50 за год

Результаты

26 из топ-50 за год

Page 11: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Возможный способ расчета экономического эффекта

Затраты на поиск сотрудника ▌  Оплата услуг HR-агентства (15% от ЗП) ▌  Снижение производительности в первые 3

месяца. Коэффициент 0,5 ▌  Снижение объемов работ на период поиска (3

месяца). Коэффициент 0,5 ▌  Оплата тренингов и повышение квалификации

Затраты на удержание сотрудника ▌  Повышение зарплаты на 15-20% ▌  Оплата тренингов и повышение квалификации

сотрудника ▌  Изменение должности

12

Стоимость поиска нового сотрудника

= (3*0,5 + 3*0,5)*ставка + 0,15*12*ЗП

Стоимость удержания сотрудника

= (0.2*12)*ЗП

Page 12: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Пример расчета экономического эффекта

13

Предложение по удержанию   +15% ЗП  Отношение ставки к ЗП   3,5  ЗП специалиста в месяц, USD   2 000,00$  Ставка специалиста, USD в месяц   7 000,00$  Стоимость поиска нового сотрудника, USD   24 600,00$  Стоимость удержания сотрудника, USD   3 600,00$  

Текущие затраты   Кол-во уволившихся*Стоимость поиска нового сотрудника  

Затраты с использованием прогноза  (Кол-во уволившихся-TP)*Стоимость поиска нового сотрудника+(ТP+FP)*Стоимость удержания  

2012 год   Кол-во уволившихся  

Top-60  

Текущие затраты   Затраты с использованием прогноза   Экономия  TP   FP  1-й квартал   20   12   48   492 000,00$   412 800,00$   79 200,00$  2-й квартал   22   7   53   541 200,00$   585 000,00$   -43 800,00$  3-й квартал   24   14   46   590 400,00$   462 000,00$   128 400,00$  4-й квартал   23   14   46   565 800,00$   437 400,00$   128 400,00$  Итого:               2 189 400,00$   1 897 200,00$   292 200,00$  

Page 13: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Наиболее полезные данные

▌  Изменение роли в проекте ▌  Количество посещенных тренингов, продолжительность тренингов ▌  Количество отгулов ▌  Больничные ▌  Переработки ▌  Изменение проектного направления

14

Page 14: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Что еще умеет Yandex Data Factory? ▌  Поведенческая аналитика

›  Данные: профили клиентов, транзакции, заказы, история покупок, данные биллинга, click-stream и т. д.

›  Решения: сегментация, поведенческие паттерны, персонализированные предложения, “next best offer”, и т. д.

▌  Временные ряды и аномалии ›  Данные: телеметрия, счетчики потребления, исторические данные о событиях ›  Решения: выявление мошенничества, оптимизация технического обслуживания,

предсказание спроса и т. д. ▌  Пространственная (geospatial) аналитика

›  Данные: геолокационные данные, данные о движении транспорта, маршруты и т. д. ›  Решения: оптимизация логистики, управление дорожной сетью, прогнозирование

проходимости магазинов ▌  Распознавание речи, компьютерное зрение

15

Page 15: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Тел: +7 495 739-70-00 Факс: +7 495 739-70-70 yandexdatafactory.com [email protected] 119021, Москва ул. Льва Толстого, 16 Россия

16

Page 16: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Другие применения в управлении персоналом

Page 17: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Скрининг персонала Проблема: у заказчика большая филиальная сеть со

значительным количеством линейного персонала,

выполняющего рутинные операции. Для поддержания

эффективности и снижения потерь, вызванных

«человеческим фактором», необходим постоянный

мониторинг.

Данные заказчика ▌  Данные систем контроля доступа

▌  Логи операций (телефонные звонки, чеки, отметки

электронной очереди и т. п.)

▌  Аудиозаписи (для колл-центров)

▌  Данные геолокации для «полевого» персонала 18

Наши технологии ›  Сегментация и микросегментация

›  Выявление поведенческих паттернов

›  Обнаружение аномалий

›  Распознавание речи

Результаты ›  Автоматизированный мониторинг деятельности

линейного персонала

›  Выявление аномалий, данные для оценки

производительности и рисков

Page 18: Сергей Чернов — Yandex Data Factory — ICBDA 2015

Повышение эффективности колл-центра

Проблема: в ходе работы колл-центра накапливаются

терабайты аудиозаписей, которые хранятся, но

используются лишь для разбора конфликтных ситуаций,

менее 1% записей анализируется вручную для контроля

качества обслуживания.

Данные заказчика ▌  Записи разговоров

▌  Скрипты, инструкции, регламенты для операторов

19

Наши технологии ›  Распознавание речи (ограниченный словарь)

›  Распознавание эмоциональной окраски

›  Анализ текстов

Результаты ›  Автоматическая оценка качества работы оператора,

соответствия инструкциям и скриптам, динамики

эмоций звонившего клиента.

Поиск по ключевым словам в разговорах