Автоматизация подбора: оценка кандидатов с использованием методов машинного обучения

Пилоты HRM:Общие подходы и краткий обзор результатов

Управление инструментов и моделейДепартамента интегрированного риск-менеджмента, СбербанкЦК исследований и разработки моделей, СберТех

2

Особенности моделей HRM

1. В большом количестве развитых стран существуют законы, направленные на борьбу с расовой, религиозной, половой и возрастной дискриминацией. Подобные законы затрагивают не только вопросы HRM (управление персоналом), но и такие сферы как розничное кредитование (напр., ECOA в США, Закон о равных кредитных возможностях, от 1974 г.). В общем случае такие законы предъявляют требования к интерпретируемости моделей

2. В настоящее время, в связи с бурным развитием ML-технологий, в ряде юрисдикций принимаются законы, направленные на регулирование защиты персональной информации (см .например, GDPR, General Data Protection Regulation), при этом акценты постепенно смещаются с вопросов сбора, хранения и обработки данных, на вопрос принятия решения в широком круге задач (инициативы типа European Union regulations on algorithmic decision-making). Ключевое требование этих инициатив – интерпретируемость моделей (“right to explanation”)

Корпорации, действующие в нескольких юрисдикциях, из-за особенностей международного корпоративного права и бизнес-соображений, вынуждены вырабатывать общие подходы (в том числе в моделировании), которые легко тиражировать

3

Проблемы разработки интерпретируемых моделей. Часть 1

Существует лишь два класса моделей, позволяющих создавать интерпретируемые модели: регрессионные подходы и деревья решений. Каждый из них имеет свои преимущества и недостатки. Деревья решений Регрессионные подходы

(параметрические)Способ решения проблемы при использовании регрессионных подходов

Более эффективны, когда взаимосвязь между предиктором и зависимой переменной является нелинейной

Более эффективны, если связь носит линейный характер

Конструирование сложных признаков, построение моделей на основе WOE, а не исходных переменных (При конструировании сложных признаков и при дискретизации признаков на основе WOE часто используются деревья решений)

Эффективны в задачах, где есть взаимодействие высоких порядков

Не позволяют выявить факт такого взаимодействия, если аналитик не решит проверить такую гипотезу, создав соответствующие признаки, или не проведет разведочный анализ с использованием других методов анализа

Использование кроссов и/или сплайнов (если использования WOE недостаточно для учета нелинейности взаимодействия). Примечание: в задачах HRM, СRM, кредитного скоринга требуется очень редко, но часто необходимо в биомедицинских задачах

4

Проблемы разработки интерпретируемых моделей. Часть 2Деревья решений Регрессионные подходы

(параметрические)Способ решения проблемы при использовании регрессионных подходов

Эффективнее, если есть большое количество коррелированных переменных

Методы пошаговой регрессии эффективно работают, пока задача хорошо обусловлена (в частности, если низкий VIF)

Отказ от отбора переменных с помощью пошаговых методов: отбор переменных с помощью Random Forest по Variable Importance плюс использование L2-регуляризации при определении весов, использование L1-регуляризации или Elastic Net, позволяющих отбирать переменные и т.д. (есть несколько подходов, дающих практически идентичное качество)

Эффективно справляются с задачами, где сравнительно много аномальных значений

Зависит от метода (наиболее чувствительны к выбросам методы, использующие МНК)

Использование робастных регрессионных методов (логрегрессия), построение моделей на основе WOE, а не исходных переменных, использование эвристик типа "logical WOE"

Наглядны, но модель обычно нельзя выразить в виде простого решающего правила

Менее наглядны, но легко интерпретируются, модель можно выразить в виде простого решающего правила (легко внедрять, легко тестировать, легко проверять соответствие предметной экспертизе)

При внедрении аналитики в операционный контур регрессионные подходы предпочтительнее, если невозможно обеспечить бесшовное внедрение. Однако деревья решений могут быть очень ценны в некоторых задачах разведочного анализа, где ценна именно наглядность

5

Проблемы разработки интерпретируемых моделей. Часть 3

Деревья решений Регрессионные подходы(параметрические)

Способ решения проблемы при использовании регрессионных подходов

Хорошо справляются с задачами, где переменные имеют несимметричные распределения

Могут быть чувствительны к выполнению предпосылок регрессионных методов

В зависимости от задачи - предварительное преобразование переменных, имеющих тяжелые хвосты (логарифмирование, извлечение кубического корня или более сложная трансформация), использование ансамбля из дерева решения и логрегрессии (в задачах с U-образным распределением) и т.п.

Чувствительны, но нестабильны (в CHAID выбор разбиения при расщеплении узла делается в пользу переменных, у которых большее количество уровней и т.д.), склонны к переобучению (RF решает проблему переобучения, но делает модель практически неинтерпретируемой)

Логрегрессия отличается меньшей чувствительностью, но высокой робастностью

В задачах с большим окном созревания (perfomance window), где зависимости могут меняться за время наблюдения, регрессионные методы, как правило, предпочтительнее (задачи HRM, кредитный скоринг, актуарные задачи, биомедицинские задачи). При использовании чувствительных подходов есть риск, что будет найдена зависимость, которая была когда-то в прошлом, но никогда не повторится в будущем

Кейс 1. Благонадежность кандидатов – борьба с внутренним фродом

7

Постановка задачи:

Разработать статистическую модель оценки риска благонадёжности кандидатов массовых специальностей для регулярного использования на этапе подбора персонала на основе данных HR, внутренних данных банка (риски) и данных из внешних источников.

Два определения целевой переменной:Базовое определение : увольнение по факту совершения мошеннических действий, либо факт увольнения по инициативе работодателя по статьям, отражающим неблагонадёжность сотрудника· – нарушение правил указанных в ТД· – неоднократное неисполнение трудовых обязанностей· – разглашение тайны· – хищение или уничтожение чужого имущества· – нарушения, повлёкшие тяжёлые последствия· – утрата доверия· – нанесение ущерба имуществу· – однократное грубое нарушение трудовых обязанностей· – предоставление ложных сведений· – по приговору суда· – дисквалификация, административное наказание

Расширенное определение: кейсы казуального фрода персонала.(навязывание услуг, подключение автоплатежа без ведома клиента и т.д.)

При разработке модели на внутренних данных подтвердилась гипотеза о том, что профили риска (в части социально-демографических факторов) по расширенному определению мошенничества совпадают с профилями по более серьёзным случаям, приводящим к увольнению.

!

8

Доступные данные:

Данные кадровой учетной системы

Данные внутренней и внешней кредитной истории

Данные Кредитной Фабрики

2. Некоторые данные кадровой учетной системы (проблемы с выгрузкой данных)

3. Данные, на обработку которых кандидаты не давали согласия на момент устройства на работу

В моделях нельзя было использовать:

!1. Данные по результатам психологического тестирования кандидатов. (тестирование в новом формате было запущено сравнительно недавно)

9

Основные результаты:

• Удалось разработать модель стабильно хорошего качества (коэффициент Джини до 50 в зависимости от определения мошенничества).

• Удалось обеспечить улучшение (~12 ед. Джини) модели выявления «базового» фрода за счёт использования дополнительных внешних данных (бюро). На графике красным (Джини ~ 47) обозначена модель базового фрода на внутренних данных, синим (Джини ~ 40) - модель на данных Бюро и зеленым (Джини ~ 59) интегральная модель.

№ Выборка Определение фрода

Коэффициент Джини

2 Тестовая Расширенное 50.44 Тестовая Базовое 47.2

10

Качество модели на внутренних данных – детально:

Доля клиентов с низким баллом

Доля фрода по базовому

определению

Доля фрода по расширенному определению

5% 19.0% 16.9%10% 31.9% 28.3%15% 39.9% 41.1%20% 42.9% 45.9%25% 52.1% 57.2%30% 56.4% 62.3%35% 59.5% 67.5%40% 65.0% 70.9%45% 69.3% 77.2%50% 71.2% 79.0%

Отказав в приеме на работу всего 5 % кандидатов с наиболее низкой оценкой благонадежности, можно избавиться от 17-20% потенциальных мошенников. Отказав 10% - от 30% потенциальных фродстеров. (Использование данных бюро несколько улучшает оценку, но на порядок величин влияния не оказывает)

11

1. Вероятность мошенничества персонала значимо не коррелирует с внутренней кредитной истории СБРФ: потенциальные мошенники не портят отношения с банком ДО устройства на работу.

2. Внешняя кредитная история оказалась существенной для выявления серьезного мошенничества (базовое определение фрода), но не позволяет улучшить модель выявления менее серьезных нарушений (расширенное определение фрода). При этом в модель благонадежности персонала вошли агрегаты КИ, которые НЕ входят в модели БКИ, применяющиеся в кредитном процессе.

Связь есть – но другая. Для оценки благонадежности персонала требуется разрабатывать отдельные модели.

3. Анализ вошедших в модель благонадежности данных внешней кредитной истории указывает, что на благонадежность персонала могут влиять факторы, которые можно назвать «способность потенциального сотрудника жить по средствам» или «финансовая дисциплина» : отсутствие серьезных просрочек, длительный опыт выплаты кредитов, имеющийся на момент трудоустройства, способность контролировать собственную кредитную нагрузку и т.д.. Возможно, такие качества можно выявлять в ходе тестирования при приеме на работу (отношение к отложенному вознаграждению, модель потребления и т.д.)

Немного о частных результатах (часть 1):

12

4. Вероятность мошенничества персонала при массовом подборе ПОВЫШАЕТСЯ при повышении дохода. Дело в том, что наименее оплачиваемый (низовой) персонал просто технически не имеет возможности совершать серьезные виды мошенничества, это следует учитывать при внедрении технологии и стоит исследовать отдельно. Есть также веские основания полагать, что на мошенничество людей толкает скорее стремление к «красивой жизни», чем нужда (также с учетом п.3).

5. Модель кредитного антифрод (FDC) не позволяет улучшить модель благонадежности кандидата. Еще раз акцентируем внимание, что для оценки благонадежности персонала требуется разрабатывать отдельные модели, т.к. на вероятность мошенничества сотрудников влияют иные факторы, чем в кредитовании.

6. Остальные результаты сравнительно тривиальны: зрелые люди реже идут на мошенничество, чем молодежь, семейные и вдовые люди более благонадежны, наличие большого стажа по профессии положительно характеризует кандидатов, специалисты, которые устраиваются на почасовую оплату менее надежны, чем те, кто устраивается работать по постоянному контракту. Все это верно и для базового и для расширенного определения мошенничества.

Немного о частных результатах (часть 2):

Кейс 2. Выявление факторов, влияющих на эффективность подразделений центрального аппарата банка

14

Постановка задачи, доступные данные, результат

Задача: исследовать, как атрибуты сотрудников подразделения влияют на эффективность подразделения

Источники данных: данные кадровой системы SAP (анкетные данные, отпуска и т.д.), данные о трудовой дисциплине, результаты анкетирования, данные Скоринговой Платформы

Целевая переменная: эффективность подразделения. Определялась через оценку руководителя подразделения

Модель строилась на данных первых трех кварталов 2015 года (25360 записей, 1027 «плохих)» и тестировалась на данных 4 кв. 2015 и 1 кв. 2016 (19708 записей, 1156 «плохих») - из-за проблем с качеством данных применялся подход, подобный технике oversampling. Часть данных анализировалась отдельно с использованием непараметрических статистик с поправками на малое количества наблюдений

Удалось разработать стабильную модель среднего качества (Gini 0,3). Примечание: для проведения тонкого анализа переменная Блок исключалась, так как этот фактор сам по себе хорошо определяет исход (качество порядка 0,5).

15

Некоторые результаты интерпретации модели

1. Крайне негативно влияют на результативность подразделения значительные переработки (свыше 11 часов) сотрудников. Вероятно, это ранний индикатор проблем, связанных с системными просчетами при реализации критичных проектов и инициатив или попытками решить задачи, для которых в подразделении отсутствуют компетенции или ресурсы. Для того, чтобы исключить вариант «точечная нехватка ресурсов в небольшом подразделении ухудшает оценку» строилась отдельная модель на данных, из которых были исключены руководители низового звена (менее 12 подчиненных). Переменная оставалась значимой и в таком случае.

2. Негативно сказывается на работе подразделения наличие работников, имеющих стаж в СБРФ менее семи месяцев - сотрудникам требуется время, чтобы войти в курс дел и т.д. Наиболее эффективны сотрудники в первые 3 года, затем результативность снижается (интересно, что принцип UP or OUT в некоторых западных компаниях также оперирует границей в 3 года). Причины этого (потеря мотивации, увольнение людей, которые не видят для себя перспективы) требуется выяснять отдельно. Высокую эффективность показывают также люди, проработавшие в аппарате более 18 лет. Предположительно, очень высокая текучка или взрывной рост численности подразделения в короткие сроки может иметь негативные последствия для эффективности подразделения. Также важно соблюдать баланс между наличием кадрового ядра и обновлением/ротацией персонала.

16

Некоторые результаты интерпретации модели 2

3. Положительно на эффективность работы подразделение сказывается наличие у сотрудников ипотеки, если выплаты по ипотечному кредиту составляют значительную часть его дохода. Вероятно, в этом случае сотрудники сильнее опасаются потерять работу.

4. Негативно сказываются на работе подразделения длительные отпуски (свыше 16 дней) сотрудников (аппарата). По видимому, либо за время длительного отсутствия ключевых специалистов происходят какие-то негативные события и отсутствие этих сотрудников приводит к неэффективному решению возникших вопросов, либо специалистам потом труднее вернуться в рабочий график. Необходимо исследовать отдельно.

5. Негативно сказывается на работе подразделения наличие в нем сотрудников, которые часто отсутствуют на работе (менее 54 отработанных дней за квартал). Необходимо исследовать отдельно.

Data & Analytics

Автоматизация подбора: оценка кандидатов с использованием методов машинного обучения