20
104 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012 ОПИСАНИЕ МЕТОДА Рассмотрим метод деревьев решений в целом. Дерево решений обычно строится следующим обра- зом. Сначала берутся все наблюдения (в нашем слу- чае заемщики), которые представлены в виде корне- вой вершины (корневого узла). Затем определяются правила разбиения всего множества наблюдений, соответствующих корневому узлу, на ветви (группы). Правила представляют собой логические конструк- ции вида «если… то…», а в роли правил выступают переменные (например возраст, доход заемщика). Ветви образуют дерево, повернутое кроной вниз. На ветвях дерева отмечают узлы, соответствующие подмножеству наблюдений. На каждом узле снова определяются правила разбиения на ветви, и так до тех пор, пока процесс не дойдет до конечных (терминальных) узлов — символических листьев дерева, соответствующих найденным решениям. Метод может быть использован для решения ряда задач, таких как: сегментация — классифицирует объекты на основе вероятности их попадания в отдельный класс (группу); Груздев Артем Владимирович — директор исследо- вательской компании «Гевисста» (г. Москва) КЛЮЧЕВЫЕ СЛОВА: дерево решений, классификация, рейтинг, кредитный риск, переменная В статье пойдет речь о методе деревьев решений (деревьев классификации), ис- пользуемом для добычи данных и разведывательного анализа (data mining) и об- работки больших массивов информации. Применительно к скорингу деревья ре- шений позволяют оценить вероятность дефолта заемщика, группируя клиентов по одной из переменных так, чтобы группы были максимально дифференцирова- ны по величине кредитного риска. ПРИМЕНЕНИЕ МЕТОДА ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА БАНКОВСКИЕ РИСКИ: ТЕОРИЯ, ПРАКТИКА, МЕТОДОЛОГИЯ

Деревья решений в скоринге

Embed Size (px)

DESCRIPTION

Statistical methods

Citation preview

Page 1: Деревья решений в скоринге

104 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012

ОПИСАНИЕ МЕТОДА

Рассмотрим метод деревьев решений в целом. Дерево решений обычно строится следующим обра-зом. Сначала берутся все наблюдения (в нашем слу-чае заемщики), которые представлены в виде корне-вой вершины (корневого узла). Затем определяются правила разбиения всего множества наблюдений, соответствующих корневому узлу, на ветви (группы). Правила представляют собой логические конструк-ции вида «если… то…», а в роли правил выступают переменные (например возраст, доход заемщика). Ветви образуют дерево, повернутое кроной вниз. На ветвях дерева отмечают узлы, соответствующие подмножеству наблюдений. На каждом узле снова определяются правила разбиения на ветви, и так до тех пор, пока процесс не дойдет до конечных (терминальных) узлов — символических листьев дерева, соответствующих найденным решениям.

Метод может быть использован для решения ряда задач, таких как:

сегментация — классифицирует объекты на основе вероятности их попадания в отдельный класс (группу);

Груздев Артем Владимирович — директор исследо-

вательской компании «Гевисста» (г. Москва)

КЛЮЧЕВЫЕ СЛОВА: дерево решений, классификация, рейтинг, кредитный риск, переменная

В статье пойдет речь о методе деревьев решений (деревьев классификации), ис-

пользуемом для добычи данных и разведывательного анализа (data mining) и об-

работки больших массивов информации. Применительно к скорингу деревья ре-

шений позволяют оценить вероятность дефолта заемщика, группируя клиентов

по одной из переменных так, чтобы группы были максимально дифференцирова-

ны по величине кредитного риска.

ПРИМЕНЕНИЕ МЕТОДА ДЕРЕВЬЕВ РЕШЕНИЙ

ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

БАНКОВСКИЕ РИСКИ:

ТЕОРИЯ, ПРАКТИКА,

МЕТОДОЛОГИЯ

Page 2: Деревья решений в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012 105

стратификация — отбирает наблюдения в одну из нескольких категорий (группа с высоким, средним, низким риском);

прогноз — определяет правила и использу-ет их для того, чтобы предсказать будущие собы-тия, например вероятность того, что кто-то не сможет расплатиться по кредиту;

сокращение объема данных и отбор пере-менных — осуществляет выбор полезных преди-кторов из огромного набора переменных, чтобы использовать их для построения формальной па-раметрической модели;

идентификация взаимодействий — выяв-ляет взаимосвязи, которые характерны лишь для отдельных подгрупп, и определяет их в формаль-ной параметрической модели;

объединение категорий и дискретизация не-прерывных переменных — выполняет перекоди-ровку категорий предиктора и непрерывных пе-ременных с минимальной потерей информации.

Метод деревьев решений обладает замеча-тельными свойствами, а именно:

1) позволяет идентифицировать однородные группы с высоким и низким риском;

2) реализует эту функцию в удобной для нас форме.

Зависимые и незавиcимые переменные, ис-пользуемые при анализе деревьев решений, мо-гут быть количественными, порядковыми и номи-нальными.

В настоящей статье речь пойдет об использо-вании метода деревьев решений для оценки кре-дитоспособности заемщиков.

ПОДГОТОВКА ДАННЫХ ДЛЯ МОДЕЛИ

Рассмотрим ситуацию: отдел кредитования банка хочет определить категории заемщиков с точки зрения возможных кредитных рисков. Ос-новываясь на различных факторах, включая уже известный нам кредитный рейтинг 2464 прошлых заемщиков (далее «Хороший» и «Плохой»), мы с помощью метода деревьев решений построим

модель, предсказывающую, насколько вероятен дефолт у новых клиентов. Для моделирования ис-пользовалась программа IBM SPSS Statistics 19.0.

Объект исследования: данные о 2464 клиен-тах, которые уже воспользовались кредитом (обу-чающая выборка).

Независимые переменные: возраст клиента, его образование, доход, количество кредитных карт, количество автокредитов и пр. (в данном демон-страционном примере модель упрощена до пяти переменных).

Зависимая переменная: наличие / отсутствие у клиента долгов по ранее взятому кредиту.

Клиент: физическое лицо, владелец кредит-ной карты банка, обратившийся за кредитом и за-полнивший анкету установленного образца.

НАСТРОЙКА И ЗАПУСК ПРОЦЕДУРЫ

АНАЛИЗА

Чтобы запустить процедуру «Деревья класси-фикации» в программе IBM SPSS Statistics 19.0:

выберите в меню «Analyze / Анализ»; выберите «Classify / Классификация»; выберите «Tree / Деревья классификации»; поместите переменную «Рейтинг» в поле

для зависимых переменных «Dependent Variable / Зависимая переменная»;

поместите все остальные переменные в об-ласть «Independent Variables / Независимые пере-менные»;

в поле «Growing Method / Метод построе-ния» выберите CHAID.

Теперь, как показано на рис. 1: поместите переменную «Рейтинг» в поле

для зависимых переменных «Dependent Variable / Зависимая переменная»;

поместите все остальные переменные в об-ласть «Independent Variables / Независимые пере-менные»;

в поле «Growing Method / Метод построе-ния» выберите CHAID;

щелкните кнопку «Categories / Категории».

ПРИМЕНЕНИЕ МЕТОДА ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

Page 3: Деревья решений в скоринге

106 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012

Далее действуйте, как показано на рис. 2: выберите целевую категорию, установив

флажок напротив категории «Плохой», для обна-ружения характеристик ненадежных заемщиков;

нажмите «Continue / Продолжить».Затем задайте критерии, как показано на рис. 3: откройте вкладку «Criteria / Критерии» в ди-

алоговом окне «Classification Tree / Деревья клас-сификации»;

в открывшейся вкладке «Classification Tree: Criteria / Деревья классификации: критерии» вы-берите «Growth Limits / Ограничения на размер дерева»;

в поле «Minimum Number of Cases / Мини-мум наблюдений в узле» введите 400 для «Parent Node / Узел-отец (узел-родитель)» и 200 для «Child Node / Узел-сын (узел-потомок»);

нажмите «Continue / Продолжить».Задайте вид дерева, как показано на рис. 4: откройте вкладку «Output / Вывод» в диа-

логовом окне «Classification Tree / Деревья

классификации» (здесь можно выбрать различ-ные виды вывода результатов анализа);

в открывшейся вкладке «Classification Tree: Output / Деревья классификации: вывод» выбери-те «Tree / Дерево»;

поставьте флажок «Tree in table format / Де-рево в табличном формате».

Задайте параметры узла, как показано на рис. 5: во вкладке «Classification Tree: Output / Де-

ревья классификации: вывод» выберите «Plots / Графики»;

выберите «Gain / Выигрыш» и «Index / Ин-декс»;

нажмите «Continue / Продолжить».Установите сохраняемые переменные, как по-

казано на рис. 6: откройте вкладку «Save / Сохранить» в диа-

логовом окне «Classification Tree / Деревья класси-фикации»;

в открывшейся вкладке «Classification Tree: Save / Деревья классификации: сохранить» в поле

Груздев А.В.

Рис. 1. Запуск процедуры «Деревья классификации»

Page 4: Деревья решений в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012 107

«Saved Variables / Сохраняемые переменные» вы-берите «Terminal node number / Номер терми-нального узла», «Predicted value / Предсказанное значение» и «Predicted probabilities / Предсказан-ная вероятность»;

нажмите «Continue / Продолжить»; в диалоговом окне «Classification Tree / Де-

ревья классификации» нажмите OK.

ПОСТРОЕНИЕ МОДЕЛИ ДЕРЕВЬЕВ

КЛАССИФИКАЦИИ И ИНТЕРПРЕТАЦИЯ

Ниже представлены результаты деревьев классификации (для лучшего понимания дан рус-скоязычный перевод статистики). В табл. 1 приве-дена развернутая информация о спецификациях, использованных для построения модели. В графе

ПРИМЕНЕНИЕ МЕТОДА ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

Рис. 2. Выбор целевой категории

Рис. 3. Критерии дерева классификации

Page 5: Деревья решений в скоринге

108 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012

Груздев А.В.

Рис. 4. Вид дерева

Рис. 5. Параметры узла

Page 6: Деревья решений в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012 109

ПРИМЕНЕНИЕ МЕТОДА ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

Рис. 6. Сохраняемые переменные

Спецификации

Метод построения CHAID

Зависимая переменная Кредитный рейтинг

Независимые переменные«Возраст», «Уровень дохода», «Количество кре-дитных карт», «Уровень образования», «Количе-

ство автокредитов»

Проверка Нет

Максимальное количество уровней в дереве 3

Минимальное количество наблюдений в узле-отце 400

Минимальное количество наблюдений в узле-сыне 200

Результаты

Включенные независимые переменные «Уровень дохода», «Количество кредитных карт», «Возраст»

Количество узлов 10

Количество терминальных узлов 6

Количество уровней 3

Таблица 1. Сводка для модели

Page 7: Деревья решений в скоринге

110 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012

«Спецификации» дана информация о настройках, использованных для построения модели, вклю-чая переменные для анализа, в графе «Результа-ты» — информация о количестве терминальных узлов, глубине дерева (количестве уровней, ле-жащих ниже корня) и независимых переменных, включенных в итоговую модель.

Пять независимых переменных были изна-чально определены для анализа, но лишь три включены в итоговую модель. Это означает, что переменные «Уровень образования» и «Количе-ство автокредитов» не вносят статистически зна-чимого вклада в модель и автоматически исклю-чены из анализа.

Диаграмма дерева (рис. 7) графически пред-ставляет нашу модель и показывает следующее:

переменная «Уровень дохода» стала луч-шим предиктором кредитного рейтинга;

для категории «Низкий доход» уровень до-хода — единственно значимый предиктор дефол-та (82% клиентов в этой категории имели долги по кредиту), а поскольку ниже узлов-сыновей нет, то эта категория является терминальным узлом;

для категорий «Средний доход» и «Высокий доход» следующим лучшим предиктором стала переменная «Количество кредитных карт»;

для клиентов из категории «Средний до-ход», у которых три и более кредитных карты, мо-дель включила еще один предиктор — «Возраст». Свыше 80% клиентов моложе 28 лет со средним доходом и количеством кредитных карт три и бо-лее имеют плохой кредитный рейтинг.

В таблице дерева (табл. 2) приводится самая существенная информация диаграммы. Для каж-дого узла таблица показывает:

количество и процент наблюдений в каж-дой категории зависимой переменной;

спрогнозированную категорию зависимой переменной (в данном исследовании спрогнози-рованная категория — это категория «Кредитный рейтинг», поэтому есть лишь два возможных рей-тинга — «хороший» и «плохой»);

узел-отец для каждого узла дерева (заме-тим, что узел 1 — «Низкий уровень дохода» — не

является узлом-отцом ни для одного узла; это терминальный узел, поскольку он не имеет уз-лов-сыновей);

независимую переменную, использованную для разделения (разветвления) узла;

значение хи-квадрат (поскольку использо-вался метод CHAID), степени свободы (df — de-grees of freedom) и уровень значимости (Sig. —

significance) для разделения; в практических це-лях единственным интересующим нас показате-лем является уровень значимости, который для всех разветвлений меньше, чем 0,0001;

значение(я) независимой переменной для данного узла.

В рассматриваемом исследовании «Уровень дохода» принимает лишь три возможных значе-ния: «Низкий», «Средний» и «Высокий». «Низкий, средний» означает «Средний», а «>Средний» оз-начает «Высокий».

Таблица выигрышей для узлов (табл. 3) содер-жит общую информацию о терминальных узлах нашей модели. В ней приведены только терми-нальные узлы — узлы, в которых дерево остано-вилось в росте. Терминальный узел дает наилуч-ший классифицирующий прогноз. Поскольку зна-чения выигрышей содержат информацию о целе-вых категориях, то данная таблица доступна лишь в том случае, если вы определите одну целевую категорию или более.

В нашем примере это N и % — это количество и процент наблюдений с плохим кредитным рейтин-гом. Например, рассмотрим выигрыш для узла 1:

Выигрыш = (454 наблюдения в узле / 1020 наблю-дений в целевой категории) × 100% = 44,5%.

Для категориальных зависимых переменных отклик — это процент наблюдений в узле в зара-нее определенной целевой категории. В нашем примере это те же проценты, которые показаны в категории «Плохой» на диаграмме дерева.

Для категориальных зависимых переменных индекс — это отношение процента отклика в це-левой категории к проценту отклика в выборке в целом. Например, рассмотрим индекс для узла 1:

Груздев А.В.

Page 8: Деревья решений в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012 111

ПРИМЕНЕНИЕ МЕТОДА ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

Рис. 7. Диаграмма дерева

Примечание: ст. св. — степени свободы.

Page 9: Деревья решений в скоринге

112 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012

Груздев А.В.

Узел

Плохой Хороший ИтогоПредска-

занная катего-

рия

Узел-отец

Первая независимая переменная

N % N % N %Координаты переменных

Значе-ние*

Хи-квадрат

Ст. св.Значения

расщепле-ния

0 1020 41,4 1444 58,6 2464 100,0 Хороший

1 454 82,1 99 17,9 553 22,4 Плохой 0 Уровень дохода 0,000 662,457 2 <= Низкий

2 476 42,0 658 58,0 1134 46,0 Хороший 0 Уровень дохода 0,000 662,457 2 Низкий, средний

3 90 11,6 687 88,4 777 31,5 Хороший 0 Уровень дохода 0,000 662,457 2 > Средний

4 422 56,7 322 43,3 744 30,2 Плохой 2 Количество кре-дитных карт 0,000 193,113 1 Больше 3

5 54 13,8 336 86,2 390 15,8 Хороший 2 Количество кре-дитных карт 0,000 193,113 1 Меньше 3

6 80 17,6 375 82,4 455 18,5 Хороший 3 Количество кре-дитных карт 0,000 38,587 1 Больше 3

7 10 3,1 312 96,9 322 13,1 Хороший 3 Количество кре-дитных карт 0,000 38,587 1 Меньше 3

8 211 80,8 50 19,2 261 10,6 Плохой 4 Возраст 0,000 95,299 1 <= 28,079

9 211 43,7 272 56,3 483 19,6 Хороший 4 Возраст 0,000 95,299 1 > 28,079

Таблица 2. Таблица дерева

* Здесь и далее скорректировано по методу Бонферрони.

Примечание: здесь и далее метод построения — CHAID, зависимая переменная — «Кредитный рейтинг». N — количество наблюдений в каждом терминальном узле, % — процент от

общего количества наблюдений в каждом узле.

УзелУзел Выигрыш

Отклик ИндексN % N %

189657

553261483455390322

22,410,619,618,515,813,1

454211211805410

44,520,720,77,85,31,0

82,180,843,717,613,83,1

198,3195,3105,542,533,47,5

Таблица 3. Выигрыши для узлов

Примечание: N — количество наблюдений в каждом терминальном узле в целевой категории, % — процент наблюдений в целевой категории от общего количества наблюдений в ней.

Page 10: Деревья решений в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012 113

Процент отклика в выборке в целом = Процент всех наблюдений в целевой категории = (Количе-ство наблюдений в категории «Плохой» / Общее

количество наблюдений) × 100% = 1020 наблюде-ний / 2464 наблюдения) × 100% = 41,4%.

Индекс = (82,1% / 41,4%) × 100% = 198,3%.

Значение индекса показывает, насколько силь-но наблюдаемый процент в целевой категории для данного узла отличается от ожидаемого про-цента для целевой категории. Процент в целевой категории в корневом узле показывает ожидае-мый процент до того, как будут рассматриваться эффекты влияния той или иной независимой пере-менной. Значение индекса больше 100% означает, что наблюдений в целевой категории для данного узла больше, чем суммарный процент в целевой категории, значение меньше 100% — что наблю-дений в целевой категории для данного узла мень-ше, чем суммарный процент в целевой категории.

График выигрышей (рис. 8) позволяет оценить, насколько хороша наша модель. График индексов

(рис. 9) показывает, что наша модель адекватна данным.

Как правило, если модель корректно построе-на, то кривая в графиках индексов берет свое на-чало выше 100% на оси индексов и постепенно спускается, пока не достигнет 100% на оси про-центилей. Поскольку наша модель хорошо соот-ветствует данным, то кривая начинается с точки, лежащей выше 100% на оси индексов, продолжа-ет движение в виде высокого плато и затем резко спускается к 100% на оси процентилей.

Таблицы риска и классификации (табл. 4 и 5) дают нам оценку того, как хорошо работает наша модель. Значение 0,205 показывает, что категория, предсказанная моделью (хороший или плохой кредитный рейтинг), неверна для 20,5% наблюде-ний. Таким образом, риск неверной классифика-ции заемщиков равен приблизительно 21%.

Результаты, приведенные в классификацион-ной таблице, согласуются с оценкой риска. Из табл. 5 видно, что модель корректно классифици-ровала 79,5% клиентов, однако табл. 4 показала

ПРИМЕНЕНИЕ МЕТОДА ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

Рис. 8. График выигрышей (целевая категория «Плохой»)

Page 11: Деревья решений в скоринге

114 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012

Груздев А.В.

Рис. 9. График индексов (целевая категория «Плохой»)

Оценка Стандартная ошибка

0,205 0,008

Таблица 4. Оценка риска по кредитному рейтингу

Наблюдаемое

Предсказанное

Плохой Хороший Корректное, %

Плохой 665 355 65,2

Хороший 149 1295 89,7

Всего, % 33,0 67,0 79,5

Таблица 5. Классификация заемщиков по кредитному рейтингу

Page 12: Деревья решений в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012 115

одну потенциальную проблему этой модели: лишь для 65% клиентов с плохим кредитным рей-тингом модель предсказала верный результат. Это означает, что 35% клиентов с плохим кредит-ным рейтингом неправильно причислены к «хо-рошим» заемщикам.

РАБОТА С ПРОГНОЗАМИ

В базе данных появились новые переменные (рис. 10):

NodeID — терминальный (конечный) узел для каждого наблюдения;

PredictedValue — предсказанное значение зависимой переменной для каждого наблюде-ния (поскольку зависимая переменная кодирует-ся как 0 = «Плохой», 1 = «Хороший», то предска-занное значение 0 обозначает, что для данного наблюдения предсказан плохой кредитный рейтинг);

PredictedProbability — вероятность того, что наблюдение принадлежит к той или иной катего-рии зависимой переменной. Поскольку есть лишь два возможных значения зависимой переменной, были созданы две переменные:

— PredictedProbability_1 — вероятность того, что данное наблюдение принадлежит к категории «Плохой кредитный рейтинг»;

— PredictedProbability_2 — вероятность того, что данное наблюдение принадлежит к категории «Хороший кредитный рейтинг».

Предсказанная вероятность — это просто со-отношение наблюдений в каждой категории за-висимой переменной для терминального узла, который содержит данное наблюдение. Возьмем наблюдение 3. Оно относится к терминальному узлу 1, в котором 82% наблюдений принадлежат к категории «Плохой», а 18% — к категории «Хо-роший». Таким образом, предсказанные вероят-ности для этого наблюдения будут 0,82 и 0,18 со-ответственно.

Для категориальной зависимой переменной предсказанное значение — это категория с самой высокой процентной долей наблюдений в терми-нальном узле, который содержит данное наблю-дение. Например, наблюдение 1. Для него пред-сказанное значение — 1 («Хороший кредитный рейтинг»), т.к. примерно 56% случаев в его терми-нальном узле отнесены к категории «Хороший», и наоборот, для наблюдения 2 предсказанное значение — 0 («Плохой кредитный рейтинг»),

ПРИМЕНЕНИЕ МЕТОДА ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

Рис. 10. Новые переменные

Page 13: Деревья решений в скоринге

116 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012

т.к. около 81% случаев в его терминальном узле отнесены к категории «Плохой».

ДИАГНОСТИКА И УЛУЧШЕНИЕ КАЧЕСТВА

МОДЕЛИ

Точность корректной классификации при ис-пользовании модели деревьев решений соста-вила около 80%. Это видно и по самому главно-му из терминальных узлов. Однако есть один терминальный узел, в котором наблюдения были распределены примерно поровну между катего-риями «Плохой» и «Хороший». Для узла 9 пред-сказан кредитный рейтинг «Хороший», но лишь 56% наблюдений в этом узле действительно име-ют хороший кредитный рейтинг. Это обозначает, что почти половина (44%) наблюдений в этом узле могут иметь неверно предсказанную катего-рию. Если приоритетной целью является иденти-фикация «плохих» заемщиков, то этот узел не очень хорошо вписывается в модель.

Давайте подробно изучим наблюдения для узла 9, чтобы посмотреть, содержат ли данные еще какую-либо полезную дополнительную ин-формацию, как показано на рис. 11:

два раза щелкните по дереву в «Output / Файл вывода», чтобы открыть «Tree Editor / Редак-тор дерева»;

нажмите «node 9 / узел 9», чтобы выде-лить его;

в меню «Tree Editor / Редактор дерева» выбе-рите «Rules / Правила», а затем «Filter Cases / От-бор наблюдений».

В открывшемся окне «Filter Cases / Отбор на-блюдений» вам будет предложено создать филь-трующую переменную и использовать настройки фильтра исходя из значений этой переменной. По умолчанию название фильтрующей переменной filter_$. Наблюдения для выделенных узлов полу-чат значение 1 в фильтрующей переменной, все остальные получат значение 0 и будут исключены из последующего анализа до тех пор, пока вы не деактивируете фильтр. Для нашего исследования

это означает, что сейчас все наблюдения, которые не относятся к узлу 9, будут исключены фильтром (но не удалены окончательно) и помечены диаго-нальной линией (рис. 12).

После всех операций нажмите OK, чтобы соз-дать фильтрующую переменную и применить ус-ловие фильтрации.

В редакторе данных наблюдения, исключен-ные фильтром из анализа, помечены диагональ-ной чертой. Это наблюдения, которые не относят-ся к узлу 9. Наоборот, наблюдения, принадлежа-щие узлу 9, не исключены фильтром. Таким обра-зом, последующий анализ будет включать лишь наблюдения из узла 9.

На первом этапе изучения наблюдений, при-надлежащих к узлу 9, полезно рассмотреть пере-менные, которые не использовались в модели. В нашем исследовании все переменные были включены в анализ, но две из них не были вклю-чены в итоговую модель: «Уровень образования» и «Количество автокредитов». Предположим, что, скорее всего, существует весомая причина, по ко-торой процедура анализа не включила эти пере-менные в модель, и они, вероятно, могут расска-зать нам о многом. Для этого поступим так, как показано на рис. 13:

выберите в меню «Analyze / Анализ», затем «Descriptive Statistics / Описательные статистики», далее «Crosstabs / Таблицы сопряженности»;

перенесите переменную «Кредитный рей-тинг» в поле «Row(s) / Строки»;

перенесите переменные «Уровень образо-вания» и «Количество автокредитов» в поле «Column(s) / Столбцы».

Далее действуйте, как показано на рис. 14: нажмите «Cells / Ячейки»; в поле «Percentages / Проценты» выберите

«Row / Строка»; нажмите «Continue / Продолжить»; в диалоговом окне «Crosstabs / Таблицы со-

пряженности» нажмите OK.Изучая таблицы сопряженности, можно убе-

диться в том, что для двух переменных, не вклю-ченных в анализ, не обнаружено существенной

Груздев А.В.

Page 14: Деревья решений в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012 117

ПРИМЕНЕНИЕ МЕТОДА ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

Рис. 11. Получение дополнительной информации

Рис. 12. Фильтр наблюдений

Page 15: Деревья решений в скоринге

118 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012

Груздев А.В.

Рис. 13. Выбор данных для таблиц сопряженности

Рис. 14. Создание таблиц сопряженности

Page 16: Деревья решений в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012 119

разницы между наблюдениями в категории «Хо-роший кредитный рейтинг» и «Плохой кредитный рейтинг» (табл. 6).

Для переменной «Уровень образования» чуть больше половины наблюдений с плохим кредит-ным рейтингом (52,1%) отнесены к категории «Высшее образование», тогда как чуть больше по-ловины наблюдений с хорошим кредитным рей-тингом (52,9%) отнесены к категории «Среднее, среднее специальное образование», но эта раз-ница не является статистически значимой.

Для переменной «Количество автокредитов» (табл. 7) процент наблюдений с количеством ав-токредитов «Ни одного или один» в категории «Хороший кредитный рейтинг» выше, чем

соответствующий процент в категории «Плохой кредитный рейтинг» (14,3% и 8,5%), но подавляю-щее число наблюдений в обеих категориях имеет количество автокредитов «Два и более».

Поставленный вопрос, почему эти перемен-ные не были включены в итоговую модель, не по-мог нам продвинуться в понимании того, как улучшить прогноз для узла 9. Если были еще какие-то другие переменные, не попавшие в спецификацию анализа, полезно было бы иссле-довать их перед запуском процедур.

Как уже было замечено ранее, помимо того что в узле 9 наблюдения распределяются почти поров-ну между обеими категориями кредитного рей-тинга, спрогнозированную категорию «Хороший»

ПРИМЕНЕНИЕ МЕТОДА ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

СопряженностьУровень образования

ИтогоВысшее Среднее, среднее специальное

Кредитный рейтинг

ПлохойЧастота 110 101 211

% 52,1 47,9 100,0

ХорошийЧастота 128 144 272

% 47,1 52,9 100,0

ИтогоЧастота 238 245 483

% 49,3 50,7 100,0

Таблица 6. Таблица сопряженности переменных «Кредитный рейтинг» и «Уровень образования»

СопряженностьКоличество автокредитов

ИтогоНи одного или один Два и более

Кредитный рейтинг

ПлохойЧастота 18 193 211

% 8,5 91,5 100,0

ХорошийЧастота 39 233 272

% 14,3 85,7 100,0

ИтогоЧастота 57 426 483

% 11,8 88,2 100,0

Таблица 7. Таблица сопряженности переменных «Кредитный рейтинг» и «Количество автокредитов»

Page 17: Деревья решений в скоринге

120 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012

проблематично использовать, если главная цель — построение модели, корректно иденти-фицирующей «плохого» заемщика. Несмотря на то что, вероятно, нет возможности улучшить раз-биение узла 9, мы тем не менее можем очистить модель, чтобы повысить точность классификации для наблюдений с плохим кредитным рейтингом, хотя это будет достигнуто за счет увеличения не-правильной классификации наблюдений с хоро-шим кредитным рейтингом.

Прежде всего выключите фильтрацию наблю-дений так, чтобы все наблюдения снова могли быть использованы для анализа, как показано на рис. 15:

выберите в меню «Data / Данные» «Select Cases / Отобрать наблюдения»;

в диалоговом окне «Select Cases / Отобрать наблюдения» выберите «All cases / Все наблюде-ния» и затем нажмите OK.

Затем действуйте, как показано на рис. 16: снова откройте диалоговое окно «Decision

Tree / Деревья классификации»; откройте вкладку «Options / Параметры»; выберите «Misclassification Costs / Стоимости

ошибочной классификации»; выберите «Custom / Задать» и для «Фактиче-

ская категория Плохой / Предсказанная категория Хороший» введите значение 2.

Это означает, что стоимость неправильной классификации «плохого» заемщика как «хороше-го» в два раза выше, чем стоимость неправиль-ной классификации «хорошего» заемщика как «плохого».

На первый взгляд построенное дерево (рис. 17) выглядит точно так же, как и изначальное. Однако при более внимательном рассмотрении можно обнаружить: несмотря на то что распределение наблюдений в каждом узле не претерпело

Груздев А.В.

Рис. 15. Отключение фильтрации

Page 18: Деревья решений в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012 121

изменений, некоторые предсказанные категории поменялись (сравните две приведенные ниже та-блицы дерева).

Для терминальных узлов предсказанная кате-гория осталась той же самой, за исключением узла 9. Спрогнозированная категория для него теперь «Плохой», несмотря на то что больше половины наблюдений отнесены к категории «Хороший».

Из табл. 8 видно, что узлы 2, 4, 9, наблюдения в которых примерно поровну распределяются по обеим категориям, теперь имеют предсказанную категорию «Плохой», несмотря на то что большин-ство наблюдений принадлежит к категории «Хо-роший». Оценка риска и эти изменения в предска-занной категории отражены в табл. 9 и 10.

Почти 86% «плохих» заемщиков теперь кор-ректно классифицированы по сравнению с 65% ранее, в то же время точность корректной класси-фикации «хороших» заемщиков снизилась с 90%

до 71%. Также обратите внимание на то, что оцен-ка риска и результаты классификации теперь не согласуются друг с другом. Следовало бы ожидать оценку риска, равную 0,229, если точность кор-ректной классификации составляет 77,1%. В на-шем исследовании повышение стоимости непра-вильной классификации заемщиков с плохим кре-дитным рейтингом преувеличило значение риска, сделав его интерпретацию менее достоверной.

Итак, мы использовали метод деревьев реше-ний для классификации заемщиков с хорошим и плохим кредитным рейтингом1. Если важнее ре-зультат классификации по конкретному классу за-емщика, то можно скорректировать модель, по-высив стоимость ошибочной классификации для данного типа заемщика. Однако, уменьшая оши-бочную классификацию, например, «плохих» за-емщиков, мы будем увеличивать ошибочную классификацию «хороших» заемщиков.

ПРИМЕНЕНИЕ МЕТОДА ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

Рис. 16. Стоимость ошибочной классификации

1 Для самостоятельного проведения анализа вы можете использовать данные настоящего исследования. — http://narod.ru/disk/41215191001/Деревья решений.sav.html. —

Прим. авт.

Page 19: Деревья решений в скоринге

122 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012

Груздев А.В.

Рис. 17. Диаграмма дерева с установленным значением стоимости классификации

Page 20: Деревья решений в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 02(30)2012 123

ПРИМЕНЕНИЕ МЕТОДА ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

УзелПлохой Хороший Итого Предсказанная кате-

горияУзел-отец

N % N % N %

0 1020 41,4 1444 58,6 2464 100,0 Плохой

1 454 82,1 99 17,9 553 22,4 Плохой 0

2 476 42,0 658 58,0 1134 46,0 Плохой 0

3 90 11,6 687 88,4 777 31,5 Хороший 0

4 422 56,7 322 43,3 744 30,2 Плохой 2

5 54 13,8 336 86,2 390 15,8 Хороший 2

6 80 17,6 375 82,4 455 18,5 Хороший 3

7 10 3,1 312 96,9 322 13,1 Хороший 3

8 211 80,8 50 19,2 261 10,6 Плохой 4

9 211 43,7 272 56,3 483 19,6 Плохой 4

Таблица 8. Дерево с установленным значением стоимости классификации

Оценка Стандартная ошибка

0,288 0,011

Таблица 9. Обновленная оценка риска

НаблюдаемоеПредсказанное

Плохой Хороший Корректное, %

Плохой 876 144 85,9

Хороший 421 1023 70,8

Всего, % 52,6 47,4 77,1

Таблица 10. Обновленная классификация