17
&c`qm]bfgVcûfgTg]fg]lYf_]jûdT_YgcVûdeYX`TWTsgûXVYûdeckYXhepû X`tûcUeTUcg_]ûdecdhf_cV カû abc[YfgVYbbTtû]adhgTk]tûcfhnYfgV`tYgûTbT`]\ûfgeh_gheû decdhnYbbpjû\bTlYb]^ ûbTfgecYbbp^ûbTûabcWc_eTgbhsû]adhgTk]sû ゙\TaYbh ûdcXfgTbcV_h゚ûdecdhnYbbpjûXTbbpjâû8T_]aûcUeT\ca ûfc\ネ XTYgftûbYf_c`q_cûVTe]TbgcVû_û]fjcXbcahûbTUcehûXTbbpj û_T[Xp^û fcXYe[]gûfVc^ûbTUceû]adhg]ecVTbbpjû゙\TaYbYbbpj゚û\bTlYb]^âû0cWXTû fgTg]fg]lYf_]^ûTbT`]\ûX`tû_T[XcWcûbTUceTûVpdc`bYb ûckYb_]ûdTeTネ aYgecVûX`tûVfYjûbTUcecVûfû\TaYbYbbpa]û\bTlYb]ta]ûcUoYX]btsgft û VpXTsgftû]gcWcVpYûckYb_] û_cgcepYûVûkY`caûtV`tsgftûUc`YYûgclネ bpa] ûbY[Y`]ûVpl]f`YbbpYû`]mqûbTûcfbcVYûcXbc^û]adhgTk]]ö カû TbT`]\ûdecdhnYbbpjû\bTlYb]^ûdeYX`TWTYgûbYabcWcûXehWc^û bTUceûfeYXfgVûX`tûTbT`]\TûdecdhnYbbpjûXTbbpjû゙bTde]aYe ûネgYfgû 1]gg`T゚û]ûV_`slTYgûetXûdecfgpjûaYgcXcVû]adhgTk]]âû-TaYg]a ûlgcû abc[YfgVYbbTtû]adhgTk]tûeTffaTge]VTYgftû_T_ûUc`YYûdeYXdclg]ネ gY`qbp^ûaYgcX ûlYaûdecfgTtû]adhgTk]tâ 4UeTUcg_Tûdecdhf_cVûV_`slTYg カû ]ff`YXcVTb]Yûdecdhf_cVâû.fdc`q\hYaûdeckYXhehûTbT`]\Tûdecネ dhnYbbpjû\bTlYb]^ lgcUpû]ff`YXcVTgqûfgeh_ghepûdecdhf_cVûVûbTm]jû 3TU`sXYb]tûfûdecdhnYbbpa]û\bTlYb]ta]ûdeYXfgTV`tsgûfYeqY\bhsû decU`Yah ûdcgcahûlgcûg]d]lbpYûdeckYXhepûacXY`]ecVTb]tûdecfgcû ツcgUeT_cVpVTsgテ û]f_`slTsgû]jû]\ûTbT`]\Tâû0cWXTûYfgqûbYf_c`q_cû decdhnYbbpjû\bTlYb]^û゙aYbqmYûサáûcgûcUnYWcûl]f`TûbTU`sXYb]^゚û ]û]jûac[bcûeTffaTge]VTgqû_T_ûdecdhnYbbpYûf`hlT^bc ûgcûYfgqû iT_gûdecdhf_TûbYû\TV]f]gûcgûXehW]jû\bTlYb]^ ûgeTX]k]cbbp^ûaYgcXû hXT`Yb]tûdecdhnYbbpjû\bTlYb]^ûdcfgeclbcû゙kY`]_ca゚ûcgbcf]ネ gY`qbcûツUY\cdTfYbテâû5eckYXhepûcUeTUcg_]ûdecdhnYbbpjû\bTlYb]^û acWhgûdcaclqûbTaûcdeYXY`]gq ûtV`tYgftû`]ûdcfgeclbcYûhXT`Yb]Yû cUcfbcVTbbpa û]ûdeYX`TWTsgûaYgcXpûVcffgTbcV`Yb]tûdecdhf_cV û _cWXTûhXT`tgqûbTU`sXYb]YûbYkY`YfccUeT\bcâ  54 Риск-менеджмент в кредитной организации № 2 (14) \ 2014 Анализ и оценка

Анализ пропущенных значений для обработки данных о заемщиках

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Анализ пропущенных значений для обработки данных о заемщиках

54

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка

Page 2: Анализ пропущенных значений для обработки данных о заемщиках

Логика анализа пропущенных значений

Основные методы анализа пропущенных значений

Целиком

Попарно

Четыре метода анализа

пропущенных значений:

целиком, попарно, метод

максимизации ожидания

и метод регрессии.

55

www.reglament.net

MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм

Анализ пропущенных значений для обработки данных о заемщиках

Page 3: Анализ пропущенных значений для обработки данных о заемщиках

Максимизация ожидания

Θ Θ

Θ ΘΘ Θ =

Θ Θ

Θ ΘΘ Θ = µ∫

56

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка

Page 4: Анализ пропущенных значений для обработки данных о заемщиках

+

ΘΘ = Θ Θ

Θ

Регрессия

57

www.reglament.net

MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм

Анализ пропущенных значений для обработки данных о заемщиках

Page 5: Анализ пропущенных значений для обработки данных о заемщиках

Требования к пропущенным значениям переменных

Предположения

Обычно при работе

со статистическими

пакетами выделяют два

типа пропущенных зна-

чений: системно пропу-

щенные и пропущенные

пользователем (пользо-

вательские).

58

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка

Page 6: Анализ пропущенных значений для обработки данных о заемщиках

Описание данных для примера

59

www.reglament.net

MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм

Анализ пропущенных значений для обработки данных о заемщиках

Page 7: Анализ пропущенных значений для обработки данных о заемщиках

Базовый анализ пропущенных значений

Рисунок 1

Настроенное диалоговое окно «Анализ пропущенных значений»

1 Электронное приложение можно скачать на официальном сайте ООО «Регламент-Медиа». Для того чтобы загрузить при-ложение, нужно зайти по адресу http://www.reglament.net/bank/r/2014_2.htm (паролем для скачивания является комби-нация цифр 0834910).

ð

ð

ð

60

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка

Page 8: Анализ пропущенных значений для обработки данных о заемщиках

Рисунок 2

Настроенное диалоговое окно «Описательные»

ð

ð

ð

ð

ð

ð

ð

Результаты базового анализа пропущенных значений

61

www.reglament.net

MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм

Анализ пропущенных значений для обработки данных о заемщиках

Page 9: Анализ пропущенных значений для обработки данных о заемщиках

Таблица 1

Одномерные статистики

Таблица t-критериев

с раздельными диспер-

сиями помогает опреде-

лить переменные,

у которых структуры

пропущенных значений

могут влиять на интере-

сующие нас количе-

ственные переменные.

1 Таблицы 3–6 находятся в электронном приложении.

62

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка

Page 10: Анализ пропущенных значений для обработки данных о заемщиках

Таблица 2

Таблица t-критериев с раздельными дисперсиями

Примечание: для каждой количественной переменной пары в группах формируются по индикаторным переменным (при-

сутствующие, пропущенные). Индикаторные переменные с менее чем 5% пропущенных значений не выводятся.

63

www.reglament.net

MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм

Анализ пропущенных значений для обработки данных о заемщиках

Page 11: Анализ пропущенных значений для обработки данных о заемщиках

64

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка

Page 12: Анализ пропущенных значений для обработки данных о заемщиках

Таблица 7

Процентное несовпадение индикаторных переменных

Примечание: диагональные элементы — это проценты пропущенных, а недиагональные

элементы — несоответствующие проценты индикаторных переменных. Переменные отсор-

тированы по образцу пропущенных. Индикаторные переменные с менее чем 5% пропущен-

ных значений не выводятся.

65

www.reglament.net

MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм

Анализ пропущенных значений для обработки данных о заемщиках

Page 13: Анализ пропущенных значений для обработки данных о заемщиках

×

×

Анализ структур пропущенных значений

ð

ð

ð

ð

ð

66

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка

Page 14: Анализ пропущенных значений для обработки данных о заемщиках

Результаты анализа структур

ð

ð

Рисунок 3

Настроенное диалоговое окно «Структуры»

67

www.reglament.net

MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм

Анализ пропущенных значений для обработки данных о заемщиках

Page 15: Анализ пропущенных значений для обработки данных о заемщиках

Таблица 8

Табулированные образцы

Примечания:

Образцы с менее чем 1% наблюдений (10 или меньше) не выводятся.

* Переменные отсортированы по образцу пропущенных.

** Число полных наблюдений, если переменные, пропущенные в данной структуре (помеченные буквой X), не исполь-

зуются.

*** Среднее по каждому конкретному образцу.

**** Распределение частот для каждого конкретного образца.

68

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка

Page 16: Анализ пропущенных значений для обработки данных о заемщиках

ð

ð

ð

ð

Рисунок 4

Диалоговое окно «Анализ пропущенных значений»: выбор пункта «Максимизация ожидания»

69

www.reglament.net

MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм

Анализ пропущенных значений для обработки данных о заемщиках

Page 17: Анализ пропущенных значений для обработки данных о заемщиках

Таблица 9

MCAR-тест Литтла (ОМП-средние)

Примечание: хи-квадрат = 179,836, ст.св. = 107, знач. = ,000.

70

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка