Transcript
Page 1: Анализ пропущенных значений для обработки данных о заемщиках

54

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка

Page 2: Анализ пропущенных значений для обработки данных о заемщиках

Логика анализа пропущенных значений

Основные методы анализа пропущенных значений

Целиком

Попарно

Четыре метода анализа

пропущенных значений:

целиком, попарно, метод

максимизации ожидания

и метод регрессии.

55

www.reglament.net

MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм

Анализ пропущенных значений для обработки данных о заемщиках

Page 3: Анализ пропущенных значений для обработки данных о заемщиках

Максимизация ожидания

Θ Θ

Θ ΘΘ Θ =

Θ Θ

Θ ΘΘ Θ = µ∫

56

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка

Page 4: Анализ пропущенных значений для обработки данных о заемщиках

+

ΘΘ = Θ Θ

Θ

Регрессия

57

www.reglament.net

MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм

Анализ пропущенных значений для обработки данных о заемщиках

Page 5: Анализ пропущенных значений для обработки данных о заемщиках

Требования к пропущенным значениям переменных

Предположения

Обычно при работе

со статистическими

пакетами выделяют два

типа пропущенных зна-

чений: системно пропу-

щенные и пропущенные

пользователем (пользо-

вательские).

58

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка

Page 6: Анализ пропущенных значений для обработки данных о заемщиках

Описание данных для примера

59

www.reglament.net

MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм

Анализ пропущенных значений для обработки данных о заемщиках

Page 7: Анализ пропущенных значений для обработки данных о заемщиках

Базовый анализ пропущенных значений

Рисунок 1

Настроенное диалоговое окно «Анализ пропущенных значений»

1 Электронное приложение можно скачать на официальном сайте ООО «Регламент-Медиа». Для того чтобы загрузить при-ложение, нужно зайти по адресу http://www.reglament.net/bank/r/2014_2.htm (паролем для скачивания является комби-нация цифр 0834910).

ð

ð

ð

60

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка

Page 8: Анализ пропущенных значений для обработки данных о заемщиках

Рисунок 2

Настроенное диалоговое окно «Описательные»

ð

ð

ð

ð

ð

ð

ð

Результаты базового анализа пропущенных значений

61

www.reglament.net

MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм

Анализ пропущенных значений для обработки данных о заемщиках

Page 9: Анализ пропущенных значений для обработки данных о заемщиках

Таблица 1

Одномерные статистики

Таблица t-критериев

с раздельными диспер-

сиями помогает опреде-

лить переменные,

у которых структуры

пропущенных значений

могут влиять на интере-

сующие нас количе-

ственные переменные.

1 Таблицы 3–6 находятся в электронном приложении.

62

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка

Page 10: Анализ пропущенных значений для обработки данных о заемщиках

Таблица 2

Таблица t-критериев с раздельными дисперсиями

Примечание: для каждой количественной переменной пары в группах формируются по индикаторным переменным (при-

сутствующие, пропущенные). Индикаторные переменные с менее чем 5% пропущенных значений не выводятся.

63

www.reglament.net

MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм

Анализ пропущенных значений для обработки данных о заемщиках

Page 11: Анализ пропущенных значений для обработки данных о заемщиках

64

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка

Page 12: Анализ пропущенных значений для обработки данных о заемщиках

Таблица 7

Процентное несовпадение индикаторных переменных

Примечание: диагональные элементы — это проценты пропущенных, а недиагональные

элементы — несоответствующие проценты индикаторных переменных. Переменные отсор-

тированы по образцу пропущенных. Индикаторные переменные с менее чем 5% пропущен-

ных значений не выводятся.

65

www.reglament.net

MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм

Анализ пропущенных значений для обработки данных о заемщиках

Page 13: Анализ пропущенных значений для обработки данных о заемщиках

×

×

Анализ структур пропущенных значений

ð

ð

ð

ð

ð

66

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка

Page 14: Анализ пропущенных значений для обработки данных о заемщиках

Результаты анализа структур

ð

ð

Рисунок 3

Настроенное диалоговое окно «Структуры»

67

www.reglament.net

MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм

Анализ пропущенных значений для обработки данных о заемщиках

Page 15: Анализ пропущенных значений для обработки данных о заемщиках

Таблица 8

Табулированные образцы

Примечания:

Образцы с менее чем 1% наблюдений (10 или меньше) не выводятся.

* Переменные отсортированы по образцу пропущенных.

** Число полных наблюдений, если переменные, пропущенные в данной структуре (помеченные буквой X), не исполь-

зуются.

*** Среднее по каждому конкретному образцу.

**** Распределение частот для каждого конкретного образца.

68

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка

Page 16: Анализ пропущенных значений для обработки данных о заемщиках

ð

ð

ð

ð

Рисунок 4

Диалоговое окно «Анализ пропущенных значений»: выбор пункта «Максимизация ожидания»

69

www.reglament.net

MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм

Анализ пропущенных значений для обработки данных о заемщиках

Page 17: Анализ пропущенных значений для обработки данных о заемщиках

Таблица 9

MCAR-тест Литтла (ОМП-средние)

Примечание: хи-квадрат = 179,836, ст.св. = 107, знач. = ,000.

70

Риск-менеджмент в кредитной организации № 2 (14) \ 2014

Анализ и оценка


Recommended