MACHINE LEARNING Y RIESGO DE CRÉDITO

MADRID | Abril 2020

Facultad de Ciencias Econoacutemicas y Empresariales

MACHINE LEARNING Y RIESGO DE

CREacuteDITO

Autor Jaime Grau Aacutelvarez

Director Joseacute Portela Gonzaacutelez

Resumen

El objetivo de este trabajo es analizar como podemos medir o predecir el riesgo de creacutedito

hipotecario mediante teacutecnicas de Machine Learning

Para ello se realizaraacute una aproximacioacuten a lo que conocemos como teacutecnicas Machine

Learning Este teacutermino hace referencia al aprendizaje automaacutetico por el cual mediante

algoritmos se pueden analizar gran cantidad de datos y obtener informacioacuten relevante para

la toma de decisiones en cualquier aacutembito

Por otro lado se buscaraacute realizar una aproximacioacuten al riesgo de creacutedito analizando las causas

de la todaviacutea reciente crisis econoacutemica de 2007 y la influencia que tuvo el riesgo de creacutedito

hipotecario en la consecucioacuten de Defaults crediticios en esa eacutepoca

Se realizaraacute un anaacutelisis de los principales meacutetodos de caacutelculo de riesgo de creacutedito desde los

maacutes simples hasta aquellos que involucren teacutecnicas maacutes avanzadas

Por uacuteltimo se realizaraacute un caso de estudio en el que se seleccionaron un conjunto de creacuteditos

hipotecarios a los que se les aplicoacute una regresioacuten logiacutestica un aacuterbol de decisioacuten y un Gradient

Boosting para ver cuaacutel de ellas nos proporcionaba un mejor anaacutelisis desde el punto de vista

empresarial

Palabras clave

Machine Learning riesgo de creacutedito modelo Logit regresioacuten logiacutestica aacuterbol de decisioacuten

Gradient Boosting

Abstract

The objective of this paper is to analyze how we can measure or predict mortgage credit

risk using Machine Learning techniques

For this purpose we will make an approach to what we know as Machine Learning

techniques This term refers to automatic learning by which through algorithms a large

amount of data can be analyzed and relevant information obtained for decision making in

any area

On the other hand an approach to credit risk is made analyzing the causes of the still

recent economic crisis of 2007 and the influence that mortgage credit risk had on the

consecution of credit Defaults at that time

An analysis of the main credit risk calculation methods will be carried out from the

simplest to those involving more advanced techniques

Finally a case study will be conducted in which a set of mortgage loans were selected to

which a logistic regression a decision tree and a Gradient Boosting were applied to see

which of them provided us with a better analysis from a business point of view

Key words

Machine Learning credit risk Logit model logistic regression decision tree Gradient

Boosting

IacuteNDICE

1 INTRODUCCIOacuteN 7

11 Justificacioacuten 7

12 Objetivos 8

13 Metodologiacutea 8

14 Estructura 9

2 MARCO CONCEPTUAL BIG DATA MACHINE LEARNING Y APLICACIONES 10

21 Contexto histoacuterico 10

22 Diferencias entre Big Data y Machine Learning 13

23 Aplicaciones praacutecticas Empresas y sectores 17

3 RIESGO DE CREacuteDITO 19

31 Introduccoacuten al riesgo de creacutedito Crisis financiera del 2007 19

32 Proceso de securitizacioacuten 24

33 Acuerdos de Basilea 27

34 Perspectiva empresarial 28

35 Tipos de riesgo de creacutedito 30

4 MODELOS DE CAacuteLCULO DEL RIESGO DE CREacuteDITO 32

41 Meacutetodos Tradicionales 33

411 Sistemas expertos 33

412 Sistemas de calificacioacuten 34

42 Meacutetodos Modernos 36

43 Meacutetodos Estadiacutesticos 38

5 TEacuteCNICAS DE MACHINE LEARNING 40

11 Marco conceptual Problema de clasificacioacuten 40

12 Modelo Logit 41

13 Aacuterboles de decisioacuten y Gradient Boosting 44

131 Aacuterboles de decisioacuten 44

132 Gradient Boosting 47

6 CASO DE ESTUDIO 49

61 Datos utilizados 49

63 Resultados 51

64 Conclusiones del caso de estudio 68

7 CONCLUSIONES 71

8 BIBLIOGRAFIacuteA 73

9 ANEXOS 78

91 Anexo 1 Descripcioacuten del Coacutedigo empleado en R 78

92 Anexo 1 Descripcioacuten del aacuterbol de decisioacuten obtenido con el coacutedigo en R 80

Iacutendice de figuras

Figura 1 Caracteriacutesticas del Big Data 14

Figura 2 Relacioacuten entre los casos de Gripe con buacutesquedas del teacutermino en Internet (2004)

Figura 3 Precio de la vivienda y nuacutemero de hipotecas en Estados Unidos (1990-2007) 20

Figura 4 Variacioacuten del precio de bienes inmuebles en Nevada Arizona y California (1985-

2007) 22

Figura 5 Variacioacuten de los tipos de intereacutes de creacuteditos hipotecarios en Nevada Arizona y

California (1985-2007) 23

Figura 6 Proceso de securitizacioacuten de tiacutetulos 25

Figura 7 Proceso de creacioacuten de los CDOacutes con su valoracioacuten crediticia 26

Figura 8 Escenario de Default para una empresa 29

Figura 9 Recta obtenida con el modelo de probabilidad lineal (izq) Funcioacuten de distribucioacuten

obtenida con el modelo Logit (dcha) 43

Figura 10 Esquema de un aacuterbol de decisioacuten sin variables en los cortes 44

Figura 11 Aacuterbol de decisioacuten con varios subaacuterboles 46

Figura 12Matriz de correlacioacuten de las variables explicativas 53

Figura 13Grafico X-Y Scatter de las variables FICO y Tipo de intereacutes 54

Figura 14 Graacutefico X-Y Scatter de las variables Tipo de intereacutes y Tipo de intereacutes en el origen

Figura 15 Aacuterbol de decisioacuten 60

Figura 16 Informacioacuten relativa de las variables explicativas proporcionada por el Gradient

Boosting 66

Iacutendice de tablas

Tabla 1 Tipos de aprendizaje 15

Tabla 2Clasificacioacuten de los tipos de riesgo seguacuten Garciacutea 32

Tabla 4 Estadiacutesticos principales de las variables explicativas 52

Tabla 5 Tabulacioacuten cruzada de Default (filas) contra SingleFamily (columnas) 55

Tabla 6 Resultado del modelo de regresioacuten logiacutestica 57

Tabla 7 Matriz de confusioacuten del conjunto de entrenamiento para la regresioacuten logiacutestica 58

Tabla 8 Matriz de confusioacuten del conjunto del test para la regresioacuten logiacutestica 59

Tabla 9 Matriz de confusioacuten del conjunto de entrenamiento para el aacuterbol de decisioacuten 63

Tabla 10 Matriz de confusioacuten del conjunto del test para el aacuterbol de decisioacuten 64

Tabla 11 Resultados del Gradient Boosting 65

Tabla 12 Matriz de confusioacuten del conjunto de entrenamiento para el Gradient Boosting 67

Tabla 13 Matriz de confusioacuten del conjunto del test para el Gradient Boosting 67

Tabla 14 Resumen de resultados de las matrices de confusioacuten 69

Iacutendice de ecuaciones

Ecuacioacuten 1 Funcioacuten discriminante de Altman 35

Ecuacioacuten 2 Distancia de incumplimiento para el modelo KMV 37

Ecuacioacuten 3 Derivacioacuten de la probabilidad de incumplimiento para el modelo KMV 37

Ecuacioacuten 4 Modelo de Regresioacuten lineal claacutesico 42

Ecuacioacuten 5 Modelo de probabilidad lineal 42

Ecuacioacuten 6 Modelo Logit 42

Ecuacioacuten 7 Divisioacuten del espacio en funcioacuten de la prediccioacuten Xj en un aacuterbol de decisioacuten 45

Ecuacioacuten 8 Obtencioacuten de las regiones en funcioacuten de Xj y S en aacuterbol de decision 46

1 INTRODUCCIOacuteN

11 Justificacioacuten

El ser humano ha ido evolucionando a lo largo de la historia gracias a pequentildeos hechos

concretos que han supuesto grandes pasos El fuego la rueda el comercio Sin embargo en

el uacuteltimo siglo los avances en el computacioacuten y en todo lo que la rodea proporcionalmente

han revolucionado nuestro modo de vida Desde finales del siglo XVIII cuando autores como

Gauss o Legendre introdujeron el concepto de regresiones lineares hasta la actualidad en

donde se han desarrollado sistemas artificiales capaces de imitar comportamientos humanos

e incluso mejorarlos

Por otro lado hoy 24 de abril nos encontramos ante una situacioacuten sin precedentes en la que

el mundo se encuentra en confinamiento por culpa del Covid-19 Hace un mes el iacutendice

espantildeol Ibex35 cayoacute un 1406 (Expansioacuten) la mayor caiacuteda de la historia de la bolsa Hace

diez antildeos el mundo entero sufrioacute una de las peores recesiones econoacutemicas que se recuerdan

dando lugar a una situacioacuten sin precedentes que no solo destrozoacute la economiacutea social si no

que su impacto a nivel social fue desastroso El detonante de esta fue el estallido de la burbuja

inmobiliaria y la concesioacuten de hipotecas basura denominadas Subprime elevando el riesgo

de creacutedito a niveles nunca vistos y aumentando los nuacutemeros de Default en los creacuteditos

hipotecarios hasta nuacutemeros estratosfeacutericos

Este trabajo recoge los aspectos maacutes relevantes de estos dos mundos Por un lado se describe

todo el proceso de transformacioacuten de la Inteligencia Artificial hasta llegar a lo que conocemos

hoy como Machine Learning y algunas de las teacutecnicas empleadas para el caso de estudio Por

otro lado se describe lo acontecido en la recesioacuten del 2007 ademaacutes de los principales meacutetodos

de caacutelculo del riesgo de creacutedito Finalmente se pone en comuacuten la teoriacutea de los dos campos

para ver como las teacutecnicas de Machine Learning nos pueden ayudar para calcular ese riesgo

de creacutedito hipotecario y predecir las situaciones de Default de los prestatarios

12 Objetivos

El objetivo de este trabajo es en primer lugar analizar la evolucioacuten de la Inteligencia

Artificial hasta los meacutetodos actuales de caacutelculo Por otro lado entender el concepto de riesgo

de creacutedito bajo la descripcioacuten de los hechos sucedidos en la crisis de 2007 Ademaacutes se

estudiaraacuten algunos modelos de caacutelculo y algunas teacutecnicas que seraacuten empleadas en este

trabajo Por uacuteltimo se realizaraacute un caso de estudio en donde se aplicaraacuten algunos modelos de

Machine Learning para predecir los Defaults de los prestatarios de una cartera de creacuteditos

hipotecarios datada antes de la crisis

13 Metodologiacutea

Este trabajo se abordoacute de dos formas La primera involucroacute el meacutetodo de investigacioacuten por

el cual se buscoacute informacioacuten acerca de la historia de la Inteligencia Artificial y del Machine

Learning para entender como ha ido evolucionando hasta nuestros diacuteas Se investigoacute acerca

del riesgo de creacutedito y de lo acontecido en el antildeo 2007 estudiando las causas que produjeron

la recesioacuten asiacute como las consecuencias derivadas del gran nuacutemero de Defaults en los creacuteditos

hipotecarios A su vez tambieacuten se investigoacute acerca de los modelos del caacutelculo del riesgo de

creacutedito y algunas teacutecnicas como el aacuterboles de decisioacuten o Gradient Boosting que son

empleadas en el presente caso de estudio sin entrar en el desarrollo matemaacutetico Por otro

lado la metodologiacutea escogida para el uacuteltimo apartado del trabajo fue el estudio de caso Este

meacutetodo de investigacioacuten se define como una investigacioacuten empiacuterica que investiga un

fenoacutemeno contemporaacuteneo dentro de su contexto de la vida real cuando los liacutemites entre el

fenoacutemeno y el contexto no son evidentes y en el que se usan muacuteltiples fuentes de datos (Yin

1989) La principal aportacioacuten de este meacutetodo es que permite dar respuestas a situaciones

contemporaacuteneas y que pueden facilitar el entendimiento de realidades complejas como puede

ser el Machine Learning Se analizoacute un conjunto de creacuteditos hipotecarios con fecha anterior

a la recesioacuten El conjunto de datos fue analizado mediante el programa Gretl y el lenguaje de

programacioacuten R cuyo coacutedigo se nos fue proporcionado por el Profesor Portela

14 Estructura

El trabajo se divide en cuatro grandes bloques El primero hace referencia al concepto de

Inteligencia Artificial y a su evolucioacuten diferenciaacutendose de las teacutecnicas de Machine Learning

y resaltando sus aplicaciones en actividades habituales en el diacutea a diacutea

El segundo bloque lo conforma el anaacutelisis histoacuterico de la recesioacuten de 2007 el proceso de

securitizacioacuten los Acuerdos de Basilea y algunos tipos de riesgo de creacuteditos relacionados

con el objeto de estudio Se trata de dar a conocer como influyoacute el riesgo de creacutedito en la

crisis de 2007 y como despueacutes de los Acuerdos de Basilea se ha venido regulando de forma

maacutes estricta Es necesario definir queacute tipos de riesgo de creacutedito podemos encontrarnos ya que

el objeto de estudio de este trabajo se centra en el riesgo de creacutedito hipotecario

El tercer bloque lo compone algunos meacutetodos de caacutelculo del resigo de creacutedito Por otra parte

se describen las teacutecnicas de regresioacuten logiacutestica o modelo Logit los aacuterboles de decisioacuten y el

Gradient Boosting sin explicar su desarrollo matemaacutetico

El uacuteltimo bloque y piedra angular del caso lo conforma el caso de estudio Se analizaraacute un

conjunto de creacuteditos para ver la aplicacioacuten de las teacutecnicas expuestas en el aacutembito empresarial

Se indicaraacute que teacutecnica nos ofrece mejores resultados y cuaacutel puede ser maacutes uacutetil a la hora

conocer la probabilidad de Default en funcioacuten de los valores de las caracteriacutesticas del creacutedito

2 MARCO CONCEPTUAL BIG DATA MACHINE

LEARNING Y APLICACIONES

Procedemos a analizar primeramente el marco global del Machine Learning A lo largo del

trabajo nos referiremos a diversas teacutecnicas que se recogen en este sin embargo es necesario

resaltar las diferencias con lo que se conoce como Inteligencia Artificial Si bien el Machine

Learning puede integrarse como un campo del primero el funcionamiento es completamente

distinto y merece un anaacutelisis histoacuterico para ver en queacute momento se configuroacute Se analizaraacute

ademaacutes algunas de las aplicaciones de estos campos remarcando la importancia del anaacutelisis

de los datos en actividades de nuestro diacutea a diacutea

21 Contexto histoacuterico

Toda la terminologiacutea que conocemos actualmente en lo que respecta al Big Data o al Machine

Learning es praacutecticamente reciente La entrada de la digitalizacioacuten de procesos ha supuesto

una revolucioacuten en el tratamiento de los datos optimizando procesos ahorrando costes e

incluso generando beneficios para las empresas y para la sociedad Como veremos maacutes

adelante el uso de este tipo de herramientas permite por ejemplo a los bancos saber si uno

de sus clientes va a incurrir en Default o la probabilidad de que devuelvan el preacutestamo en los

teacuterminos acordados Sin embargo ambas ciencias tienen un origen comuacuten la Inteligencia

Artificial (IA el resto del trabajo) 1

Para poder entender coacutemo surge la IA es necesario entender cuaacuteles fueron los autores

matemaacuteticos que sirvieron como base para los posteriores estudios El origen como tal de la

IA y posteriormente el del Statistical Learning o Machine Learning proviene de las

regresiones lineales De los primeros estudios destacan los de Legendre y Gauss El origen

del meacutetodo de los miacutenimos cuadrados se empelaba por entonces para caacutelculos astronoacutemicos

como demuestra el estudio Nuevos meacutetodos para la determinacioacuten de las oacuterbitas de los

1 A lo largo del presente trabajo nos referiremos como Default a la situacioacuten de impago por parte del

hipotecadodeudorprestatario del preacutestamo concedido

cometas (Legendre 1805) 2 siendo Gauss quieacuten introdujo conceptos de Estadiacutestica para la

aplicacioacuten de dicho meacutetodo en su estudio Theoria motus corporum coelestium (Gauss 1809)

Un siglo maacutes tarde adentraacutendonos en la neurociencia y separaacutendonos de la rama cientiacutefica

en 1943 Pitts y McCulloch matemaacutetico y neuroacutelogo respectivamente publicaron su trabajo

A logical calculus of the ideas immanent in nervous activity Por primera vez se describiacutea el

concepto de Inteligencia Artificial bajo la descripcioacuten del comportamiento de redes

neuronales En palabras de los propios autores

ldquoEl comportamiento de sucesivas redes neuronales se puede describir

por medio de la loacutegica de proposicioacuten con la adicioacuten de medios

loacutegicos maacutes complicados para las redes que contienen ciacuterculos y que

para cualquier expresioacuten loacutegica que satisface ciertas condiciones se

puede encontrar una red de comportamiento en la manera que

describe Para cada comportamiento neto bajo una suposicioacuten existe

otra red que se comporta en funcioacuten de la otra y da los mismos

resultados aunque quizaacutes no al mismo tiempo (Pitts amp McCulloch

Se definioacute por lo tanto el concepto de Red Neuronal y como se relacionaban ciertos

paraacutemetros de comportamientos de unas Redes con otras Este estudioacute nos permitioacute conocer

que bajo la determinacioacuten de ciertos paraacutemetros y circunstancias las Redes neuronales eran

capaces de analizar los datos y tomar decisiones en otras palabras las Redes Neuronales

eran capaces de pensar analizar y racionalizar como seres humanos (Pitts amp McCulloch

Este fundamento explica el razonamiento del presente trabajo coacutemo una empresa mediante

sus algoritmos o redes neuronales artificiales analiza las caracteriacutesticas de un sujeto o en

nuestro caso un creacutedito y toma una decisioacuten o predice un resultado en base a ellas

2 Traduccioacuten de Nouvelles meacutethodes pour la deacutetermination des orbites des comegravetes

Antildeos maacutes tarde Turing o Samuel consiguieron trasladar esta toma de decisiones neurales a

nivel humano a maacutequinas definiendo que las maacutequinas eran capaces de tomar propias

decisiones y que eran en siacute mismas inteligentes Destacan del primer autor la elaboracioacuten del

Test de Turing en el que se planteaba si una maacutequina era capaz pensar por siacute misma bajo la

resolucioacuten de unas determinadas preguntas3 (Turing 1964)

Del segundo autor destaca la creacioacuten de un software que podiacutea jugar a las damas mejorando

cada vez que jugaba una partida gracias a la memorizacioacuten y al anaacutelisis de datos (Samuel

1959) que posteriormente sirvieron de base para las grandes IA como DeepBlue que eran

capaces de ganar a los mejores jugadores de ajedrez del mundo

El lugar de referencia donde finalmente se acuntildeoacute el teacutermino Inteligencia Artificial fue en la

Conferencia de Darmouth cuya hipoacutetesis de estudio fue ldquolas bases de todos los aspectos de

aprendizaje o cualquier otro atributo de la inteligencia son tan descriptibles que una

maacutequina es capaz de realizarlos o simularlosrdquo Se intentoacute estudiar como las maacutequinas eran

capaces de emplear el lenguaje desde conceptos maacutes baacutesicos hasta algunos maacutes abstractos

para la resolucioacuten de problemas y su propia mejora respecto a su inicial respuesta (McCarthy

et al 1955)

En relacioacuten con lo anterior y regresando al aacuterea de la computacioacuten y al razonamiento

estadiacutestico-economeacutetrico a comienzos de los antildeos 70 Nelder y Wedderburn establecieron la

generalizacioacuten de los modelos lineares que incluiacutean tanto modelos de regresioacuten lineal como

la regresioacuten logiacutestica y como poco a poco fueron avanzando y evolucionando a lo que

conocemos hoy en diacutea como modelizacioacuten siendo esto el pilar fundamental teoacuterico del

Statiscal Learning (Nelder amp Wedderburn 1972)

Posteriormente lo que conocemos como Ciencia de la Computacioacuten (Computer Science)

evolucionoacute de tal forma que todos los tipos de regresiones tanto las lineares como las no

lineares eran computacionalmente factibles Destacan numerosos estudios acerca de la

validacioacuten cruzada para la seleccioacuten de modelos (Breiman et al 1984) o sobre la

3 En estudios posteriores Steven Harnad corrigioacute en varios puntos el artiacuteculo publicado por Turing en 1950

llegando a la conclusioacuten de que el verdadero objeto de estudio de Turing no era si las maacutequinas podiacutean pensar

por siacute solas sino si podiacutean pensar como seres humanos Para ver maacutes sobre el experimento de Turing visitar

Turing A (1964) Computer machinery and intelligence Minds and Machines

implementacioacuten praacutectica de softwares para la generalizacioacuten de modelos lineares (Hastie amp

Tibshirani 1987)

Tras todos estos estudios el Statiscal Learning se ha convertido una rama maacutes de la

estadiacutestica concentraacutendose en la modelizacioacuten y anaacutelisis de modelos Es innegable por otro

lado que el disentildeo de nuevos lenguajes de programacioacuten como el R o Python han sido de

gran utilidad y han tenido gran culpa en el progreso de esta rama (James et al 2013)

22 Diferencias entre Big Data y Machine Learning

Una vez establecido el nexo comuacuten o el origen de la IA y de lo que conocemos como

Statistical Learning es necesario realizar una distincioacuten y comparacioacuten entre lo que

definimos como Big Data y Machine Learning Estaacute claro que ambos hacen referencia al

manejo de grandes cantidades de datos tanto para su almacenamiento como para su anaacutelisis

y su aplicacioacuten en problemas cotidianos El nuacutemero de datos que abarcamos hoy en diacutea es

inmanejable (McAfee et al 2012) (Bughin et al 2010) Estos autores en numerosos estudios

proporcionaron una serie de datos sorprendentes acerca de la informacioacuten que somos capaces

de manejar

bull El 90 del total de datos ha sido creado en los dos uacuteltimos antildeos

bull En 2010 el nuacutemero total de teleacutefonos moacuteviles ascendiacutea a 5000 millones

bull Treinta mil millones de contenidos son compartidos en Facebook en un mes

bull La biblioteca del Congreso de Estados Unidos alberga unos 235 terabytes de

informacioacuten4

Sin embargo la popularidad que ha ido adquiriendo el teacutermino Big Data en los uacuteltimos antildeos

nos conduce a una definicioacuten difusa y compleja Y maacutes auacuten en relacioacuten con los diferentes

sistemas de anaacutelisis de datos que se han ido empleando recientemente entre los que destacan

el ya mencionado Machine Learning el BlockChain el Data Mining entre otros

A pesar de lo anterior las definiciones de los autores ponen en manifiesto un punto comuacuten

acerca de su definicioacuten La mejor forma de definir al Big Data es como un conjunto de datos

4 1 terabyte = 1000000000000 bytes En teacuterminos comparativos y aproximados 10 bytes = una o dos palabras

masivos Estos datos son empleados a gran escala para extraer nuevas percepciones o crear

nuevas formas de valor (Mayer-Schonberger amp Cukier 2013) Los datos suponen por otro

lado la confluencia de una multitud de tendencias tecnologiacuteas que han irrumpido con fuerza

en la sociedad generando una mayor movilidad aumento de redes sociales geolocalizacioacuten

aumento de banda ancha reduccioacuten en los costes de conexioacuten y computacioacuten en la nube

(Aguilar 2016) Otros autores indagan maacutes en las caracteriacutesticas de la informacioacuten

almacenada o contenida en ese Big Data por ejemplo Russom incluye factores como la

variedad y velocidad de los datos (Russom 2011)

Figura 1 Caracteriacutesticas del Big Data

Fuente Big Data analytics Russom (2011)

Nos acercamos pues a una definicioacuten mucho maacutes concreta que el simple almacenamiento de

datos Existe cierta tendencia a incluir el anaacutelisis de datos dentro del marco comuacuten del Big

Data sin embargo acorde a las referencias previamente consultadas esta asociacioacuten no seriacutea

del todo correcta pues valoran e incluyen el anaacutelisis de datos dentro del marco comuacuten del

Big Data Tal y como se viene demostrando una cosa es el almacenamiento de datos masivos

y otra su interpretacioacuten con teacutecnicas estadiacutesticas o matemaacuteticas avanzadas Sucede lo mismo

con la IA y el Big Data Mientras que la primera se relaciona con la forma de pensar de las

maacutequinas y su imitacioacuten a comportamientos pensamientos y toma de decisiones humanas

lo segundo pertenece al proceso de almacenamiento de datos sobre el que acabamos de hablar

(Russom 2011)

Una vez esclarecido esto es necesario desmarcar el concepto de Machine Learning de la

definicioacuten de Big Data El primero se conoce como la construccioacuten y el estudio de modelos

que pueden aprender a base de datos Los modelos construidos aprenden a base de datos

objetivos y una vez analizado estos realizan predicciones estimaciones y toman decisiones

(Provost amp Kohavi 1998) Otros autores estipulan que en la toma de decisiones los

algoritmos actuacutean como verdaderos expertos en lugar de seguir de manera expliacutecita sus

oacuterdenes de programacioacuten (Bishop 2006)

En referencia con lo anterior el Machine Learning es un meacutetodo de anaacutelisis maacutes que de

almacenamiento y entran en juego variables estadiacutesticas y economeacutetricas de alta complejidad

matemaacutetica Existen varios sistemas algunos de los cuales seraacuten introducidos maacutes adelante

Por un lado existen modelos complejos que eliminan cualquier posible fase exterior de

interpretacioacuten externa mientras que otros sirven de ayuda para un colaborador externo Estos

uacuteltimos son de gran utilidad pues el sujeto externo es el experto en cuestioacuten mientras que el

algoritmo o la computadora actuacutea como interaccioacuten Es la persona humana la encargada de

la representacioacuten de los datos las formas de manipulacioacuten de estos y el anaacutelisis final

(Monleoacuten-Gentino 2015)

Tabla 1 Tipos de aprendizaje

Tipo de

aprendizaje

Descripcioacuten Ejemplos

Aprendizaje

supervisado

El modelo utilizado produce una

funcioacuten que establece una

correspondencia entre las entradas

y las salidas deseadas del sistema

Este tipo de aprendizaje puede

llegar a ser muy uacutetil en problemas

de investigacioacuten bioloacutegica

biologiacutea computacional y

bioinformaacutetica

Programa informaacutetico que clasifica el

mail como ldquospamrdquo o ldquono spamrdquo Este

es un problema de clasificacioacuten

donde el sistema de aprendizaje trata

de etiquetar (clasificar) una serie de

vectores utilizando una entre varias

categoriacuteas (clases) La base de

conocimiento del sistema estaacute

formada por ejemplos de etiquetados

realizados anteriormente por el

usuario

Aprendizaje no

supervisado

Todo el proceso de modelado se

lleva a cabo sobre un conjunto de

Un robot que detecte si hay alguacuten

problema en su operacioacuten en funcioacuten

ejemplos formado tan soacutelo por

entradas al sistema No se tiene

informacioacuten sobre la variable de

salida El algoritmo tiene que ser

capaz de reconocer patrones para

poder etiquetar las nuevas entradas

de lo que indican los sensores que

posee (temperatura estado de la

bateriacutea etc)

Aprendizaje por

refuerzo

El algoritmo aprende observando

el mundo que le rodea Su

informacioacuten de entrada es la

retroalimentacioacuten que obtiene del

mundo exterior como respuesta a

sus acciones Por lo tanto el

sistema aprende a base de ensayo-

error Hay un supervisor que da

informacioacuten al agente sobre si lo

estaacute haciendo bien o mal pero no

exactamente lo que debe hacer

Robot experto que aprende del mundo

exterior en base a ensayo-error

Transduccioacuten

Similar al aprendizaje supervisado

pero el algoritmo no construye de

forma expliacutecita una funcioacuten ya

que los datos no tienen etiqueta

estaacuten sin clasificar Se pretende

pronosticar las categoriacuteas de los

futuros ejemplos basaacutendose en los

ejemplos de entrada sus

respectivas categoriacuteas y los

ejemplos nuevos al sistema

Anaacutelisis automaacutetico de texto

aplicaciones de la bioinformaacutetica

Fuente El impacto del Big-data en la Sociedad de la Informacioacuten Monleoacuten-Getino (2015)

23 Aplicaciones praacutecticas Empresas y sectores

Como ya hemos podido observar existen nuacutemeros sistemas de Machine Learning lo que nos

permite adaptarlos a diferentes sectores de la sociedad Por otro lado existen numerosas

empresas generalmente relacionados con estos sectores que maximizan sus beneficios y

optimizan sus procesos empresariales con el objetivo de reducir costes

La mecaacutenica y roboacutetica es sin duda una de las ramas que maacutes se puede beneficiar de los

avances del Machine Learning Sobre todo en aacutembitos laborales donde el trabajo de

maacutequinas optimiza y es mucho maacutes eficaz que el de un humano Veacutease faacutebricas de

alimentacioacuten (en procesos como el envasado el etiquetado) o en faacutebricas automoviliacutesticas

(Hinestroza 2018) Otros campos interesantes son el reconocimiento de objetos basados en

imaacutegenes cuya aplicacioacuten es muy interesante para sectores como las caacutemaras microacutefonos o

sistemas de geolocalizacioacuten (Contreras et al 2016)

La medicina es posiblemente otro de los sectores maacutes beneficiados del anaacutelisis de datos

proporcionando un beneficio directo a la sociedad Por un lado podemos observar en base a

unos paraacutemetros si un paciente posee una enfermedad o no Por otro lado todo el sistema de

gestioacuten de citas y seguimiento de los pacientes puede realizarse de forma maacutes raacutepida Se

puede observar ademaacutes donde es maacutes necesario oftalmoacutelogos o traumatoacutelogos en funcioacuten

de las necesidades de la poblacioacuten de cada zona (Hinestroza 2018) Otro ejemplo interesante

fue la investigacioacuten cliacutenica en casos de gripe En 2004 se predijo un aumento de casos de

gripe N1H1 en funcioacuten delo nuacutemero de buacutesquedas en Google del teacutermino ldquogriperdquo (Reiz et al

Fuente Big Data Analysis y Machine Learning en medicina intensive Reiz A et al (2013)

La Figura 2 nos muestra como a partir de la buacutesqueda por internet del teacutermino gripe se podiacutea

predecir un patroacuten comuacuten de casos reales en la poblacioacuten En la tabla de arriba se observoacute

como el nuacutemero de buacutesquedas para el antildeo 2009 se disparoacute coincidiendo con el repunte de

casos de ese antildeo para poblaciones joacutevenes

Las teacutecnicas de Machine Learning se pueden aplicar praacutecticamente en cualquier aacutembito de

nuestra vida Se han descrito dos campos esenciales sin embargo existen otras aplicaciones

muy interesantes como son el sector puacuteblico (Plazas 2017) para la educacioacuten (Naacutejera amp de

la Calleja Mora 2017) o para las finanzas y los negocios como es el caso del presente trabajo

3 RIESGO DE CREacuteDITO

El eje del presente trabajo es el caacutelculo del riesgo de creacutedito hipotecario mediante la

aplicacioacuten de teacutecnicas de Machine Learning Para ello es fundamental entender queacute es el

concepto de riesgo de creacutedito y riesgo de creacutedito hipotecario y coacutemo ha ido evolucionando

su importancia y meacutetodo de caacutelculo Es imprescindible entender lo acontecido durante la

crisis del 2007 y como a partir de esta los sistemas de medicioacuten de riesgo a nivel mundial

han ido transformaacutendose Se analizaraacute por lo tanto lo sucedido entre los antildeos 2000 y 2007 y

posteriormente las regulaciones impuestas por los Acuerdos de Basilea II5 y Basilea III

31 Introduccoacuten al riesgo de creacutedito Crisis financiera del 2007

El riesgo de creacutedito es un teacutermino cuya importancia surge a partir de la crisis de 2007 Pese

a que su definicioacuten seraacute analizada en el apartado siguiente es necesario realizar una

introduccioacuten sobre los acontecimientos ocurridos a principios del siglo XXI pues el riesgo

del que hablamos juega un papel fundamental y descriptivo de lo sucedido Todos los

sistemas modernos dedicados a la gestioacuten del riesgo surgen como consecuencia de la de la

aprobacioacuten del Acuerdo de Basilea II Dichas disposiciones no se llegaron a implementar el

antildeo del estallido de la recesioacuten y como consecuencia el resultado fue incluso peor de lo

esperado De este modo es innegable el impacto que tuvo la crisis financiera de 2007 en la

economiacutea en general Por este motivo carece de sentido hablar del riesgo de creacutedito o de la

gestioacuten de cualquier tipo de riesgo sin hacer especial alusioacuten a lo acontecido en esas fechas

Es difiacutecil establecer una uacutenica causa objetiva como desencadenante de la crisis financiera El

punto de partida podriacutea considerarse el mercado inmobiliario estadounidense A comienzos

del siglo XXI los precios de los inmuebles comenzaron a crecer a un ritmo superior a la

deacutecada anterior mientras que los tipos de intereacutes se desplomaban durante los antildeos 2002 y

2005 A fecha de 2 de enero de 2001 la Reserva Federal manteniacutea los tipos de intereacutes al

650 descendiendo hasta cuatro puntos porcentuales ese mismo antildeo alcanzando el 11 de

diciembre de 2001 un 175 (Expansioacuten)

Figura 3 Precio de la vivienda y nuacutemero de hipotecas en Estados Unidos (1990-2007)

Fuente SampP Case-Schiller Inside Mortgage Finance

Sin embargo no se pudo entender la masiva subida de precio de los inmuebles sin analizar

la indiscriminada concesioacuten de creacuteditos hipotecarios (Figura 3) A comienzos del antildeo 2000

las condiciones de concesioacuten de hipotecas se ablandaron haciendo posible la adquisicioacuten de

hipotecas a familias que anteriormente jamaacutes se les habriacutea sido concedidas A estas se les

denominoacute Hipotecas Subprime cuyas caracteriacutesticas eran maacutes que factibles para los

hipotecados pues se les permitiacutea la devolucioacuten del principal con unos intereses muy bajos

siendo la capacidad financiera muy pobre en comparacioacuten con el importe que se les concediacutea

(Hull 2012) Como consecuencia los productos financieros involucraban un riesgo muy

elevado pues pese a ser factible la devolucioacuten del creacutedito muchas no contaban con las

suficientes fuentes de financiacioacuten para hacer frente al pago y por lo tanto el riesgo de que el

deudor incurriese en Default o impago era elevado

La facilidad de obtencioacuten crediticia impulsoacute la compra de viviendas generando una demanda

excesivamente alta tal y como muestra la Figura 3 El aumento de la demanda inmobiliaria

generoacute un consecuente aumento de precios para equilibrar el mercado alcanzando en 2005

el maacuteximo de la deacutecada (Figura 3)

Los inversores y propietarios aprovecharon la oportunidad que les ofreciacutea el mercado A

mayor nuacutemero de hipotecas otorgadas mayor eran los beneficios para ellos Como a su vez

los precios de la vivienda continuaban aumentando si los hipotecados incurriacutean en Default

los inversores podiacutean ejecutar la hipoteca y hacerse con el control del inmueble de tal forma

que las peacuterdidas sufridas se cubriacutean con el collateral o producto subsidiario5 El problema no

residiacutea del todo en la concesioacuten ilimitada de hipotecas a familias sin los suficientes recursos

para pagarlas si no en la contraparte y en la especulacioacuten bancaria (Zimmerman 2007)

A medida que subieron los precios los primeros compradores de inmuebles no pudieron

hacer frente al precio solicitado6 Con el objetivo de atraer maacutes compradores los agentes

inmobiliarios los prestamistas y los inversores continuaron con la flexibilizacioacuten de las

condiciones de concesioacuten ignorando y no comprobando factores como el salario anual del

hipotecado o la capacidad de devolucioacuten Se popularizoacute la concesioacuten de las ARMs

(Adjustable Rate Mortgages) con tipos de intereacutes ajustables (Pennington-Cross 2010)7

Un estudio muy interesante acerca de la indiscriminada concesioacuten de hipotecas a familias

que en antildeos anteriores jamaacutes habriacutean cumplido los criterios establecidos por los bancos fue

el elaborado por Mian y Sufi De acuerdo con el estudio antes de la crisis de 2007 los coacutedigos

Zip de las Subprime experimentaron un crecimiento en comparacioacuten con la caiacuteda de los

salarios en los mismos coacutedigos Zip (Mian amp Sufi 2009) Los coacutedigos Zip eran o son los

coacutedigos postales definidos por zonas o estados en Estados Unidos De esta forma

demostraron que

bull La expansioacuten del creacutedito hipotecario asociado a coacutedigos Zip Subprime teniacutea una

estrecha relacioacuten con los Defaults producidos en todo el paiacutes

bull Para entender la crisis de creacutedito de 2007 es necesario analizar la expansioacuten del

creacutedito asociado a Hipotecas Subprime en todos los barrios de todo Estados Unidos

5 El collateral o bien subsidiario lo constituiacutea el activo que respaldaba el creacutedito concedido En caso de hipotecas

el bien subsidiario suele ser el objetivo gravado por la hipoteca para nuestro caso la vivienda Sin embargo se

pueden hipotecar otros productos como acciones de una compantildeiacutea o bienes del deudor que no forman parte del

mismo contrato 6 A los prestatarios hipotecados o deudores se les conociacutea como liar loans pues muchas veces mentiacutean acerca

de sus condiciones econoacutemicas Como sabiacutean que el creacutedito se les iba a conceder igualmente y sus cuentas no

iban a ser comprobadas directamente mentiacutean Otro nombre por los que se les conociacutea era NINJA (no income

no job no assets) sin ingresos sin trabajo sin activos (Hull 2012) 7 En concreto se popularizoacute las ARM hiacutebridas 228 El nuacutemero 2 haciacutea referencia a los dos primeros antildeos del

preacutestamo que se concediacutean a un tipo de intereacutes fijo mientras que el 28 indicaba que los restantes veintiocho

antildeos que le restaban al creacutedito tendriacutean un tipo de intereacutes ajustable

bull Ciertos coacutedigos Zip Subprime sufrieron un elevado crecimiento a pesar del nulo

crecimiento de los salarios en las mismas zonas o incluso una disminucioacuten de estos8

En 2005 la demanda inmobiliaria y el precio de la vivienda alcanzaron los niveles maacutes altos

de la deacutecada

Figura 4 Variacioacuten del precio de bienes inmuebles en Nevada Arizona y California (1985-2007)

Fuente Mortgage Bankers Association

Una vez comenzado el 2006 y por los motivos expuestos anteriormente la demanda

inmobiliaria disminuyoacute sin embargo el precio de la vivienda continuoacute ascendiendo hasta

2007 (Figura 4)

8 Para ver maacutes conclusiones del estudio visitar Mian A amp Sufi A (2009)

Figura 5 Variacioacuten de los tipos de intereacutes de creacuteditos hipotecarios en Nevada Arizona y California

(1985-2007)

Fuente Freddie Mac

Las familias hipotecadas habiacutean asumido costes del 100 o maacutes de la vivienda Al realizarse

el ajuste del tipo de intereacutes los hipotecados no podiacutean hacer frente a la devolucioacuten del creacutedito

concedido por lo que la mayoriacutea incurrieron o se posicionaron en Default (Figura 5)

La situacioacuten era la siguiente por un lado la demanda inmobiliaria disminuyoacute debido a los

altos precios de las viviendas Por otro lado la oferta de vivienda aumentoacute

descontroladamente debido a las ejecuciones por parte de los propietarios de las viviendas

hipotecadas El problema del mercado inmobiliario estadounidense es que funcionaba como

una opcioacuten bursaacutetil en concreto como una Put9 En este sentido cuando el prestatario incurriacutea

en Default el prestamista teniacutea la posibilidad de adquirir el inmueble sin embargo el resto

de los bienes del hipotecado eran intocables (Hull 2012) De este modo el hipotecado en

cualquier momento del Default podiacutea vender al prestamista la vivienda por el valor actual

amortizado Con la ejecucioacuten hipotecaria la hipoteca sobre el inmueble se cancelaba y esta

era adquirida por el prestamista del creacutedito A medida que fueron sucediendo las numerosas

ejecuciones los prestamistas se vieron con un portfolio inundado de viviendas vaciacuteas cuyo

valor y precio descendiacutea draacutesticamente (Hull 2012)

9 Una Put u opcioacuten de venta es un instrumento financiero o contrato que otorga a su propietario el derecho pero

no obligacioacuten de vender una cantidad determinada del tiacutetulo subyacente a un precio determinado por un precio

determinado

Las consecuencias fueron demoledoras para la sociedad En el aspecto humano las familias

que no podiacutean hacer frente al pago de la hipoteca se veiacutean obligados a abandonar su casa

pues el prestamista ejerciacutea su derecho de adquisicioacuten de la vivienda por incurrir en Default

Por otro lado aumentoacute la especulacioacuten inmobiliaria pues la mayoriacutea de los inmuebles eran

propiedad de fondos de inversioacuten que jugaban con la variacioacuten de precios para beneficiarse

de esto (Zinnerman 2012)

En una misma calle existiacutean dos casas ambas en posesioacuten de dos familias Las dos viviendas

alcanzaban un valor de 200000$ y ambas familias solicitaron hipotecas que ascendiacutean a las

250000$ En ambos contratos si el hipotecado no cumpliacutea con sus obligaciones crediticias

el prestamista podriacutea ejecutar la hipoteca hacerse con el control de la vivienda y venderla a

un precio estimado de 170000$ Lo que sucediacutea en este caso es que ambas familias podriacutean

declararse en posicioacuten de Default y seguramente adquirir la vivienda de al lado por un precio

mucho menor es decir como los bienes personales no eran ejecutables ambos ejercitaban la

opcioacuten Put para adquirir por un valor mucho menor la casa de la otra familia En condiciones

normales en caso de Default del hipotecado los prestamistas eran capaces de recuperar hasta

el 75 del valor de la ejecucioacuten Tras las crisis de 2007 ese mismo antildeo apenas la cifra

alcanzaba el 25 del valor del activo (Hull 2012)

32 Proceso de securitizacioacuten

Hemos visto las causas y las consecuencias de esta crisis a nivel individual sin embargo el

papel de los inversores los bancos y las agencias de calificacioacuten tuvieron un papel

fundamental Como es loacutegico los bancos concedentes de hipotecas vendiacutean productos o sus

portfolios a inversores para bien cubrirse del riesgo de Default de los hipotecados o para

cubrir las peacuterdidas que produciacutean las ejecuciones de hipotecas sobre viviendas cuyo precio

empezaba a caer Los bancos crearon por lo tanto porfolios de hipotecas la mayoriacutea

Subprime muy arriesgados y atractivos para inversores Al proceso de creacioacuten de dichos

portfolios se conoce como securitizacioacuten o titulacioacuten Consiste en la transformacioacuten de

creacutedito no liacutequido y activos no comercializados en liacutequidos y comerciales como son los

tiacutetulos-valor (Berlin 1994)

El primer proceso de securitizacioacuten consiste en seleccionar una serie de activos con

caracteriacutesticas homogeacuteneas en este caso hipotecas Una vez agrupados todos los activos el

vendedor los enajena a traveacutes de SPVs compantildeiacuteas trusts cuya funcioacuten es el mantenimiento

de estos activos Ya en posesioacuten de los SPVs con ayuda de agentes privados de bolsa se

emiten los tiacutetulos valor tanto en el mercado puacuteblico como en el privado (Keys 2010) Como

muchos inversores no estaban dispuestos a correr todo el riesgo asociado al portfolio que

estaban adquiriendo se cubriacutean o mejoraban el creacutedito con la sobrecolateralizacioacuten de los

activos o con la firma de seguros (Henke 1998)

En la Figura 6 se muestra coacutemo funcionaba el proceso de securitizacioacuten para los ABS (asset-

backed security) un tipo de tiacutetulo que conteniacutea los packs de preacutestamos inmobiliarios El

teacutermino backed haciacutea referencia a que dicho producto estaban respaldados por los activos

que cubriacutean los preacutestamos en este caso las viviendas de los hipotecados

Figura 6 Proceso de securitizacioacuten de tiacutetulos

Fuente Risk Management and Financial Institutions Hull (2012)

Una vez vendidos los flujos de caja de los activos se colocaban en ramas Pese a que en la

realidad existiacutean muchos maacutes tipos de ramas las maacutes populares eran tres la rama Senior la

Mezzanine y la rama Equity En cada rama se colocaban los flujos de caja de los activos por

el orden el expuesto de modo que hasta que no se cubriacutea la rama Senior la Mezzanine no

dispondriacutea de los flujos de caja restantes (Gorton 2007) Es por eso por lo que si nuestro

portfolio adquiriese un valor de 100 millones 75 se destinariacutean a la rama Senior una vez

cubiertos se destinariacutean 20 a la rama Mezzanine y por uacuteltimo los cinco restantes a la rama

Equity (Hull 2012)

Como es loacutegico cada rama poseiacutea una tasa de retorno diferente pues el riesgo de cada una era

mayor Mientras que la rama Senior ofreciacutea rentabilidades del 5 las ramas Equity podriacutean

llegar a ofrecer un 30 (Hull 2012) Sin embargo las tres ramas se concentraban en un

mismo tiacutetulo el ABS A la rama Senior se le calificaba como creacutedito AAA a la Mezzanine

BBB y generalmente la rama Equity careciacutea de calificacioacuten crediticia Como era loacutegico

encontrar inversores para la rama Senior no involucraba gran riesgo ya que su valor

crediticio era elevado La rama Equity o no se vendiacutea o se entregaba a fondos de cobertura

capaces de cubrir el riesgo (Gorton 2007) El problema surgioacute con la rama Mezzanine sobre

la cual se realizaban sucesivas ABS El producto resultante era un ABS con sus propias ramas

sobre una rama Mezzanine al que se denominoacute ABS CDO (collateral debt obligation) Sobre

un producto cuyo valor era BBB se realizaban ABS con las mismas ramas anteriores solo

que la rama Senior del ABS CDO poseiacutea una calificacioacuten AAA cuando la rama Mezzanine

no alcanzaba ni si quiera la calificacioacuten de A- (Gorton 2007)

Figura 7 Proceso de creacioacuten de los CDOacutes con su valoracioacuten crediticia

Fuente UBS Market Commentary (2007)

33 Acuerdos de Basilea

Debemos hacer una breve referencia a la aprobacioacuten de los Acuerdos de Basilea ya que han

introducido nuevas foacutermulas y restricciones para la concesioacuten de creacuteditos hipotecarios

Dentro de los numerosos acuerdos de Basilea los maacutes pertinentes o los que nos conciernen

son Basilea II y Basilea III Bien es cierto que Basilea II fue aprobado con anterioridad al

estallido de la crisis de 2007 sin embargo ciertos economistas achacan a la inaplicacioacuten de

las disposiciones de dicho Acuerdo a la recesioacuten econoacutemica

Tras la gran recesioacuten econoacutemica el 31 de diciembre de 2011 se firmoacute la implementacioacuten de

Basilea II5 No parece justo achacar las consecuencias de la crisis a la laxitud de Basilea II

sobre todo porque tal y como se ha demostrado las consecuencias de la burbuja inmobiliaria

estadounidense surgen por causas achacables al antildeo 2000 Por otro lado tampoco parece que

Estados Unidos implementase correcta o iacutentegramente las disposiciones del Acuerdo Basilea

II por lo que si hubiese procedido como otros paiacuteses posiblemente los efectos de la crisis

hubiesen sido maacutes bajos (Hul 2012)

En los primeros acuerdos de Basilea en 1998 se establecieron cuatro ponderaciones para

medir el riesgo de creacutedito que se aplicaban de acuerdo con las categoriacuteas sobre las que se

clasificaban los creacuteditos por tipo de emisor de la deuda o del prestatario 0 para las

obligaciones a cargo de gobiernos miembros de la OCDE 20 para tiacutetulos emitidos por

bancos de paiacuteses miembro de la OCDE 50 para los creacuteditos hipotecarios y 100 para las

obligaciones de paiacuteses menos desarrollados o tiacutetulos de bancos de paiacuteses no miembros de la

OCDE (Ong 1999)

Por no incluir todos remedios no pertinentes para el presente estudio destaca la mayor

innovacioacuten que introdujo esta modificacioacuten la medicioacuten comprensiva del riesgo (CRM) El

CRM se disentildeoacute con el objetivo de estudiar la correlacioacuten entre los activos ABS y los CDO

Ambos productos en momentos donde la correlacioacuten se incrementaba como en 2007 en

situaciones de Default sufriacutean peacuterdidas conjuntas Basilea II5 permite a los bancos calcular

su propio CRM pero para poder ser vaacutelido debiacutea incluir diversos factores como la volatilidad

de las correlaciones (Lopez 2004)

En diciembre de 2009 se firmoacute por uacuteltimo Basilea III El objetivo de este fue hacer frente al

riesgo de liquidez provocado por el impacto de la crisis de 2007 El caso que mejor ilustra

este riesgo fue el caso de Northern Rock y Lehman Brothers Para financiar operaciones a

largo plazo los bancos empleaban pagareacutes no garantizados cuyos vencimientos rondaban los

90 o 270 diacuteas (Hull 2012) Para seguir manteniendo la financiacioacuten seguiacutean emitiendo estos

instrumentos financieros en el momento de vencimiento del anterior Sin embargo cuando

los bancos sufriacutean dificultades econoacutemicas no podiacutean emitir maacutes pagareacutes El resultado era

una falta de liquidez preocupante e incapacidad de hacer frente a las deudas de corto plazo

(Lopez 2004)

Los Acuerdos de Basilea han supuesto un cambio en el paradigma del caacutelculo del riesgo de

creacutedito Su estudio en este apartado es meramente informativo y merece sin duda un anaacutelisis

intensivo fuera de este trabajo

34 Perspectiva empresarial

Finalmente podemos definir el teacutermino riesgo de creacutedito como la probabilidad de que a su

vencimiento una entidad o persona no haga frente en parte o en su totalidad a su obligacioacuten

de devolver una deuda o rendimiento acordado sobre un instrumento financiero debido a la

quiebra iliquidez u otra razoacuten (Chorafas 2000) Cuando el prestatario o deudor no puede

hacer frente a la obligacioacuten incurre en lo que hemos denominado como Default argot

financiero empleado para referirse al incumplimiento de una deuda Para nuestro objeto de

estudio el riesgo de creacutedito hipotecario seraacute la probabilidad de que a vencimiento el deudor

no haga frente a la cuota del creacutedito hipotecario al final del mes

Para el caso de las empresas el riesgo de creacutedito funciona de manera similar Sin embargo

las empresas suelen tener mayor capacidad de financiacioacuten o endeudamiento que por ejemplo

una familia de personas Las empresas al poseer generalmente un abanico o portfolio de

activos tienen mejor capacidad de hacer frente a sus deudas (Chorafas 2000)

Tal y como se muestra en la Figura 8 las empresas tambieacuten pueden incurrir en Default En

este sentido y tal y como se explica en la imagen cuando el valor de los activos totales cae

por debajo de la deuda total de la empresa nos encontramos ante una situacioacuten de Default

Figura 8 Escenario de Default para una empresa

Fuente De Basilea Recordatorio BASILEA II (2010)

Como se comentaba en el experimento de Mian y Sufi el mercado inmobiliario

estadounidense funcionaba como una opcioacuten Put Es decir en caso de Default el deudor (sea

una persona fiacutesica o una juriacutedica) teniacutea un derecho de venta del activo inmobiliario El caso

para los bancos cuyo portfolio lo componiacutean viviendas hipotecadas con las Subprime era

mucho maacutes grave Debido a las numerosas ejecuciones hipotecarias muchos de los pisos

quedaron vaciacuteos sumaacutendose eso a la caiacuteda de los precios el valor de los activos inmobiliarios

se desplomoacute agravando y convirtiendo la situacioacuten en un ciacuterculo vicioso (Mian amp Sufi

Existe por otro lado un problema con la correlacioacuten de activos que una empresa puede poseer

Es decir a mayor correlacioacuten entre los activos las probabilidades de incurrir en Default son

mucho mayores Con todo el sentido del mundo si el 80 del portfolio de un banco son

bienes inmuebles o son hipotecas Subprimes en el estallido de la crisis si al menos el 50

de esos creacuteditos concedidos sus deudores incurriacutean en Default era muy probable que la

entidad bancaria perdiese mucho valor en sus activos y por ende incurririacutea en Default tambieacuten

(Hull 2012) Cuando hablamos de un portfolio de creacuteditos existen ciertos aspectos a tener en

cuenta No estamos hablando de creacuteditos individualizados si no que nos encontramos con un

portfolio diversificado compuestos por varios creacuteditos a la vez

Tal y como se comentoacute en la introduccioacuten las principales empresas que emplean meacutetodos

para el caacutelculo de la posibilidad de impago son los bancos Cada entidad financiera posee su

propio sistema de medicioacuten de riesgo de tal forma que forman incluso parte de la propiedad

intelectual del banco (Elizondo amp Lopez 1999)

35 Tipos de riesgo de creacutedito

Por uacuteltimo en este apartado se haraacute referencia a determinados riesgos de creacuteditos en funcioacuten

de su origen

En primer lugar es necesario analizar el riesgo de creacutedito hipotecario Pese que ya ha sido

comentado en algunos puntos anteriores se puede definir como el riesgo de que el prestatario

no pague su cuota correspondiente del creacutedito concedido por el que se adquiriacutea una vivienda

(Sirignano et al 2015) El riesgo de creacutedito depende no solo de las caracteriacutesticas del sujeto

hipotecado sino en las condiciones en las que se contrajo el creacutedito o incluso de las

caracteriacutesticas globales del ciclo econoacutemico en la que se contrajo el creacutedito De esta forma

factores como la elevada edad del preacutestamo variable que se analizaraacute en el caso de estudio

son una de las principales causas de Default previas a la crisis del 2007 (Bagherpour 2017)

En segundo lugar podemos destacar el riesgo de creacutedito del consumidor Este hace referencia

a las iacutendices de morosidad e incumplimiento de los titulares de la tarjeta de creacutedito de los

clientes de los bancos (Khandani et al 2010) Se recogen dentro de este riesgo los de

tarjetas cuentas corrientes y otros instrumentos de pago o de giro en posesioacuten del

consumidor

Terceramente podemos destacar el riesgo de creacutedito del preacutestamo Las diferencias con el

riesgo objeto de estudio son escasas pues en el fondo el creacutedito hipotecario actuacutea

generalmente bajo las mismas condiciones que un preacutestamo normal La diferencia reside en

que otras caracteriacutesticas o variables tienen mayor peso (Bagherpour 2017) Por ejemplo para

los preacutestamos simples el tipo de intereacutes puede tener un mayor peso que si el prestatario

pertenece a una familia unifamiliar o no En el caso del riesgo de creacutedito hipotecario tal y

como se analizaraacute en el caso de estudio observaremos que variables como el LTV o el

Balance en el momento de observacioacuten del creacutedito tienen un impacto mayor en la

probabilidad de Default del prestatario que por ejemplo la edad del creacutedito concedido

Otro tipo de riesgo comuacuten es el riesgo de creacutedito corporativo La diferencia con los anteriores

reside en que el sujeto pasivo en vez de ser un particular lo conforma una empresa En este

caso para su caacutelculo ademaacutes de analizar las caracteriacutesticas del creacutedito concedido es necesario

hacer referencia a variables empresariales Las maacutes importantes son las principales cuentas

contables los comportamientos de pago de la empresa prestataria frente a creacuteditos anteriores

y toda aquella informacioacuten relacionada con los preacutestamos y la posicioacuten macroeconoacutemica de

la empresa en comparacioacuten con el mercado en el que se encuentra (Carling et al 2013)

Por uacuteltimo y con el aacutenimo de no extendernos maacutes debemos resaltar el riesgo de calificacioacuten

del creacutedito que consiste en el riesgo generado por sobreestimar la calificacioacuten de un creacutedito

(Dumitrescu et al 2018) Este uacuteltimo adquiere una gran importancia en las agencias de rating

actuales como Moodyacutes o Fitch y han desarrollado modelos predictivos capaces de obtener

el riesgo generado por la sobre calificacioacuten de creacuteditos

4 MODELOS DE CAacuteLCULO DEL RIESGO DE CREacuteDITO

Una vez definida la perspectiva histoacuterica de la Inteligencia Artificial y analizada la evolucioacuten

del riesgo de creacutedito en la recesioacuten econoacutemica se deben de abordar las principales teacutecnicas

que van a ser empleadas para el estudio del caso En este apartado haremos referencia a los

meacutetodos maacutes relevantes que han sido empleados para el caacutelculo del riesgo de creacutedito entre

los que distinguiremos los maacutes tradicionales hasta los maacutes modernos que involucran teacutecnicas

estadiacutesticas maacutes avanzadas Se haraacute referencia tambieacuten al modelo Logit o regresioacuten logiacutestica

que ha sido empleada durante varios antildeos como piedra angular a la hora del caacutelculo de este

tipo de riesgo

Se ha realizado una divisioacuten de los principales modelos de medicioacuten del riesgo de creacutedito

siguiendo la propuesta de clasificacioacuten de Garciacutea (Tabla 2) Estos sistemas tienen como

objetivo identificar los determinantes del riesgo de creacutedito de las carteras de cada institucioacuten

con el propoacutesito de prevenir perdidas potenciales en las que podriacutea incurrir Es necesario

destacar que a diferencia del riesgo de mercado el desarrollo para medir el riesgo de creacutedito

ha sido menos cuantiosos pues cada institucioacuten contempla generalmente un modelo diferente

de caacutelculo de este riesgo por lo que existen numerosas aproximaciones a su caacutelculo (Garciacutea

2010) Siguiendo la clasificacioacuten del autor el anaacutelisis del riesgo de creacutedito debe considerar

dos tipos de riesgo el individual del creacutedito y el del portfolio que los recoge

Tabla 2Clasificacioacuten de los tipos de riesgo seguacuten Garciacutea

Riesgos individuales Riesgos del portfolio

bull Probabilidad de incumplimiento

bull Tasa de recuperacioacuten

bull Migracioacuten de creacutedito

bull Incumplimiento y calidad crediticia

correlacionada

bull Concentracioacuten del riesgo y

concentracioacuten crediticia

Fuente Managing credit risk Chorafas (2000)

41 Meacutetodos Tradicionales

El primer grupo de modelos a analizar son los denominados modelos tradicionales Se

estudiaraacuten dos tipos los sistemas expertos y los sistemas de calificacioacuten La caracteriacutestica

principal de estos modelos son la aplicacioacuten de porcentajes para determinar el riesgo que se

va a cubrir De esta forma se realizan proyecciones de las variables econoacutemicas y financieras

en el tiempo dependiendo del desempentildeo de la empresa (Marquez 2006) Amos sistemas por

otro lado consideran estaacutetico e independiente el comportamiento de las variables e involucra

el criterio subjetivo de cada analista basaacutendose en valoraciones de acuerdo con la experiencia

adquirida en la asignacioacuten de creacuteditos (Garciacutea 2010)

411 Sistemas expertos

Los sistemas expertos podriacutean componer la base de los sistemas de clasificacioacuten actuales

basados en teacutecnicas de Machine Learning o Inteligencia Artificial Un sistema experto puede

definirse como un sistema informaacutetico (hardware y software) que simula a los expertos

humanos en un aacuterea de especializacioacuten dada (Castillo 1997) Sin embargo quedan limitados

a la etapa de clasificacioacuten ya que no pueden establecer un viacutenculo entre la probabilidad de

Default con la gravedad de la peacuterdida (Garciacutea 2010) Es necesario remarcar que los Sistemas

expertos se emplean exclusivamente para el caacutelculo del riesgo de creacutedito corporativo ya que

como se veraacute maacutes adelante se fundamentan en los ratios principales de la empresa deudora

Los Sistemas expertos se fundamentan en los siguientes factores

bull Capacidad Capacidad del pago del deudor Valoracioacuten acerca de la antiguumledad de la

empresa crecimiento a lo largo del tiempo principales actividades flujos de caja del

negocio deudas pasadas y presentes y otros factores decisivos para hacer frente a la

devolucioacuten del creacutedito Si bien no es mencionado por Garciacutea para personas fiacutesicas no

empresas seriacutea necesario otros factores como la renta deudas pendientes gastos

corrientes

bull Capital Anaacutelisis de la situacioacuten financiera del deudor capacidad de endeudamiento

liquidez tiempo de rotacioacuten de proveedores

bull Colateral Activos en posesioacuten del deudor para constituirlo como garantiacutea de pago

En el caso de creacuteditos hipotecarios como los mencionados en el apartado de la crisis

el colateral lo conformaban las viviendas hipotecadas de ahiacute el nombre de ABS

bull Caraacutecter Informacioacuten de haacutebitos de pago del deudor Referencias comerciales de

otros proveedores posibles verificaciones de demandas judiciales referencias

bancarias

bull Condiciones Factores externos que afectan a la situacioacuten patrimonial del deudor

Condiciones econoacutemicas del paiacutes situacioacuten del sector del negocio

Como se puede observar estos sistemas contemplan caracteriacutesticas simples de del prestatario

para asiacute conformar un modelo posterior son por asiacute decirlo las bases de modelos posteriores

los cuales a traveacutes de estos datos realizaban predicciones sobre la posibilidad de Default Una

vez se implementaron las teacutecnicas de aprendizaje automaacutetico permitieron a los sistemas

almacenar la informacioacuten para de esta forma evitar la complementacioacuten del evaluador en la

valoracioacuten del creacutedito (Andreacutes 2000)

412 Sistemas de calificacioacuten

Por otro lado destacan los sistemas de calificacioacuten comuacutenmente empleados por ejemplo por

la Oficina de Control de Moneada de Estados Unidos para la evaluacioacuten de su deuda emitida

y adecuacioacuten de las reservas para posibles casos de Default Tras la aprobacioacuten de los

primeros Acuerdos de Basilea se decidioacute transformar los sistemas de medicioacuten de creacutedito

que se veniacutean utilizando (Ong 1999) Se consideraron dos nuevas aproximaciones a la

medicioacuten del riesgo de creacutedito Una estandarizada en la que entraban en consideracioacuten la

valoracioacuten de los creacuteditos por entidades externas y una aproximacioacuten basada en calificaciones

internas de riesgo cuyo fundamento eran las peacuterdidas no esperadas La metodologiacutea maacutes

empleada para esta aproximacioacuten fue el modelo Altman Z-score en el que se aplicaba un

anaacutelisis discriminante a un conjunto de indicadores financieros cuyo propoacutesito fue clasificar

las empresas en dos grupos bancarrota y no bancarrota (De la Fuente 2006)10 Debemos

destacar que este meacutetodo se emplea tambieacuten para el caacutelculo del riesgo de creacutedito corporativo

10 Para ver maacutes acerca de la aplicacioacuten de este modelo ver Anjum S (2012) Business bankruptcy prediction

models A significant study of the Altmanrsquos Z-score model Available at SSRN 2128475 Y Altman E I

La funcioacuten discriminante para empresas puacuteblicas estimada por Altman se configuraba de la

siguiente forma (Altman 2017)11

119885 = 121198831 + 141198832 + 331198833 + 061198834 + 1051198835 12

Ecuacioacuten 1 Funcioacuten discriminante de Altman

bull X1= Capital circulante Activos totales

bull X2= Beneficios no distribuidos Activos totales

bull X3= EBITDA Activos totales

bull X4= Capitalizacioacuten bursaacutetil Deuda Total

bull X5= Ventas Netas Activos Totales

bull Z= Iacutendice de estudio

En funcioacuten de los resultados

bull Para Z gt3 No se encontraban indicios para prever una posible situacioacuten de quiebra

para la empresa

bull Para 18 gt Z gt 27 La empresa se encontraba en zona de alerta Si las condiciones no

eran modificadas se podriacutea prever una situacioacuten de quiebra en dos antildeos

bull Para Z lt 18 La empresa incurririacutea en quiebra inminente

Como podemos observar se fueron introduciendo medios maacutes avanzados basados en

regresiones economeacutetricas o aplicaciones estadiacutesticas Sin embargo estos se quedan bastante

cortos respecto a la aplicacioacuten de otros modelos maacutes modernos que incluyen un mayor

nuacutemero de variables o incluso de modelos estadiacutesticos que aplican teacutecnicas de Machine

Learning

Iwanicz-Drozdowska M Laitinen E K amp Suvas A (2014) distressed firm and bankruptcy prediction in an

international context A review and empirical analysis of Altmans Z-score model Available at SSRN 2536340 11 El propio autor configuroacute una funcioacuten diferente para las empresas privadas que disponiacutea de la siguiente forma

Zrsquorsquo = 325 + 656X1 + 326X2 + 672X3 + 105X4 12 Las cuatro variables se encuentran expresadas en decimales

42 Meacutetodos Modernos

En contraposicioacuten con los modelos anteriores destacan modelos de medicioacuten maacutes modernos

donde intervienen un mayor grado de sofisticacioacuten

El modelo KMV de monitoreo de creacutedito fue implementado por la agencia Moodyacutes y

consistiacutea en estimar la probabilidad de incumplimiento entre activos y pasivos Definiacutea la

probabilidad de incumplimiento como una funcioacuten de la estructura del capital de la firma la

volatilidad de los activos y su valor actual (Garciacutea 2010)

En una primera fase se estima el valor de los activos y la volatilidad del rendimiento en

funcioacuten del valor de mercado nunca de los libros El valor de los activos en el mercado

representa el valor efectivo libre y futuro producidos por los activos de la empresa

descontados a una tasa correspondiente Esta fase emplea bases del conocido modelo de

Merton De acuerdo a este modelo para una empresa no hay reestructura o renegociacioacuten de

manera que existen solo dos posibilidades para hacer frente al riesgo de creacutedito (Saunders

2000) La primera es la liquidacioacuten total del montante pactado en plazo La segunda es la

declaracioacuten de insolvencia y entrega de los activos sobre los que recaiacutean garantiacuteas por ese

creacutedito al banco prestamista A fecha de vencimiento tendremos los creacuteditos o bien como

parte del activo de la empresa si se pagan o bien en el pasivo si se declara insolvente

(Merton 1977)

En una segunda fase se calcula el riesgo de los activos en el que se incluyen el riesgo del

negocio y del sector en el que trabaja la empresa medidos por la volatilidad de los activos y

condicionada por la propia volatilidad de las acciones Llegados a este punto se debe calcular

como punto de incumplimiento (DPT) que es el momento en el que el valor de los activos

alcanza un nivel medio entre el valor total de las obligaciones y el valor de la deuda a corto

plazo (Garciacutea 2010) Por otro lado la distancia al incumplimiento nos indica el nuacutemero de

desviaciones estaacutendar entre la media y la distribucioacuten del valor de los activos en el punto de

incumplimiento

119863119863 =119864(1198811) minus 119863119875119879

119878

Ecuacioacuten 2 Distancia de incumplimiento para el modelo KMV

bull E(V1) = valor esperado de los activos en un antildeo

bull DPT= Punto de incumplimiento= Deuda a corto plazo + 05 (deuda a largo plazo)

bull S= volatilidad de los rendimientos esperados de los activos

bull DD= distancia al incumplimiento

Por uacuteltimo se calcula la derivacioacuten de la probabilidad de incumplimiento cuyo objetivo es

convertir la distancia anteriormente hallada en un estimacioacuten de la frecuencia de

incumplimiento13 El modelo KMV utiliza un modelo de valuacioacuten de riesgo neutral para

derivar precios descontados al valor esperado de los futuros flujos de caja (Garciacutea 2010) La

valuacioacuten de dichos flujos consiste en

119875119881 =119865119881 lowast (1 + 119871119866119863) + 119865119881 lowast 119871119866119863(1 minus 119876)

(1 + 119894)

Ecuacioacuten 3 Derivacioacuten de la probabilidad de incumplimiento para el modelo KMV

bull PV= valor presente de los flujos de caja

bull FV= valor futuro

bull LGD= influencia de la peacuterdida expresada en porcentaje

bull I= tasa libre de riesgo

bull Q= probabilidad de que el emisor incumpla en un antildeo

Concluyendo lo que nos permite este modelo es encontrar una relacioacuten entre la distancia al

incumplimiento y la probabilidad de que se produzca el Default Para esto se establece una

tabla que relaciona la probabilidad de incumplimiento con los niveles de distancias de

Default Asiacute es constante esta relacioacuten entre distancia en incumplimiento y probabilidad de

13 El modelo KMV toma como referencia el modelo EDF o estimated Default frecuency que transformaba la

informacioacuten contenida en el precio de la accioacuten en una medida del riesgo de incumplimiento de pago

que ocurra independientemente del sector el tamantildeo o el tiempo en el que se puedan

encontrar dos empresas ya que las diferencias existentes debidas a todos los factores

sentildealados se recogen ya la distancia en incumplimiento Estos tres meacutetodos que hemos

analizado hasta ahora nos sirven para identificar como se ha venido calculando el riesgo de

creacutedito corporativo de las empresas Para nuestro caso de estudio debemos de profundizar

maacutes pues lo que nos interesa es hallar el riesgo de creacutedito hipotecario donde los sujetos

deudores o prestatarios son personas solicitantes de una hipoteca no empresas

43 Meacutetodos Estadiacutesticos

Por uacuteltimo parece necesario destacar modelos actuales empleados por empresas Se citaraacuten

a continuacioacuten algunos de estos

1) Modelos de previsioacuten no lineales y no parameacutetricos del riesgo crediticio de los

consumidores (Khandani et al 2010) Se calcula el riesgo de creacutedito del consumidor

a) Estudio Combinacioacuten de las transacciones de los clientes y los datos de las oficinas

de creacutedito de enero de 2005 a abril de 2009 para una muestra de los clientes de un

importante banco comercial Elaboracioacuten de pronoacutesticos fuera de la muestra que

mejoran significativamente la calificacioacuten del creacutedito y las tasas de impago impagos

de los titulares de tarjetas de creacutedito con una regresioacuten lineal R2 de morosidad

pronosticadarealizada del 85 (Khandani et al 2010)

b) Conclusioacuten Los patrones de series temporales de las tasas de morosidad estimadas a

partir de este modelo en el curso de la reciente crisis de financiera sugieren que el

anaacutelisis de riesgo de creacutedito al consumidor agregado puede tener importantes

aplicaciones en el pronoacutestico del riesgo sisteacutemico (Khandani et al 2010)

2) Desarrollo de un modelo de aprendizaje profundo de riesgo hipotecario de muacuteltiples

periacuteodos Para analizar un conjunto de datos cuyo origen y registros parten del

rendimiento mensual para maacutes de 120 millones de hipotecas originadas en todo EEUU

entre 1995 y 2014 (Sirignano et al 2016) Se calcula el riesgo de creacutedito hipotecario por

lo que es el estudio maacutes interesante y que maacutes puntos en comuacuten comparte con nuestro

caso de estudio

a) Estudio Las estimaciones de estructuras de plazos de probabilidades condicionales

de pago anticipado ejecucioacuten hipotecaria y varios estados de morosidad incorporan

la dinaacutemica de un gran nuacutemero de preacutestamo asiacute como variables macroeconoacutemicas

hasta el nivel de coacutedigo postal Las estimaciones descubren la naturaleza altamente

no lineal de la relacioacuten entre las variables y el comportamiento del prestatario

especialmente el prepago Tambieacuten destacan el efecto de las condiciones econoacutemicas

locales sobre el comportamiento de los prestatarios El desempleo estatal tiene el

mayor poder explicativo entre todas las variables ofreciendo fuerte evidencia de la

estrecha conexioacuten entre los mercados de la vivienda y la macroeconomiacutea (Sirignano

et al 2016)

b) Conclusioacuten La sensibilidad de un prestatario a los cambios en el desempleo depende

en gran medida del desempleo actual Tambieacuten variacutea significativamente en toda la

poblacioacuten de prestatarios lo que pone de relieve la interaccioacuten del desempleo y

muchas otras variables Estas conclusiones tienen importantes repercusiones para los

inversores en tiacutetulos respaldados por hipotecas los organismos de calificacioacuten y los

encargados de la formulacioacuten de poliacuteticas de vivienda (Sirignano et al 2016)

5 TEacuteCNICAS DE MACHINE LEARNING

Se desglosaraacute en este apartado las teacutecnicas de Machine Learning empeladas para el posterior

caso praacutectico Primero se haraacute referencia al marco conceptual En segundo lugar se analizaraacute

las bases del modelo Logit o regresioacuten logiacutestica en la que se apoyan las teacutecnicas posteriores

Por uacuteltimo se estudiaraacute el concepto de aacuterbol de decisioacuten y Gradient Boosting

11 Marco conceptual Problema de clasificacioacuten

El concepto de Statiscal Learning se refiere a una serie de herramientas para la modelizacioacuten

y la comprensioacuten de bases de datos muy complejas Dividido en supervisado y no

supervisado es el primero el que nos permite construir modelos estadiacutesticos con el objetivo

de predecir y estimar una variable en funcioacuten de otras (Figura 9) En este sentido disciplinas

como los negocios la medicina o las poliacuteticas puacuteblicas emplean estas herramientas con el

objetivo de sacar el mayor partido a una gran base de datos

Antes de adentrarnos en el problema de clasificacioacuten es necesario comprender que

razonamiento de estas teacutecnicas es bastante maacutes compleja de lo planteado en este caso El

objetivo es entender coacutemo aplicar dichas teacutecnicas a problemas de negocios actuales no hacer

un anaacutelisis exhaustivo de todas las teacutecnicas posibles de Machine Learning

Fuente JP Morgan Macro QDS

Tal y como muestra la Figura 9 todos los problemas relacionados con el Statiscal Learning

se pueden dividir hasta en cuatro categoriacuteas De estas cuatro nos centraremos en las dos

primeras el aprendizaje supervisado y los no supervisado Es el primero el que nos interesa

para este trabajo pues son los que nos permiten estudiar el comportamiento de una variable

en funcioacuten de otras Para cada observacioacuten medida por el sujeto predictor 119909119894 ⅈ = 1 hellip n

existe una respuesta asociada 119910119894 Lo que se busca con estos modelos es buscar la relacioacuten

ente la respuesta con el predictor para asiacute predecir el comportamiento de futuras

observaciones (prediccioacuten) o comprender la relacioacuten establecida entre la respuesta y el

predictor (inferencia) (Kolanovic et al 2017)

Las principales teacutecnicas estadiacutesticas que se emplean como parte del Machine Learning

estudiadas en el presente trabajo pueden resumirse en las siguientes (Figura 9)

bull Clasificacioacuten Asignacioacuten de una clase a un determinado objeto o individuo Busca

la categorizacioacuten generalmente en dos etiquetas o respuesta binomial Un ejemplo

praacutectico es la definicioacuten de ldquoGuapordquo o ldquoFeordquo de una persona o para el presente objeto

de estudio si el cliente incurre en ldquoDefaultrdquo o ldquoNo Defaultrdquo

bull Regresioacuten Generalizacioacuten del problema de clasificacioacuten La respuesta toma forma de

un nuacutemero real

12 Modelo Logit

La diversidad de modelos para predecir la capacidad de pago nos impide establecer un

criterio claro y comuacuten para todos ellos Sin embargo gran parte de las teacutecnicas aplicadas en

nuestro caso de estudio parten de las premisas de la regresioacuten logiacutestica

Primeramente debemos analizar queacute tipo de variable es nuestra variable endoacutegena o

dependiente A la hora de analizar variables estas pueden ser categorizadas en cuantitativas

o cualitativas (categoacutericas) (Martiacutenez de Ibarreta et al 2017) Las primeras suelen ser valores

numeacutericos tales como el salario de una casa o el nuacutemero de horas de espera en una consulta

meacutedica Las variables cualitativas toman valores de diferentes clases o categoriacuteas Ejemplos

de estas uacuteltimas pueden ser el geacutenero de una persona (masculino o femenino) el color de

ojos (marroacuten azulo verde) o para el caso que nuestro caso respuestas simples como Default

o no Default

Las variables cuantitativas son maacutes faacuteciles de analizar con los meacutetodos de regresioacuten linear

cuya funcioacuten es

119910119894 = 1205731 + 12057321199092119894 + ⋯ 120573119896119909119896119894 + 120583119894

Ecuacioacuten 4 Modelo de Regresioacuten lineal claacutesico

Cuando queremos analizar la probabilidad de variables dependientes binarias se puede

emplear el modelo de probabilidad lineal cuya funcioacuten es

119910 = 1205731 + 12057321199092 + ⋯ 120573119896119909119896 + 119906

Ecuacioacuten 5 Modelo de probabilidad lineal

Sin embargo para nuestro caso en el que queremos analizar una variable cualitativa que toma

dos sucesos el modelo de probabilidad lineal no permite analizar correctamente el valor de

la variable dependiente La regresioacuten logiacutestica o modelo Logit por el contrario siacute que nos

permite obtener correctamente las probabilidades de que ocurran los sucesos contemplados

para la variable binomial sin incurrir en los errores del modelo de probabilidad lineal

(Martiacutenez de Ibarreta et al 2017) Las funciones del modelo Logit son las siguientes

119875119903119900119887 (119910119894 = 1) =ⅇ119911119894

1 + ⅇ119911119894

119911119894 = 1205731 + 12057321199092119894 + ⋯ 120573119896119909119896119894

Ecuacioacuten 6 Modelo Logit

Existen varias limitaciones al modelo de probabilidad lineal pero especialmente nos

centraremos en el problema de no acotamiento de la probabilidad entre 0 y 1 Si queremos

mantener que el valor de 119910119894 sea una medida de la probabilidad es necesario que la variable

119910119894 no tome valores inferiores a 0 o superiores a 1 es decir que se encuentre dentro del

intervalo [01] No podemos obtener una probabilidad de -540 o una probabilidad del

120 Para ello se emplea como relacioacuten funcional entre 119909119894 e 119910119894 la funcioacuten de probabilidad

acumulada o funcioacuten de distribucioacuten (Martiacutenez de Ibarreta et al 2017)

Figura 9 Recta obtenida con el modelo de probabilidad lineal (izq) Funcioacuten de distribucioacuten obtenida con el

modelo Logit (dcha)

Fuente An Introduction to Statistical Learning James et al (2017)

Como vemos en la Figura 9 la funcioacuten de distribucioacuten no toma valores inferiores a 0

superiores a 1 por lo tanto en vez de obtener la recta de regresioacuten que se obtiene con la

regresioacuten lineal obtenemos una funcioacuten de probabilidad acumulada que podremos utilizar

para predecir el comportamiento de la variable endoacutegena

Por uacuteltimo debemos destacar la interpretacioacuten de los resultados la variable dependiente

obtenidos con el modelo Logit El valor que toma la variable 119910 es la probabilidad de que esa

variable tome el valor ldquo1rdquo es decir si consideramos como suceso 1 incurrir en Default si y

= 08 estamos considerando que la empresa tiene un 80 de probabilidad de incurrir en

Default Si se quiere clasificar al sujeto como 0 o 1 y no tener meramente una probabilidad

a partir de cierto resultado se le considera o un suceso u otro Pongamos un ejemplo Siendo

119910 = 1 Default o 119910 = 0 No Default si la variable 119910 lt 05 entonces consideraremos que la

empresa no incurriraacute en Default Por el contrario si 119910 gt 05 consideraremos que la empresa

siacute incurriraacute en Default Si la probabilidad estimada supera un cierto umbral (en nuestro caso

05) se calificaraacute como 1 A este umbral le denominamos cut-off (Martiacutenez de Ibarreta et al

Concluimos por lo tanto que el Modelo Logit nos permite analizar nuestra variable

dependiente y binaria en comparacioacuten con el modelo de probabilidad lineal Nos permite

identificar la probabilidad de que el suceso 1 ocurra sin incurrir en los errores provocados

por el meacutetodo de probabilidad liacutenea anteriormente descritos

13 Aacuterboles de decisioacuten y Gradient Boosting

Una vez descrito el modelo Logit debemos hacer referencia a las otras dos teacutecnicas que se

emplearaacuten en el caso de estudio Se analizaraacuten en primer lugar el fundamento de los aacuterboles

de decisioacuten y a continuacioacuten la teacutecnica de Gradient Boosting Bien es cierto que existen otras

teacutecnicas como el Bagging Random Forest entre otras cuyo punto de partida tambieacuten son los

aacuterboles de decisioacuten y comparten cierta similitud con estas dos Sin embargo es imposible

abarcar todas las teacutecnicas que se pueden emplear para el anaacutelisis del conjunto de datos por

eso nos centraremos en estas dos porque son las que aplicaremos en el caso de estudio

131 Aacuterboles de decisioacuten

Los aacuterboles de decisioacuten pueden ser aplicados para resolver problemas tanto de regresioacuten

como de clasificacioacuten En la siguiente figura se muestra un esquema de un aacuterbol de decisioacuten

sin incorporar las variables de los cortes

Figura 10 Esquema de un aacuterbol de decisioacuten sin variables en los cortes

Fuente elaboracioacuten propia mediante R

En los aacuterboles de decisioacuten existen varias regiones para el caso de la Figura 10 se muestran

hasta 13 A estas regiones se le denomina a cada una como R y se les conoce como nodos

terminales u hojas de los aacuterboles (James et al 2013) A la hora de construir un aacuterbol de

decisioacuten debemos centrarnos en dos pasos Primero dividir el espacio de prediccioacuten en

funcioacuten de una serie de valores 119909 que son fundamentalmente las variables explicativas de la

variable endoacutegena que queremos analizar Cada variable en funcioacuten de su importancia

dividiraacute el espacio en dos regiones para un valor determinado A esta divisioacuten se le denomina

corte para la variable 119909 Dependiendo de la importancia de la variable explicativa es posible

que nos encontremos con cortes para una misma variable como sucederaacute en nuestro caso de

estudio Una vez analizadas las variables se obtienen todos los cortes y divisiones

finalizando el aacuterbol en los nodos terminales

Segundo para cada observacioacuten que se realiza dentro de la regioacuten se realiza la misma

prediccioacuten que es simplemente la media de los valores de respuesta para las observaciones

dentro de esa regioacuten (James et al 2013) Es decir dentro de cada nodo terminal se realiza la

media de los valores de respuesta El valor con mayor media seraacute catalogado como clase

mayoritaria dentro de ese nodo Si la media de Defaults es mayor que la de no Defaults la

clase mayoritaria que apareceraacute en el nodo terminal seraacute Default

El aacuterbol comienza con todas las observaciones pertenecientes a una sola regioacuten y luego

continuacutea dividieacutendose sucesivamente hasta llegar a los nodos terminales Cada divisioacuten

implica la creacioacuten de dos nuevas ramas A este sistema se le denomina greedy 14 (Kolanovic

et al 2017) En cada paso de construccioacuten del aacuterbol la mejor divisioacuten se realiza en ese paso

particular en vez de mirar caracteriacutesticas futuras y escogiendo una divisioacuten que nos favorezca

la construccioacuten de un aacuterbol futuro A este sistema se le conoce como particioacuten binaria del

espacio (James et al 2013)

Para realizar dicha particioacuten binaria en primer lugar seleccionamos la prediccioacuten 119883119895

Estableceremos el punto de corte como 119878 y se dividiraacute el espacio en las regiones

119883|119883119895 lt 119878 119883|119883119895 ge 119878

Ecuacioacuten 7 Divisioacuten del espacio en funcioacuten de la prediccioacuten Xj en un aacuterbol de decisioacuten

La primera de estas anotaciones nos indica la regioacuten del espacio en el que 119883119895 toma un valor

menor que 119878 La segunda anotacioacuten indica la regioacuten en el que 119883119895 toma un valor mayor que

119878 Consideramos las predicciones 119883119895 y todos los posibles valores de los puntos de corte 119878

14 Traducido al espantildeol vendriacutea a denominarse codicioso

para cada una de las predicciones (Kolanovic et al 2017) Para cualquier 119883119895 y 119878 definimos

las regiones (119877) como

1198771(119895 119878) = 119883|119883119895 lt 119878 1198772(119895 119878) 119883|119883119895 ge 119878

Ecuacioacuten 8 Obtencioacuten de las regiones en funcioacuten de Xj y S en aacuterbol de decision

Encontrar los valores de 119883119895 y 119878 depende del nuacutemero de caracteriacutesticas o variables explicativas

que queramos observar en el espacio de prediccioacuten Continuando con la foacutermula anterior y

aplicado un nuevo corte para otra variable explicativa dividimos no el espacio de prediccioacuten

total sino una de las regiones obtenidas tras la divisioacuten de este con la primera caracteriacutestica

El proceso continuacutea hasta que descartas todas las caracteriacutesticas que deseas estudiar (James

et al 2013)

Sin embargo este meacutetodo de construccioacuten de aacuterboles de decisioacuten a medida que vamos

antildeadiendo variables cada vez se hace maacutes difiacutecil dando resultados confusos y difiacuteciles de

interpretar Un aacuterbol maacutes pequentildeo con menos divisiones y ramas nos permite una mejor

interpretacioacuten reduciendo el sesgo A este proceso se le conoce como poda15 Consiste en

construir un aacuterbol muy grande podaacutendolo de tal forma que obtenemos un subaacuterbol Nuestro

objetivo es por lo tanto seleccionar un subaacuterbol que nos conduce a un error de testeo menor

Figura 11 Aacuterbol de decisioacuten con varios subaacuterboles

15 Traduccioacuten literal de pruning

Estimar y validar cada subaacuterbol es un proceso demasiado largo ya que pueden existir

numerosos subaacuterboles Para eso se emplea el meacutetodo Cost Complexity Ppruning que consiste

en considerar una secuencia de subaacuterboles indexados por un paraacutemetro no negativo (α) en

vez de considerar cada subaacuterbol posible (Kolanovic et al 2107)16 El proceso sin embargo

es ciertamente complejo y merece un anaacutelisis maacutes profundo y matemaacutetico que el que se puede

proporcionar en este trabajo

Los aacuterboles de decisioacuten tienen muchas ventajas respecto a otras teacutecnicas La primera es su

sencillez a la hora de operar con eacutel ya que se asemejan a la toma de decisiones humanas a

diferencia de regresiones lineares o logariacutesticas Por otro lado la disposicioacuten graacutefica permite

un mayor entendimiento e interpretacioacuten sobre todo si no se analizan muchas variables de la

muestra de sujetos El problema con los aacuterboles reside sin embargo en que la falta de

dificultad no permite grandes niveles de prediccioacuten que otros modelos de regresioacuten Por otro

lado un cambio en algunas de las variables del aacuterbol rompe con las ramas originarias a partir

de la divisioacuten de la variable por eso se considera un meacutetodo poco robusto (James et al 2013)

Algunas de estas desventajas seraacuten analizadas en el caso de estudio

132 Gradient Boosting

Tal y como se ha mencionado al comienzo de este apartado el Gradient Boosting es otro de

las varias alternativas que pueden ser aplicados a modelos de Statiscal learning para

problemas de regresioacuten y clasificacioacuten Este meacutetodo implica crear muacuteltiples copias del

conjunto de datos ajustando los aacuterboles de decisioacuten para cada copia y despueacutes

combinaacutendolos para crear un uacutenico modelo predictivo (James et al 2017) A diferencia del

Bagging donde cada aacuterbol se construye independientemente de los otros en el Gradient

Boosting los aacuterboles son creados de forma secuencial en el que cada aacuterbol se desarrolla en

funcioacuten de la informacioacuten aportada por aacuterboles anteriores

En comparacioacuten con otros meacutetodos el Gradient Boosting implica un proceso de aprendizaje

maacutes lento En vez de crear un uacutenico gran aacuterbol de decisioacuten respecto a todos los datos se van

16 Para ver profundizar maacutes este concepto veacutease Bradford J P Kunz C Kohavi R Brunk C amp Brodley

C E (1998 April) Pruning decision trees with misclassification costs In European Conference on Machine

Learning (pp 131-136)

ajustando los aacuterboles creados a los residuos del modelo en lugar de al resultado de la variable

Y Este aacuterbol de decisioacuten se antildeade posteriormente a la funcioacuten ajustada para actualizar los

residuos de forma que cada uno de estos aacuterboles puede ser bastante pequentildeo con solo unos

pocos nodos determinados por el paraacutemetro del algoritmo Mientras vamos ajustando los

aacuterboles pequentildeos a los residuos vamos mejorado la funcioacuten f en aacutereas donde no funciona

correctamente (Kolanovic et al 2017) Las expresiones matemaacuteticas del Boosting son mucho

maacutes complejas que para cualquier regresioacuten o aacuterbol de decisioacuten El objetivo de este trabajo

no es realizar un anaacutelisis matemaacutetico de los meacutetodos si no ver su aplicacioacuten al aacutembito

empresarial por lo que no se incluyen el desarrollo matemaacutetico dentro de este trabajo17

Por uacuteltimo es necesario plantearse como podemos aplicar el Boosting al aacutembito empresarial

que es el asunto que nos concierne Por ejemplo para la prediccioacuten del fracaso empresarial

se puede construir un clasificador capaz de distinguir las empresas sanas de aquellas que van

a fracasar El planteamiento del aprendizaje automaacutetico ante este problema seriacutea el siguiente

Empieza recopilando tantos ejemplos como sea posible de empresas que fracasaron asiacute como

de empresas sanas A continuacioacuten con estas observaciones y las etiquetas con sus clases se

entrena al sistema de aprendizaje elegido que produce un clasificador o regla de prediccioacuten

Posteriormente ante una nueva empresa de clase desconocida dicho clasificador intenta

predecir si fracasaraacute o no El objetivo por supuesto es generar un clasificador que realice las

predicciones maacutes precisas posibles en nuevos ejemplos de test Este mismo proceso se

realizaraacute a continuacioacuten con el objeto de estudio formado por creacuteditos hipotecarios

17 Si se desea conocer el razonamiento matemaacutetico se puede acudir a algunas de las fuentes ya citadas donde

se realiza un anaacutelisis exhaustivo acerca del desarrollo de construccioacuten de un Gradient Boosting o de aacuterboles de

decisioacuten maacutes complejos como James (2013) o Kolanovic (2017)

6 CASO DE ESTUDIO

En este uacuteltimo apartado se va a realizar el caso de estudio Una vez definidas las teacutecnicas que

se van a emplear y el concepto de riesgo de creacutedito hipotecario se busca poner en comuacuten lo

explicado para observar queacute teacutecnica nos permite un mejor anaacutelisis del conjunto de datos desde

el punto de vista empresarial

61 Datos utilizados

Los datos empleados para el anaacutelisis del caso corresponden a datos de panel Utilizamos los

datos observados en el mes en cuestioacuten para predecir la situacioacuten de no Default o de Default

del prestatario Por otro lado el conjunto de datos pertenece a una seleccioacuten aleatoria de datos

de carteras de preacutestamos hipotecarios recopilados de carteras subyacentes de la titularizacioacuten

de tiacutetulos18 Los datos fueron extraiacutedos del International Financial Research Por uacuteltimo el

conjunto contiene observaciones de rendimiento para 1045 prestatarios de hipotecas

residenciales de Estados Unidos previas a la crisis del 2007 Es necesario destacar que

originalmente la base de datos conteniacutea las caracteriacutesticas de hasta 622000 prestatarios Se

decidioacute realizar un balance de clase y obtener una muestra maacutes pequentildea con la que poder

trabajar Una de las razones de esto fue la cantidad de No Defaults que se obteniacutean de la

muestra maacutes grande Como es loacutegico antes de la recesioacuten los prestatarios pagaban sus

respectivas cuotas siendo el riesgo de Default mucho menor que por ejemplo dos antildeos maacutes

tarde Con la muestra que vamos a trabajar obtenemos respuestas dispares que nos permiten

identificar dentro de los Defaults que variables eran maacutes significativas y teniacutean maacutes impacto

a la hora de determinar cuando el prestatario incurriacutea en esta posicioacuten Se analizan a

continuacioacuten las variables estudiadas

Variable endoacutegena y dependiente

Como se comentoacute en el apartado anterior la variable endoacutegena o dependiente que se desea

analizar es el Default Dicha variable corresponde a una variable categoacuterica y binomial es

decir toma dos valores 0 si el prestatario ha pagado la parte correspondiente de su creacutedito

18 Es la traduccioacuten del tiacutetulo RMBS residential mortgage backed securities

ese mes 1 si el prestatario ha incurrido en Default es decir no ha pagado la parte

correspondiente de su creacutedito ese mes

Variables explicativas

bull Age (Edad) Variable explicativa que mide el tiempo transcurrido desde el origen de

la concesioacuten del creacutedito hipotecario hasta el diacutea de la observacioacuten No muestra por lo

tanto la edad del prestatario sino el tiempo de transcurso de la obligacioacuten crediticia

en meses

bull Time_to_maturity (Madurez) Variable explicativa que mide el tiempo restante en

meses para el vencimiento del creacutedito hipotecario

bull Balance (Balance) Variable explicativa que muestra el balance restante en el tiempo

de observacioacuten Corresponde a la cantidad de dinero que le queda por pagar al

prestatario

bull LTV Variable explicativa que muestra el valor de la hipoteca respecto al valor del

bien hipotecado en el momento de la observacioacuten expresada en porcentaje Es decir

un LTV de un 50 indica que el valor de la hipoteca corresponde a la mitad del valor

del bien inmueble A diferencia de la variable LTV en el origen esta puede ser distinta

ya que seguacuten se van realizando los pagos del creacutedito el LTV del creacutedito disminuiraacute

bull Interest_rate (Tipo de intereacutes) Variable explicativa que indica el tipo de intereacutes del

creacutedito hipotecario en el momento de observacioacuten

bull SingleFamily (Familia) Variable explicativa dicotoacutemica que indica si el prestatario

es unifamiliar o no El valor de la variable seraacute 0 cuando no sea unifamiliar El valor

de la variable seraacute 1 cuando el prestatario sea unifamiliar

bull Balance_origin (Balance en el origen) Variable explicativa que muestra el balance

restante en el tiempo de concesioacuten del creacutedito Coincidiraacute con el valor del creacutedito que

el prestatario tiene que devolver

bull FICO_origin (Puntuacioacuten FICO) Variable explicativa que indica la calificacioacuten que

otorgada por la agencia Fair Isaac Corporation en el momento de concesioacuten del

creacutedito para determinar su riesgo y la posibilidad de extender su periodo de

vencimiento

bull LTV_origin (LTV en el origen) Variable explicativa que muestra el valor de la

hipoteca respecto al valor del bien hipotecado en el momento de la concesioacuten del

creacutedito expresado en porcentaje

bull Interest_Rate_orig (Tipo de intereacutes en el origen) Variable explicativa que indica el

tipo de intereacutes del creacutedito en el momento de la concesioacuten del creacutedito

62 Metodologiacutea

El objetivo de este caso es comprender desde un punto de vista empresarial cuaacuteles de los

meacutetodos descritos en las teacutecnicas de Machine Learning puede ser maacutes uacutetil para una empresa

Existen varios escenarios por la que una empresa puede decantarse por un meacutetodo u otro Por

ejemplo si se tienen una cartera de creacuteditos hipotecarios y se desea conocer el riesgo de

Default de esa cartera para asiacute cubrirse con otros instrumentos financieros O si por ejemplo

se desea conceder un creacutedito a un nuevo prestatario en queacute condiciones se debe otorgar para

asegurar que todos los meses pagaraacute su cuota y no incurriraacute en Default

Se expondraacute a continuacioacuten un anaacutelisis de la muestra de datos comentada en el apartado

anterior mediante la aplicacioacuten Gretl y el lenguaje de programacioacuten R Con el conjunto de

datos se obtuvo una regresioacuten logiacutestica un aacuterbol de decisioacuten y un gradient Boosting Si bien

es cierto que este uacuteltimo suele ser maacutes preciso como por ejemplo para la muestra original

maacutes grande las otras teacutecnicas tambieacuten nos ofrecen resultados interesantes para la muestra de

los 1045 prestatarios

63 Resultados

Se introdujo el conjunto de datos en el programa Gretl para la obtencioacuten de los principales

estadiacutesticos de las variables explicativas asiacute como la matriz de correlacioacuten para observar

posibles problemas de multicolinealidad entre ellas

Tabla 4 Estadiacutesticos principales de las variables explicativas

Fuente Elaboracioacuten propia mediante Gretl

Debemos destacar la media de la variable dependiente cuyo valor es 0323 es decir en

media hubo maacutes prestatarios ese mes que pagaron sus respectivas cuotas Por otro lado

parece interesante analizar algunos estadiacutesticos de las variables explicativas La media de la

variable Familia 0619 nos indica que en la muestra observada la mayoriacutea de los

prestatarios perteneciacutean a familias monoparentales La media de la variable FICO nos indica

que las puntuaciones de los creacuteditos en media no eran muy elevadas justificando en algunas

situaciones altas probabilidades de Default tal y como veremos en el aacuterbol de decisioacuten En

los casos de las variables que son comparadas en el origen y en el momento de observacioacuten

(Intereacutes Balance y LTV) el valor de la media es distinto Para el caso de las variables Balance

y Balance en el origen el valor es casi el mismo Para los tipos de intereacutes la media en el

momento de observacioacuten es mayor que en el origen Esto puede deberse un aumento de tipos

del paiacutes o a un ajuste realizado por la entidad prestamista para aumentar la edad del creacutedito

Respecto a las variables LTV y LTV en el origen la media de la primera deberiacutea ser menor

pues muchos prestatarios han ido pagando sus respectivas cuotas Esta diferencia puede

explicarse bien por el aumento de los tipos de intereacutes que provocaban que el valor del

montante a devolver aumentara o bien porque en los casos de Default ambas partes podiacutean

acordar una proacuterroga de las condiciones del creacutedito para evitar futuros Defaults Otro error

puede ser el tamantildeo muestral observado Tal vez si se analizasen el conjunto original

obtendriacuteamos valores diferentes

Por otro lado con el objetivo de identificar problemas de multicolineanlidad en las variables

se examinoacute la matriz de correlaciones de las variables explicativas El problema de

colinealidad surgiriacutea si alguno de los coefciientes obtenidos superase el 80

Figura 12Matriz de correlacioacuten de las variables explicativas

A la vista de resultados solo hay dos variables que supongan grande problemas de

multicolinealidad y son faacuteciles de comprender Las variables Balance y Balance en el origen

estaacuten totalmente relacionadas pues su valor depende del valor de la otra Una solucioacuten a este

problema es eliminar alguna de las dos variables sin embargo para nuetsro estudio no es

necesario Por otro lado los valores maacutes altos que alcanzan hasta un 70 de correlacioacuten son

la edad y el vencimiento del preacutestamo Esta relacioacuten tiene sentido pues a mayor edad del

creacutedito menor seraacute el tiempo que le resta para su vencimiento pues recordemos que la edad

es el nuacutemero de meses en los que el creacutedito se ha mantenido activo Otras correlaciones

interesantes a explicar pero que a priori no nos resulta perjudicial para realizar un anaacutelisis se

produce entre el LTV y el LTV en el origen (misma explicacioacuten que para las variables

Balance y Balance en el origen) y entre el tipo de intereacutes en el momento de la observacioacuten

con la variable FICO Esto explica la influencia que tiene el tipo de intereacutes del creacutedito en

relacioacuten a la puntuacioacuten FICO Como se puede observar en la Figura 13 a mayor tipo de

intreacutes menor es la calificacioacuten FICO

Figura 13Grafico X-Y Scatter de las variables FICO y Tipo de intereacutes

Fuente

Elaboracioacuten propia mediante Gretl

Otra correlacioacuten a destacar es el tipo de intereacutes en el momento de observacioacuten con los tipos

de intereacutes en el momento de concesioacuten Los valores obtenidos en la Figura 14 nos indican

una correlcioacuten positiva ya que en la mayoriacutea de las observaciones de la muestra para tipos

deintereacutes mayoreen el orgien mayor es el tipo de intereacutes en el momento de la observacioacuten

Fuente

La variable Tipo de intereacutes presenta numerosos anaacutelisis y como se veraacute posteriormente juega

un papel fundamental en la determinacioacuten de la probabilidad de Default Otras correlaciones

interesantes de esta variable se producen con las variables Edad y Balance Estas son

negativas por lo que un aumento de los tipos de intereacutes produciriacutea efectos inversos en estas

variables

Por uacuteltimo puede ser interesante analizar la variable endoacutegena en funcioacuten de otras variables

explicativas Una relacioacuten para estudiar puede ser la implicacioacuten que tiene pertenecer a una

familia unifamiliar o no con el Default del creacutedito

Tabla 5 Tabulacioacuten cruzada de Default (filas) contra SingleFamily (columnas)

A la vista de la figura anterior observamos que el nuacutemero total de Defaults en la muestra

ascendioacute a 333 siendo 206 de estos unifamilaires un 618 Por otro lado de todos los 697

prestatarios que pagaron su cuota 432 perteneciacutean a familias unifamiliares un 6197 Los

resultados no nos indican una gran relacioacuten pues para los casos de Default y no Default

siempre habiacutea un mayor de prestatarios unifamilares

Una vez obtenidos los estadiacutesticos anteriores con el programa Gretl se procedioacute al anaacutelisis

del conjunto de observaciones con el programa R Este programa ofrece ciertas ventajas

respecto a la aplicacioacuten Gretl Principalmente porque nos permite ver coacutemo se comporta el

modelo en el entrenamiento para luego ver si su aplicacioacuten en el test resulta significativa El

objetivo es por lo tanto obtener una prediccioacuten de los datos lo mejor posible Un modelo

que obtiene buenos resultados y predice correctamente en el set de entrenamiento pero en el

test los resultados no lo son no puede ser utilizado como modelo predictivo Para mejorar la

validez del trabajo se empleoacute el lenguaje de programacioacuten R para mantener constante el

conjunto de entrenamiento y de test Por otra parte el objeto de estudio del caso es queacute

modelo de Machine Learning resultaba maacutes favorable desde el punto de vista empresarial

por lo que la gestioacuten y comparacioacuten de los modelos fue maacutes sencilla con este coacutedigo

Continuando con en anaacutelisis para el set de entrenamiento se seleccionoacute aleatoriamente de la

muestra un 80 de los datos un total de 824 observaciones Para el test se empleoacute el 20

restante un total de 206 observaciones Una vez definidos el conjunto de entrenamiento y de

test se procedioacute a calcular la regresioacuten logiacutestica el aacuterbol de decisioacuten y el gradient Boosting

Para la regresioacuten logiacutestica se obtuvieron los siguientes resultados

Tabla 6 Resultado del modelo de regresioacuten logiacutestica

Fuente Elaboracioacuten propia mediante R

La primera columna obtenida corresponde al valor de los estimadores Las caracteriacutesitcas

maacutes significativas respecto a la variable endoacutegena de acuerdo con la Tabla 5 son el balance

en el momento de observacioacuten y en el origen el LTV en el momento de observacioacuten el tipo

de intereacutes en el momento de observacioacuten y la puntuacioacuten FICO De las cinco variables

significativas los coeficientes de las variables Balance Tipos de intereacutes y LTV poseen una

relacioacuten directa con la probabilidad de Default Si el balance del creacutedito aumenta implica

que la cantidad a pagar por el prestatario es mayor por lo tanto la probabilidad de Default

aumentaraacute Si el LTV del creacutedito aumenta esto indica que el porcentaje del valor del bien

cubierto por la hipoteca tambieacuten aumenta por lo que el prestatario tendraacute maacutes posibilidades

de incurrir en Default ya que le quedaraacute por pagar maacutes parte del bien Si el tipo de intereacutes

aumentan las probabilidades de Default tambieacuten ascienden ya que el prestatario tendraacute que

pagar unas cuotas mayores ajustadas al tipo de intereacutes aumentado Las otras dos variables

Balance en el origen y puntuacioacuten FICO implican una relacioacuten indirecta con la probabilidad

de Defaul es decir que un aumento de estas variable supone una disminucioacuten de la

probabilidad de Default Si nos fijamos bien todas las variables ex ante las analizadas en el

origen tienen una relacioacuten inversa con la variable dependiente Una explicacioacuten de esto

puede ser que como el prestatario no habiacutea pagado todaviacutea ninguna parte del creacutedito y se

encontraba en la posicioacuten inicial de pago Por el contrario las variables ex post las analizadas

en el momento de observacioacuten todas implican relaciones positivas y directas con la variable

dependiente

A continuacioacuten se obtuvieron las matrices de confusioacuten para el conjunto de entrenamiento y

test Las matrices de confusioacuten nos permiten ver la capacidad de prediccioacuten del modelo Se

observa por lo tanto las veces que el modelo predijo que el prestatario iba a pagar y pagoacute o

no pagoacute y las veces que el modelo predijo que el prestatario iba a incurrir en Default y este

incurrioacute o no Como es loacutegico cuanto maacutes acierte el modelo mejor seraacute su uso para predecir

el comportamiento de las observaciones Para el conjunto de entrenamiento se obtuvo la

siguiente matriz

Tabla 7 Matriz de confusioacuten del conjunto de entrenamiento para la regresioacuten logiacutestica

Para el conjunto de entrenamiento en la regresioacuten logiacutestica el modelo predijo que 563

prestatarios pagariacutean ese mes la cuota del creacutedito y no incurririacutean en Default De esos 563

496 realmente pagaron las cuotas de sus creacuteditos mientras que 67 no El modelo acertoacute para

los casos de no Default el 88 de los casos Por otro lado el modelo predijo que 261

prestatarios incurririacutean en Default ese mes siendo el resultado verdadero 96 Para el caso de

Default el modelo acertoacute en el 367 de los casos En su totalidad el modelo acertoacute 592

predicciones de un total de 824 un 7184

Para el conjunto del test se obtuvo la siguiente matriz de confusioacuten

Tabla 8 Matriz de confusioacuten del conjunto del test para la regresioacuten logiacutestica

Para el conjunto del test en la regresioacuten logiacutestica el modelo predijo que 134 prestatarios

pagariacutean ese mes su cuota del creacutedito y no incurririacutean en Default De esos 134 116 pagaron

realmente sus cuotas mientras que 18 no El modelo acertoacute para los casos de no Default en el

8656 de los casos Por otra parte el modelo predijo que 72 prestatarios incurririacutean en

Default ese mes de los cuales 30 verdaderamente no pagaron las cuotas de sus creacuteditos

mientras que 42 siacute lo hicieron El modelo acertoacute para los casos de Default un 4166 En su

totalidad el modelo acertoacute 146 predicciones de un total de 206 un 7087

Podemos considerar entonces que empleando una regresioacuten logiacutestica el modelo obtuvo unos

buenos resultados Tal y como ofrecen los datos el modelo predice mejor los casos de no

Default que de Default Los resultados son sin duda positivos pues aunque las predicciones

parecen similares en el conjunto del test el modelo predijo con mayor exactitud los casos de

Default hasta un 4 maacutes Siacute bien es verdad que el coacutemputo total el acierto es un punto

porcentual mayor lo interesante a analizar en este caso es la variable endoacutegena el Default

Desde el punto de vista empresarial resulta maacutes interesante conocer coacutemo se comportaraacute tu

modelo respecto a predecir cuantos prestatarios incurriraacuten verdaderamente en Default que

cuaacutentos no lo haraacuten E incluso para este caso y siendo la prediccioacuten sobre el total del conjunto

tan similar para el conjunto de entrenamiento como para el test el modelo en el test predice

mejor los verdaderos casos de Default

Por uacuteltimo debemos destacar queacute problema presenta emplear la regresioacuten logiacutestica para el

anaacutelisis del conjunto de datos Si bien las predicciones realizadas para el conjunto de

entrenamiento y de test son altas a diferencia del aacuterbol de decisioacuten no sabemos queacute valores

deben tomar las variables explicativas para predecir el Default o no Default Es decir los

coeficientes obtenidos nos indican queacute variables explicativas son las maacutes significativas y que

relacioacuten tienen con la variable endoacutegena sin embargo no sabemos para que valores de las

variables la probabilidad de Default es mayor Desde el punto de vista empresarial nos

interesa saber el valor de esas variables para analizar posibles escenarios y conceder creacuteditos

con unas caracteriacutesticas determinadas para evitar el Default del prestatario

El segundo meacutetodo empleado fue un aacuterbol de decisioacuten Manteniendo los mismos conjuntos

se obtuvo el siguiente aacuterbol de decisioacuten para el conjunto de entrenamiento

Figura 15 Aacuterbol de decisioacuten

El aacuterbol de decisioacuten ofrece sin duda datos muy interesantes a analizar Se obtuvieron 13

nodos terminales de los cuales 4 recogiacutean como clase mayoritaria la situacioacuten de Default

mientras que en los otros 9 la clase mayoritaria fue no Default El aacuterbol de decisioacuten nos

indicoacute que para este conjunto de datos la clase mayoritaria era no Default ya que para el

6832 de las observaciones la variable endoacutegena tomaba el valor 0 es decir no Default

Por otro lado se realizaron varios cortes para una misma variable dos para el tipo de intereacutes

y dos para el LTV La primera divisioacuten o corte se realizoacute en funcioacuten del tipo de intereacutes

distinguiendo aquellas observaciones en las que el tipo de intereacutes en el momento de

observacioacuten era menor o mayor que 7512 Para los creacuteditos de las observaciones si el tipo

de intereacutes en el momento de la observacioacuten fue menor que 7512 la probabilidad de no

incurrir en Default ascendiacutea a un 7905 Para los creacuteditos cuyos tipos de intereacutes en el

momento de la observacioacuten fuesen mayores de 7512 la probabilidad de no incurrir en

Default ascendiacutea a un 5125 Esto nos indica que el tipo de intereacutes es sin duda la variable

maacutes significativa a tener en cuenta

Los segundos cortes se produjeron en funcioacuten de las variables LTV y Balance Si el tipo de

intereacutes era menor al 7512 entonces el segundo corte se produciacutea en funcioacuten de la variable

LTV Si el valor de la variable en el momento de observacioacuten se encontraba por debajo de

un 9601 la probabilidad de que el prestatario no incurriera en Default era de 8873 Por

el contrario si el LTV del creacutedito era mayor que un 9601 la probabilidad de no incurrir

en Default ascendiacutea a 6201

Si el tipo de intereacutes era mayor de 7512 el segundo corte se produciacutea en funcioacuten de la

variable Balance Si el valor de la variable en el momento de observacioacuten era menor que

159832 la probabilidad de que el prestatario no incurriese en Default ascendiacutea a un 6223

Sin embargo si la variable Balance alcanzaba valores superiores a 159832 la situacioacuten

cambiaba draacutesticamente ya que entonces la probabilidad de que el prestatario incurriese en

Default alcanzaba un 6461

Desde el punto de vista empresarial es interesante analizar en queacute situaciones fue maacutes

probable que el prestatario no incurriese en Default De este modo las empresas pueden

establecer las condiciones de los creacuteditos que conceden para evitar en mayor medida el

impago de las cuotas y reducir el riesgo de Default

De acuerdo con el aacuterbol de decisioacuten en escala de menor a mayor probabilidad de no Default

se obtuvieron los siguientes escenarios

En el primero la probabilidad de no Default fue de 95 Para ello fue necesario que

bull 268 lt Intereacutes lt 7512

bull 9601 lt LTV lt 11623

bull LTV en el origen gt 825

En el segundo la probabilidad de no Default fue de 9879 Para ello fue necesario que

bull Intereacutes lt 7512

bull LTV lt 9601

bull FICO gt 6275

bull Intereacutes en el origen lt 5437

En el tercero la probabilidad de que el prestatario no incurra en Default fue del 100 Desde

el punto de vista empresarial si se desea reducir o eliminar el riesgo de Default los creacuteditos

deberaacuten cumplir las siguientes caracteriacutesticas

bull LTV gt 9601

Del mismo modo se obtuvo que en cuatro nodos terminales la clase mayoritaria fue el

Default del prestatario En escala de menor a mayor probabilidad de Default se obtuvieron

los siguientes escenarios

El primero para una probabilidad de Default del 6250 fue necesario que

bull LTV lt 9601

bull FICO gt 6275

bull Intereacutes en el origen gt 5437

bull Balance gt 740500

El segundo para una probabilidad de Default de 6341 fue necesario que

bull LTV gt 11623

En el tercer escenario se estudioacute la uacuteltima rama del aacuterbol aquella que cumpliacutea las siguientes

caracteriacutesticas

bull Intereacutes gt 7512

bull Edad gt 35 meses

bull Madurez gt 97 meses

En esta rama la clase mayoritaria obtenida fue Default con un 7732 de probabilidad

Dentro de esta misma rama se obtuvieron dos nodos terminales uno de los cuales nos

indicaba la situacioacuten para una probabilidad de Default maacutes alta Mientras que para un intereacutes

menor que 843 la probabilidad de Default fue de 6326 para un tipo de intereacutes superior

al 843 la probabilidad de Default obtenida fue de un 9166

Desde el punto de vista empresarial el anaacutelisis proporcionado por el aacuterbol de decisioacuten es de

gran utilidad Sabiendo que de los 1045 casos estudiado la clase mayoritaria es no Default

con un 6832 de probabilidad deducimos que la probabilidad de Default para ese conjunto

es de 3167 El empresario por ejemplo sabe que si concede un creacutedito con un intereacutes

menor al 7512 es muy probable que el prestatario no incurra en Default Si por otro lado

desea obtener la mayor rentabilidad de ese creacutedito y acuerda con el deudor un intereacutes mayor

a ese umbral debe saber que para reducir el riesgo de Default debe reducir la edad del creacutedito

su vencimiento u observar si el balance a fecha de observacioacuten es mayor o menor que

740500 euros Si en cambio desea concretar un LTV mayor con el prestatario sin que este

uacuteltimo incurra en Default deberaacute fijarse en que para LTV menores de 9601 el riesgo de

Default se reduce draacutesticamente si los tipos de intereacutes son bajos y si el creacutedito tiene una

puntuacioacuten FICO mayor que 6275

Una vez analizado esto se obtuvieron las matrices de confusioacuten para los dos conjuntos con

el objetivo de comprar si el modelo predeciacutea mejor las observaciones empleando una

regresioacuten logiacutestica o bien un aacuterbol de decisioacuten

Respecto al conjunto de entrenamiento se obtuvo la siguiente matriz de confusioacuten

Tabla 9 Matriz de confusioacuten del conjunto de entrenamiento para el aacuterbol de decisioacuten

Para el conjunto de entrenamiento del aacuterbol de decisioacuten el modelo predijo que 563

prestatarios incurririacutean en Default ese mes siendo el resultado verdadero 106 Para el caso

de Default el modelo acertoacute en el 4061 de los casos En su totalidad el modelo acertoacute 629

Respecto al test se obtuvo la siguiente matriz de confusioacuten

Tabla 10 Matriz de confusioacuten del conjunto del test para el aacuterbol de decisioacuten

Para el conjunto del test del aacuterbol de decisioacuten el modelo predijo que 134 prestatarios pagariacutean

ese mes su cuota del creacutedito y no incurririacutean en Default De esos 134 115 pagaron realmente

sus cuotas mientras que 19 no El modelo acertoacute para los casos de no Default un 8582 de

los casos Por otra parte el modelo predijo que 72 prestatarios incurririacutean en Default ese mes

de los cuales 22 verdaderamente no pagaron las cuotas de sus creacuteditos mientras que 50 siacute lo

hicieron El modelo acertoacute para los casos de Default un 3055 En su totalidad el modelo

acertoacute 137 predicciones de un total de 206 un 6650

El aacuterbol de decisioacuten nos permite identificar que variables pueden ser modificadas para reducir

el riesgo de Default del creacutedito Desde un punto de vista empresarial parece maacutes interesante

el aacuterbol que la regresioacuten logiacutestica pues la obtencioacuten de las probabilidades para las situaciones

anteriormente descritas es de gran utilidad a la hora de valorar las caracteriacutesticas con las que

se concede el creacutedito El problema que hemos obtenido en este anaacutelisis fue las diferencias

obtenidas entre el conjunto de entrenamiento y en el test Las diferencias obtenidas en los

conjuntos aplicando la regresioacuten logiacutestica eran menores comparadas con las obtenidas

empleando un aacuterbol de decisioacuten obteniendo una diferencia de prediccioacuten total de casi un

10 El modelo sigue prediciendo muy positivamente los casos de no Default tanto en el

conjunto de entrenamiento como en el test sin embargo la prediccioacuten de no Default en el

test se encuentra por debajo de un 31 Aplicando el mismo razonamiento de la regresioacuten

logiacutestica si bien es fundamental que el modelo prediga correctamente los no Defaults lo que

se busca desde un punto de vista empresarial es conocer con mayor exactitud los casos de

Default que vas a tener para asiacute cubrir el riesgo y esto se predice mejor aplicando la regresioacuten

logiacutestica A pesar de lo anterior la informacioacuten que nos ofrece el aacuterbol a traveacutes de los cortes

con las variables y los nodos es de mayor utilidad que las estimaciones obtenidas por la

regresioacuten

El tercer meacutetodo empleado para analizar el conjunto de datos que se empleoacute fue un Gradient

Boosting Manteniendo el mismo conjunto de entrenamiento y de test se obtuvo la siguiente

informacioacuten acerca de las variables explicativas

Tabla 11 Resultados del Gradient Boosting

El Boosting nos permite conocer cuaacuteles son las variables con mayor influencia o que aportan

mayor informacioacuten en la prediccioacuten de la probabilidad de Default Las cuatro variables que

maacutes peso tienen son de menor a mayor importancia el balance en el momento de

observacioacuten la puntuacioacuten FICO el tipo de intereacutes en el momento de observacioacuten y el LTV

en la observacioacuten del creacutedito No es casualidad que tres de las variables que maacutes informacioacuten

aportan a la probabilidad obtenidas mediante el Boosting coincidan con las tres

caracteriacutesticas sobre las que se realizaban los primeros cortes en el aacuterbol de decisioacuten

Si comparamos los resultados obtenidos en la Figura 16 con los obtenidos en el aacuterbol de

decisioacuten se repiten ciertos comportamientos de algunas variables

Figura 16 Informacioacuten relativa de las variables explicativas proporcionada por el Gradient Boosting

El caso maacutes evidente es la relevancia de la variable familia El Boosting nos indica que es la

variable que aporta menos informacioacuten sobre el Default del prestatario Si observamos a su

vez el aacuterbol de decisioacuten la variable familia no produce ninguna divisioacuten del aacuterbol y no parece

ser determinante a la hora de determinar el mayor caso posible Lo mismo sucede con el resto

de las variables La importancia que nos indica los coeficientes hallados en el Boosting

coincide con la posicioacuten de las variables en el aacuterbol de decisioacuten siendo las maacutes relevantes

aquellas que producen las primeras divisiones de las ramas

Por lo tanto tanto el aacuterbol de decisioacuten como el Gradient Boosting nos permiten conocer de

forma maacutes precisa la influencia de las variables explicativas sobre la variable endoacutegena en

comparacioacuten con la regresioacuten logiacutestica

Una vez obtenida la informacioacuten relativa de las variables se obtuvieron las matrices de

confusioacuten para el conjunto de entrenamiento y el conjunto del test para observar si mediante

esta teacutecnica las predicciones del modelo resultaban maacutes precisas que mediante la regresioacuten

logiacutestica y el aacuterbol de decisioacuten

Tabla 12 Matriz de confusioacuten del conjunto de entrenamiento para el Gradient Boosting

Para el conjunto de entrenamiento del Gradient Boosting el modelo predijo que 558

Respecto al conjunto del test se obtuvo la siguiente matriz de confusioacuten

Tabla 13 Matriz de confusioacuten del conjunto del test para el Gradient Boosting

Para el conjunto del test del Gradient Boosting el modelo predijo que 139 prestatarios

realmente sus cuotas mientras que 32 no El modelo acertoacute para los casos de no Default un

El Boosting por lo tanto nos permite identificar que variables explicativas nos aportan maacutes

informacioacuten sobre la probabilidad de Default Sin embargo no nos ofrece la precisioacuten de

valores que obtuvimos con el aacuterbol de decisioacuten Por otro lado los resultados del modelo en

el conjunto de entrenamiento son casi perfectos alcanzo porcentajes de acierto cercanos al

100 sin embargo esta precisioacuten no se traslada al conjunto de test que es donde

verdaderamente podemos observar la capacidad predictiva del modelo Las diferencias en los

porcentajes nos obligan a pensar que el Boosting estaacute sobreentrenado Esto implica que el

modelo se ha aprendido los datos analizados y que al introducirle nuevos datos no seraacute capaz

de analizarlos correctamente Si los datos fuesen un examen tipo test el modelo en vez de

aprenderse el contenido del examen se aprendioacute el patroacuten de respuesta de las preguntas por

lo que al introducirle un examen nuevo contestariacutea del mismo modo que el examen anterior

Generalmente y a pesar de los resultados obtenidos en el presente caso de estudio el

Boosting suele realizar mejores predicciones que las teacutecnicas anteriores Para resolver este

problema se deberiacutea ajustar los paraacutemetros del modelo o tal vez aumentar el tamantildeo muestral

para que analizase una muestra maacutes grande

64 Conclusiones del caso de estudio

Se expone en la Tabla 13 el resumen de los datos obtenidos para las matrices de confusioacuten

de los tres meacutetodos empleados

Tabla 14 Resumen de resultados de las matrices de confusioacuten

Regresioacuten logiacutesitca Aacuterbol de decisioacuten Gradient Boosting

Entrenamiento Test Entrenamiento Test Entrenamiento Test

No Default

acertados 8810 8657 9290 8582 9964 7985

Default

acertados 3678 4167 4061 3056 9624 3433

Total 7184 7087 7633 6650 9854 6311

Fuente Elaboracioacuten propia mediante Excel

Como se puede observar la teacutecnica maacutes eficaz a la hora de predecir los casos es la regresioacuten

logiacutestica seguido por el aacuterbol de decisioacuten Para nuestro caso de estudio debemos descartar el

Gradient Boosting como meacutetodo de referencia En primer lugar porque pese a que los datos

obtenidos para el conjunto de entrenamiento son sin duda los mejores estos no se trasladan

al test La diferencia en el total de predicciones respecto al aacuterbol de decisioacuten es de un 3

pero el aacuterbol ofrece un mejor anaacutelisis de las variables explicativas En segundo lugar

debemos descartar el Boosting ya que pese a ofrecer queacute variables presentan una mayor

importancia relativa la regresioacuten logiacutestica tambieacuten nos indica queacute variables son maacutes

significativas y el aacuterbol de decisioacuten indica el valor de las variables en cada corte

Debemos plantearnos entonces queacute teacutecnica nos ofrece maacutes ventajas para este modelo y este

conjunto de datos A la vista de los resultados y las predicciones concluimos que el aacuterbol de

decisioacuten es la mejor teacutecnica con la que proceder En primer lugar porque a pesar de que las

predicciones de las matrices de confusioacuten son peores (diferencias de hasta un 11) no existe

gran diferencia en el porcentaje de prediccioacuten total (un 4) En segundo lugar y la razoacuten

con maacutes peso es el anaacutelisis ya comentado que proporciona el aacuterbol de decisioacuten pues

esclarece situaciones que permiten al prestamista modificar las caracteriacutesticas del creacutedito que

concede

Debemos recordar que el anaacutelisis de este caso se ha realizado constantemente bajo un punto

de vista empresarial interpretaacutendose en todo momento su aplicacioacuten para el negocio Si el

anaacutelisis se hubiese centrado maacutes en la prediccioacuten exquisita de los valores de la variable

dependiente sin duda se hubiese concluido que la teacutecnica maacutes acorde seriacutea la regresioacuten

logiacutestica Sin embargo desde el punto de vista empresarial los valores y las situaciones

proporcionadas por el aacuterbol de decisioacuten permiten al empresario jugar con diferentes

supuestos y gestionar el riesgo de creacutedito de una mejor forma

7 CONCLUSIONES

Tras haber realizado la investigacioacuten sobre las teacutecnicas de Machine Learning y el riesgo de

creacutedito y haber realizado el caso de estudio podemos obtener las siguientes conclsuiones

1) La evolucioacuten de la Inteligencia Artificial hasta nuestros ha seguido un crecimiento

exponencial Desde las primeras regresiones lineares descritas por Gauss hasta la

generacioacuten de programas de computacioacuten y creacioacuten de algoritmos capaces de

ldquoaprenderrdquo por siacute solos

2) El concepto de Inteligencia Artificial abarca muchos campos en los que se incluye el

aprendizaje automaacutetico o Machine Learning Es un error afirmar que estos dos

campos de estudio son lo mismo

3) El riesgo de creacutedito hipotecario jugoacute un papel fundamental en la crisis de 2007 El

nuacutemero de Defaults en creacuteditos concedidos bajo la denominacioacuten de hipotecas

Subprime alcanzoacute niveles nunca vistos provocando el estallido de la burbuja

inmobiliaria y de la recesioacuten econoacutemica

4) A partir de los Acuerdos de Basilea la concesioacuten de creacuteditos se regularizoacute evitando

praacutecticas abusivas o soft lending en las que se concediacutean creacuteditos hipotecarios sin ni

siquiera analizar las situaciones financieras de los prestatarios

5) El riesgo de creacutedito no solo hace referencia al impago de la cuota por parte del

prestatario Existen otros tipos de riesgo relacionados con este como es el hipotecario

el corporativo o el del consumidor

6) No existe un modelo del caacutelculo del riesgo de creacutedito unificado Cada empresa en

funcioacuten de los algoritmos o teacutecnicas que utilice decide queacute variables son las que se

debe analizar para ver si el deudor incurriraacute en Default o no

7) La evolucioacuten de los modelos de caacutelculo del riesgo de creacutedito ha sido significativa

desde simples foacutermulas matemaacuteticas hasta teacutecnicas de Machine Learning complejas

donde algoritmos son capaces de predecir correctamente el nuacutemero posible de

Defaults dentro de una cartera de creacuteditos

8) La regresioacuten logiacutestica o modelo Logit es mucho maacutes interesante y uacutetil para analizar

variables cualitativas binomiales que el modelo de regresioacuten lineal y que el modelo

de probabilidad lineal

9) El modelo Logit ha servido de base para el caacutelculo de riesgo de creacutedito en meacutetodos

modernos

10) Los aacuterboles de decisioacuten son teacutecnicas faacuteciles de manejar que nos proporcionan

diferentes escenarios en funcioacuten de las variables explicativas

11) El Gradient Boosting es de las teacutecnicas analizadas sin duda la maacutes compleja y permite

una mejor prediccioacuten de Default que los otros meacutetodos

12) Para nuestro caso de estudio se obtuvieron las siguientes conclusiones

a Las tres teacutecnicas obtuvieron muy buenos resultados para el conjunto de

entrenamiento destacando por encima el Gradient Boosting indicaacutendonos

posiblemente que el modelo estuviese sobreentrenado

b Los resultados para el conjunto del test fueron peores que para el conjunto de

entrenamiento

c Lastres teacutecnicas obtienen mejores resultados de prediccioacuten para el nuacutemero de no

Defaults que para el nuacutemero de Defaults

d La teacutecnica que mejores predicciones ofreciacutea fue la regresioacuten logiacutestica sin

embargo el anaacutelisis de las variables explicativas no proporcionaba gran utilidad

e El aacuterbol de decisioacuten fue la segunda teacutecnica que mejores predicciones ofrecioacute

mejorando en anaacutelisis de las variables explicativas obtenidos para la regresioacuten

logiacutestica y para el Gradient Boosting

f El Gradient Boosting obtuvo muy buenos resultados en el conjunto de

entrenamiento sin embargo los resultados en el test fueron decepcionantes

13) Sin duda desde un punto de vista empresarial la teacutecnica maacutes recomendable es el aacuterbol

de decisioacuten por sus buenos resultados de prediccioacuten y por el anaacutelisis de las variables

explicativas y coacutemo influyen a la hora de establecer la probabilidad del suceso de la

variable endoacutegena

8 BIBLIOGRAFIacuteA

Aguilar L J (2016) Big Data Anaacutelisis de grandes voluacutemenes de datos en organizaciones

Mexico DF Alfaomega Grupo Editor 09032020

Altman E I Iwanicz‐Drozdowska M Laitinen E K amp Suvas A (2017) Financial

distress prediction in an international context A review and empirical analysis of Altmans

Z‐score model Journal of International Financial Management amp Accounting 28(2) 131-

Andreacutes Suaacuterez J (2000) Teacutecnicas de Inteligencia Artificial aplicadas al anaacutelisis de la

solvencia empresarial Documentos de trabajo (Universidad de Oviedo Facultad de

Ciencias Econoacutemicas) 206 1-31

Bagherpour A (2017) Predicting mortgage loan Default with machine learning

methods University of CaliforniaRiverside 1-30

Berlin M (1992) Securitization En Newman P Milgate M amp Eatwell J (eds) The New

Palgrave Dictionary of Money and Finance 3 (pp 433-435) Basingstoke Macmillan

13032020

Bishop C M (2006) Pattern recognition and Machine Learning Nueva York Springer

09032020

Breiman L Friedman J Stone C J amp Olshen R A (1984) Classification and regression

trees Londres Chapman amp HallCRC

Bughin J Chui M amp Manyika J (2010) Clouds big data and smart assets Ten tech-

enabled business trends to watch McKinsey quarterly 56(1) 75-86

Carling K Jacobson T Lindeacute J amp Roszbach K (2007) Corporate credit risk modeling

and the macroeconomy Journal of banking amp Finance 31(3) 845-868

Castantildeo H F amp Ramiacuterez F O P (2005) El modelo logiacutestico una herramienta estadiacutestica

para evaluar el riesgo de creacutedito Revista Ingenieriacuteas Universidad de Medelliacuten 4(6) 55-75

06032020

Castillo E Gutieacuterrez J M amp Hadi A S (1997) Sistemas expertos y modelos de redes

probabiliacutesticas Madrid Academia Espantildeola de Ingenierıa

Chorafas D N (2000) Managing credit risk Londres Euromoney Books

Contreras S amp De la Rosa F (2016 September) Aplicacioacuten de Deep Learning en roboacutetica

moacutevil para exploracioacuten y reconocimiento de objetos basados en imaacutegenes Colombian

Computing Conference (CCC) 11 1-8

De la Fuente M D L (1999) La administracioacuten integral de riesgos financieros

Universidad Iberoamericana Departamento de Economiacutea

Dumitrescu E Hue S Hurlin C amp Tokpavi S (2018) Machine Learning for Credit

Scoring Improving Logistic Regression with Non-Linear Decision Tree Effects Doctoral

dissertation PhD thesis Paris Nanterre University University of Orleans 1-29

Elizondo A amp Lopez C (1999) El riesgo de creacutedito en Meacutexico una evaluacioacuten de modelos

recientes para cuantificarlo Gaceta de economia 4(8) 51-74

Elul R (2005) The economics of asset securitization Business Review 3 16-25

13032020

Garciacutea M L S amp Garciacutea M J S (2010) Modelos para medir el riesgo de creacutedito de la

banca Cuadernos de administracioacuten 23(40) 295-319

Garzoacuten G R (2003) Los oriacutegenes del meacutetodo de miacutenimos cuadrados Suma Revista sobre

Ensentildeanza y Aprendizaje de las Matemaacuteticas (43) 31-38 07032020

Gorton G (2009) The subprime panic European Financial Management 15(1) 10-46

13032020

Hastie T amp Tibshirani R (1987) Generalized additive models some applications Journal

of the American Statistical Association 82(398) 371-386

Henke S Burghof H P amp Rudolph B (1998) Credit securitization and credit derivatives

financial instruments and the credit risk management of middle market commercial loan

portfolios Center for Finicial Studies Working 7 1-30 13032020

Hinestroza Ramiacuterez D (2018) El Machine Learning a traveacutes de los tiempos y los aportes

a la humanidad Risaralda Universidad Libre Seccional Pereira 09032020

Hull J (2012) Risk management and financial institutions Nueva Jersey John Wiley amp

Sons 1203202

James G Witten D Hastie T amp Tibshirani R (2013) An introduction to statistical

learning New York Springer

Khandani A E Kim A J amp Lo A W (2010) Consumer credit-risk models via machine-

learning algorithms Journal of Banking amp Finance 34(11) 2767-2787

Keys J Mukherjee T Seru A Vig V Did securitization lead to lax screening Evidende

for the Subprimer Loans Quaterly Hournal of Economics 125(1) 307-362

Kolanovic M amp Krishnamachari R T (2017) Big data and AI strategies Machine learning

and alternative data approach to investing JP Morgan Global Quantitative amp Derivatives

Strategy Report 1-280

Legendre A M (1805) Nouvelles meacutethodes pour la deacutetermination des orbites des comegravetes

Lausana F Didot

Lopez JA (2004) The empirical relationship between Averrage Asset Correlation Firm

Probability of Default and Asset Size Journal of Financial Intermediation 13(2) 265-283

Martiacutenez de Ibarreta C Aacutelvarez Fernandez C Budriacutea Rodriguez S Curto Gonzalez T

Escobar Torres L Borraacutes Pala F (2017) Modelos cuantitativos para la Economiacutea y la

Empresa en 101 ejemplos Madrid EV Services

Mayer-Schoumlnberger V amp Cukier K (2013) Big data la revolucioacuten de los datos masivos

Madrid Turner 09032020

McAfee A Brynjolfsson E Davenport T H Patil D J amp Barton D (2012) Big data

the management revolution Harvard business review 90(10) 60-68

McCarthy J Minsky M Rochester N Shannon C (1955) A Proposal for the Dartmouth

Summer Research Project on Artificial Intelligence AI magazine 27(4) 12-12 09032020

McCulloch W S amp Pitts W (1943) A logical calculus of the ideas immanent in nervous

activity The bulletin of mathematical biophysics 5(4) 115-133 09032020

Mian A amp Sufi A (2009) The consequences of mortgage credit expansion Evidence from

the US mortgage Default crisis The Quarterly Journal of Economics 124(4) 1449-1496

12032020

Monleoacuten-Getino A (2015) El impacto del Big-data en la Sociedad de la Informacioacuten

Significado y utilidad Historia y comunicacioacuten social 20(2) 427 09032020

Naacutejera A B U amp de la Calleja Mora J (2017) Brief review of educational applications

using data mining and machine learning Redie Revista Electroacutenica de Investigacioacuten

Educativa 19(4) 84-96

Nelder J A amp Wedderburn R W (1972) Generalized linear models Journal of the Royal

Statistical Society Series A (General) 135(3) 370-384

Ong M K (Ed) (1999) Internal credit risk models Capital allocation and performance

measurement Londres Risk publications

Pennington‐Cross A amp Ho G (2010) The Termination of Subprime Hybrid and Fixed‐

Rate Mortgages Real Estate Economics 38(3) 399-426 12032020

Plazas Wadynski M A (2017) Machine Learning Para la prediccioacuten de series temporales

en indicadores de Desarrollo Mundial Universidad Industrial de Santander Escuela De

Ingenieriacutea de Sistemas 1-61

Provost F amp Kohavi R (1998) Glossary of terms Journal of Machine Learning 30(2-3)

271-274 09032020

Reiz A N de la Hoz M A amp Garciacutea M S (2019) Big Data Analysis y Machine Learning

en medicina intensiva Medicina Intensiva 43(7) 416-426

Russom P (2011) Big data analytics TDWI best practices report fourth quarter 19(4) 1-

34 09032020

Samuel A L (1959) Some studies in Machine Learning using the game of checkers IBM

Journal of research and development 3(3) 210-229 12032020

Sanders A (2007) The subprime crisis and its role in the financial crisis Journal of Housing

Economics 17(4) 254-261

Sirignano J Sadhwani A amp Giesecke K (2016) Deep learning for mortgage

risk Stanford University 1-83

Turing A (1964) Computer machinery and intelligence En Epstein R Roberts G amp

Beber G (dirs) Parsing the Turing Test Philosophical and Methodological Issues in the

Quest for the Thinking Computer Nueva York Springer 12032020

Zimmerman T The Great Subprime Meltdown Journal of structured Finance 7 7-20

12032020

9 ANEXOS

91 Anexo 1 Descripcioacuten del Coacutedigo empleado en R

fdata lt- readcsv(MortgageClasscsv header=TRUE sep = )

--------------------------------- REMOVE OUTLIERS ------------------------------------------

Create a new dataset removing negative numbers of balance_origin (row)

fdata lt- fdata[-fdata$balance_origlt0]

str(fdata)

summary(fdata)

--------------------------------- MISSING VALUES ---------------------------------------------

In addition the function naomit() directly obtains the dataset without NA in all variables

fdata lt- naomit(fdata)

summary(fdata)

-------------------------------- TRAINING MODELS ------------------------------------

Take 80 of data for training

train lt- sample(dim(fdata)[1] 08dim(fdata))

Output Variable in train and test

YTR lt- fdata$Default[train]

YTS lt- fdata$Default[-train]

Logistic Regression --------------------

LR =glm(Default ~ data=fdata subset = train family =binomial)

summary (LR)

Train set

YestTRLR=predict(LR newdata=fdata[train ]type = response)

YestTRLR lt- ifelse(YestTRLRgt=0510)

table(YTR YestTRLR)

Test set

YestTSLR=predict(LR newdata=fdata[-train ] type = response)

YestTSLR lt- ifelse(YestTSLRgt=0510)

table(YTS YestTSLR)

Decision tree -----------------------

library(tree)

fdata$Default lt- asfactor(fdata$Default)

tree =tree(Default ~ data=fdata subset = train)

tree plot

plot(tree)

text(treepretty =0)

Train set

YestTRtree=predict(tree newdata=fdata[train ]type =class)

table(YTR YestTRtree)

Test set

YestTStree=predict(tree newdata=fdata[-train ]type =class)

table(YTS YestTStree)

Gradient boosting -------------------

library (gbm)

setseed(1)

fdata$Default lt- asinteger(fdata$Default)

boost = gbm(Default ~ data=fdata[train ]

distribution=bernoullintrees =500 interactiondepth =4)

Variable importance

summary(boost)

Train set

YestTRboost=predict(boost newdata=fdata[train ]ntrees =500 type = response)

YestTRboost lt- ifelse(YestTRboostgt=0510)

table(YTR YestTRboost)

Test set

YestTSboost=predict(boost newdata=fdata[-train ]ntrees =500 type = response)

YestTSboost lt- ifelse(YestTSboostgt=0510)

table(YTS YestTSboost)

92 Anexo 1 Descripcioacuten del aacuterbol de decisioacuten obtenido con el coacutedigo