16
 Caja, Ruddy Fabrizio Chuchullo, Marko Espejo, Héctor Lezama, Pedro Lavalle,Teodoro Torres, Atilio Lagos, César Riesgo crediticio : Aplicación a la detección de clientes Morosos y No morosos

Fabrizio Caja--Regresion Logistica y Quest

Embed Size (px)

DESCRIPTION

Riesgo crediticio: Aplicación a la detección de clientes Morosos y No morosos

Citation preview

Page 1: Fabrizio Caja--Regresion Logistica y Quest

5/13/2018 Fabrizio Caja--Regresion Logistica y Quest - slidepdf.com

http://slidepdf.com/reader/full/fabrizio-caja-regresion-logistica-y-quest 1/16

Caja, Ruddy FabrizioChuchullo, MarkoEspejo, HéctorLezama, Pedro

Lavalle,TeodoroTorres, AtilioLagos, César

Riesgo crediticio : Aplicación a la detección de clientes

Morosos y No morosos

Page 2: Fabrizio Caja--Regresion Logistica y Quest

5/13/2018 Fabrizio Caja--Regresion Logistica y Quest - slidepdf.com

http://slidepdf.com/reader/full/fabrizio-caja-regresion-logistica-y-quest 2/16

Contenido

Introducción yobjetivo

Técnicasestadísticas

Consideraciones en lastécnicas

Resumen deTécnicas aemplear

Salidas delastécnicas

30/01/2012 Minería de datos 2

Page 3: Fabrizio Caja--Regresion Logistica y Quest

5/13/2018 Fabrizio Caja--Regresion Logistica y Quest - slidepdf.com

http://slidepdf.com/reader/full/fabrizio-caja-regresion-logistica-y-quest 3/16

IntroducciónLos datos pertenecen a una entidad Bancaria en el cual la Gerencia Comercial nossolicitó, a modo piloto, identificar características que diferencien a los clientesmorosos y no morosos de préstamos.

30/01/2012 Minería de datos 3

El banco, como objetivo final tiene que mantener un efectivo control del riesgo

crediticio, esto sucederá solamente si decide adecuadamente a partir delconocimiento que le sea entregado por parte del Área de Inteligencia Comercial.

Al margen del nombre Datamining  las decisiones se deben basar en modelosadecuados que traten de minimizar el error de estimación, es decir si de unmodelo predictivo se tratara el esperado y el observado debería ser similares. 

Page 4: Fabrizio Caja--Regresion Logistica y Quest

5/13/2018 Fabrizio Caja--Regresion Logistica y Quest - slidepdf.com

http://slidepdf.com/reader/full/fabrizio-caja-regresion-logistica-y-quest 4/16

Objetivos

• El objetivo empresarial, definir correctamente a los clientesmorosos y no morosos de tal forma que nuestro riesgo deinversión crediticia disminuya.

• El objetivo del Datamining, definir un modelo que permitadiscriminar entre clientes morosos y no morosos dentro dela entidad bancaria. De manera que se tenga certeza delperfil crediticio del cliente y se puedan tomar mejores

decisiones de préstamos.

30/01/2012 Minería de datos 4

Page 5: Fabrizio Caja--Regresion Logistica y Quest

5/13/2018 Fabrizio Caja--Regresion Logistica y Quest - slidepdf.com

http://slidepdf.com/reader/full/fabrizio-caja-regresion-logistica-y-quest 5/16

Diccionario de datos

Variable significado Tipo de dato Valores

Morosidad Indica si un cliente es moroso o no Categórico0: NO1: SI

Edad Edad del cliente Continuo … 

Sexo Sexo del cliente Categórico

0: F

1: M

NDependientes Número de personas que dependen de los ingresos del cliente Categórico0: <=31: [4,5]

FonoParticular Si se cuenta con teléfono particular Categórico0: NO1: SI

FonoTrabajo Si se cuenta con teléfono en el trabajo Categórico0: NO1: SI

Autoavalúo Si se cuenta con autoavalúo Categórico0: NO1: SI

EsAval Si el cliente es aval de otro cliente Categórico0: NO1: SI

TieneAval Si el cliente ha sido avalado por otro cliente Categórico0: NO1: SI

Antigüedad Tiempo de trabajo Continuo …. 

TipoRenta Con qué tipo de renta cuenta Categórico0: Fijo1: Variable

EstCivil Categórico 0: SOL, 1: CAS30/01/2012 Minería de datos 5

Page 6: Fabrizio Caja--Regresion Logistica y Quest

5/13/2018 Fabrizio Caja--Regresion Logistica y Quest - slidepdf.com

http://slidepdf.com/reader/full/fabrizio-caja-regresion-logistica-y-quest 6/16

Contenido

Introducción yobjetivo

Técnicasestadísticas

Consideraciones en lastécnicas

Resumen deTécnicas aemplear

Salidas delastécnicas

30/01/2012 Minería de datos 6

Page 7: Fabrizio Caja--Regresion Logistica y Quest

5/13/2018 Fabrizio Caja--Regresion Logistica y Quest - slidepdf.com

http://slidepdf.com/reader/full/fabrizio-caja-regresion-logistica-y-quest 7/16

Técnicas estadísticas

• Técnicas de análisis de dependencia:

Técnica Variable dependiente Variables independientes

Análisis de la varianza y la covarianza Métrica No métrica

Análisis discriminante No métrica Métricas

Regresión Lineal MúltipleÍdem con variables ficticias

MétricaMétrica

MétricasNo métricas

Modelos de elección discreta (Log)Ídem con variables ficticias

No métricaNo métrica

MétricasNo métricas

Análisis conjunto Métrica o no métrica No métricas

Segmentación jerárquica (árboles) No métrica o Métrica No métrica

Análisis con clases latentes No métrica latente No métricas observadas

30/01/2012 Minería de datos 7

Page 8: Fabrizio Caja--Regresion Logistica y Quest

5/13/2018 Fabrizio Caja--Regresion Logistica y Quest - slidepdf.com

http://slidepdf.com/reader/full/fabrizio-caja-regresion-logistica-y-quest 8/16

Contenido

Introducción yobjetivo

Técnicasestadísticas

Consideraciones en lastécnicas

Resumen deTécnicas aemplear

Salidas delastécnicas

30/01/2012 Minería de datos 8

Page 9: Fabrizio Caja--Regresion Logistica y Quest

5/13/2018 Fabrizio Caja--Regresion Logistica y Quest - slidepdf.com

http://slidepdf.com/reader/full/fabrizio-caja-regresion-logistica-y-quest 9/16

Consideraciones en las Técnicas

• De acuerdo a los datos se ha decidido elegir dos tipos de técnicas que son lasmás adecuadas para la aplicación: El modelo de elección discreta con su varianteel modelo logit binario y el árbol de clasificación QUEST , que esperamos nos denbuenos modelos a partir del porcentaje de clasificación correcta.

Los modelos logit comprenden a toda la familia exponencial incluyendo a ladistribución normal, es decir la variable respuesta Y  puede tener distribuciónnormal, binomial, poisson, multinomial… 

• Para nuestro caso, dado que la respuesta es binaria (Moroso y No Moroso) sepensará en la distribución binomial y por tanto diremos que será de respuestabinaria. Y de nuevo la función de enlace η será la función logit. 

• Otra vez, aplicaremos por simplicidad el criterio de selección de submuestrapara verificar la capacidad de clasificación del modelo, sin antes probar labondad de ajuste de los dos modelos.

• No obstante existe el criterio de Validación Cruzada como alternativa.

30/01/2012 Minería de datos 9

Page 10: Fabrizio Caja--Regresion Logistica y Quest

5/13/2018 Fabrizio Caja--Regresion Logistica y Quest - slidepdf.com

http://slidepdf.com/reader/full/fabrizio-caja-regresion-logistica-y-quest 10/16

Contenido

Introducción yobjetivo

Técnicasestadísticas

Consideraciones en lastécnicas

Resumen deTécnicas aemplear

Salidas delastécnicas

30/01/2012 Minería de datos 10

Page 11: Fabrizio Caja--Regresion Logistica y Quest

5/13/2018 Fabrizio Caja--Regresion Logistica y Quest - slidepdf.com

http://slidepdf.com/reader/full/fabrizio-caja-regresion-logistica-y-quest 11/16

Regresión Logística• Permite introducir como variables predictoras de la respuesta una mezcla de variables

categóricas y cuantitativas.

• Lo que se pretende mediante la RL es expresar la probabilidad de que ocurra el evento de

interés como función de ciertas variables.

30/01/2012 Minería de datos 11

0 1 1 2 2( ... )1( 1/ )1 p p  x x xP Y 

e  

x

• Es bueno u obligatorio realizar una análisis previo de los datos.

• Saber qué variables son realmente predictoras.

Cuáles pueden ser variables de confusión.• Luego del análisis, verificar si el modelo tiene sentido lógico. Experiencia

Page 12: Fabrizio Caja--Regresion Logistica y Quest

5/13/2018 Fabrizio Caja--Regresion Logistica y Quest - slidepdf.com

http://slidepdf.com/reader/full/fabrizio-caja-regresion-logistica-y-quest 12/16

Árbol de clasificación QUEST

30/01/2012 Minería de datos 12

2( ) 1 ( / )g t p i t i categorias de la clase criterio

Cuando todos los casos del nodo t pertenecen a la misma categoría, el índice de Gini toma elvalor cero, se dice entonces que el nodo se vuelve puro.

Este índice es una medida de impureza en la clasificación de los datos, a medida que vamos

clasificando correctamente los datos, el índice de Gini va tomando valores cercanos a 0.

Los árboles de decisión, son técnicas no paramétricas muy utilizadas.Frecuentemente se utilizan en la minería de datos como herramienta para analizar datos yrealizar predicciones. Esta metodología es usada para predecir variables categóricas (árbolesde clasificación) y para predecir variables continuas (árboles de regresión).

El Quest es rápido, insesgado. Evita el sesgo que presenta otras técnicas que favorecen a lospredictores con muchas categorías. Sólo puede aplicarse Quest cuando la variable

dependiente es nominal. 

Page 13: Fabrizio Caja--Regresion Logistica y Quest

5/13/2018 Fabrizio Caja--Regresion Logistica y Quest - slidepdf.com

http://slidepdf.com/reader/full/fabrizio-caja-regresion-logistica-y-quest 13/16

=== Summary ===

Correctly Classified Instances 8618 90.7731 %

Incorrectly Classified Instances 876 9.2269 %

=== Confusion Matrix ===

a b <-- classified as

3002 497 | a = 0

379 5616 | b = 1

30/01/2012 13

morososbs edad autoavaluo esaval tieneaval antiguedad ecivil ndep prob PRED0=no 37 0=no 0=no 0=no 6 1=cas 0= <=3 0.284 0

1=si 36 0=no 0=no 0=no 10 0=sol 1= [4,5] 0.976 1

0=no 37 0=no 0=no 0=no 6 1=cas 1= [4,5] 0.702 1

1=si 36 0=no 0=no 0=no 10 0=sol 0= <=3 0.873 1

Salida: Logit

La probabilidad de que sea moroso (Y=1) se expresa como:

( 2.347152 0.0201* 0.399* 1 4.4187* 1 0.463** 1 0.0305* 2.7199* 1 1.78* 1)

1( 1/ ...)

1edad auav esav tieneav antig eciv ndep

P Y e

Minería de datos

Page 14: Fabrizio Caja--Regresion Logistica y Quest

5/13/2018 Fabrizio Caja--Regresion Logistica y Quest - slidepdf.com

http://slidepdf.com/reader/full/fabrizio-caja-regresion-logistica-y-quest 14/16

30/01/2012 14

Salida: Quest

Resultados:Se encontró que las siguientes variables discriminan la cualidad de moroso o nomoroso de clientes:Es aval, antigüedad laboral, estado civil y numero de dependientes:

No Morosos• El 64% son aval.• El 21.3% no son aval, tienen antigüedad laboral hasta 31.9 meses, son casados y

tienen hasta 3 dependientes.

Morosos• El 7% no son aval y tienen antigüedad laboral mayor a 31.9 meses .• El 78% no son aval, tienen antigüedad laboral hasta 31.9 meses y son solteros.• El 7.5% no son aval, tienen antigüedad laboral hasta 31.9 meses, son casados y

tienen entre 4 y 5 dependientes.

Minería de datos

Page 15: Fabrizio Caja--Regresion Logistica y Quest

5/13/2018 Fabrizio Caja--Regresion Logistica y Quest - slidepdf.com

http://slidepdf.com/reader/full/fabrizio-caja-regresion-logistica-y-quest 15/16

Salida: Quest

morososbs esaval antiguedad ecivil ndep PRED0=no 1=si 5 0=sol 1= [4,5] 0

0=no 0=no 30 1=cas 0: <=3 0

1=si 0=no 47 0=sol 1= [4,5] 1

1=si 0=no 9 0=sol 1= [4,5] 1

1 0=no 21 1=cas 1= [4,5] 1

PRED morososbs  0  1 Total general 

0  2978  521  3499 1  409  5586  5995 

Total general  3387  6107  9494 Por validacióncruzada: 90.2%

Algunas predicciones a partir de las restricciones del árbol

No Morosos• es aval.• no es aval, tienen antigüedad laboral hasta 31.9 meses, son casados y tienen hasta

3 dependientes.Morosos• No es aval y tienen antigüedad laboral mayor a 31.9 meses .• No es aval, tienen antigüedad laboral hasta 31.9 meses y son solteros.• No es aval, tienen antigüedad laboral hasta 31.9 meses, son casados y tienen entre

4 y 5 dependientes.

30/01/2012 Minería de datos 15

Page 16: Fabrizio Caja--Regresion Logistica y Quest

5/13/2018 Fabrizio Caja--Regresion Logistica y Quest - slidepdf.com

http://slidepdf.com/reader/full/fabrizio-caja-regresion-logistica-y-quest 16/16

Conclusiones• La aplicación de los modelos logit permite mejores predicciones, para este caso, que el

árbol Quest.

• A pesar de la no tan marcada diferencia entre ambas técnicas de clasificación se opta porelegir el modelo logit ya que tiene un mejor sustento estadístico desde que se compruebala significancia del modelo.

• Es evidente que las covariables consideradas son muy importantes y por ello los buenosmodelos, se cree que se puede llegar a mejores estimaciones si se consideraran otrascovariables como: seguro médico, tipo tarjeta(AMEX..) incluso si se hiciera un esfuerzosuperior el estilo de compra del cliente puede aportar al modelo.

• Un modelo más grande puede hacerse algo más complejo, se recomienda siempre reducir 

la dimensión de las variables antes de cualquier análisis de DM, aplicar el análisis Factorialimporta ya que una nueva variable puede representar a otras, incluso es bueno hacerlo

cuando se aplica regresión simple ya que con esto se puede cumplir el supuesto demulticolinealidad.

30/01/2012 Minería de datos 16

http://sites.google.com/site/supermrrbox 

De los datos:Mg Jesús Salinas Flores