División de Ciencias Forestales | UACh-DiCiFodicifo.chapingo.mx/pdf/tesislic/2018/Ocampo_Olvera_Alberto.pdf · En ocasiones las palabras no bastan para demostrar los sentimientos;

Dedicado a

mi familia.

Agradecimientos

En ocasiones las palabras no bastan para demostrar los sentimientos;

agradezco principalmente a mi madre, que sin ella nada de esto sería posible, que,

con su amor, su esfuerzo, su sacrificio y sus palabras de aliento hoy es posible

cumplir esta meta.

Durante mi estancia en la UACh tuve la oportunidad de conocer excelentes

personas con quienes compartí un sin fin de experiencias, agradezco a mis

hermanos que siempre me han brindado su apoyo, en especial a mi hermano

Samuel con quien he compartido grandes aventuras; agradezco a mis profesores

por tan grandes enseñanzas, gracias al Dr. Villanueva por su guía y la confianza

para la realización de este trabajo; y en particular, gracias al profesor Víctor

Hernández, quien no solo fue profesor si no también gran amigo y guía en mi

formación.

Grandes amigos me pasan por la mente al mirar atrás, le agradezco a Juan, a

Gustavo y a Nery por tantas risas, por su compañía y apoyo desde la prepa; le

agradezco a Alma, por su apoyo siempre incondicional y su honestidad; agradezco

a Ale por los consejos y su amistad de tantos años; gracias a Lupita por su alegría

e irreverencia, gracias por la confianza.

Agradezco profundamente a la Universidad Autónoma Chapingo por darme la

oportunidad de crecer y desarrollarme como profesional y agradezco a la

Licenciatura en Estadística por las enseñanzas y formación brindada.

A todos y cada uno de ellos

“Gracias por tanto y perdón por tan poco”.

1

Resumen

En este trabajo se describe el proceso de Minería de Datos, explicando

primeramente la forma en la que surge esta metodología a raíz del crecimiento en

la capacidad de almacenamiento y generación de datos en diversos procesos y la

necesidad que hay de describirlos; así también se desglosan las herramientas de

las que este proceso hace uso para el manejo de datos, que van desde el

tratamiento de las bases de datos hasta la modelación de los mismos, con el

objetivo de hacer predicción. Como fundamento del trabajo se muestra el enfoque

y los métodos estadísticos en los que se apoya la minería de datos para realizar y

mejorar sus procesos, así como también se hace hincapié en la diferencia entre la

estadística clásica y el proceso de minería de datos. Como ilustración del proceso

de minería de datos, se presentan dos ejemplos, el primero descrito de forma

detallada para ilustrar el proceso en práctica; mientras que el segundo ejemplo se

considera de forma general.

2

Summary

In this work the process of Data Mining is described, explaining first the way in

which it arises as a result of the growth in the capacity of storage and generation of

data in diverse processes and the need that there is to describe them; it also shows

the tools that this process uses for data management, ranging from the treatment of

data bases to the modeling of data with the aim of making predictions. As a

foundation of the work, the approach and statistical methods on which data mining

is supported to carry out and improve its processes will be shown, as well as the

difference between classical statistics and the data mining process. As illustration of

the data mining process , two examples are presented, the first described in detail

to illustrate the process in practice; while the second example is considered in a

general way.

3

Índice General Resumen ................................................................................................................ 1

Summary ................................................................................................................ 2

Lista de tablas. ...................................................................................................... 6

Lista de figuras. ..................................................................................................... 7

Protocolo del trabajo de investigación de la tesis .................................................... 8

1.1 Introducción ................................................................................................... 9

1.2 Antecedentes ................................................................................................. 9

1.3 Justificación y objetivos .............................................................................. 9

1.3.1 Objetivo principal de la tesis .................................................................... 9

1.3.2 Objetivos específicos ............................................................................ 10

1.3.3 Metas académicas ................................................................................ 10

Minería de datos .................................................................................................... 11

2.1 ¿Qué es Minería de Datos? ......................................................................... 12

2.2 Minería de datos y estadística ..................................................................... 13

2.3 El proceso de minería de datos. .................................................................. 16

2.3.1 Definición de objetivos .......................................................................... 16

2.3.2 Organización de los datos ..................................................................... 17

2.3.3 Análisis Exploratorio de los datos.......................................................... 18

2.3.4 Especificación de los Métodos Estadísticos .......................................... 19

2.3.5 Análisis de los Datos ............................................................................. 21

2.3.6 Evaluación de Métodos Estadísticos. .................................................... 21

2.3.7 Implementación de los métodos. ........................................................... 22

2.4 Software para Minería de Datos .................................................................. 25

Organización de los datos. .................................................................................... 28

3.1 Desde la estructura data webhouse hasta la estructura data marts ............ 29

3.1.1 Data warehouse .................................................................................... 30

3.1.1.2 Data webhouse .................................................................................. 33

3.1.1.3 Data marts .......................................................................................... 33

3.2 Clasificación de los datos. ........................................................................... 34

3.3 Matriz de Datos ............................................................................................ 36

3.3.1 Binarización de la Matriz de Datos. ....................................................... 37

3.4 Distribución de Frecuencias ......................................................................... 39

4

3.4.1 Distribuciones Univariadas .................................................................... 39

3.4.2 Distribuciones Multivariadas .................................................................. 41

3.5 Transformación de los datos. ....................................................................... 43

Análisis exploratorio de los datos. ......................................................................... 44

4.1 Análisis Exploratorio Univariado. ................................................................. 45

4.1.1 Medidas de Localización. ...................................................................... 47

4.1.2 Medidas de Variabilidad. ....................................................................... 49

4.1.3 Medidas de Heterogeneidad ................................................................. 50

4.1.4 Medida de Concentración. .................................................................... 51

4.1.5 Medida de Asimetría. ............................................................................ 54

4.1.6 Medida de Kurtosis. ............................................................................... 55

4.2 Análisis Exploratorio Bivariado. ................................................................... 57

4.3 Análisis Exploratorio Multivariado de Datos Cuantitativos. .......................... 61

4.4 Análisis Exploratorio Multivariado de Datos Cualitativos. ............................ 63

4.4.1 Independencia y Asociación. ................................................................. 65

4.4.2 Medidas de Distancia. ........................................................................... 66

4.4.3 Medidas de Dependencia. ..................................................................... 67

4.4.4 Medidas Basadas en Modelos. ............................................................. 69

4.5 Reducción de Dimensionalidad ................................................................... 71

4.5.1 Interpretación de los Componentes Principales. ................................... 74

Minería de datos computacionales. ....................................................................... 77

5.1 Medidas de Distancia................................................................................... 78

5.1.1 Distancia Euclideana. ............................................................................ 78

5.1.2 Medidas de Semejanza. ........................................................................ 79

5.1.3 Ajuste Multidimensional. ........................................................................ 80

5.2 Análisis de Grupo. ....................................................................................... 81

5.2.1 Métodos Jerárquicos. ............................................................................ 82

5.2.2 Métodos No Jerárquicos. ...................................................................... 86

5.3 Regresión Lineal. ......................................................................................... 87

5.3.1 Regresión Lineal Bivariada ................................................................... 87

5.3.2 Regresión Lineal Múltiple. ..................................................................... 90

5.4 Regresión Logística. .................................................................................... 92

5.5 Modelos Árbol. ............................................................................................. 93

5.5.1 Criterio de División para Modelos Árbol. ............................................... 97

5

5.5.2 Poda. ..................................................................................................... 99

5.6 Redes Neuronales. .................................................................................... 101

5.6.1 Arquitectura de una Red Neuronal. ..................................................... 105

5.6.2 El perceptrón Multicapa. ...................................................................... 108

Estadística en minería de datos. ......................................................................... 116

6.1 Medidas de Incertidumbre e Inferencia. ..................................................... 117

6.1.1 Probabilidad. ....................................................................................... 117

6.1.2 Inferencia Estadística .......................................................................... 120

6.2 Modelación No Paramétrica. ...................................................................... 125

6.3 Modelos Lineales Generalizados. .............................................................. 128

6.3.1 La Familia Exponencial. ...................................................................... 128

6.3.2 Definición de Modelos Lineales Generalizados. .................................. 129

6.3.3 Comparación de Modelos. .................................................................. 132

Ejemplos y aplicaciones de la Minería de Datos. ................................................ 135

7.1 Ejemplo 1: Puntaje de Crédito. .................................................................. 136

7.1.1 Objetivos del análisis. .......................................................................... 136

7.1.2 Descripción de los datos. .................................................................... 137

7.1.3 Análisis exploratorio. ........................................................................... 140

7.1.4 Construcción del modelo. .................................................................... 144

7.1.5 Comparación de modelos. .................................................................. 156

7.1.6 Resumen ............................................................................................. 164

7.2 Ejemplo 2: Pronosticando audiencia televisiva. ......................................... 167

Conclusiones ....................................................................................................... 170

Propuesta: Programa para curso de Minería de Datos ....................................... 173

Anexo1 ............................................................................................................... 176

Anexo2 ............................................................................................................... 181

Bibliografía ......................................................................................................... 186

6

Lista de tablas.

Tabla 3.1 Matriz de Datos ..................................................................................... 36

Tabla 3.2 Ejemplo real de una matriz de datos ..................................................... 37

Tabla 3.3 Ejemplo de binarización. ....................................................................... 38

Tabla 3.4 Distribución de Frecuencias Univariada. ............................................... 40

Tabla 3.5 Ejemplo de una Distribución de Frecuencias. ....................................... 40

Tabla 3.6 Distribución de Frecuencias Relativas Univariada. ............................... 40

Tabla 3.7 Ejemplo de una Distribución de Frecuencias Relativas Univariada. ..... 40

Tabla 3.8 Tabla de Contingencia de dos entradas. ............................................... 42

Tabla 4.1 Distribución de Frecuencias para una Variable Cualitativa. .................. 50

Tabla 4.2 Construcción de la curva de concentración. ......................................... 53

Tabla 4.3 Matriz de varianzas y covarianzas. ....................................................... 59

Tabla 4.4 Matriz de correlación. ............................................................................ 60

Tabla 4.5 Clasificación de variables ordinales. ..................................................... 64

Tabla 4.6 Tabla de contingencia teórica de dos variables. ................................... 64

Tabla 6.1 Principales Enlaces Canónicos. .......................................................... 132

Tabla 7.1 Estructura de la matriz de datos. ........................................................ 138

Tabla 7.2 Clasificación de la variable “Tiempo límite”. ........................................ 140

Tabla 7.3 Clasificación de la variable “Cuenta”. .................................................. 140

Tabla 7.4 Clasificación de las variables “Sexo” y “Estado civil”. ......................... 140

Tabla 7.5 Razones de odds univariadas con la variable de respuesta. .............. 141

Tabla 7.6 Interpretación de la razón de odds. ..................................................... 143

Tabla 7.7 Resultados del procedimiento de selección forward. .......................... 145

Tabla 7.8 Estimadores de máxima verosimilitud de los parámetros. .................. 147

Tabla 7.9 Interpretación del modelo estimado. ................................................... 148

Tabla 7.10 Comparación entre las razones de odds multivariadas y univariadas ............................................................................................................................ 150

Tabla 7.11 Resultados del árbol de clasificación CHAID .................................... 151

Tabla 7.12 Comparación de modelo bagged con los tres modelos individuales. 162

7

Lista de figuras.

Figura 4.1 Ejemplos: (a) un diagrama de frecuencias y (b) un histograma. ......... 47

Figura 4.2 Representación de la curva de concentración. .................................... 53

Figura 4.3 Histogramas que describen distribuciones simétricas y asimétricas ... 54

Figura 4.4 Aproximación normal para un histograma. .......................................... 56

Figura 4.5 Ejemplo de una gráfica de dispersión. ................................................. 57

Figura 4.6 Ejemplo de un diagrama de graficas de dispersión. ............................ 58

Figura 5.1 Estructura de un dendrograma. ........................................................... 83

Figura 5.2 Ejemplo del ajuste de una regresión lineal. ......................................... 90

Figura 5.3 Ejemplo de probabilidades de respuesta binaria. ................................ 95

Figura 7.1 Resultados del Árbol de Clasificación CHAID ................................... 153

Figura 7.2 Curvas ROC para los modelos finales. .............................................. 159

Figura 7.3 Gráfica de levantamiento para los modelos finales. .......................... 160

Figura 7.4 Curvas ROC para el modelo árbol bagged y modelo árbol único. ..... 162

8

Capítulo 1

Protocolo del trabajo de investigación de la tesis

9

1.1 Introducción

En los últimos años se ha dado un incremento significativo en nuestra habilidad

para generar y recolectar datos, principalmente por el desarrollo en el campo

computacional y por la reducción de costos en cuestión del almacenamiento de la

información. Sin embargo, dentro de estas enormes masas de datos existe

información “oculta” que no es posible recuperar con las técnicas de análisis de

información clásicas.

Es aquí donde la minería de datos (Data Mining) surge con la necesidad de

recuperar esa información, haciendo uso, entre otras técnicas, del aprendizaje

automático (Machine Learning). Al ser un tema relativamente nuevo, en este trabajo

de tesis se buscará hacer una revisión detallada de la teoría y el proceso completo

de minería de datos en la actualidad.

1.2 Antecedentes

En el proceso de inteligencia de negocios (Bussiness Intelligence), el proceso de

minería de datos es una herramienta de gran utilidad para optimizar el manejo, análisis

y obtención de resultados a partir de la base de datos de la empresa o compañía. Su

utilidad se debe principalmente a su capacidad de manejar grandes masas de datos.

Por ello, este trabajo consiste en describir con detalle el proceso de minería de datos,

así como el tipo de problemas que este puede abordar.

1.3 Justificación y objetivos

El proceso de minería de datos ha demostrado, a pesar de ser una técnica poco

conocida, ser muy eficiente y una muy buena opción para el análisis de grandes bases

de datos, el cual conjunta técnicas computacionales con técnicas de análisis

estadístico.

1.3.1 Objetivo principal de la tesis

El objetivo principal en esta tesis será estudiar las etapas del proceso de

minería de datos y generar un documento de revisión que describa su aplicación en

la industria y en los negocios.

10

1.3.2 Objetivos específicos

Las metas específicas de este proyecto son:

1. Revisar los conceptos relevantes del proceso de minería de datos y

describir a detalle sus etapas para plantearlo como una alternativa en el

manejo de grandes bases de datos.

2. Explicar con detalle los métodos estadísticos y el software requerido para

ajustar modelos de regresión a la información obtenida de grandes bases

de datos.

3. Ejemplificar el proceso de minería de datos con datos reales.

1.3.3 Metas académicas

Los resultados que se esperan obtener del desarrollo de este proyecto son:

1. Obtener conocimiento del proceso de minería de datos y de su aplicación

actual en los campos de la industria y los negocios, con el fin de

fortalecer mi formación profesional.

2. Proponer una alternativa de análisis estadístico para grandes bases de

datos.

3. Escribir un documento de revisión bibliográfica que describa detallada y

claramente los conceptos y las etapas del proceso de minería de datos,

que pueda servir de referencia de consulta tanto para profesionales de

la industria y los negocios como para académicos y estudiantes de

programas de licenciatura y postgrado en la rama de Estadística.

4. Proponer un programa analítico sobre los temas importantes que

debería contener un posible curso de minería de datos en la Licenciatura

en Estadística de la Universidad Autónoma Chapingo.

11

Capítulo 2

Minería de datos

12

2.1 ¿Qué es Minería de Datos?

Actualmente, la minería de datos puede considerarse como un proceso

analítico con la función de revelar patrones o tendencias ocultas en el vasto océano

de datos existente, haciendo uso de la última generación de programas

computacionales. El significado original de “minería” es referido a la extracción de

recursos, tal como el petróleo o el oro, de la tierra. La combinación con la palabra

“datos” sugiere el análisis a fondo de los datos con el objetivo de revelar el

conocimiento “puntual” que no es expuesto a simple vista en la masa de datos. Una

definición más completa sería:

Minería de Datos es el proceso de selección, exploración y modelación de

grandes cantidades de datos para descubrir regularidades o relaciones que son

inicialmente desconocidas con el objetivo de obtener una depuración de los datos y

para que el propietario haga un uso útil de su base de datos.1

Desde la perspectiva de la investigación científica, minería de datos

cercanamente relacionada con muchas otras disciplinas, tal como aprendizaje

automático, bases de datos, estadística, análisis de datos, investigación de

operaciones, apoyo de decisiones, sistemas de información, entre otros.

Sin embargo, es importante distinguir minería de datos del análisis

estadístico, mientras que la estadística clásica se basa en la prueba de hipótesis,

minería de datos es un proceso exploratorio que busca revelar información oculta

en una base de datos. Minería de datos no es el uso de un algoritmo de cómputo o

1 Definición traducida de Paolo Giudici. (2003) Aplied Data Mining: Statistical Methods for Business and Industry.

13

una técnica estadística, es un proceso de “inteligencia de negocios” usado para

proporcionar información que apoye en la toma de decisiones de una compañía.

2.2 Minería de datos y estadística

La Estadística siempre ha tenido como principal propósito la creación de

métodos para el análisis de datos, por ende, los métodos estadísticos son

usualmente desarrollados en relación a los datos que están siendo analizados

siguiendo normas conceptuales. Mientras esto hace que los métodos estadísticos

sean coherentes y rigurosos, también limita su habilidad para adaptarse a las

nuevas tecnologías de información y de nuevas aplicaciones de aprendizaje

automático. Esta es posiblemente la principal diferencia entre los métodos

estadísticos y los métodos de aprendizaje automático.

Recientemente, se ha dado un interés en minería de datos por parte de los

estadísticos y esto debería ayudar en el desarrollo de esta disciplina, sin embargo,

aún existen críticas hacia esta por dos razones principalmente. Primero, en su

procedimiento no existe justificación de un modelo teórico como referencia, además

de que varios modelos compiten entre ellos y que estos modelos son cambiantes

dependiendo de la base de datos que se esté examinando. La crítica a su

procedimiento es que siempre es posible encontrar un modelo, el cual se adapta

bien a los datos, pero este normalmente resulta ser complejo. Segundo, es criticada

por la gran cantidad de datos que es capaz de manejar para encontrar relaciones

“no existentes” dentro de la base de datos.

Sin embargo, los métodos modernos de minería de datos prestan gran

atención al momento de generar resultados para que estos sean de confianza. Esto

14

implica que cuando se cambia un modelo, se considera y pone a prueba el poder

predictivo, además de que los modelos más complejos son penalizados.

Es difícil ignorar el hecho de que los descubrimientos o resultados obtenidos

con minería de datos eran en principio desconocidos, por lo que no podían ser

usados para el desarrollo de una prueba de hipótesis. Siendo esto algo muy común

tratándose de grandes bases de datos. Este último aspecto es una de las

características que distinguen minería de datos del análisis estadístico.

Además, mientras que el análisis estadístico tradicionalmente se enfoca en

un análisis primario de datos que fueron colectados para revisar una hipótesis

específica, minería de datos puede también enfocarse con datos secundarios, es

decir, con datos que fueron colectados por otras razones.

Berry y Linoff (1997) distinguen en minería de datos dos tipos de enfoques

de análisis. Los dividen en análisis top-down (de arriba hacia abajo, tipo

confirmativo) y análisis bottom-up (de abajo hacia arriba, tipo exploratorio).

El análisis top-down tiene como principal objetivo el confirmar o rechazar una

hipótesis y trata de extender nuestro conocimiento respecto a un fenómeno

conocido, logra esto principalmente por hacer uso de métodos estadísticos

tradicionales.

A su vez, en el análisis bottom-up busca la forma de usar la información que

ha pasado inadvertida, es decir, busca a lo largo de la base de datos las conexiones

que permitan la creación de alguna hipótesis. El enfoque del análisis de bottom-up

es típico de minería de datos.

En realidad, estos dos enfoques son complementarios, de hecho, la

información obtenida con el análisis bottom-up, en la cual se identifican importantes

15

relaciones y tendencias, es posible que no se pueda explicar por qué estos

descubrimientos son de utilidad ni en qué nivel son válidos. Es aquí donde las

herramientas de confirmación del análisis top-down pueden ser usadas para

confirmar los descubrimientos y evaluar la calidad de estos.

Hay otros tres aspectos menos importantes que distinguen el análisis

estadístico de minería de datos. Primero, minería de datos analiza grandes bases

de datos, esto implica que se tienen que hacer nuevas consideraciones para el

análisis estadístico. Además de esto, para muchas aplicaciones es prácticamente

imposible analizar o incluso abrir bases de datos de tal magnitud, por razones de

eficiencia computacional. Por lo que surge la necesidad de tener una muestra de

datos de la base de datos que está siendo examinada. Dicho muestreo debe ya

estar considerado dentro de los objetivos de minería de datos, por lo que no puede

ser utilizada la teoría estadística tradicional.

Segundo, muchas bases de datos no están en la forma clásica que están los

datos estadísticos, por ejemplo, los datos colectados de internet. Esto crea la

necesidad de métodos de análisis apropiados que comúnmente no están

considerados dentro del campo de la estadística. Tercero, los resultados de minería

de datos surgen como consecuencia de algún fenómeno, esto implica que se debe

tener precaución al momento de usar los resultados, obtenidos de los métodos de

análisis, que serán implementados en el negocio.

En conclusión, hay razones para creer que minería de datos no es algo nuevo

de la visión estadística, pero también hay razones que sustentan la idea de que, por

su naturaleza, los métodos estadísticos deben ser suficientes para estudiar y

formalizar los métodos usados en minería de datos. Esto significa que por un lado

16

nos vemos en la necesidad de ver un problema planteado por minería de datos

desde el punto de vista estadístico; mientras que por el otro lado es necesario

desarrollar un paradigma conceptual, que, al presentarse, el enfoque estadístico

prefiere dirigir los métodos de minería de datos a que regresen al esquema general

y al análisis coherente.

2.3 El proceso de minería de datos.

Minería de datos comprende una serie de actividades que van desde definir

objetivos hasta la evaluación de resultados. A continuación, se presentan siete fases

para este proceso:

A. Definición de objetivos para el análisis.

B. Selección, organización y pretratamiento de la base de datos.

C. Análisis exploratorio de los datos y su posterior transformación.

D. Especificación de los métodos estadísticos que se usarán en la fase de

análisis.

E. Análisis de los datos basados en los modelos elegidos.

F. Evaluación y comparación de los métodos usados y la elección del modelo

final para el análisis.

G. Interpretación del modelo elegido y de su posterior uso en el proceso de

decisión.

2.3.1 Definición de objetivos

Involucra la definición de los objetivos para el análisis. No siempre resulta

sencillo definir el fenómeno que queremos analizar, de hecho, es común que las

compañías tengan claro sus objetivos, sin embargo el problema muchas veces

17

resulta al momento de trasladar los objetivos que necesitan ser analizados de una

forma detallada. El tener claridad de los objetivos y del problema es requisito

indispensable para poder realizar un análisis correcto. Esta etapa es de las más

difícil del proceso dado que determina como se organizará la metodología

posteriormente, por lo tanto, los objetivos deben ser claros y no debe haber lugar

para dudas o incertidumbre.

2.3.2 Organización de los datos

Una vez que ya han sido definidos los objetivos es necesario seleccionar los

datos para el análisis. Primero, es necesario identificar la fuente de los datos,

usualmente los datos son tomados de fuentes internas que son de mayor confianza

y más a fondo. Además, de que también tienen la ventaja de que contienen

experiencias y procesos de la propia empresa.

Los mejores datos de los que se pueden hacer uso son los que provienen de

la warehouse (casa de datos) de la compañía, la cual se puede describir como un

depósito de datos de la historia de la compañía, en la que no es difícil observar

cambios y resulta sencillo el obtener los datos deseados para el análisis,

comúnmente los datos de mercado son de gran interés. Si no hay una warehouse,

entonces los datos de mercado pueden ser obtenidos haciendo un cruce entre las

diferentes fuentes de datos con las que cuente la compañía.

En general, la obtención o creación de datos de mercado es fundamental

para el posterior análisis de los datos, puesto que conduce a la representación de

los datos, comúnmente representados en un arreglo rectangular conocido como

18

matriz de datos. Este arreglo es debido a la necesidad de análisis y al

establecimiento preciso de los objetivos.

Luego de que la matriz de datos se encuentra disponible, se prosigue a

realizar una limpieza preliminar de los datos, en otras palabras, aplicar un control

de calidad conocido como limpieza de datos. Es un proceso que funciona para hacer

notar variables que existen pero que no son adecuadas para el análisis. Es

importante revisar el contenido de las variables para evitar la presencia de datos

perdidos o datos incorrectos y si alguna información esencial está perdida, es

necesario revisar la fase para destacar variables.

Para terminar esta etapa, es conveniente hacer un análisis sobre un

subconjunto o muestra de la base de datos disponible, esto porque la calidad de la

información, en datos de mercado, obtenida de muestras es muchas veces mejor

que la colectada del análisis de la base de datos completa. Además de que el

análisis de bases de datos en minería de datos es a menudo muy largo, entonces

es preferible usar una muestra de los datos para reducir el tiempo de análisis.

2.3.3 Análisis Exploratorio de los datos.

Este proceso en muy similar a las técnicas de OLAP (Online Analitical

Processing), el cual es un instrumento usado para hacer notar relaciones entre las

variables disponibles siguiendo la lógica de un reporte de dos dimensiones.

El objetivo de este análisis preliminar es cambiar la visualización de los datos

transformando la distribución de los datos originales, tratando que esta sea más fácil

de entender. También es capaz de identificar anomalías en los datos, artículos que

sean diferentes a los demás, aunque no necesariamente estos artículos deben ser

19

eliminados puesto que podrían contener información importante para lograr los

objetivos del análisis.

El análisis exploratorio es una fase esencial en el análisis porque permite al

analista tener una idea de qué tipo de métodos estadísticos podrían ser los más

indicados para la siguiente fase, sin dejar de considerar la calidad de los datos

obtenida en la fase anterior.

Además, este análisis también podría sugerir la necesidad de una nueva

extracción de datos debido a que los datos colectados son insuficientes para

conseguir los objetivos del análisis. Los métodos exploratorios principales en

minería de datos serán discutidos más adelante.

2.3.4 Especificación de los Métodos Estadísticos

La selección del método depende mucho del problema que se esté

estudiando o del tipo de datos disponibles. Existen muchos métodos estadísticos

que podemos seleccionar, así como una gran variedad de algoritmos disponibles

para minería de datos, por lo que es importante tener una clasificación de los

métodos existentes. Minería de datos está enfocada a la aplicación por lo que los

métodos usados se pueden clasificar de acuerdo al objetivo del análisis.

2.3.4.1 Métodos descriptivos.

También conocidos como simétricos, sin supervisión o métodos indirectos.

Su objetivo es describir el estado de los datos que estamos analizando, para hacer

estos es necesario observar a fondo la distribución de los datos, exteriorizando las

relaciones entre las observaciones, y obteniendo las características en común de la

distribución de los datos haciendo uso de métodos de inteligencia automática, las

20

observaciones pueden ser clasificadas en grupos que no eran conocidos de

antemano con el uso de un análisis de agrupación (análisis por grupos, Kohonen

maps) basados en la distancia mutua o similar entre ellas. Las variables pueden ser

conectadas entre ellas de acuerdo a enlaces, antes desconocidos, usando métodos

de asociación, modelos log-lineal o modelos gráficos. De este modo se asegura que

todas las variables en general serán tratadas de igual forma.

2.3.4.2 Método predictivo.

Es también llamado asimétrico, supervisado o método directo. Su objetivo es

describir una o más variables respecto a todas las demás mediante reglas de

clasificación o de predicción. Estas reglas ayudan en la predicción de resultados a

futuro y se obtienen a partir de la generación de enlaces entre las variables

respuesta y las variables observadas.

Los principales métodos para este enfoque son desarrollados en el campo

de aprendizaje automático, tal como lo son redes neuronales (perceptrones

multicapa) y los árboles de decisión, pero también hay modelos de estadística

clásica con este enfoque, como los modelos lineales y de regresión logística.

2.3.4.3 Método Local

Su objetivo es identificar características particulares, relacionadas en

subconjuntos de la base de datos. El método descriptivo y el predictivo, están

enfocados en la exploración de las propiedades generales de los datos en lugar de

hacerlo con la información local.

Algunas veces el análisis, gradualmente, más pequeño nos provee de más

información que la descripción o predicción de los datos en general. Este método

21

es el medio para encontrar las relaciones mutuas locales a un nivel bajo. Ejemplos

de métodos locales son las reglas de asociación para análisis de datos de

transacciones y la identificación de observaciones anormales (outliers).

Aunque existen varios métodos, en la aplicación de la vida real es necesario

hacer una mezcla o cruce de métodos dependiendo de los objetivos del análisis o

de los datos disponibles.

2.3.5 Análisis de los Datos

Una vez que el método ha sido especificado, este se debe trasladar con los

algoritmos apropiados para poder realizar los cálculos computacionales que

servirán para sintetizar los resultados que necesitamos de la base de datos.

Debido al amplio número de softwares especializados y no especializados en

minería de datos, no es necesario desarrollar algoritmos para aplicaciones estándar,

los algoritmos con los que cuenta el software deben ser suficientes para los cálculos.

Sin embargo, es necesario que el gestor del proceso tenga un profundo

conocimiento tanto de los diferentes métodos como de las soluciones del software,

para que en caso de ser necesario sea capaz de adaptar el proceso para satisfacer

las necesidades de la compañía y poder interpretar los resultados correctamente al

momento de tomar decisiones.

2.3.6 Evaluación de Métodos Estadísticos.

Para poder tomar una decisión final es necesario seleccionar el mejor modelo

para el análisis de los datos de entre los métodos estadísticos disponibles, por lo

que es necesario hacer una comparación de resultados obtenidos a partir de

diferentes métodos para seleccionar el modelo y las reglas de decisión final.

22

Es indispensable hacer una revisión de los métodos estadísticos

especificados, ya que es posible que con ninguno de los métodos se logre conseguir

los objetivos planteados. En tal caso es necesario regresar y especificar un nuevo

método que sea más apropiado para el análisis.

Al momento de evaluar el desempeño de un método, analizando medidas de

tipo estadístico, también se deben tener en cuenta otros aspectos tal como

restricciones de tiempo, restricciones de recursos, calidad y disponibilidad de los

datos, entre otros.

En procesos de minería de datos es muy poco común el uso de un solo

método para el análisis de los datos, normalmente la combinación de varios

métodos crea el potencial para poder identificar diferentes aspectos que de otro

modo habrían pasado inadvertidos.

Para poder elegir el mejor modelo final se requiere aplicar varias técnicas

rápidas y simples para comparar los diferentes resultados producidos y hacer una

evaluación del negocio con las diferentes reglas creadas.

2.3.7 Implementación de los métodos.

Minería de datos no se restringe al análisis de los datos, sino que también

involucra la integración de los resultados dentro de la toma de decisiones de la

compañía. El conocimiento del negocio, la extracción de reglas y su participación

en el proceso de decisión van encaminados en ir desde de la fase analítica hasta la

producción de maquinarias para la toma de decisiones.

Una vez que el modelo ha sido elegido y probado con un conjunto de datos,

la clasificación de reglas puede ser generalizada y aplicada como referencia a toda

23

la población de datos disponibles. Es de vital importancia aplicar el modelo de forma

correcta para que se pueda explotar su máximo potencial.

La inclusión del proceso minería de datos en la organización de la compañía

debe hacerse de forma gradual, primero estableciendo objetivos realistas y

observando los resultados a lo largo del tiempo.

El objetivo final de minería de datos es integrarse por completo con las otras

actividades que son usadas de apoyo en la toma de decisiones de la compañía.

Para conseguir esto, ocupa de al menos cuatro fases:

Fase estratégica. En esta primera fase se hace un estudio del proceso de

negocio o compañía para identificar los puntos en los que minería de datos

puede ofrecer mayores beneficios. Como resultado de esta fase se obtienen

los objetivos de la compañía para iniciar con el proyecto piloto de minería de

datos y además se generan los criterios con los que el proyecto será

evaluado.

Fase de entrenamiento. Aquí se lleva a cabo una evaluación a fondo del

proceso de minería de datos. Se comienza por desarrollar un proyecto o

prueba piloto y los resultados de este serán evaluados mediante los objetivos

y criterios establecidos en la fase anterior. La elección del proyecto piloto es

muy importante, debe ser simple y fácil de aplicar pero lo suficientemente

importante para causar interés. En caso que el proyecto piloto sea positivo

se pueden presentar dos opciones: que se realice una evaluación preliminar

de la utilidad de las diferentes técnicas del proceso minería de datos; y las

otra, que se defina un sistema prototipo de minería de datos.

24

Fase de creación. En caso de que los resultados del proyecto piloto hayan

aprobado la evaluación, aplicando por completo el proceso de minería de

datos, es necesario establecer un plan minuciosamente detallado para

reorganizar el procedimiento de la compañía con la intención de incluir el

proceso de minería de datos dentro de sus actividades. Siendo más

específico, es necesario reorganizar la base de datos de la compañía y

plantear la posible creación de una data warehouse, esto para poder

desarrollar el proyecto previo de minería de datos, hasta que se cuente con

una versión operacional inicial, además de que se tiene que asignar personal

y tiempo para seguir el proyecto.

Fase de migración. Para esta etapa sólo es necesario planificar una

organización apropiada para que el proceso de minería de datos pueda ser

integrado exitosamente dentro de las actividades de la compañía. Esto

implica, enseñar a posibles usuarios el potencial del nuevo sistema para

incrementar su confianza en los beneficios que brindará, además se requiere

también de hacer evaluaciones contantes de los resultados obtenidos del

proceso de minería de datos, así como de comunicar y evaluar las eficiencias

del mismo.

Para que la minería de datos pueda ser considerada como un proceso válido

dentro de una compañía, es necesario involucrar al menos tres tipos de personas

diferentes pero con habilidades de comunicación y ser interactivas.

- Expertos en negocios, para desarrollar el conjunto de objetivos e interpretar

los resultados de minería de datos.

25

- Expertos en tecnologías de información, alguien que conozca acerca de

datos y las tecnologías necesarias para manipularlos.

- Expertos en métodos estadísticos, para la fase del análisis de los datos.

2.4 Software para Minería de Datos

Para efectuar este proceso se requiere de un software adecuado que permita

realizar el análisis. Debido a que el proceso busca relaciones desconocidas de

antemano y compara los métodos de análisis disponibles no es posible hacer uso

de sistemas especializados para el análisis estadístico.

Para que un software sea válido para el proceso debe tener integrado

previamente un sistema de minería de datos, es decir que haya sido creado junto

con él, uno que le permita usar y comparar diferentes técnicas.

Si se desea planear, implementar y desarrollar exitosamente un proyecto de

minería de datos es necesario que el software también cuente con soluciones que

incluyan a todas las fases del proceso analítico. Esto va desde el muestreo de los

datos, mediante el análisis y las fases de modelación, hasta la publicación de la

información de la compañía resultante del proceso.

Además de esto, el software debe ser de uso-amistoso, intuitivo y

suficientemente flexible para permitir a usuarios con poca experiencia en estadística

entenderlo y usarlo. Existen pocos software que pueden hacer esto y uno de ellos

es el software SAS, en el cual se encuentra integrado el proceso de minería de

datos conocido como Enterprise Miner (SAS Institute, 2001).

En sus características, reúne el sistema de análisis estadístico y los reportes

de SAS con un interface de uso gráfico, GUI por sus siglas en inglés, que es

26

relativamente fácil de usar y puede ser entendido por analistas corporativos y

expertos en estadística. Los elementos GUI pueden ser usados para desarrollar el

proceso de minería de datos mediante el método SEMMA.

En este método se establecen algunos elementos básicos del proceso pero

sin imponer una ruta rígida y predeterminada. También provee un proceso lógico

que los analistas corporativos y expertos en estadística pueden seguir para lograr

los objetivos de los proyectos de minería de datos cambiando los elementos de GUI

que sean necesarios. La representación de esta estructura es un diagrama de flujo

de un proceso, PFD por sus siglas en inglés, que ilustra gráficamente las etapas

necesarias para completar un proceso de minería de datos.

El método SEMMA definido por SAS Institute hace referencia a una

estructura general que puede ser usada para organizar las fases de un proyecto de

minería de datos: ‘SEMMA es un acrónimo para: sample, explore, modify, model

and assess.

Sample (muestra): básicamente se extrae una muestra de la base de datos

que sea lo bastante grande para contener información importante pero

también lo bastante pequeña para que sea analizada rápidamente.

Explore (explorar): se realiza una exploración de los datos con el propósito

de encontrar alguna relación o anormalidad que ayude a identificar que datos

pueden ser de interés.

Modify and model (modificación y modelación): en esta fase se busca

identificar las variables y los modelos que puedan proveer la información

contenida en los datos.

27

Assess (evaluar): finalmente se hace una evaluación de la utilidad y de la

confiabilidad de la información descubierta en el proceso.

28

Capítulo 3

Organización de los

datos.

29

Es necesario que los datos estén organizados en una base de datos bien

ordenada para que se pueda realizar un buen desarrollo del análisis. Además, la

forma en la que se realizará el análisis de los datos dependerá generalmente de la

forma en la que se encuentre organizada la base de datos.

Una estrategia usada por medianas y grandes empresas es la generación y

uso de una data warehouse (almacén de datos) con el propósito de conseguir

información precisa de la forma de manejo del negocio, integrada por distintos tipos

de datos, como por ejemplo: datos de contabilidad derivados de datos que surgen

del proceso de producción, contactos con proveedores (manejo en la cadena de

suministros), tendencia de ventas, contactos con clientes (manejo de la relación de

clientes), entre otros.

Otro ejemplo en la obtención de información se da con en el aumento de la

difusión del comercio electrónico, el cual produce abundantes datos referentes a las

páginas web que cuentan con transferencia de pago que han sido visitadas. En este

caso resulta esencial para los proveedores, mediante el uso de internet, conocer

qué tipo de clientes frecuenta las páginas web para así poder planificar ofertas. Este

tipo de datos son guardados en una base de datos llamada webhouse.

Si no se cuenta con una buena organización de los datos es fácil perder

patrones importantes que son parte fundamental en el diseño de los datos y que

pueden ser significativos en el análisis de los datos.

3.1 Desde la estructura data webhouse hasta la estructura data marts

Se puede decir que la operación más importante para el desarrollo de un

proceso de minería de datos y para poder obtener información útil, es la creación

30

de una base de datos válida. Además de que comúnmente, esta operación también

resulta ser la más costosa de todo el proceso en cuestión de recursos destinados

para ésta y en el tiempo necesario para su implementación y desarrollo.

A continuación, se describen tres tipos de estructura de bases de datos para

el análisis en minería de datos: data warehouse, data webhouse y data mart. Siendo

las dos primeras, ya mencionadas anteriormente, estructuras de datos más

complejas a diferencia de la data mart, que es un base simple, que comúnmente se

deriva de otras estructuras, las cuales deben estar listas para ser analizadas.

3.1.1 Data warehouse

De acuerdo con Immon (1996) una data warehouse es “una colección de

datos acerca de una colección de temas (unidades), las cuales no son volátiles en

el paso del tiempo y pueden ser de apoyo en la toma de decisiones del

administrador”.

Analizando esta definición, la primer característica señalada es la orientación

de la data warehouse hacia los temas, esto quiere decir que los datos son

organizados y o divididos respecto al tema en lugar del tipo de negocio. Por ejemplo,

en el caso de una compañía de seguros, los datos que integran la warehouse

posiblemente están divididos por Cliente, Póliza y Seguro Premium en lugar de

Responsabilidad Civil, Vida y Accidentes como podría suponerse.

Una segunda característica de la warehouse, posiblemente la más

importante, es la integración de los datos, en otras palabras, la warehouse debe ser

capaz de integrar perfectamente los diversos estándares usados por las diferentes

aplicaciones de las que los datos son obtenidos. Por ejemplo, varias aplicaciones

31

relacionadas con las operaciones de negocio codifican el sexo de los clientes en

diferentes formas por lo que la warehouse debe ser capaz de identificar sin error

estos estándares antes de mandar la información dentro del almacén.

Como tercer característica tenemos que la data warehouse puede variar con

el paso del tiempo, esto debido a que la duración de los datos es temporal, entre

cinco y diez años. Consideremos a los datos en este periodo simplemente como

una serie de fotografías instantáneas tomadas en momentos específicos, así

entonces, cada cierto tiempo la data warehouse cambiará, pero solo en tamaño,

esto porque la “actualización” de los datos no es más que la adición de nuevas

fotografías instantáneas a la base, en otra palabras los datos ya incluidos no serán

actualizados. Esto hace que la data warehouse no sea volátil.

Por último, la información contenida en la data warehouse debe ser relevante

y de ayuda para la toma de decisiones, esto quiere decir que un data warehouse es

un contenedor de toda la información necesaria para realizar operaciones de

negocio inteligente.

Es importante mencionar que el uso de este tipo de estructura tiene un

problema, y es que el hacer uso de la data warehouse como base operacional es

casi imposible, esto a causa de su gran tamaño. Por otro lado, tiene la ventaja de

que es planeada y construida bajo objetivos específicos.

Hay dos formas de iniciar con la construcción de una data warehouse, la

primera se basa en la creación de un archivo único en el que se colectaran todos

los datos de la empresa; la segunda forma implica la unión de bases data marts

(datos de mercado) para formar un solo archivo.

32

En la primera propuesta se requiere de un constante seguimiento por parte

del administrador con el fin de mantener un buen control de calidad respecto a los

datos de la base, además de que también se requiere de mucho cuidado al

momento de programar puesto que es necesario considerar el constante

crecimiento de la base de datos con cada actualización de la información.

La segunda forma es mayormente usada, debido a la facilidad con la que se

aplica en un inicio, sin embargo en cierto punto se presenta el problema de hacer

coincidir los datos de la diferentes bases de data marts, lo que vuelve necesario el

definir, limpiar y transformar los datos con el propósito de obtener un nivel de

uniformidad suficiente entre estos.

En un sistema que busca la preservación y distribución de datos es

conveniente que incluya información acerca de la organización de los datos dentro

de la base. Este tipo de datos son llamados metadatos, los cuales no son más que

datos que describen a otros datos y pueden ser usados para incrementar los niveles

de seguridad y de confianza dentro de la warehouse.

Otro aspecto muy importante en el sistema de una data warehouse es que

ésta debe contar con una colección de data marts. Una data marts es una base de

datos temática, usualmente representada de forma simple y de acuerdo a objetivos

específicos, por ejemplo con propósitos de marketing.

En resumen, consideremos como una estructura válida para un sistema de

data warehouse a aquella que incluya los siguientes componentes: (a) un archivo

central, el cual se convertirá en el almacén de los datos; (b) una estructura de

metadatos que describa qué tipo de datos están disponibles dentro de la base y en

dónde se encuentran; (c) una serie de específicas y temáticas data marts que sean

33

de fácil acceso y que además sean de fácil manejo estadísticamente hablando,

como lo son los datos matriciales.

3.1.1.2 Data webhouse

La llegada del internet propició la acumulación de grandes cantidades de

datos por lo que la data warehouse se vio forzada a adaptarse a los nuevos

requerimientos convirtiéndose en una web data warehouse, mejor conocida como

data webhouse. La web resultó ser una gran fuente de datos, principalmente acerca

de las personas que navegan por las páginas web y de cómo navegan por la red.

Toda esta vasta información puede ser colectada en la data webhouse, para

que luego ésta forme parte de la warehouse, y así entonces la webhouse se

convierta en otra fuente de información de la data warehouse.

3.1.1.3 Data marts

A grandes rasgos, la data marts es una base de datos enfocada hacia el

campo del márquetin; puede ser considerada con un archivo orientado al manejo de

la información respecto a la relación de clientes, incluidos nuevos y/o posibles

clientes. Siendo que el estudio de datos de la relación de clientes es uno de los

principales campos donde la minería de datos puede desarrollarse, es posible

extraer de la data warehouse varias data marts.

De cualquier modo, es factible la creación de una data marts aún si no se

cuenta con un sistema warehouse, aunque esto puede ocasionar algunas

dificultades. Además, la creación de una estructura temática de datos, tal como la

data marts, es el primer y fundamental movimiento hacia un ambiente de

información para la actividad de minería de datos.

34

3.2 Clasificación de los datos.

Supongamos que tenemos a nuestra disposición una data mart que fue

extraída de una base de datos disponible. Entonces, respecto al punto de vista

estadístico, es necesario que la data mart esté organizada respecto a dos puntos

importantes: unidades estadísticas, que se refiere a los elementos de la población

que son de interés para los objetivos del análisis (por ejemplo, los suministros de la

compañía, los clientes, las personas que visitan el sitio web de la empresa); y la

variables estadísticas, que no son más que las características de relevancia, las

cuales son medidas para cada unidad estadística (por ejemplo, la cantidad de

compra por cliente, la forma de pago, el perfil socio-demográfico de cada cliente).

Las unidades estadísticas pueden estar formadas por toda la población de

referencia o solo por una muestra representativa de ella. El hecho de considerar

una muestra representativa de la población trae consigo varias ventajas, sobre todo

en la reducción de costos en el proceso de recopilación de la información y en la

reducción de tiempo en el análisis e interpretación de los resultados. Como es bien

sabido, el campo de muestreo y de estrategias de muestreo es muy basto, por lo

que, al no ser objetivo de este escrito, no será abordado.

Las variables estadísticas son consideradas como la principal fuente para la

obtención de conclusiones sobre las unidades observadas, las cuales

posteriormente son extendidas al resto de la población.

En este caso es bueno contar con un gran número de variables con el fin de

conseguir los objetivos deseados, sin embargo pueden existir problemas si el

número de variables es excesivo, principalmente por dos limitaciones. Primero que

35

nada, para lograr un análisis eficiente y estable es necesario que no haya variables

en las que se duplique información, por ejemplo, la información del ingreso anual de

una persona hace que la información del ingreso mensual de la misma se vuelva

superflua.

Y además, la información de cada unidad estadística debe ser “correcta” para

cada variable, sin embargo, la existencia de un gran número de variables puede

ocasionar la pérdida de información y, como es de suponerse, los datos perdidos

causan problemas para el análisis.

Una vez que las unidades y variables estadísticas que son de interés para el

análisis han sido establecidas, cada observación es relacionada con una unidad

estadística y se le asigna un valor distinto (nivel) para cada variable. A este proceso

se le conoce como clasificación.

Por lo general hay dos tipos de variables: cualitativas y cuantitativas. Las

variables cualitativas son comúnmente expresadas como adjetivos y son

clasificadas dentro de niveles, llamados categorías, por ejemplo, sexo, código postal

y marca preferida. Un dato cualitativo es nominal si este puede estar en varias

categorías que no tienen un orden en específico, pero también puede ser ordinal si

las diferentes categorías tienen un orden ya sea de forma explícita o implícita.

La medición de un nivel nominal es establecido por la relación de igualdad o

desigualdad entre los niveles (=, ≠), por ejemplo el color de ojos de una persona y

el estado legal de una compañía. Aunque la medición ordinal también sigue un

orden entre las categorías, ésta no cuenta con una métrica para diferenciar una

categoría de otra, en otras palabras, podemos decir qué categoría es más grande o

36

mejor pero no podemos decir por cuánto (=, >, <), por ejemplo la habilidad

computacional de una persona y la razón de crédito de una compañía.

Por otro lado, las variables cuantitativas están estrechamente relacionadas

con cantidades numéricas, por ejemplo la edad y el ingreso del cliente. A su vez,

estas pueden ser divididas en variables cuantitativas discretas, cuando se tiene un

número finito de niveles, y como variables cuantitativas continuas, si los niveles no

pueden ser medidos. Ejemplos de variables cuantitativas discretas y continuas son

el número de llamadas telefónicas recibidas en un día y el ingreso anual de una

compañía, respectivamente.

3.3 Matriz de Datos

Una vez que los datos y variables han sido clasificados dentro de alguna de

la cuatro posibilidades (cualitativo nominal, cualitativo ordinal, cuantitativo discreto

y cuantitativo continuo), es necesario que la base de datos sea transformada a una

estructura que sea factible para el análisis estadístico de los datos. Esta nueva

estructura puede ser del formato de una matriz de datos, que es básicamente una

tabla, usualmente de dos dimensiones, donde las n unidades estadísticas están

representadas por las filas y las p variables de interés son a su vez representadas

por las columnas de la matriz. En otras palabras, las unidades de la matriz de datos

(i,j) están dadas por la unidad estadística i de acuerdo a al j-ésima variable, donde

i=1,…, n y j=1,…, p.

Tabla 3.1 Matriz de Datos

1 … j … p 1 𝑋1,1 … 𝑋1,𝑗 … 𝑋1,𝑝

37

⋮ ⋮ ⋮ ⋮

I 𝑋𝑖,1 … 𝑋𝑖,𝑗 … 𝑋𝑖,𝑝

⋮ ⋮ ⋮ ⋮ N 𝑋𝑛,1 … 𝑋𝑛,𝑗 … 𝑋𝑛,𝑝

Tabla 3.2 Ejemplo real de una matriz de datos con 1000 unidades estadísticas y 20

variables, pero solo se muestran algunas de estas observaciones y variables.

Y X1 X2 … X10 … X20

N1 1 1 18 … 1049 … 1

⋮ ⋮ ⋮ ⋮ ⋮ ⋮

N34 1 4 24 … 1376 … 1

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ N1000 0 1 30 … 6350 … 1

3.3.1 Binarización de la Matriz de Datos.

En caso de que las variables de la matriz de datos sean todas cuantitativas,

incluyendo algunas continuas, es más sencillo y fácil tratar a la matriz de datos como

una entrada sin previo análisis. Por el contrario, si todas las variables son

cualitativas o cuantitativas discretas es necesario hacer una transformación de la

matriz de datos dentro de una tabla de contingencia (con solo una dimensión), sin

embargo, esto no siempre es una buena idea, sobre todo si p es de gran tamaño.

Además, si la matriz de datos cuenta con los dos tipos de variable, es mejor

solo transformar las variables del tipo minoritario. Por ejemplo, si la mayoría de las

variables son cualitativas y hay variables cuantitativas, algunas de las cuales son

cuantitativas continúas, se debe usar tablas de contingencia, pero para esto se debe

38

antes realizar la discretización de las variables continuas dentro de intervalos,

aunque esto implica que haya pérdida de información.

Ahora bien, si la mayoría de las variables en la matriz de datos son

cuantitativas, la mejor opción es transformar las variables cualitativas en variables

métricas, este proceso es conocido como binarización. Considere una variable

binaria donde el 0 representa un resultado válido o cierto y el 1 corresponde a un

resultado ausente o no válido, de este modo, ahora podemos ver a las variable

cualitativa como cuantitativa.

Siguiendo el enfoque de la binarización, cada variable cualitativa es

transformada en el mismo número de variables binarias como el número que esta

tenga de niveles. Por ejemplo, si la variable X tiene r niveles, entonces deben

crearse r variables binarias de la siguiente forma: para el nivel i, la correspondencia

debe ser 1 cuando X es igual a i, o 0 de cualquier otro modo.

Tabla 3.3 Ejemplo de binarización.

Y X1 X2 X3

1 1 1 0 0

2 3 0 0 1

3 1 1 0 0

4 2 0 1 0

5 3 0 0 1

6 1 1 0 0

39

3.4 Distribución de Frecuencias

Es muy común que las variables estadísticas sean resumidas por la

ocurrencia de sus niveles. Un resumen de este tipo es conocido como distribución

de frecuencias. En general, este tipo de resumen hace más fácil el análisis y la

presentación de los resultados pero también conlleva la pérdida de información. En

el caso de variables cualitativas, el resumen se justifica por la necesidad de la

realización de un análisis cuantitativo; por otro lado, en variables cuantitativas, la

función principal del resumen es simplificar el análisis y la presentación de

resultados.

3.4.1 Distribuciones Univariadas

El análisis univariado simplifica la presentación de resultados y el método

analítico, pero además de eso, resulta ser más fácil extraer información de una base

de datos comenzando con un análisis univariado para después pasar a un análisis

multivariado de la misma.

El primer paso para un análisis univariado es determinar la distribución de

frecuencias de la matriz de datos, para esto es necesario conocer el número de

veces que aparece cada nivel en los datos. Este número es conocido como

frecuencia absoluta.

Las observaciones relacionadas con la variable que está siendo examinada

son identificadas como 𝑥1, 𝑥2, … , 𝑥𝑁. Los valores distintos que se encuentran entre

las N observaciones son identificadas como 𝑥1∗, 𝑥2

∗, … , 𝑥𝑘∗, (k ≤ N), los cuales

determinan los niveles dentro de las observaciones. La distribución de frecuencias

es mostrada en la tabla 2.4 donde 𝑛𝑖 indica las veces que aparece el nivel 𝑥𝑖∗, siendo

40

esto la frecuencia absoluta. Note que ∑ 𝑛𝑖𝑘𝑖=1 = 𝑁, donde N es el número de

unidades clasificadas.

Tabla 3.4 Distribución de Frecuencias Univariada.

NIVEL FRECUENCIAS ABSOLUTAS

𝒙𝟏∗ 𝑛1 𝒙𝟐∗ 𝑛2

⋮ ⋮

𝒙𝒌∗ 𝑛𝑘

Tabla 3.5 Ejemplo de una Distribución de Frecuencias.

NIVEL FRECUENCIAS ABSOLUTAS

0 1445 1 1006

Para facilitar la lectura e interpretación de la distribución de frecuencias,

usualmente estas se presentan como frecuencias relativas, donde la frecuencia

relativa del nivel 𝑥𝑖∗ esta dada por la relación entre la frecuencia absoluta 𝑛1 y el

número total de observaciones, es decir 𝑝𝑖 =𝑛𝑖𝑁⁄ . Note que ∑ 𝑝𝑖

𝑘𝑖=1 = 1.

Tabla 3.6 Distribución de Frecuencias Relativas Univariada.

NIVEL FRECUENCIAS RELATIVAS

𝒙𝟏∗ 𝑝1 𝒙𝟐∗ 𝑝2

⋮ ⋮

𝒙𝒌∗ 𝑝𝑘

Tabla 3.7 Ejemplo de una Distribución de Frecuencias Relativas Univariada.

MODALIDAD FRECUENCIAS RELATIVAS

41

0 0.59 1 0.41

Para la distribución de frecuencias mostrada en la Tabla 3.5, obtenemos las

frecuencias relativas que son mostradas en la Tabla 3.7.

3.4.2 Distribuciones Multivariadas

Ahora consideremos la creación de una distribución de frecuencias

multivariada, para esto analizaremos el caso particular de variables cualitativas y de

cuantitativas discretas como campo de estudio. Para el caso de variables

cuantitativas continuas multivariadas es recomendable trabajar directamente con la

matriz de datos.

En el caso de distribuciones de frecuencia multivariada es más fácil trabajar

con ellas si estas son representadas mediante tablas de contingencia y con el

propósito de hacer más explícita y clara la explicación del tema, nos enfocaremos

al caso en el que dos variables son analizadas al mismo tiempo, creando por

consecuencia una tabla de contingencia de dos dimensiones.

Sean entonces X y Y dos variables con N unidades estadísticas cada una,

con h niveles para X, 𝑥1∗, 𝑥2

∗, … , 𝑥ℎ∗ ; y con k niveles para Y, 𝑦1

∗, 𝑦2∗, … , 𝑦𝑘

∗. El resultado

de la clasificación conjunta de las variables dentro de una tabla de contingencia

puede ser representado por los pares {(𝑥𝑖∗, 𝑦𝑗

∗), 𝑛𝑋𝑌(𝑥𝑖∗, 𝑦𝑗

∗)}, donde 𝑛𝑋𝑌(𝑥𝑖∗, 𝑦𝑗

∗) indica

el número de unidades estadísticas consideradas de entre las N totales y donde el

nivel para (𝑥𝑖∗, 𝑦𝑗

∗) es observado.

El valor observado por 𝑛𝑋𝑌(𝑥𝑖∗, 𝑦𝑗

∗) es conocido como frecuencia conjunta

absoluta referida al par (𝑥𝑖∗, 𝑦𝑗

∗). Para menciones posteriores y por simplicidad nos

42

referiremos a 𝑛𝑋𝑌(𝑥𝑖∗, 𝑦𝑗

∗) con el símbolo 𝑛𝑖,𝑗. Note que 𝑁 = ∑ ∑ 𝑛𝑋𝑌(𝑥𝑖∗, 𝑦𝑗

∗)𝑗𝑖 es

equivalente al número total de unidades clasificadas, y podemos obtener la

frecuencia conjunta relativa de la ecuación

𝑝𝑋𝑌(𝑥𝑖, 𝑦𝑗) =𝑛𝑋𝑌(𝑥𝑖

∗, 𝑦𝑗∗)

𝑵

Tabla 3.8 Tabla de Contingencia de dos entradas.

X\Y 𝑦1∗ 𝑦

2∗ … 𝑦

𝑗∗ … 𝑦

𝑘∗

𝑥1∗ 𝑛𝑋𝑌(𝑥1

∗, 𝑦1∗) 𝑛𝑋𝑌(𝑥1

∗, 𝑦2∗) … 𝑛𝑋𝑌(𝑥1

∗, 𝑦𝑗∗) … 𝑛𝑋𝑌(𝑥1

∗, 𝑦𝑘∗) 𝑛𝑋(𝑥1

∗)

𝑥2∗ 𝑛𝑋𝑌(𝑥2

∗, 𝑦1∗) 𝑛𝑋𝑌(𝑥2

∗, 𝑦2∗) … 𝑛𝑋𝑌(𝑥2

∗, 𝑦𝑗∗) … 𝑛𝑋𝑌(𝑥2

∗, 𝑦𝑘∗) 𝑛𝑋(𝑥2

∗)

⋮ ⋮ ⋮ ⋮ ⋮ ⋮

𝑥𝑖∗ 𝑛𝑋𝑌(𝑥𝑖

∗, 𝑦1∗) 𝑛𝑋𝑌(𝑥𝑖

∗, 𝑦2∗) … 𝑛𝑋𝑌(𝑥𝑖

∗, 𝑦𝑗∗) … 𝑛𝑋𝑌(𝑥𝑖

∗, 𝑦𝑘∗) 𝑛𝑋(𝑥𝑖

∗)

⋮ ⋮ ⋮ ⋮ ⋮ ⋮

𝑥ℎ∗ 𝑛𝑋𝑌(𝑥ℎ

∗ , 𝑦1∗) 𝑛𝑋𝑌(𝑥ℎ

∗ , 𝑦2∗) … 𝑛𝑋𝑌(𝑥ℎ

∗ , 𝑦𝑗∗) … 𝑛𝑋𝑌(𝑥ℎ

∗ , 𝑦𝑘∗) 𝑛𝑋(𝑥ℎ

∗)

𝑛𝑌(𝑦1∗) 𝑛𝑌(𝑦2

∗) … 𝑛𝑌(𝑦𝑗∗) … 𝑛𝑌(𝑦𝑘

∗) N

Note que a partir de las frecuencias conjuntas es fácil generar las frecuencias

marginales univariadas de X y Y usando las siguientes ecuaciones

𝑛𝑋(𝑥𝑖∗) =∑𝑛𝑋𝑌(𝑥𝑖

∗, 𝑦𝑗∗)

𝑗

𝑛𝑌(𝑦𝑗∗) =∑𝑛𝑋𝑌(𝑥𝑖

∗, 𝑦𝑗∗)

𝑖

A partir de una distribución de frecuencias conjunta también es posible

determinar la distribución de la frecuencia de la variable Y condicionada a los niveles

de X, indicadas por (𝑌|𝑋 = 𝑥𝑖∗), donde 𝑖 = 1, … , ℎ y donde la frecuencia está dada

por

𝑝𝑌|𝑥(𝑦𝑖∗, 𝑥𝑖

∗) =𝑝𝑥𝑦(𝑥𝑖

∗, 𝑦𝑖∗)

𝑝𝑥(𝑥𝑖∗)

43

Donde 𝑝𝑥𝑦 indica la distribución de la frecuencia conjunta de X y Y, y donde

𝑝𝑥 representa la distribución de frecuencia marginal de X. De forma análoga,

podemos obtener las k distribuciones de frecuencias de X condicionadas a los k

niveles de Y.

3.5 Transformación de los datos.

Además de transformar la matriz de datos en distribuciones de frecuencia

univariadas o multivariadas existen otros tipos de transformaciones, por ejemplo,

cuando las p variables de la matriz de datos están expresadas en diferentes

unidades de medida, es recomendable transformar todas las variables a una solo

unidad de medida, esto para prevenir que las diferentes escalas causen problemas

en el análisis.

Para esto se puede hacer uso de una transformación lineal con el fin de

estandarizar las variables, dicho método consiste en que a cada variable se le quite

su media y se divida entre la raíz cuadrada de su varianza (desviación estándar),

produciendo que los datos tengan ahora media cero y varianza unitaria.

44

Capítulo 4

Análisis exploratorio de

los datos.

45

Para obtener un análisis estadístico de calidad lo primero es realizar un

análisis exploratorio, aplicado a la información organizada en el capítulo anterior.

Para esto se recomienda hacer uso de gráficas y de resúmenes de medidas

estadísticas apropiadas para los objetivos del análisis.

Un análisis exploratorio puede parecer equivalente al proceso de minería de

datos, pero existen dos diferencias principales. Un análisis exploratorio sólo puede

hacer uso de técnicas estadísticas descriptivas, mientras que minería de datos

puede hacer uso de métodos descriptivos y de inferencia estadística, donde los

métodos de inferencia están basados en técnicas probabilísticas.

La segunda diferencia está dada en que el propósito de un análisis

exploratorio es describir la estructura y las relaciones existentes en los datos, para

posteriormente hacer uso de un modelo estadístico. Por otra parte, el proceso de

minería de datos tiene como propósito la producción directa de reglas de decisión

basadas en la estructura y en los modelos que describen a los datos.

Es decir, mientras que el análisis exploratorio usa varias técnicas donde cada

una captura diferentes pero potenciales aspectos importantes de los datos, en

minería de datos las técnicas usadas son evaluadas y comparadas en orden para

luego elegir una que posteriormente sea implementada como regla de decisión.

4.1 Análisis Exploratorio Univariado.

Este es un importante paso para el análisis preliminar de los datos. Sus

principales herramientas son el uso de representaciones gráficas, donde el tipo de

gráficas depende del tipo de datos, y ciertos índices de resumen. Para variables

cualitativas nominales es muy frecuente el uso de gráficas de barras y de diagramas

46

de pastel, mientras que para variables cualitativas ordinales y variables cuantitativas

discretas es común representarlas mediante diagramas de frecuencia, que bien se

pueden describir como graficas de barras donde el orden de las variables en el eje

horizontal debe corresponder con el orden numérico de los niveles.

En el caso de variables cuantitativas continuas, para obtener una distribución

de frecuencias es necesario clasificar o discretizar las variables dentro de intervalos,

comenzando por establecer el ancho o tamaño de los intervalos. A menos de que

haya razones especiales, es convencional que se elijan intervalos del mismo

tamaño o con diferente tamaño pero con el mismo número de frecuencia, aunque

esto puede ocasionar pérdida de información. Luego que las variables han sido

clasificadas dentro de intervalos, su representación gráfica es obtenida mediante un

histograma.

Los intervalos seleccionados son colocados en el eje x, en cada uno de los

intervalos se construye un rectángulo en el que su altura está dada por la frecuencia

de ese intervalo, de tal forma que la altura de estos intervalos representa la densidad

de frecuencia, indicada mediante una función analítica f(x), llamada función de

densidad. Esta adopta en el análisis exploratorio un valor constante sobre cada

intervalo, correspondiente a su altura.

Además, la función de densidad también puede ser utilizada para especificar

un modelo probabilístico continuo, f(x) debe ser una función continua.

47

Figura 4.1 Ejemplos: (a) un diagrama de frecuencias y (b) un histograma.

4.1.1 Medidas de Localización.

La medida de localización mayormente usada, computable solo para

variables cuantitativas, es la media. Dados valores 𝑥1, 𝑥2, … , 𝑥𝑛 de 𝑁 observaciones,

la media aritmética está dada por

�̅� =𝑥1 + 𝑥2 +⋯+ 𝑥𝑛

𝑁=∑

𝑥𝑖𝑁

Por otro lado, cuando los datos univariados son clasificados en términos de

una distribución de frecuencia, la media aritmética puede ser calculada

directamente con la siguiente expresión

�̅� =∑𝑥𝑖∗𝑝𝑖

48

Conocida como la media aritmética ponderada, donde 𝑥𝑖∗ indica los niveles

que la variable puede tomar y 𝑝𝑖 es la frecuencia relativa para cada nivel.

Analicemos algunas de las propiedades de la media aritmética:

La suma de las desviaciones es cero: ∑(𝑥𝑖 − �̅�) = 0

La media aritmética es la constante que minimiza la suma de

cuadrados de las desviaciones respecto a la constante en sí:

𝑚𝑖𝑛𝑎 ∑(𝑥𝑖 − 𝑎)2 = �̅�

La media aritmética es un operador lineal: 1

𝑁∑(𝑎 + 𝑏𝑥𝑖) = 𝑎 + 𝑏�̅�

Pero debemos mencionar que puede existir un problema al momento de

hacer el cálculo de la media ya que si hay valores muy grandes que sobre salen al

resto de los datos, estos pueden hacer contrapeso o inclusive dominar a los más

pequeños, es decir, dado que todos los valores de los datos son usados, algunos

de los valores pueden afectar considerablemente el valor calculado. Este problema

es muy común, por ejemplo, en datos de finanzas donde los datos outliers son muy

comunes.

Otra opción como medida de localización es la moda, la cual es computable

para todo tipo de variables, incluyendo cualitativas nominales. Para variables

cualitativas o cuantitativas discretas la moda es asociada con la mayor frecuencia,

mientras que para variables continuas se discretiza la variable de la misma forma

en que se hace en un histograma y se computa la moda como el intervalo con la

densidad más alta, correspondiente al peso más grande del histograma y por

convención se utiliza el valor medio del intervalo donde se encuentra la moda.

49

Una medida de localización también importante es la mediana, la cual puede

describirse como el valor para el cual la mitad de la observaciones son más grandes

y la otra mitad son más pequeños, es decir, divide la distribución de frecuencias en

dos partes con la misma área. Aunque ésta solo es computable para variables

cuantitativas y para variables cualitativas ordinales.

4.1.2 Medidas de Variabilidad.

Es muy común que sea de interés el estudiar la dispersión o la variabilidad

de una distribución. Dos indicadores simples de variabilidad son el rango, que es la

diferencia entre el mayor valor y el menor valor de los datos, y el rango inter cuartil,

el cual es obtenido por la diferencia entre el tercer y el primer cuartil, aunque éstas

no son muy comunes.

La medida de variabilidad más común para datos cuantitativos es la varianza.

Dados 𝑥1, 𝑥2, … , 𝑥𝑁 de 𝑁 observaciones cuantitativas de una variable x, donde �̅�

representa la media aritmética, la varianza está dada por

𝜎2(𝑥) =1

𝑁∑(𝑥𝑖 − �̅�)

2

Dicho en palabras, la varianza es el promedio del cuadrado de las

desviaciones respecto a la media. Cuando todas las observaciones tienen el mismo

valor, la varianza es igual a cero, y además, a diferencia de la media, la varianza no

es un operador lineal.

𝑉𝑎𝑟(𝑎 + 𝑏𝑥) = 𝑏2𝑉𝑎𝑟(𝑥)

La varianza eleva al cuadrado las unidades en que la variable x fue medida,

es decir, si x fue medida en metros, la varianza estará en metros cuadrados. En la

práctica es conveniente preservar las unidades originales para las unidades de

50

propagación, esto porque la raíz cuadrada de la varianza, conocida como desviación

estándar, puede ser de gran utilidad. Además, para facilitar comparaciones entre

diferentes distribuciones se usa el coeficiente de variación y éste se obtiene al dividir

la desviación estándar entre el valor absoluto de la media aritmética, siempre que

la media sea diferente de cero.

4.1.3 Medidas de Heterogeneidad

Para poder medir la dispersión de datos cualitativos usamos la

heterogeneidad. Considere entonces la siguiente distribución de frecuencias de una

variable cualitativa con k niveles.

Tabla 4.1 Distribución de Frecuencias para una Variable Cualitativa.

MODALIDAD FRECUENCIAS RELATIVAS

𝒙𝟏∗ 𝑝1 𝒙𝟐∗ 𝑝2 ⋮ ⋮ 𝒙𝒌∗ 𝑝𝑘

En la práctica existen dos posibles situaciones extremas:

Heterogeneidad nula, es cuando todas las observaciones tienen el

mismo nivel de x, esto es, 𝑝𝑖 = 1 para cierto i, y 𝑝𝑖 = 0 para los otros

k-1 niveles. En este caso se alcanza la heterogeneidad mínima.

Heterogeneidad máxima, que es cuando las observaciones son

distribuidas uniformemente para los k niveles, esto es 𝑝𝑖 =1𝑘⁄ para

todo i=1,…, k.

Presentamos dos índices de heterogeneidad:

El índice de Gini, definido por

51

𝐺 = 1 −∑𝑝𝑖2

𝑘

𝑖=1

Donde 𝐺 = 0 si se presenta el caso de la perfecta homogeneidad y 𝐺 = 1 −

1 𝑘⁄ en el caso de heterogeneidad máxima. Para obtener un índice ‘normalizado’, el

cual toma valores en el intervalo [0,1], el índice de Gini puede ser reajustado por su

valor máximo, dando el siguiente índice relativo de heterogeneidad

𝐺′ =𝐺

(𝑘 − 1) 𝑘⁄

El segundo índice es el de Entropía, definido por

𝐸 = −∑𝑝𝑖 log 𝑝𝑖

𝑘

𝑖=1

Donde 𝐸 = 0 en el caso de la perfecta homogeneidad y 𝐸 = log 𝑘 si es el caso

de la heterogeneidad máxima, y para obtener un índice ‘normalizado’ debemos

reajustar el índice de entropía usando su valor máximo, obteniendo el siguiente

índice relativo de heterogeneidad

𝐸′ =𝐸

log 𝑘

4.1.4 Medida de Concentración.

La concentración está muy relacionada con la heterogeneidad, de hecho, se

dice que una distribución de datos se encuentra en su concentración máxima

cuando presenta heterogeneidad nula y que se encuentra en su concentración

mínima cuando tiene heterogeneidad máxima. El concepto de concentración aplica

particularmente en la medición de variables transferibles (cuantitativas y cualitativas

ordinales).

52

Considere N mediciones cuantitativas no negativas, ordenadas de forma no

decreciente 0 ≤ 𝑥1 ≤ ⋯ ≤ 𝑥𝑁.

Sea 𝑁�̅� = ∑𝑥𝑖 el número total de observaciones disponibles, donde �̅� es la

media aritmética. Entonces se pueden presentar dos casos extremos:

𝑥1 = 𝑥2 = ⋯ = 𝑥𝑁 = �̅�, correspondiente a una concentración mínima

(igual de ingreso para cada observación).

𝑥1 = 𝑥2 = ⋯ = 𝑥𝑁−1 = 0, 𝑥𝑁 = 𝑁�̅�, correspondiente a una

concentración máxima (todo el ingreso está contenido en una sola

observación).

Por lo general lo que se busca es evaluar el nivel de concentración, el cual

se encuentra entre estos casos extremos, para esto, definimos

𝐹𝑖 =1

𝑁, 𝑝𝑎𝑟𝑎 𝑖 = 1, … ,𝑁

𝑄𝑖 =𝑥1 + 𝑥2 +⋯+ 𝑥𝑖

𝑁�̅�=∑ 𝑥𝑗𝑖𝑖=1

𝑁�̅�; 𝑝𝑎𝑟𝑎 𝑖 = 1, … , 𝑁

Para cada i, 𝐹𝑖 es el porcentaje acumulado de unidades consideradas hasta

las 𝑖 unidades y 𝑄𝑖 es el porcentaje acumulado de las características que pertenecen

a las mismas 𝑖 unidades. Además, se puede mostrar que

0 ≤ 𝐹𝑖 ≤ 1; 0 ≤ 𝑄𝑖 ≤ 1

𝑄𝑖 ≤ 𝐹𝑖

𝐹𝑁 = 𝑄𝑁 = 1

Sea 𝐹0 = 𝑄0 = 0 y considere 𝑁 + 1 coordenadas

(0,0), (𝐹1, 𝑄1),… , (𝐹𝑁−1, 𝑄𝑁−1), (1,1), si los graficamos y unimos los puntos por líneas

obtendremos la curva de concentración. La Tabla 3.2 contiene de forma ordenada

53

el ingreso de siete individuos y los respectivos cálculos para la obtención de la curva

de concentración. La Figura 3.2 muestra la curva de concentración de los datos de

la Tabla 3.2, incluyendo una recta de 45° correspondiente a la concentración

mínima.

Tabla 4.2 Construcción de la curva de concentración.

INGRESO 𝑭𝒊 𝑮𝒊 0 0

11 1/7 11/256 15 2/7 26/256 20 3/7 46/256 30 4/7 76/256 50 5/7 126/256 60 6/7 186/256 70 1 1

Figura 4.2 Representación de la curva de concentración.

Un índice estadístico para medir el nivel de concentración es el índice de Gini,

que está basado en las diferencias de 𝐹𝑖 − 𝑄𝑖. Antes de plantear el índice de Gini,

consideremos los siguientes tres puntos:

Para concentración mínima, 𝐹𝑖 − 𝑄𝑖 = 0, 𝑖 = 1,2, … ,𝑁.

54

Para concentración máxima, 𝐹𝑖 − 𝑄𝑖 = 𝐹𝑖, 𝑖 = 1,2, … ,𝑁 − 1 𝑦 𝐹𝑁 −

𝑄𝑁 = 0.

En general, 0 < 𝐹𝑖 − 𝑄𝑖 < 𝐹𝑖 , 𝑖 = 1,2, … ,𝑁 − 1, con las diferencias

creciendo aproximando a una concentración máxima.

El índice de concentración de está dado por la siguiente razón

𝑅 =∑ (𝐹𝑖 − 𝑄𝑖)𝑁−1𝑖=1

∑ 𝐹𝑖𝑁−1𝑖=1

El coeficiente de concentración de Gini, R, es igual a 0 para concentración

mínima y 1 para concentración máxima. Para los datos de la tabla 3.2, R=0.387

indica un nivel moderado de concentración.

4.1.5 Medida de Asimetría.

Para obtener un indicador de la asimetría de una distribución basta con

comparar la media y la mediana. Si son iguales, los datos tendrán una distribución

de forma simétrica; si la media es la mayor que la mediana, los datos presentarán

sesgo a la derecha (asimetría positiva); ahora bien, si la mediana es mayor que la

media, entonces los datos tendrán sesgo a la izquierdo (asimetría negativa). Otra

forma de investigar la forma de la distribución de los datos es mediante el uso de

graficas de barras o histogramas.

Figura 4.3 Histogramas que describen distribuciones simétricas y asimétricas:

55

a) media>mediana, b) media=mediana, c) media<mediana.

Para poder construir un índice estadístico que pueda medir el grado de

asimetría de una distribución es necesario primero calcular

𝜇3 =∑(𝑥𝑖 − �̅�)

3

𝑁

Conocido como el tercer momento central de la distribución. Así entonces, el

índice de simetría está definido como

𝛾 =𝜇3𝜎3

Donde σ es la desviación estándar y cabe mencionar que 𝛾 solo es calculable

para variables cuantitativas, además de que asume valores reales, i.e. no está

normalizado. Observemos los tres casos posibles:

Si la distribución es simétrica, 𝛾 = 0

Si la distribución es asimétrica por la derecha, 𝛾 < 0

Si la distribución es asimétrica por la izquierda, 𝛾 > 0

4.1.6 Medida de Kurtosis.

Los datos continuos pueden ser bien representados usando un histograma,

al cual es posible aproximar, o bien interpolar, un histograma con una función de

densidad continua. En particular, si el histograma está formado por un gran número

de clases y cada clase es relativamente estrecha, el histograma puede ser

aproximado usando la distribución normal o función de densidad Gaussiana.

56

Figura 4.4 Aproximación normal para un histograma.

El índice de kurtosis permite examinar si los datos observados siguen una

distribución normal.

𝛽 =𝜇4

𝜇22 , 𝑑𝑜𝑛𝑑𝑒 𝜇4 =

∑(𝑥𝑖 − �̅�)4

𝑁 (21) 𝑦 𝜇2 =

∑(𝑥𝑖 − �̅�)2

𝑁

Si la variable es perfectamente normal, 𝛽 = 0.

Si 𝛽 > 3 la distribución es llamada hyponormal (más delgada con

respecto a la distribución normal pero teniendo la misma varianza,

por lo tanto, hay una baja frecuencia para valores lejanos a la

media).

Si 𝛽 < 3 la distribución es llamada hypernormal (más ancha con

respecto a la distribución normal, lo que implica que exista una gran

frecuencia para los valores muy distantes a la media).

57

4.2 Análisis Exploratorio Bivariado.

La relación existente entre dos variables puede ser representada

gráficamente usando graficas de dispersión, con las cuales se puede graficar

cualquier tipo de variable. Ahora, dado que se puede obtener un análisis bivariado

con el cruzamiento de todas las variables, es recomendable crear una matriz de

graficas de dispersión, donde cada elemento es una gráfica de dispersión de las

variables indicadas por las filas y las columnas.

Figura 4.5 Ejemplo de una gráfica de dispersión.

La Figura 4.5 muestra la relación entre dos variable de desempeño: retorno

de inversión (ROI, por sus siglas en ingles) y la rentabilidad sobre recursos propios

(ROE, por sus siglas en ingles).

58

Figura 4.6 Ejemplo de un diagrama de graficas de dispersión.

En la Figura 4.6 se ejemplifican datos reales colectados semanalmente sobre

el retorno de un fondo de inversión en compañías internacionales y una serie de

índices financieros en todo el mundo.

El desarrollar índices estadísticos bivariados, que además de resumir la

distribución de frecuencia, también mejora la interpretación de los datos, resulta ser

de gran utilidad para el análisis.

Refiriéndonos a variables meramente cuantitativas, se conoce como

concordancia a la tendencia observada entre los valores altos (bajos) de una

variable y los valores altos (bajos) de otra variable. A su vez, discordancia es la

tendencia observada entre los valores bajos (altos) de una variable y los valores

altos (bajos) de otra variable. Para medir el nivel de concordancia, el índice más

común es la covarianza, definida como

𝐶𝑜𝑣(𝑋, 𝑌) =1

𝑁∑[𝑥𝑖 − 𝜇(𝑋)]

𝑁

𝑖=1

[𝑦𝑖 − 𝜇(𝑌)]

59

Donde 𝜇(𝑋) y 𝜇(𝑌) son las medias de las variables 𝑋 y 𝑌, respectivamente.

La 𝐶𝑜𝑣(𝑋, 𝑌) toma valores positivos cuando las variables son concordantes y

valores negativos cuando son discordantes.

Note que a covarianza se puede calcular directamente de la matriz de datos

y dado que hay una covarianza por cada par de variables, se recomienda crear una

nueva matriz, conocida como matriz de varianzas y covarianzas. En donde la

diagonal principal está conformada por las varianzas de las variables y todas las

demás celdas fuera de la diagonal principal son las covarianzas entre cada par de

variables. Note que 𝐶𝑜𝑣(𝑥𝑖, 𝑥𝑗) = 𝐶𝑜𝑣(𝑥𝑗 , 𝑥𝑖).

Tabla 4.3 Matriz de varianzas y covarianzas.

𝑿𝟏 … 𝑿𝒋 … 𝑿𝒉

𝑿𝟏 𝑉𝑎𝑟(𝑥1) … 𝐶𝑜𝑣(𝑥1, 𝑥𝑗) … 𝐶𝑜𝑣(𝑥1, 𝑥ℎ)

⋮ ⋮ ⋮ ⋮ 𝑿𝒋 𝐶𝑜𝑣(𝑥𝑗 , 𝑥1) … 𝑉𝑎𝑟(𝑥𝑗) … 𝐶𝑜𝑣(𝑥𝑗 , 𝑥ℎ)

⋮ ⋮ ⋮ ⋮

𝑿𝒉 𝐶𝑜𝑣(𝑥ℎ, 𝑥1) … 𝐶𝑜𝑣(𝑥ℎ, 𝑥𝑗) … 𝑉𝑎𝑟(𝑥ℎ)

Sin embargo, aunque la varianza puede identificar la presencia de una

relación entre dos variables, no nos puede decir nada acerca del grado de esta. En

otras palabras, para usar la covarianza como un índice exploratorio, antes es

necesario normalizar los datos, convirtiéndolo en un índice relativo.

Los valor mínimo y máximo de la 𝐶𝑜𝑣(𝑋, 𝑌) son 𝜎𝑥𝜎𝑦 y −𝜎𝑥𝜎𝑦,

respectivamente, que son el producto de las desviaciones estándares de las

variables pero con signos contrarios.

Además, la 𝐶𝑜𝑣(𝑋, 𝑌) asume valores máximos cuando los puntos de los datos

observados se encuentran posicionados sobre una línea con inclinación positiva, y

60

asumen valores mínimos cuando los puntos de los datos están presentes sobre una

línea con inclinación negativa. Para aclarar esto, definiremos el coeficiente de

correlación (lineal) entre dos variables 𝑋 y 𝑌 como

𝑟(𝑋, 𝑌) =𝐶𝑜𝑣(𝑋, 𝑌)

𝜎(𝑋)𝜎(𝑌)

Y que cuenta con las siguientes propiedades:

𝑟(𝑋, 𝑌) = 1 si los puntos de los datos observados están sobre una

línea con inclinación positiva y 𝑟(𝑋, 𝑌) = −1 si están sobre una línea

con inclinación negativa. Es por esto que se le conoce como

coeficiente de correlación lineal.

𝑟(𝑋, 𝑌) = 0 cuando las variables 𝑋 y 𝑌 no están correlacionadas.

−1 ≤ 𝑟(𝑋, 𝑌) ≤ 1.

Tabla 4.4 Matriz de correlación.

𝑿𝟏 … 𝑿𝒋 … 𝑿𝒉

𝑿𝟏 1 … 𝐶𝑜𝑟(𝑥1, 𝑥𝑗) … 𝐶𝑜𝑟(𝑥1, 𝑥ℎ)

⋮ ⋮ ⋮ ⋮ 𝑿𝒋 𝐶𝑜𝑟(𝑥𝑗 , 𝑥1) … 1 … 𝐶𝑜𝑟(𝑥𝑗 , 𝑥ℎ)

⋮ ⋮ ⋮ ⋮

𝑿𝒉 𝐶𝑜𝑟(𝑥ℎ, 𝑥1) … 𝐶𝑜𝑟(𝑥ℎ , 𝑥𝑗) … 1

Es necesario contar con una regla que nos permita decidir cuándo hay

información suficiente en los datos para rechazar la hipótesis de que el coeficiente

de correlación es cero. Si asumimos que los datos vienen de una distribución normal

bivariada, podemos usar la siguiente regla: Rechazar la hipótesis de que el

coeficiente de correlación es nulo cuando

|𝑟(𝑋, 𝑌)

√1 − 𝑟2(𝑋, 𝑌)√𝑛 − 2| > 𝑡𝛼

2⁄

61

Donde 𝑡𝛼2⁄ es el (1 − 𝛼 2⁄ ) percentil de la distribución 𝑡 de Student con 𝑛 − 2

grados de libertad.

4.3 Análisis Exploratorio Multivariado de Datos Cuantitativos.

Asumamos que la matriz de datos está compuesta en su totalidad por

variables del tipo cuantitativo. Sea 𝑋 una matriz de datos con 𝑛 filas y 𝑝 columnas.

Las principales medidas de resumen pueden ser expresadas directamente en

términos de operaciones matriciales con 𝑋.

Por ejemplo, la media aritmética

�̅� =1

𝑛1𝑋

Donde �̅� es un vector p-dimensional, 1 representa un vector de longitud 𝑛

con todos sus elementos iguales a 1. Como se vio antes, a menudo es

recomendable estandarizar las variables en 𝑋. Para esto, necesitamos sustraer la

media a cada variable, tal como se expresa en la siguiente matriz

�̃� = 𝑋 −1

𝑛𝐽𝑋

Donde 𝐽 es una matriz 𝑛 × 𝑛 con todos sus elementos iguales a 1.

Sea 𝑆 una matriz cuadrada 𝑝 × 𝑝 que representa la matriz de varianzas y

covarianzas, en la que su diagonal principal se encuentra la varianza de cada

variable. Los elementos fuera de la diagonal principal contienen las 𝑝(𝑝 − 1)/2

covarianzas de todos los pares de las 𝑝 variables consideradas,

𝑆 =1

𝑛�̃�′�̃�

Donde �̃�′ representa la transpuesta de �̃�. Y el elemento (𝑖, 𝑗) está dado por

62

𝑆𝑖,𝑗 =1

𝑛∑(𝑥𝑙𝑖 − �̃�𝑖)

𝑛

𝑙=1

(𝑥𝑙𝑗 − �̃�𝑗)

Además, 𝑆 es una matriz simétrica y definida positiva, lo que significa, que

para algún vector 𝑥 no cero, se cumple que 𝑥′𝑆𝑥 > 0. Esto puede ser muy útil, por

ejemplo, para comparar diferentes bases de datos.

Es posible resumir con un solo número la variabilidad de toda la matriz de

varianzas y covarianzas, para esto tenemos dos opciones.

La traza, denotado por 𝑡𝑟, es la suma de los elementos de la diagonal

principal de 𝑆, las varianzas de las variables,

𝑡𝑟(𝑆) =∑𝜎𝑠2

𝑝

𝑠=1

Se puede mostrar que 𝑡𝑟(𝑆) es igual a la suma de los eigen valores de la

matriz

𝑡𝑟(𝑆) =∑𝜆𝑠

𝑝

𝑠=1

Una segunda medida de variabilidad total es definida por el determinante de

𝑆, llamado también como la varianza generalizada de Wilks.

𝑊 = |𝑆|

Una forma fácil de interpretar fácilmente las relaciones entre las variables

dentro de la matriz, es usando la matriz de correlaciones 𝑅.

𝑅 =1

𝑛𝑍′𝑍

63

Donde 𝑍 = �̃�𝐹 es una matriz que contiene las variables estandarizadas y 𝐹

es una matriz 𝑝 × 𝑝 que tiene sus elementos de la diagonal principal iguales al

reciproco de las desviaciones estándar de las variables,

𝐹 = [𝑑𝑖𝑎𝑔(𝑠11, … , 𝑠𝑝𝑝)]−1

A pesar de que la matriz de correlación ofrece mucha información respecto a

las relaciones (lineales) estadísticas entre las variables consideradas, en realidad

los cálculos los hace marginalmente para cada par de variables, sin incluir la

información de las demás variables.

Una alternativa para corregir esto es usando la correlación parcial entre las

variables 𝑋𝑖 y 𝑋𝑗, dadas todas las demás variables, y sea 𝐾 = 𝑅−1 la inversa de la

matriz de correlaciones. Entonces

𝑟𝑖𝑗|𝑅𝐸𝑆𝑇 =−𝑘𝑖𝑗

[𝑘𝑖𝑖𝑘𝑗𝑗]12⁄

Donde 𝑘𝑖𝑖, 𝑘𝑗𝑗 y 𝑘𝑖𝑗 son los elementos en las posiciones (𝑖, 𝑖), (𝑗, 𝑗) y (𝑖, 𝑗),

respectivamente de la matriz 𝐾.

4.4 Análisis Exploratorio Multivariado de Datos Cualitativos.

Para variables cualitativas ordinales, es posible extender la noción de

covarianza y correlación a los rangos de las observaciones, donde la correlación

entre los rangos de las variables es conocida como coeficiente de correlación de

Spearman.

Si la matriz de datos contiene datos cualitativos en un nivel nominal, la noción

de covarianza y correlación no pueden ser usados. Una opción para esto son las

medidas conocidas como índices de asociación.

64

Tabla 4.5 Clasificación de variables ordinales. El coeficiente de correlación

de Spearman para estos datos es cero, lo que implica que los rangos de los datos

no están correlacionados.

Variable A Variable B Rangos de A Rangos de B Alto Simple 3 1

Medio Intermedio 2 2 Medio Elaborado 2 3 Bajo Simple 1 1

Dado que en la examinación de variables cualitativas las frecuencias de los

niveles mantienen un papel fundamental, haremos uso de tabla de frecuencias,

aunque a diferencia de las tablas vistas anteriormente, los datos cualitativos a

menudo están disponibles en forma de tablas de contingencia, sin la necesidad de

acceder a la matriz original. Para enfatizar esto, haremos un cambio en la notación.

Dado un carácter cualitativo X con niveles 𝑥1, 𝑥2, … , 𝑥𝐼 de una población n, la

frecuencia absoluta (𝑛𝑖) del nivel 𝑥𝑖 (𝑖 = 1,2, … , 𝐼) es el número de veces que la

variable 𝑋 presenta el valor 𝑥𝑖.

Tabla 4.6 Tabla de contingencia teórica de dos variables.

Y X

𝑌1 … 𝑌𝑗 … 𝑌𝐽 Total

𝑋1 𝑛11 … 𝑛1𝑗 … 𝑛1𝐽 𝑛1+

⋮ ⋮ ⋮ ⋮ ⋮

𝑋𝑖 𝑛𝑖1 … 𝑛𝑖𝑗 … 𝑛𝑖𝐽 𝑛𝑖+

⋮ ⋮ ⋮ ⋮ ⋮

𝑋𝐼 𝑛𝐼1 … 𝑛𝐼𝑗 … 𝑛𝐼𝐽 𝑛𝐼+

Total 𝑛+1 … 𝑛+𝑗 … 𝑛+𝐽 n

Donde 𝑛𝑖𝑗 es la frecuencia de los pares de niveles (𝑋𝑖, 𝑌𝑗), 𝑖 = 1, 2, … , 𝐼; 𝑗 =

1, 2, … , 𝐽.

65

𝑛𝑖+ = ∑ 𝑛𝑖𝑗𝐽𝑗=1 es la frecuencia marginal de la i-ésima fila.

𝑛+𝑗 = ∑ 𝑛𝑖𝑗𝐼𝑖=1 es la frecuencia marginal de la j-ésima columna.

∑𝑛𝑖+

𝐼

𝑖=1

=∑𝑛+𝑗

𝐽

𝑗=1

=∑∑𝑛𝑖𝑗

𝐽

𝑗=1

𝐼

𝑖=1

= 𝑛

4.4.1 Independencia y Asociación.

Dos variables 𝑋 y 𝑌 son independientes si

𝑛𝑖1𝑛+1

= ⋯ =𝑛𝑖𝐽𝑛+𝐽

=𝑛𝑖+𝑛 ∀ 𝑖 = 1, … , 𝐼

O equivalentemente

𝑛1𝑗

𝑛1+= ⋯ =

𝑛𝐼𝑗

𝑛𝐼+=𝑛+𝑗

𝑛 ∀ 𝑗 = 1, … , 𝐽

En tal caso se dice que 𝑋 y 𝑌 son estadísticamente independientes, también

se puede decir que si 𝑋 es independiente de 𝑌, entonces 𝑌 es independiente de 𝑋,

y más convencionalmente, se expresa como una función de la frecuencias

marginales 𝑛𝑖+ y 𝑛+𝑗; entonces 𝑋 y 𝑌 son independientes si

𝑛𝑖𝑗 =𝑛𝑖+𝑛+𝑗

𝑛 ∀ 𝑖 = 1,2, … , 𝐼; 𝑗 = 1,2, … , 𝐽

En términos de frecuencias relativas, esto es

𝑝𝑋𝑌(𝑥𝑖, 𝑦𝑖) = 𝑝𝑋(𝑥𝑖)𝑝𝑌(𝑦𝑖) ∀ 𝑖 = 1,2, … , 𝐼; 𝑗 = 1,2, … , 𝐽

Normalmente, cuando trabajamos con datos reales, la condición estadística

de independencia nunca se cumple con exactitud. Por lo que los datos observados

muestran algún grado de interdependencia entre las variables.

La noción de independencia estadística aplica tanto para variables

cuantitativas como para variables cualitativas, pero una medida de

66

interdependencia trabaja de forma diferente para variables cuantitativas que para

variables cualitativas. Mientras que para variables cuantitativas las medidas de

resumen (llamadas medidas de correlación) trabajan sobre los niveles y las

frecuencias, para variables cualitativas, las medidas de resumen (llamadas medidas

de asociación) pueden usar solo las frecuencias, porque los niveles no son métricos.

4.4.2 Medidas de Distancia.

Una medida extensamente usada para verificar la hipótesis de independencia

entre 𝑋 y 𝑌 es la estadística propuesta por Kar Pearson, definida en el caso general

como

𝑋2 =∑∑(𝑛𝑖𝑗 − 𝑛𝑖𝑗

∗ )2

𝑛𝑖𝑗∗

𝐽

𝑗=1

𝐼

𝑖=1

Donde 𝑛𝑖𝑗∗ =

𝑛𝑖+𝑛+𝑗

𝑛, 𝑖 = 1,2, … , 𝐼; 𝑗 = 1,2, … , 𝐽

Note que 𝑋2 = 0 si las variables 𝑋 y 𝑌 son independientes. En este caso los

factores en el numerador son todos cero. La estadística 𝑋2 puede reescribirse de la

siguiente forma equivalente

𝑋2 = 𝑛 [∑∑𝑛𝑖𝑗2

𝑛𝑖+𝑛+𝑗

𝐽

𝑗=1

𝐼

𝑖=1

− 1]

Dicha forma, enfatiza la dependencia del estadístico sobre el número de

observaciones 𝑛. Revelando un serio problema, el valor de 𝑋2 es una función

creciente de la muestra de tamaño 𝑛.

Algunas funciones de la estadística anterior, son tomadas como medidas

alternativas para salir de tal inconveniente. Aquí una de ellas

67

∅2 =𝑋2

𝑛=∑∑

𝑛𝑖𝑗2

𝑛𝑖+𝑛+𝑗

𝐽

𝑗=1

𝐼

𝑖=1

− 1

Conocida usualmente como media de contingencia, donde su raíz cuadrada

es conocida como coeficiente de phi.

Para tablas de contingencia 2 × 2, representando variables binarias, ∅2 es

normalizado cuando toma valores entre 0 y 1, además se puede mostrar que

∅2 =𝑐𝑜𝑣2(𝑋, 𝑌)

𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟(𝑌)

Ahora, considerando tablas de contingencia mayores a 2 × 2, encontramos

que ∅2 no está normalizado, por lo que es necesario usar una modificación diferente

de 𝑋2, conocida como índice de Cramer, el cual es obtenido al dividir la estadística

∅2 entre el valor máximo que este puede asumir en la estructura de la tabla de

contingencia.

Tal máximo resulta ser el mínimo entre los valores 𝐼 − 1 y 𝐽 − 1, por lo que el

índice de Cramer es igual a

𝑉2 =𝑋2

𝑛 𝑚𝑖𝑛[(𝐼 − 1)(𝐽 − 1)]

Se puede mostrar que 0 ≤ 𝑉2 ≤ 1 para alguna tabla de contingencia 𝐼 × 𝐽, y

𝑉2 = 0 si y solo si 𝑋 y 𝑌 son independientes, en otras palabras 𝑉2 = 1 implica la

máxima dependencia entre las dos variables.

4.4.3 Medidas de Dependencia.

Dado que todas las medidas de asociación vistas hasta el momento son

todas funciones de la estadística 𝑋2, y que además, son de difícil interpretación para

68

aplicaciones reales, Goodman y Kruskal (1979) propusieron un índice alternativo

para medir la asociación en una tabla de contingencia.

Suponga una tabla de contingencia 2 × 2, donde 𝑌 es la variable dependiente

y 𝑋 es la variable explicativa. Puede ser de interés el evaluar si el conocimiento del

nivel de 𝑋 es capaz de reducir la incertidumbre respecto a la categoría

correspondiente de 𝑌. El grado de incertidumbre es un carácter cualitativo

representado usualmente por el índice de heterogeneidad.

Sea 𝛿(𝑌) una medida de heterogeneidad para la distribución marginal de 𝑌,

indicado por un vector de frecuencias relativas marginales, {𝑓+1, 𝑓+2, … , 𝑓+𝐽}.

Similarmente sea 𝛿(𝑌|𝑖) la misma medida calculada sobre la distribución condicional

de 𝑌 para la i-ésima fila de la variable X, {𝑓1|𝑖, 𝑓2|𝑖 , … , 𝑓𝐽|𝑖}.

Un índice de asociación basado en la “reducción proporcional de la

heterogeneidad” o error de reducción proporcional (EPR, por sus siglas en inglés),

puede calcularse como sigue (Agresti, 1990)

𝐸𝑃𝑅 =𝛿(𝑌) −𝑀[𝛿(𝑌|𝑋)]

𝛿(𝑌)

Donde 𝑀[𝛿(𝑌|𝑋)] indica la heterogeneidad media respecto a la distribución

de 𝑋.

𝑀[𝛿(𝑌|𝑋)] =∑𝑓𝑖+𝛿(𝑌|𝑖)

𝑖

Donde 𝑓𝑖+ =𝑛𝑖+

𝑛⁄ , 𝑖 = 1,2, … , 𝐼.

Ahora bien, para elegir un 𝛿 apropiado se pueden obtener diferentes medidas

de asociación, usualmente se elige mediante el índice de Gini y el índice de

entropía.

69

Usando el índice de Gini en EPR, obtenemos el llamado índice de

concentración:

𝜏𝑌|𝑋 =∑∑

𝑓𝑖𝑗2

𝑓𝑖+⁄ − ∑𝑓+𝑗

2

1 − ∑ 𝑓+𝑗2

𝑗

Y usando el índice de entropía en EPR, obtenemos el llamado coeficiente de

incertidumbre dado por

𝑈𝑌|𝑋 = −∑ ∑ 𝑓𝑖𝑗log (

𝑓𝑖𝑗𝑓𝑖+⁄ ∗ 𝑓+𝑗)𝑗𝑖

∑ 𝑓+𝑗𝑙𝑜𝑔𝑓+𝑗𝑗

𝜏𝑌|𝑋 y 𝑈𝑌|𝑋 toman valores entre [0,1]. Además podemos demostrar que

𝜏𝑌|𝑋 = 𝑈𝑌|𝑋 si y solo si las variables son independientes.

𝜏𝑌|𝑋 = 𝑈𝑌|𝑋 = 1 si y solo si Y tiene máxima dependencia sobre X.

4.4.4 Medidas Basadas en Modelos.

Consideremos índices que no dependen de las distribuciones marginales, en

cambio, estos índices son basados en modelos probabilísticos y por lo tanto

permiten un tratamiento inferencial. Asuma una tabla de contingencia 2 × 2 (𝑋 =

0,1; 𝑌 = 0,1). Sean 𝜋11, 𝜋00,𝜋10 𝑦 𝜋01 las probabilidades de que una observación sea

clasificada en una de las cuatro celdas de la tabla.

Una medida de asociación que se constituye como un parámetro

fundamental en los modelos estadísticos para el análisis de datos cualitativos es la

razón de odds.

70

Sean 𝜋1|1 𝑦 𝜋0|1 las probabilidades condicionales de tener 1 (un éxito) y un 0

(un fallo) en la fila 1; sean entonces 𝜋1|0 𝑦 𝜋0|0 las mismas probabilidades pero para

la fila 0. La odds de éxito para la fila 1 está dada por

𝑜𝑑𝑑𝑠1 =𝜋1|1

𝜋0|1=𝑃(𝑌 = 1|𝑋 = 1)

𝑃(𝑌 = 0|𝑋 = 1)

Mientras que la odds de éxito para la fila 0 es

𝑜𝑑𝑑𝑠0 =𝜋1|0

𝜋0|0=𝑃(𝑌 = 1|𝑋 = 0)

𝑃(𝑌 = 0|𝑋 = 0)

Las odds son cantidades no-negativas, con un valor más grande que 1

cuando un éxito (nivel 1) es más probable que un fallo (nivel 0), esto es,

𝑃(𝑌 = 1|𝑋 = 1) > 𝑃(𝑌 = 0|𝑋 = 1)

La razón de odds está definida como

𝜃 =𝑜𝑑𝑑𝑠1𝑜𝑑𝑑𝑠0

=

𝜋1|1𝜋0|1⁄

𝜋1|0𝜋0|0⁄

De la definición de odd y usando la definición de probabilidad conjunta, es

fácil mostrar que

𝜃 =𝜋11𝜋00𝜋10𝜋01

Para el cálculo computacional de la razón de odds, las probabilidades serán

representadas con las frecuencias observadas

𝜃𝑖𝑗 =𝑛11𝑛

𝑛10𝑛01

Además de ser usada como herramienta en la construcción de un modelo

probabilístico, similar al coeficiente de correlación lineal, también podemos usar la

razón de odds para la construcción de reglas de decisión.

71

En este sentido, es posible crear un intervalo de confianza, hecho para el

coeficiente de correlación. El intervalo dicta que una asociación es significante

cuando

|𝑙𝑜𝑔𝜃𝑖𝑗| > 𝑍𝛼 2⁄ √∑1

√𝑛𝑖𝑗𝑖𝑗

Donde 𝑍𝛼2⁄ es el (1 − 𝛼 2⁄ ) percentil de una distribución normal estándar.

Podemos calcular la razón de odds del mismo modo para tablas de

contingencia más grandes. La razón de odds para tablas 𝐼 × 𝐽 se puede definir

respecto a cada par de las filas

(𝐼2) =

𝐼(𝐼 − 2)2⁄

En combinación con cada par de las columnas

(𝐽2) =

𝐽(𝐽 − 2)2⁄

De ahí que existan (𝐼2) (𝐽2) razones de odds de este tipo. Al ser un número

enorme de razones de odds, es recomendable elegir representantes con

parsimonia.

4.5 Reducción de Dimensionalidad

El análisis multivariado puede resultar más fácil si se reduce la

dimensionalidad del problema, expresada por el número de variables existentes.

Para esto, típicamente se usa la operación lineal conocida como transformación de

componentes principales. Técnica solo usada para variables cuantitativas y

posiblemente para variables binarias.

72

La idea primordial es transformar las p variables, usualmente

correlacionadas, en términos de 𝑘 < 𝑝 combinaciones lineales no correlacionadas.

Considere una matriz 𝑋 con 𝑛 filas y 𝑝 columnas; el análisis inicia a partir de

la matriz de varianzas y covarianzas, 𝑆 =1

𝑛�̃�′�̃�. Por notación, asumiremos que las

observaciones están expresadas como desviaciones de la media, por lo tanto 𝑋 =

�̃�.

Debido a que las variables pueden estar en diferentes escalas de medida, es

recomendable estandarizarlas antes de calcular 𝑆. Una alternativa a esto es sustituir

a 𝑆 con la matriz de correlación 𝑅, entonces 𝑅 =1

𝑛𝑍′𝑍. Donde, tanto 𝑆 como 𝑅 son

de rango completo, es decir, ninguna de la variables consideradas es una función

lineal de las otras (una combinación lineal de ellas).

Definición. El primer componente de la matriz 𝑋 es un vector dado por la

siguiente combinación lineal

(𝑌11⋮𝑌𝑛1

) = 𝑎11 (

𝑥11⋮𝑥𝑛1) + 𝑎21 (

𝑥12⋮𝑥𝑛2) +⋯+ 𝑎𝑝1 (

𝑥1𝑝⋮𝑥𝑛𝑝)

En términos matriciales es equivalente decir que

𝑌1 =∑𝑎𝑗1𝑋𝑗

𝑝

𝑗=1

= 𝑋𝑎1

El vector de coeficientes 𝑎1 = (𝑎11, 𝑎21, … , 𝑎𝑝1)′, también conocido como

pesos, es elegido al maximizar la varianza de la variable 𝑌1. Además, para poder

obtener una única solución, es necesario que los pesos estén normalizados y

restringidos a que la suma de sus cuadrados sea igual a 1. En otras palabras, el

primer componente principal es determinado por un vector de pesos 𝑎1 tal que

73

max𝑉𝑎𝑟(𝑌1) = max(𝑎1′ 𝑆𝑎1), bajo la restricción 𝑎1

′𝑎1 = 1, con lo cual se normaliza el

vector. Para encontrar una solución al problema, es necesario hacer uso de

Multiplicadores de Lagrange, y con ello, se puede mostrar también que para

maximizar la varianza de 𝑌1, el vector de los pesos elegido puede ser el eigen vector

correspondiente al eigen valor más grande de la matriz de varianzas y covarianzas,

𝑆.

Definición. El segundo componente principal de 𝑋 está dado por la siguiente

combinación lineal

(𝑌12⋮𝑌𝑛2

) = 𝑎12 (

𝑥11⋮𝑥𝑛1) + 𝑎22 (

𝑥12⋮𝑥𝑛2) +⋯+ 𝑎𝑝2 (

𝑥1𝑝⋮𝑥𝑛𝑝)

Y en términos matriciales

𝑌2 =∑𝑎𝑗2𝑋𝑗

𝑝

𝑗=1

= 𝑋𝑎2

Donde el vector de los coeficientes 𝑎2 = (𝑎12, 𝑎22, … , 𝑎𝑝2)′ es tal que

max𝑉𝑎𝑟(𝑌2) = max(𝑎1′ 𝑆𝑎2), bajo las restricciones 𝑎2

′ 𝑎2 = 1 y 𝑎2′ 𝑎1 = 0. Note que la

segunda restricción indica que se requiere que 𝑎1 y 𝑎2 sean ortogonales, es decir,

que sean no correlacionados.

La expresión del segundo componente principal puede ser obtenida usando

Multiplicadores de Lagrange, además de que 𝑎2 es el eigen vector (normalizado y

ortogonal para 𝑎1) correspondiente al segundo eigen valor más grande de 𝑆.

Este proceso se repite 𝑘 veces, con 𝑘 < 𝑝. En general el v-ésimo componente

principal, para 𝑣 = 1,2, … , 𝑘 está dado por la siguiente combinación lineal

74

𝑌𝑣 =∑𝑎𝑗𝑣𝑋𝑗

𝑝

𝑗=1

= 𝑋𝑎𝑣

Donde el vector de coeficientes 𝑎𝑣 es el eigen vector de 𝑆 correspondiente al

v-ésimo eigen valor más grande, además de estar normalizado y ser ortogonal a

todos los eigen vectores previos.

4.5.1 Interpretación de los Componentes Principales.

Debido a que cada componente principal es una combinación lineal de todas

las variables disponibles, no existe una clara escala de medida, con lo que se

dificulta su interpretación. Como solución a esto, abordaremos los conceptos de

importancia absoluta e importancia relativa de los componentes principales.

Analizaremos entonces la información que puede usarse como unidad de

medida de la importancia absoluta en la elección de los 𝑘 componentes principales,

en términos de cuánta información se mantiene al pasar de las 𝑝 variables a los 𝑘

componentes.

Primero, para resolver el problema de maximización, podemos mostrar que

𝑆𝑎𝑣 = 𝜆𝑣𝑎𝑣, con lo que tenemos que la varianza de v-ésimo componente principal

es igual al v-ésimo eigen valor de la matriz de datos:

𝑉𝑎𝑟(𝑌𝑣) = 𝑉𝑎𝑟(𝑋𝑎𝑣) = 𝑎𝑣′ 𝑆𝑎𝑣 = 𝜆𝑣

Y la covarianza entre los componentes principales satisface que

𝐶𝑜𝑣(𝑌𝑖, 𝑌𝑗) = 𝐶𝑜𝑣(𝑋𝑎𝑖, 𝑋𝑎𝑗) = 𝑎𝑖′𝑆𝑎𝑗 = 𝑎𝑖

′𝜆𝑣𝑎𝑗 = 0

Esto debido a que se asume que 𝑎𝑖 y 𝑎𝑗 son ortogonales, lo que implica que

los componentes principales sean no correlacionados. Y su matriz de varianzas y

covarianzas está dada por

75

𝑉𝑎𝑟(𝑌) = (𝜆1 ⋯ 0⋮ ⋱ ⋮0 ⋯ 𝜆𝑘

)

La siguiente razón representa la proporción de variabilidad en la

transformación de las p variables originales a los k<p componentes principales.

𝑡𝑟(𝑉𝑎𝑟 𝑌)

𝑡𝑟(𝑉𝑎𝑟 𝑋)=∑ 𝜆𝑖𝑘𝑖=0

∑ 𝜆𝑖𝑝𝑖=1

⁄

La ecuación expresa una medida acumulada de la cota de variabilidad, y por

lo tanto, de la información estadística producida por los primeros 𝑘 componentes

principales respecto a la variabilidad total de la matriz original, medida por la traza

de la matriz de varianzas y covarianzas.

Ahora examinemos la importancia relativa de cada componente principal.

Primero debemos obtener la expresión general de la correlación lineal entre un

componente principal y una variable original. Para esto, tenemos que

𝐶𝑜𝑣(𝑌𝑗 , 𝑋) = 𝐶𝑜𝑣(𝑋𝑎𝑗 , 𝑋) = 𝑆𝑎𝑗 = 𝜆𝑗𝑎𝑗

Así entonces 𝐶𝑜𝑣(𝑌𝑗 , 𝑋𝑖) = 𝜆𝑗𝑎𝑖𝑗. Además, sustituyendo 𝑉𝑎𝑟(𝑋𝑖) por 𝑠𝑖2 y

recalculando con 𝑉𝑎𝑟(𝑌𝑣) = 𝜆𝑣, tenemos

𝐶𝑜𝑟𝑟(𝑌𝑗 , 𝑋𝑖) =√𝜆𝑖𝑎𝑖𝑗

𝑠𝑖

Note que el signo algebraico y el valor del coeficiente 𝑎𝑖𝑗, también llamado

carga, determina el signo y la fuerza de la correlación entre el j-ésimo componente

principal y la j-ésima variable original. Se sigue también que la proporción de

variabilidad de una variable original, digamos 𝑋𝑖, explicada por 𝑘 componentes

principales puede ser descrita por la siguiente expresión

76

∑𝐶𝑜𝑟𝑟2(𝑌𝑗, 𝑋𝑖)

𝑘

𝑗=1

=(𝜆1𝑎1𝑖

2 +⋯+ 𝜆𝑘𝑎𝑘𝑖2 )

𝑠𝑖2⁄

En donde se describe la cota de variabilidad (información) de cada variable

explicativa que se obtiene al pasar de las variables originales a los componentes

principales.

Estos son los puntos importantes del análisis de compontes principales:

El método permite la reducción de complejidad de una matriz de datos,

refiriéndose a la transformación y reducción del número de variables.

Los componentes principales pueden ser obtenidos a partir de la

extracción de los eigen valores y los eigen vectores correspondientes

de la matriz de correlación 𝑅 en lugar de la matriz de varianzas y

covarianzas 𝑆.

77

Capítulo 5

Minería de datos

computacionales.

78

Tanto científicos de la computación como estadísticos están trabajando sobre

metodologías de minería de datos, pero enfocados en diferentes aspectos: los

científicos computacionales están más preocupadas con aspectos algorítmicos y

eficiencia computacional para el procedimiento; mientras que los estadísticos

estudian los fundamentos matemáticos y las propiedades estadísticas. Nosotros

nos enfocaremos más por en el segundo aspecto y sobre la aplicación de los

métodos.

5.1 Medidas de Distancia.

Bajo la idea de comparar observaciones, necesitamos introducir la idea de

una medida de distancia o proximidad entre ellas. Un índice de proximidad entre

dos variables cualesquiera 𝑥𝑖 y 𝑥𝑗 puede ser definido como una función de la

correspondencia de los vectores en las filas de la matriz de datos:

𝐼𝑃𝑖𝑗 = 𝑓(𝑥𝑖′, 𝑥𝑗

′), 𝑖, 𝑗 = 1,2, … , 𝑛

Al considerar variables cuantitativas, los índices de proximidad son conocidos

como distancias. Si las variables son cualitativas, la distancia entre las

observaciones puede ser medida por índices de similaridad. Y si los datos están en

una tabla de contingencia, se puede emplear la distancia chi-cuadrada.

5.1.1 Distancia Euclideana.

Considere una matriz con variables cuantitativas (o binarias), si 𝑥 y 𝑦 son filas

de la matriz, se dice que 𝑑(𝑥, 𝑦) es la distancia entre las observaciones si cumple:

No negatividad: 𝑑(𝑥, 𝑦) ≥ 0 ∀ 𝑥, 𝑦

Identidad: 𝑑(𝑥, 𝑦) = 0 <=> 𝑥 = 𝑦 ∀ 𝑥, 𝑦

79

Simetría: 𝑑(𝑥, 𝑦) = 𝑑(𝑦, 𝑥) ∀ 𝑥, 𝑦

Desigualdad del triángulo: 𝑑(𝑥, 𝑦) ≤ 𝑑(𝑥, 𝑧) + 𝑑(𝑦, 𝑧) ∀ 𝑥, 𝑦, 𝑧

La siguiente es una matriz de distancias en la que se representan las

distancias entre todas las observaciones presentes en la matriz de datos:

∆= (0 ⋯ 𝑑1𝑛⋮ ⋱ ⋮𝑑𝑛1 ⋯ 0

)

La distancia Euclideana es la medida de distancia más utilizada, definida para

cualquiera 𝑥𝑖 y 𝑥𝑗, en el espacio Euclideano p-dimensional:

𝑑(𝑥𝑖, 𝑥𝑗) = [∑(𝑥𝑖𝑠 − 𝑥𝑗𝑠)2

𝑝

𝑗=1

]

12⁄

Para evitar problemas con las diferentes escalas de medida, es preferible que

la distancia Euclideana sea calculada con las variables previamente

estandarizadas.

5.1.2 Medidas de Semejanza.

Dado un conjunto finito de observaciones 𝑢𝑖 ∈ 𝑈, una función 𝑆(𝑢𝑖 , 𝑢𝑗) = 𝑆𝑖𝑗

de 𝑈𝑥𝑈 → ℝ es considerada índice de semejanza si satisface las siguientes

propiedades:

No negatividad: 𝑆𝑖𝑗 ≥ 0, para todo 𝑢𝑖 , 𝑢𝑗 ∈ 𝑈

Normalización: 𝑆𝑖𝑖 = 1, para todo 𝑢𝑖 ∈ 𝑈

Simetría: 𝑆𝑖𝑗 = 𝑆𝑗𝑖 , para todo 𝑢𝑖 , 𝑢𝑗 ∈ 𝑈

80

A diferencia de las medidas de distancia, los índices de semejanza pueden

ser aplicados a todo tipo de variables, incluyendo variables cualitativas, además de

que al tomar valores entre [0, 1] se facilita su interpretación.

El complemento de un índice de semejanza es conocido como índice de

disimilitud y representa una clase de índices de proximidad más amplia que las

distancias.

5.1.3 Ajuste Multidimensional.

Al igual que en el cálculo de semejanzas, los métodos de ajuste

multidimensional están dirigidos a representar observaciones cuyos valores

observados son desconocidos (o no están expresados numéricamente) en un

espacio Euclideano de baja dimensión (usualmente en ℝ2).

La representación se consigue al preservar las distancias originales tanto

como sea posible. Para esto se busca minimizar la distancia correspondiente entre

las distancias originales y las nuevas distancias Euclideanas.

Los métodos de ajuste multidimensional difieren principalmente en cómo es

definida tal distancia. Comúnmente se elige la función de tensión (estrés)

√∑∑(𝛿𝑖𝑗 − 𝑑𝑖𝑗)2

𝑛

𝑗=1

𝑛

𝑖=1

Donde 𝛿𝑖𝑗 son las distancias originales (o disimilitudes) entre cada par de

observaciones, y 𝑑𝑖𝑗 son las distancias correspondientes entre las coordenadas

producidas.

81

La métrica de los métodos de ajuste multidimensional busca 𝑛 vectores

dimensionales para 𝑘 valores reales, cada uno representando una medición de

coordenada de las 𝑛 observaciones, tal que la matriz de distancias 𝑛 × 𝑛 entre las

observaciones, representada por 𝑑𝑖𝑗, minimice el cuadrado de la función de tensión.

Típicamente 𝑘 = 2, además de que es conveniente representar los resultados del

procedimiento con un gráfico de dispersión.

5.2 Análisis de Grupo.

Mejor conocido como método descriptivo de minería de datos, su objetivo

principal es agrupar las observaciones dentro de grupos que son homogéneos

internamente (cohesión interna) y heterogéneos entre grupos (separación externa).

Note que la creación de los grupos pueda interpretarse como una reducción

de dimensionalidad, pero no de la misma forma que como un análisis de

componentes principales.

Presentamos entonces algunos puntos importantes a considerar para un

buen análisis de grupo:

Elección de Variables.

Las variables elegidas para el agrupamiento, deben ser aquellas que sean

de aspecto relevante para cumplir los objetivos fijos; recordemos que usar variables

de poca importancia afecta fuertemente los resultados finales.

En general, se puede considerar como una agrupación satisfactoria cuando

no se muestra una fuerte sensibilidad a los pequeños cambios en el conjunto de

variables usadas.

Método de Formación de Grupos.

82

Existen dos tipos de métodos, jerárquicos y no jerárquicos. Los métodos

jerárquicos buscan llegar a sucesiones de agrupaciones, iniciando del más simple.

Y los métodos no jerárquicos buscan recopilar las 𝑛 unidades dentro de un número

de grupos previamente establecidos.

Tipos de Índices de Proximidad.

En resumen, si los datos que predominan son cuantitativos, se usa la

distancia Euclideana; si los datos predominantes son cualitativos, se usa un índice

de similaridad; y si los datos están disponibles en un formato de tabla de

contingencia, se usa la distancia chi-cuadrada entre los niveles.

Elección de Criterios de Evaluación.

La evaluación de los resultados de la agrupación implica el verificar que los

grupos son consistentes con el objetivo principal del análisis de grupos, es decir,

que satisfagan las condiciones de cohesión interna y de separación externa.

5.2.1 Métodos Jerárquicos.

Estos métodos agrupan las unidades con el propósito de formar familias de

particiones, que pueden ser representadas usando gráficas con estructura de árbol,

conocidas como árbol de agrupación jerárquica o dendrograma.

83

Figura 5.1 Estructura de un dendrograma. Las ramas del árbol (Branches)

describen agrupaciones subsecuentes de las observaciones. En la raíz (Root),

todas las observaciones están contenidas en una sola clase.

Usualmente los paquetes de software estadístico reportan tal dendograma,

desde la raíz hasta el número final de ramas, igual al número de observaciones.

Aquí una idea general para un algoritmo de agrupación aglomerativa:

1. Inicio: dadas 𝑛 observaciones estadísticas, cada elemento representa un

grupo, y deben ser identificados con un número de 1 a 𝑛.

2. Selección: en términos de la distancia seleccionada los dos grupos “más

cercanos” son seleccionados.

3. Actualización: se actualiza el número de grupos (para 𝑛 − 1) por medio de

la unión, en un solo grupo, de dos grupos seleccionados en el paso 2. Se

actualiza la matriz de distancias, tomando las dos filas (y las dos

columnas) de distancias entre los dos grupos y remplazándolos con una

sola fila (y una columna) de distancias, “representativa” del nuevo grupo.

4. Repetición: los pasos 2 y 3 son repetidos 𝑛 − 1 veces.

5. Fin: el procedimiento se detiene cuando todos los elementos son

incorporados en un único grupo.

Por otro lado, existen métodos que solo requieren de la distancia matricial,

por ejemplo:

Enlace único: la distancia es definida como el mínimo de la distancia 𝑛1𝑛2

entre cada observación del grupo 𝐶1 con cada observación del grupo 𝐶2:

𝑑(𝐶1, 𝐶2) = min(𝑑𝑟𝑠) 𝑐𝑜𝑛 𝑟 ∈ 𝐶1, 𝑠 ∈ 𝐶2

84

Enlace completo: la distancia es definida como el máximo de la distancia

𝑛1𝑛2 entre cada observación del grupo 𝐶1 con cada observación del grupo 𝐶2:

𝑑(𝐶1, 𝐶2) = max(𝑑𝑟𝑠) 𝑐𝑜𝑛 𝑟 ∈ 𝐶1, 𝑠 ∈ 𝐶2

Enlace promedio: la distancia es definida como el promedio aritmético de la

distancia 𝑛1𝑛2 entre cada observación de un grupo son cada observación del otro

grupo:

𝑑(𝐶1, 𝐶2) =1

𝑛1𝑛2∑∑𝑑𝑟𝑠

𝑛2

𝑠=1

𝑛1

𝑟=1

𝑐𝑜𝑛 𝑟 ∈ 𝐶1, 𝑠 ∈ 𝐶2

Dos métodos que requieren de la matriz de datos tal como la distancia

matricial son el método del centroide y el método de Ward.

Método del Centroide.

Considere 𝑛1 y 𝑛2 observaciones de dos grupos, 𝐶1 y 𝐶2 respectivamente. La

distancia de estos grupos es definida como la distancia entre los centroides

respectivos (usualmente las medias), �̅�1 y �̅�2:

𝑑(𝐶1, 𝐶2) = 𝑑(�̅�1, �̅�2)

Para calcular el centroide de un grupo de observaciones es necesario

remplazar las distancias con respecto a los centroides de los dos grupos previos por

las distancias con respecto a los centroides de los nuevos grupos. Los centroides

del nuevo grupo se pueden obtener de

�̅�1𝑛1 + �̅�2𝑛2

𝑛1 + 𝑛2

Método de Ward

Este método minimiza una función objetivo usando principalmente las

agrupaciones principales para crear grupos que tengan máxima cohesión interna y

85

máxima separación externa. La desviación total (𝑇) de las 𝑝 variables,

correspondiente a 𝑛 veces la traza de la matriz de varianzas y covarianzas, puede

ser dividida en dos partes: la desviación dentro de los grupos (𝑊) y la desviación

entre los grupos (𝐵), 𝑇 = 𝑊 + 𝐵.

En términos formales, dada una partición entre g grupos, la desviación (𝑇)

de las 𝑝 variables corresponde a la suma de las desviaciones entre las variables

singulares con respecto a la media total, definida por

𝑇 =∑∑(𝑥𝑖𝑠 − �̅�𝑠)2

𝑛

𝑖=1

𝑝

𝑠=1

La desviación dentro de los grupos (𝑊) es dada por la suma de las

desviaciones de cada grupo

𝑊 =∑𝑊𝑘

𝑔

𝑘=1

Donde 𝑊𝑘 representa las desviaciones de las 𝑝 variables en el k-ésimo grupo,

descrito por

𝑊𝑘 =∑∑(𝑥𝑖𝑠 − �̅�𝑠𝑘)2

𝑛𝑘

𝑖=1

𝑝

𝑠=1

La desviación entre los grupos (𝐵) está dada por la suma de las desviaciones

ponderadas de las medias de cada grupo con respecto al promedio general

correspondiente:

𝐵 =∑∑𝑛𝑘(�̅�𝑠𝑘 − �̅�𝑠)2

𝑔

𝑘=1

𝑝

𝑠=1

Note que estos no requieren un cálculo previo de la distancia matricial.

86

5.2.2 Métodos No Jerárquicos.

Los métodos no jerárquicos buscan obtener una partición de las 𝑛

observaciones en 𝑔 grupos (𝑔 < 𝑛), con 𝑔 definido a priori. Para algún 𝑔 dado, un

algoritmo no jerárquico clasificará cada una de las variables solo basándose en el

criterio de selección, usualmente dado por la media de una función objetivo. En

general, una agrupación no jerárquica puede resumirse por el siguiente algoritmo:

1. Elegir el número de grupos 𝑔 y elegir una agrupación inicial de las 𝑛

unidades estadísticas dentro de los grupos.

2. Evaluar la “transferencia” de cada observación de grupo inicial al otro

grupo con el propósito de maximizar la cohesión interna de los grupos. Se

mide la variación de la transferencia y, si es relevante, la transferencia se

vuelve permanente.

3. Se repite el paso 2 hasta que la regla sea satisfecha.

Los algoritmos no jerárquicos suelen ser más rápidos que algunos

jerárquicos porque utilizan una estructura de cálculo interactiva, por lo cual no

requieren determinar la distancia matricial. Además, la construcción de algoritmos

no jerárquicos tiende a ser más estable respecto a la variabilidad de los datos y

también suelen ser más adecuados para grandes conjuntos de datos.

El método más usado para una agrupación no jerárquica es el método de 𝑘

medias, donde 𝑘 es el número de grupos establecidos a priori. Tal método sigue el

siguiente proceso:

87

1. Inicio. Habiendo un determinado número de grupos, 𝑔 puntos, llamados

semillas, se constituyen los centroides (medidas de posición, usualmente

las medias) de la agrupación inicial.

2. Evaluación de transferencia. Para los 𝑔 grupos, se calcula la distancia de

cada observación al centroide. Para calcular la distancia, se utiliza la

distancia euclideana

𝑑(𝑥𝑖, �̅�𝑙(𝑡)) = √∑(𝑥𝑖𝑠 − �̅�𝑠𝑙

(𝑡))2

𝑝

𝑖=1

Que es igual, para la t-ésima iteración, a la distancia entre la i-ésima

observación y el centroide de grupo l, donde �̅�𝑙(𝑡) = [�̅�1𝑙

(𝑡), … , �̅�𝑝𝑙(𝑡)]′ es el

centroide del grupo l calculado para la t-ésima iteración.

3. Repetición. Repetimos el paso 2 hasta obtener una situación estable entre

los grupos.

5.3 Regresión Lineal.

Parar esta sección nos enfocaremos únicamente en variables de respuesta

cuantitativa, considerando, la regresión lineal como un método predictivo de minería

de datos.

5.3.1 Regresión Lineal Bivariada

En muchas aplicaciones resulta ser de interés el explicar una variable en

particular, conocida como variable dependiente o de respuesta, comúnmente

representada por 𝑦, la cual puede ser causada o explicada en función de otra

variable, conocida como independiente o explicativa, representada comúnmente por

88

𝑥. La regresión lineal es el modelo de regresión más simple que se puede usar para

describir a 𝑦 en función de 𝑥, expresada para cada par de observación (𝑥𝑖, 𝑦𝑖) como

𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖 + 𝑒𝑖 (𝑖 = 1,2, … , 𝑛)

Donde 𝑎 es el intercepto de la función de regresión, 𝑏 es el coeficiente de

regresión y 𝑒𝑖 es el error aleatorio de la función de regresión, relativo a la i-ésima

observación.

Note que la función de regresión tiene dos partes principales: la regresión

lineal y el término error. Mientras que la regresión lineal puede ser construida a partir

de la matriz de datos de forma empírica, el termino error describe que tan buena es

la aproximación de la regresión lineal a la variable de respuesta observada.

Entonces la regresión lineal se convierte en un problema de ajustar una línea

recta sobre el diagrama de dispersión observado. La regresión lineal es dada por la

función lineal

�̂�𝑖 = 𝑎 + 𝑏𝑥𝑖 (𝑖 = 1,2, … , 𝑛)

Donde �̂�𝑖 es el i-ésimo valor ajustado de la variable dependiente, calculado

en base al i-ésimo valor de la variable explicatoria 𝑥𝑖. Una vez definida la regresión

lineal, se sigue que el término de error 𝑒𝑖, para cada observación 𝑦𝑖, representa el

residual de la función de regresión, normalmente obtenido de la diferencia entre los

valores de respuesta observados 𝑦𝑖 y los valores correspondientes ajustados con la

regresión lineal �̂�𝑖.

𝑒𝑖 = 𝑦𝑖 − �̂�𝑖

Cada residual puede ser interpretado como la parte del valor correspondiente

que no puede ser explicado por la relación lineal con la variable explicatoria. Así

89

entonces, para obtener una expresión analítica de regresión lineal, basta con

calcular los parámetros 𝑎 y 𝑏 en base a los datos disponibles.

Para esto se puede aplicar el método de mínimos cuadrados, donde se elige

la línea recta que minimice la suma de errores al cuadrado, definido como

𝑆𝑆𝐸 =∑𝑒𝑖2 =

𝑛

𝑖=1

∑(𝑦𝑖 − �̂�𝑖)2

𝑛

𝑖=1

=∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖)2

𝑛

𝑖=1

Para encontrar el mínimo de SSE necesitamos tomar sus derivadas parciales

respecto a los parámetros 𝑎 y 𝑏 e igualarlas a cero. La suma de cuadrados es una

función cuadrática por lo que sí existe un punto extremo, este será mínimo. Por lo

tanto, los parámetros son encontrados al resolver el siguiente sistema de

ecuaciones, conocido como ecuaciones normales:

𝜕 ∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖)2

𝜕𝑎= −2∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖)

𝑖

= 0

𝜕 ∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖)2

𝜕𝑏= −2∑𝑥𝑖(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖)

𝑖

= 0

De la primera ecuación se tiene que

𝑎 =∑𝑦𝑖𝑛− 𝑏∑

𝑥𝑖𝑛= 𝜇𝑦 − 𝑏𝜇𝑥

Y sustituyendo en la segunda ecuación y simplificando, tenemos

𝑏 = (∑𝑥𝑖𝑦𝑖 𝑛⁄ − ∑𝑦𝑖 ∑

𝑥𝑖𝑛2⁄

∑𝑥𝑖2

𝑛⁄ − (∑𝑥𝑖𝑛⁄ )2) =

𝐶𝑜𝑣(𝑋, 𝑌)

𝑉𝑎𝑟(𝑋)= 𝑟(𝑋, 𝑌)

𝜎𝑦

𝜎𝑥

Donde 𝜇𝑥 y 𝜇𝑦 son las medias, 𝜎𝑥 y 𝜎𝑦 son las desviaciones estándar y 𝑟(𝑋, 𝑌)

es el coeficiente de correlación entre 𝑋 y 𝑌.

90

En resumen, la regresión es una simple pero poderosa herramienta de

predicción. Para situaciones reales basta con calcular los parámetros de la

regresión lineal en base a los datos disponibles. Luego entonces, para predecir un

valor de 𝑦 solo se requiere sustituir un valor para 𝑥 en la ecuación de regresión

lineal.

Figura 5.2 Ejemplo del ajuste de una regresión lineal.

5.3.2 Regresión Lineal Múltiple.

Consideremos ahora un caso general, donde hay más de una variable

explicatoria. Supongamos que, en la matriz de datos todas las variables son

explicatorias a excepción de una, la cual será elegida como variable de respuesta.

Sea 𝑘 el número de dichas variables explicatorias, entonces la regresión lineal

múltiple está dada por

𝑦𝑖 = 𝑎 + 𝑏1𝑥𝑖1 + 𝑏2𝑥𝑖2 +⋯+ 𝑏𝑘𝑥𝑖𝑘 + 𝑒𝑖

Para 𝑖 = 1,2, … , 𝑛, donde n es el número total de observaciones, y

equivalentemente en términos matriciales tenemos

𝑌 = 𝑋𝑏 + 𝐸

91

Donde 𝑌 es un vector columna con 𝑛 filas que contiene los valores de la

variable de respuesta; 𝑋 es un matriz de 𝑛 filas y 𝑘 + 1 columnas que contiene los

valores para cada variable explicatoria por columna para las 𝑛 observaciones, más

una columna extra (referida al intercepto) que contiene los valores igual a 1; b es un

vector con 𝑘 + 1 filas que contiene los 𝑘 parámetros que serán estimados más el

intercepto y 𝐸 es un vector columna de tamaño 𝑛 que contiene los términos error.

El caso de la regresión lineal múltiple está representado por un plano (𝑘 + 1)

dimensional, conocido plano de regresión definido por la ecuación

𝑦𝑖 = 𝑎 + 𝑏1𝑥𝑖1 + 𝑏2𝑥𝑖2 +⋯+ 𝑏𝑘𝑥𝑖𝑘

También, es necesario estimar el vector de parámetros (𝑎, 𝑏1, … , 𝑏𝑘) respecto

a la base de datos disponible, utilizando el criterio de mínimos cuadrados para

minimizar el cuadrado de la distancia euclidiana.

𝑑2(𝑦, �̂�) =∑(𝑦𝑖 − �̂�𝑖)2

𝑛

𝑖=1

De forma similar a la regresión bivariada, podemos obtener una solución en

términos matriciales; se tiene que �̂� = 𝑋𝛽 donde

𝛽 = (𝑋′𝑋)−1𝑋′𝑌

Por lo tanto, el ajuste óptimo del plano está definido por

�̂� = 𝑋(𝑋′𝑋)−1𝑋′𝑌 = 𝐻𝑌

Desde el punto de vista geométrico, se establece entonces que el plano

óptimo se obtiene a partir de la proyección del autor observado 𝑦 ∈ ℝ𝑛 sobre el

hiperplano (𝑘 + 1) dimensional, en este caso el operador de proyección es la matriz

92

𝐻. De hecho, si 𝑘 = 1 los dos parámetros de 𝛽 coinciden con los parámetros 𝑎 y 𝑏

del caso bivariado.

5.4 Regresión Logística.

Ahora consideraremos un modelo predictivo para variables de respuesta

cualitativas. Un problema de respuestas cualitativas puede ser transformado como

un problema de respuestas binarias (ej. Agresti, 1990), donde el modelo de

regresión logística es la construcción de bloques de modelos de respuesta

cualitativa.

Sea 𝑦𝑖 (𝑖 = 1,2, … , 𝑛) los valores observados de una variable de respuesta,

los cuales solo pueden tomar valores 0 y 1, donde el nivel 1 usualmente representa

la ocurrencia o suceso de un evento de interés.

Un modelo de regresión logística es definido en términos de valores

ajustados para ser interpretado como probabilidades de que el evento ocurra en

diferentes sub poblaciones

𝜋𝑖 = 𝑃(𝑌𝑖 = 1), 𝑖 = 1,2, … , 𝑛

En otras palabras, un modelo de regresión logística especifica que una

función apropiada para el ajuste de probabilidad del evento es una función lineal de

los valores observados de las variables exploratorias disponibles, por ejemplo

log [𝜋𝑖

1 − 𝜋𝑖] = 𝑎 + 𝑏1𝑥𝑖1 + 𝑏2𝑥𝑖2 +⋯+ 𝑏𝑘𝑥𝑖𝑘

Del lado izquierdo se encuentra definida la función logit de la probabilidad

ajustada, 𝑙𝑜𝑔𝑖𝑡(𝜋𝑖), como el logaritmo de las odds para el evento, normalmente

como el logaritmo de la probabilidad de ocurrencia (fallo):

93

𝑙𝑜𝑔𝑖𝑡(𝜋𝑖) = 𝑙𝑜𝑔 [𝜋𝑖

1 − 𝜋𝑖]

Así entonces, se calcula 𝜋𝑖 de acuerdo a la base de datos y para poder

obtener un valor ajustado para cada observación binaria �̂�𝑖 se introduce un valor

límite de 𝜋𝑖 por encima de �̂�𝑖 = 1 y por debajo de �̂�𝑖 = 0. El ajuste resultante

raramente es perfecto, por lo que se debe ajustar un error, el cual se debe mantener

tan bajo como sea posible.

5.5 Modelos Árbol.

Mientras que los métodos de regresión lineal y logística producen un valor

para así posibilitar una clasificación de acuerdo a una regla discriminante, los

modelos árbol comienzan haciendo una clasificación de las observaciones dentro

de grupos, para después obtener un valor para cada grupo.

Cuando la variable de respuesta es continua, lo modelos árbol son divididos

dentro de árboles de regresión; cuando la variable de respuesta es cuantitativa

discreta o cualitativa (categórica) son divididos en arboles de clasificación. Pero

como la mayoría de conceptos aplica para ambos casos, no haremos distinción

entre ellos.

Los modelos árbol pueden ser definidos como un procedimiento recursivo, a

través del cual un conjunto de 𝑛 unidades estadísticas son divididas

progresivamente dentro de grupos, de acuerdo a una regla de división cuyo objetivo

es maximizar una medida de homogeneidad o pureza de la variable de respuesta

en cada uno de los grupos obtenidos.

94

Además, en cada uno de los pasos del procedimiento se especifica una regla

de división para la elección de una variable exploratoria a dividir y por la elección de

una regla de división de tal variable, la cual establece como será la partición de las

observaciones.

El principal objetivo de un modelo árbol es conseguir como resultado una

participación final de las observaciones, y para conseguirla se requiere especificar

un criterio para detener el proceso de división.

Suponga que se logra una partición final, que consiste en 𝑔 grupos (𝑔 < 𝑛).

Entonces para alguna observación 𝑦𝑖 de la variable de respuesta observada, se

produce un valor ajustado �̂�𝑖 por una regresión árbol, el cual es igual a la media de

respuesta del grupo al cual pertenece la observación 𝑖. Sea 𝑚 tal grupo, entonces

tenemos

�̂�𝑖 =1

𝑛𝑚∑𝑦𝑙𝑚

𝑛𝑚

𝑙=𝑖

Por otro lado, para una clasificación árbol, los valores ajustados son dados

en términos de probabilidades ajustadas asociadas a un grupo en particular. Si solo

hay dos casos posibles (clasificación binaria) la probabilidad ajustada de éxito es

𝜋𝑖 =1

𝑛𝑚∑𝑦𝑙𝑚

𝑛𝑚

𝑙=1

Donde 𝑦𝑙𝑚 puede tomar valores 0 y 1, por lo tanto la probabilidad ajustada

corresponde a la proporción de éxitos observada en el grupo 𝑚. Note que �̂�𝑖 y 𝜋𝑖

son constantes para todas las observaciones en el grupo.

95

La salida del análisis es comúnmente representada usando un árbol, muy

similar al diagrama producido por un agrupamiento jerárquico, lo que también indica

que la partición realizada es influenciada, en cierto nivel, por elecciones previas.

Figura 5.3 Ejemplo de probabilidades de respuesta binaria.

A los nodos finales de un árbol se le conoce como “hojas”, las cuales

contienen la información principal transportada por el análisis del modelo árbol, en

el ejemplo de la Figura 5.3 hay una partición de las observaciones dentro de cuatro

grupos, ordenados por las probabilidades ajustadas de la variable de respuesta.

Estas probabilidades ajustadas pueden ser comparadas con las que pueden ser

obtenidas del modelo de regresión logística.

Además, podemos clasificar nuevas observaciones, para las cuales los

niveles de la variable de respuesta son desconocidos. En la Figura 5.3 podemos

hacer esto localizando tal observación en una de las cuatro clases correspondientes

al final de las ramas, conforme a los niveles asumidos por las variables explicatorias

‘Good Account’, ‘Previous Repayments’ y ‘Concurrent’, siguiendo las reglas

descritas.

96

Una regla comúnmente utilizada es clasificar todas las observaciones

pertenecientes a un nodo final en la clase correspondiente al nivel más frecuente

(moda), esta correspondencia es llamada “regla de la mayoría”. Aunque existen

otros esquemas de agrupación, la ausencia de otras consideraciones, hace que esta

regla sea la más razonable.

Cada camino en el modelo árbol está representado por una regla de

clasificación y además comparándolo con los modelos discriminantes, los modelos

árbol producen reglas, que si bien son menos explicitas analíticamente, son fáciles

de entender gráficamente.

Los modelos árbol también pueden ser considerados como modelos

predictivos no paramétricos, es decir, no requieren asumir nada de la distribución

de probabilidad de la variable de respuesta. De hecho, esta flexibilidad implica que

los modelos árbol sean generalmente aplicables sin importar la naturaleza de la

variable dependiente ni de las variables explicatorias. Pero esta gran flexibilidad

puede tener desventajas, por ejemplo, que requiera de una alta demanda de

recursos computacionales.

Además, su secuencia natural y su complejidad algorítmica pueden crear

dependencias sobre los datos observados, tanto que incluso un pequeño cambio en

la probabilidad altera la estructura del árbol. Esto hace difícil el tomar un modelo

árbol diseñado para un contexto y generalizarlo para otros contextos.

A pesar de sus graficas similares, existen importantes diferencias entre

análisis de agrupación jerárquica y clasificación de árboles, siendo esta última más

predictiva que descriptiva. El análisis de agrupación jerárquica realiza una

clasificación no supervisada de las observaciones, en base a todas las variables

97

disponibles, mientras que la clasificación de árboles realiza una clasificación de las

observaciones en base a todas las variables explicatorias disponibles y supervisado

por la variable de respuesta.

Una segunda diferencia está en la regla de partición. La clasificación árbol es

llevada a cabo generalmente usando solo una variable explicatoria a la vez,

mientras que en una agrupación jerárquica la regla de división o de aglomeración

en grupos es establecido de acuerdo a la distancia entre ellos, calculada con todas

las variables disponibles.

5.5.1 Criterio de División para Modelos Árbol.

El elegir una regla de división implica elegir también un predictor y una buena

partición de ese nivel. Para hacer la elección se usa generalmente una medida de

bondad de la correspondiente regla de división.

Una medida de bondad Φ(𝑡) es una medida del rendimiento ganado al

subdividir un nodo (padre) 𝑡 en cierto número de nodos (hijos). Sea 𝑡𝑟 , 𝑟 = 1,… , 𝑠,

que indica el grupo de hijos generado por la segmentación (𝑠 = 2 para una

segmentación binaria) y sea 𝑝𝑟 la proporción de observaciones, que están en el

nodo 𝑡, localizados en cada nodo hijo, con ∑𝑝𝑟 = 1. Entonces la función de criterio

está dada expresada como

Φ(𝑠, 𝑡) = 𝐼(𝑡) −∑𝐼(𝑡𝑟)𝑝𝑟

𝑠

𝑟=1

Donde 𝐼 indica una función de impureza, la cual se refiere a una medida de

la variabilidad de los valores de respuesta de las observaciones. Valores altos de la

función de criterio implican que la partición elegida es buena.

98

Se dice que la regresión árbol es pura cuando tiene varianza nula (todas las

observaciones son iguales) e impura si la varianza es alta. La impureza del nodo 𝑚

está definida por

𝐼𝑣(𝑚) =∑ (𝑦𝑙𝑚 − �̂�𝑚)

2𝑛𝑚𝑙=1

𝑛𝑚

Donde �̂�𝑚 indica el valor de la media ajustada para el grupo 𝑚. A

continuación, se presentan las elecciones más comunes para medir impureza.

Impureza de Clasificación Errónea

𝐼𝑀(𝑚) =∑ 1(𝑦𝑙𝑚, 𝑦𝑘)𝑛𝑚𝑙=1

𝑛𝑚= 1 − 𝜋𝑘

Donde 𝑦𝑘 es el modelo categórico del nodo, con el ajuste de probabilidad 𝜋𝑘;

la función 1() representa la función indicador, la cual toma valor 1 si 𝑦𝑙𝑚 = 𝑦𝑘 y 0 de

otro modo.

Impureza de Gini

𝐼𝐺(𝑚) = 1 − ∑ 𝜋𝑖2

𝑘(𝑚)

𝑖=1

Donde los 𝜋𝑖 ’s son las probabilidades ajustadas de los niveles presentes en

el nodo 𝑚, que son a lo mucho 𝑘(𝑚).

Impureza de Entropía

𝐼𝐸(𝑚) = − ∑ 𝜋𝑖 log 𝜋𝑖

𝑘(𝑚)

𝑖=1

99

Con 𝜋𝑖 definido como anteriormente. Note que la impureza de Entropía y la

de Gini corresponden a la aplicación de los índices de heterogeneidad (Sección

4.1).

Evaluación del Árbol

Además de dar un útil criterio de división, una medida de impureza puede ser

usada para la evaluación total de un árbol. Sea 𝑁(𝑇) el número de hojas (nodos

finales) de un árbol 𝑇. Entonces, la impureza total de 𝑇 esta dada por

𝐼(𝑇) = ∑ 𝐼(𝑡𝑚)𝑝𝑚

𝑁(𝑇)

𝑛=1

Donde 𝑝𝑚 son las proporciones de las observaciones en la clasificación final.

La medida de impureza usada por Chaid es la distancia que hay entre las

frecuencias observadas y las esperadas, donde las frecuencias esperadas son

calculadas usando la hipótesis para homogeneidad de las observaciones en el nodo

considerado.

La función de criterio de división es el índice de Pearson 𝜒2. Si el

decrecimiento en 𝜒2 es significativo (esto es, el p-valor es más bajo que el nivel de

𝛼 pre-especificado) entonces un nodo es dividido, de otro modo permanece sin

dividirse y se convierte en una hoja.

5.5.2 Poda.

Debido a la falta de un criterio para detener el proceso, un modelo árbol debe

crecer hasta que cada nodo contenga observaciones idénticas en términos de

valores o niveles de la variable dependiente. Esto obviamente no constituye una

segmentación parsimoniosa, por lo que es necesario detener el crecimiento del

100

árbol en una dimensión razonable, bajo el ideal de que la configuración del árbol

sea tanto parsimoniosa como precisa.

La primera propiedad implica que el árbol tenga un pequeño número de

hojas, esto para que la regla predictiva sea fácil de interpretar. La segunda

propiedad deseada implica un gran número de hojas que se encuentren con la

mayor pureza posible. Entonces, la elección final está comprometida entre dos

estrategias opuestas.

Es por eso que algunos algoritmos árbol usan reglas de “alto” basadas en

límites sobre el número hojas o sobre el número máximo de pasos en el proceso.

Otros en cambio, asumen probabilidades sobre las variables usando la prueba

estadística más adecuada, pero con la ausencia de probabilidades asumidas, el

crecimiento se detiene cuando el decrecimiento en la impureza es pequeño.

El método Cart utiliza una estrategia diferente, basado en el concepto de

poda. Primeramente el árbol es construido hasta su tamaño más grande, es decir,

el árbol con el mayor número de hojas posible, o el árbol en que cada nodo contenga

solo una observación, o en el que todas las observaciones tengan el mismo valor o

nivel de salida.

Luego entonces, el árbol es “recortado” o “podado” de acuerdo a un criterio

de costo de complejidad.

Sea 𝑇0 el árbol de mayor tamaño y sea 𝑇 un árbol general. De un árbol se

puede obtener un subárbol a partir del colapso de cierto número de sus nodos

internos (no finales). La idea de una poda es encontrar de forma óptima un subárbol

de 𝑇0 que minimice la función de pérdida usada en el algoritmo, la cual depende de

la impureza total del árbol 𝑇 y de la complejidad del árbol:

101

𝐶(𝑇) = 𝐼(𝑇) + 𝛼𝑁(𝑇)

Donde, para el árbol 𝑇, 𝐼(𝑇) es la función de impureza total calculada a partir

de las hojas, 𝑁(𝑇) es el número de hojas, y con 𝛼 como una constante que penaliza

linealmente la complejidad. Dado que en un análisis de árbol la impureza es una

varianza, la impureza total pude ser determinada como

𝐼(𝑇) = ∑ 𝑇𝑣(𝑚)𝑛𝑚

𝑁(𝑇)

𝑚=1

Note que la minimización de la función de pérdida de las hojas está sujeta a

elegir entre un modelo complejo (impureza baja, pero alto costo de complejidad) y

un modelo simple (impureza alta, pero bajo costo de complejidad). La elección

depende del valor de 𝛼 que se elija; para cada 𝛼 se puede mostrar que hay un único

subárbol de 𝑇0 el cual minimiza 𝐶𝛼(𝑇).

5.6 Redes Neuronales.

Las redes neuronales fueron desarrolladas en el campo de aprendizaje

automático (machine learning) con la idea de imitar la neuropsicología del cerebro

humano a través de la combinación de elementos simples computacionales

(neuronas) en un sistema altamente interconectado; y una aparte de sus muchos

usos, es fungir como un método importante de minería de datos.

En particular, son muy útiles para ajustar datos observados, especialmente

con bases de datos de alta dimensión y con aquellas bases caracterizadas por

información incompleta, con errores o incongruencias.

Una red neuronal está compuesta de un conjunto de unidades

computacionales llamadas neuronas, conectadas entre sí a través de un peso de

102

conexión. Dichas unidades están organizadas en capaz de tal forma que cada

neurona es conectada únicamente con las neuronas de niveles previos y niveles

subsecuentes.

Cada neurona, también llamada nodo, representa una unidad computacional

autónoma que recibe salidas como una serie de señales que indican su activación,

con las cuales la neurona genera su propia salida y a pesar de que todas las señales

de salida llegan a una neurona simultáneamente, esta solamente produce una

salida.

Cada señal de salida es asociada con un peso de conexión, el cual determina

la importancia que la señal de salida puede producir en el impulso final trasmitido

por la neurona. La conexión puede ser de exaltación, inhibición o nula de acuerdo

a si los pesos correspondientes son positivo, negativo o nulo, respectivamente.

Los pesos son coeficientes adaptables que, en analogía con el método

biológico, son modificados en respuesta a varias señales que viajan a través de la

red de acuerdo al algoritmo de aprendizaje disponible. Además, se introduce un

valor umbral, llamado inclinación, que se puede comparar con el intercepto de un

modelo de regresión.

En términos más formales, una neurona general 𝑗, con un límite 𝜃𝑗, recibe 𝑛

señales de entrada 𝑥 = [𝑥1, 𝑥2, … , 𝑥𝑛] de las unidades de capas previas con las que

está conectada. Cabe señalar que es adherida con un peso de importancia 𝑤𝑗 =

[𝑤1𝑗, 𝑤2𝑗, … , 𝑤𝑛𝑗].

La misma neurona elabora entonces señales de entrada, sus pesos de

importancia y el valor límite, unidos en una función de combinación, la cual es la

103

encargada de producir un valor conocido como potencial o entrada neta. Es

entonces cuando una función de activación transforma el potencial en una señal de

salida.

Figura 5.4 Representación de la actividad de una neurona en una red

neuronal.

Dado que la función de combinación es usualmente lineal, el potencial es la

suma ponderada de los valores de entrada multiplicados por los pesos de las

conexiones respectivas. Esta suma es comparada con el valor umbral, por tanto, el

potencial de la neurona 𝑗 está definido por

𝑃𝑗 =∑(𝑥𝑖𝑤𝑖𝑗 − 𝜃𝑗)

𝑛

𝑖=1

Para simplificar la expresión, el término de inclinación puede ser absorbido

considerándolo como la salida más lejana con valor constante 𝑥0 = 1, conectado a

través de un peso 𝑤0𝑗 = −𝜃𝑗:

𝑃𝑗 =∑(

𝑛

𝑖=0

𝑥𝑖𝑤𝑖𝑗)

Ahora, la señal de salida de la j-ésima neurona 𝑦𝑗 es obtenida aplicando la

función de activación a la potencia 𝑃𝑗:

104

𝑦𝑗 = 𝑓(𝒙,𝒘𝒊) = 𝑓(𝑃𝑗) = 𝑓 (∑𝑥𝑖𝑤𝑖𝑗

𝑛

𝑖=0

)

Donde x y wi son vectores.

La función de activación es uno de los elementos a especificar en la definición

de un modelo de redes neuronales. Tres tipos comunes son: lineal, paso a paso y

sigmoidal. Una función de activación lineal está definida por:

𝑓(𝑃𝑗) = 𝛼 + 𝛽𝑃𝑗

Donde 𝑃𝑗 ∈ ℝ y 𝛼 y 𝛽 son constantes reales.

Una función de activación paso a paso está definida como

𝑓(𝑃𝑗) = {𝛼 𝑃𝑗 ≥ 𝜃𝑗𝛽 𝑃𝑗 < 𝜃𝑗

La cual solo puede asumir dos valores dependiendo de si excede o no el

limite 𝜃𝑗. Para 𝛼 = 1, 𝛽 = 0 y 𝜃𝑗 = 0 obtenemos la llamada señal de función de

activación, la cual toma valores 0 si el potencial es negativo y valor +1 si el potencial

el positivo.

Las funciones de activación sigmoidal o en forma de s, son posiblemente las

más usadas, solo producen salidas positivas y su dominio se encuentra en el

intervalo [0,1]. Probablemente son las más usadas porque no son lineales y son

fácilmente diferenciables y entendibles. Una función de activación sigmoidal está

definida como

𝑓(𝑃𝑗) =1

1 + 𝑒−𝛼𝑃𝑗

Donde 𝛼 es un parámetro positivo que regula la pendiente de la función.

105

5.6.1 Arquitectura de una Red Neuronal.

Las capas en las que están organizadas las neuronas en una red neuronal

pueden ser de tres tipos: de entrada, ocultas o de salida. Las primeras reciben la

información solo de ambientes externos, donde cada neurona corresponde a una

variable explicatoria, las capas de entrada no realizan ningún cálculo y solo

transmiten la información hacia el siguiente nivel.

Las capas de salida son las que producen los resultados finales, los cuales

son enviados por la red hasta la salida del sistema. Entre las capas de entrada y de

salida puede haber una o más capas intermedias, llamadas capas ocultas, que son

destinadas exclusivamente para el análisis, además de que hacen la relación entre

las capas de entrada y de salida.

Dado que en la literatura no hay una convención estándar para calcular el

número de capas en una red neuronal, algunos autores cuentan todas las capas de

las neuronas y otros cuentan las capas de neuronas ponderadas.

La arquitectura de una red neuronal se refiere a la organización de las

neuronas: número de capas, número de unidades (neuronas) en cada capa, y la

forma en la que estas unidades están conectadas. La arquitectura de una red puede

ser representada usando una gráfica, por lo que en ocasiones se utiliza el término

“topología de la red” en lugar de “arquitectura de la red”. Para clasificar la topología

de la red se usan cuatro características principales:

Grado de diferenciación entre la capa de entrada y la capa de salida.

Número de capas.

Dirección del flujo para la computación.

106

Tipo de conexión.

La topología más simple para una red es conocida como auto asociativa, esta

tiene una única capa de neuronas inter conectadas donde las unidades de entrada

coinciden con las unidades de salida, este tipo no suele ser de interés estadístico.

Las neuronas con una única capa de neuronas ponderadas son conocidas

como perceptrones de única capa, las cuales tienen 𝑛 unidades de entrada

(𝑥1, … , 𝑥𝑛) conectadas a una capa de 𝑝 unidades de salida (𝑦1, … , 𝑦𝑝) a través de un

sistema de pesos, el cual puede ser representado en forma de matriz.

(

𝑤11 ⋯⋮ ⋱

𝑤1𝑗 ⋯

⋮ ⋱

𝑤1𝑝⋮

𝑤𝑖1 ⋯⋮ ⋱

𝑤𝑖𝑗 ⋯

⋮ ⋱

𝑤𝑖𝑝⋮

𝑤𝑛1 ⋯ 𝑤𝑛𝑗 ⋯ 𝑤𝑛𝑝)

Para 𝑖 = 1,… , 𝑛, 𝑗 = 1,… , 𝑝. El peso 𝑤𝑖𝑗 representa el peso de la conexión

entre el i-ésimo neuron de la capa de entrada y el j-ésimo neuron de la capa de

salida.

Enfoquémonos en las redes neuronales con más de una capa de neuronas

ponderadas, las cuales contienen una o más capas ocultas, conocidas como

perceptrones multicapa. Una red de dos capas tiene una capa oculta, 𝑛 neuronas

en la capa de entrada, ℎ en la capa oculta y 𝑝 en la capa de salida. Los pesos

𝑤𝑖𝑘 (𝑖 = 1, … , 𝑛; 𝑘 = 1,… , ℎ) conectan los nodos de la capa de entrada con los nodos

de la capa oculta, y los pesos 𝑧𝑘𝑗 (𝑘 = 1,… , ℎ; 𝑗 = 1,… , 𝑝) conectan los nodos de la

capa oculta con los nodos de la capa de salida.

Las neuronas de la capa oculta reciben información de la capa de entrada,

ponderada por los pesos 𝑤𝑖𝑘 y produce salidas ℎ𝑘 = 𝑓(𝑥,𝑤𝑘), donde 𝑓 es la función

107

de activación de las unidades en la capa oculta. Las neuronas de la capa de salida

reciben las salidas de la capa oculta, ponderadas por los pesos 𝑧𝑘𝑗 y produce las

salidas finales de la red 𝑦𝑖 = 𝑔(ℎ, 𝑧𝑗).

Entonces, la salida de la neurona 𝑗 en la capa de salida es

𝑦𝑖 = 𝑔(∑ℎ𝑘𝑧𝑘𝑗𝑘

) = 𝑔(∑𝑧𝑘𝑗𝑓 (∑𝑥𝑖𝑤𝑖𝑘𝑖

)

𝑘

)

Note que los valores de salida de una red neuronal no son de forma lineal.

Diferente información de flujo conduce a diferentes tipos de redes. En redes

de avance, la información se mueve en una sola dirección, de una capa a la

siguiente y sin ciclos de retorno. Mientras que, en redes de realimentación es posible

que la información regrese a capas previas.

Si cada unidad de una capa está conectada con todas las unidades de la

siguiente capa, se dice que la red está totalmente interconectada; y si cada unidad

es conectada con cada unidad de cada capa, se dice que la red está totalmente

conectada.

Las redes también pueden ser clasificadas en tres tipos de acuerdo a sus

conexiones ponderadas: redes con pesos ajustados, redes supervisadas y redes no

supervisadas. Dado que las redes con pesos ajustados no pueden ‘aprender’ de los

datos y no ofrecen un modelo estadístico, no las consideraremos.

Las redes supervisadas usan una variable de supervisión, como se vio en la

sección 4.5, mediante está se puede obtener información de los valores de una

variable de respuesta correspondiente respecto a los valores de las variables

explicatorias; tal información puede ser usada para saber los pesos del modelo de

108

redes neuronales. La variable de respuesta fungirá como un supervisor del

problema.

Si esta información no está disponible, entonces el aprendizaje de los pesos

es basado exclusivamente en las variables explicatorias y no hay supervisor. Escrito

formalmente tenemos:

Aprendizaje supervisado: Asuma que cada observación está descrita por un

par de vectores (𝑥𝑖, 𝑡𝑖) que representan las variables exploratorias y de

respuesta, respectivamente. Sea 𝐷 = {(𝑥1, 𝑡1),… , (𝑥𝑛, 𝑡𝑛)} el conjunto de

todas las observaciones disponibles. El problema entonces es determinar

una red neuronal 𝑦𝑖 = 𝑓(𝑥𝑖), 𝑖 = 1,… , 𝑛, tal que la suma de las distancias

𝑑(𝑦𝑖, 𝑡𝑖) sea mínima. Note que es análoga con los modelos de regresión

lineal.

Aprendizaje no supervisado: Cada observación es descrita por un único

vector, con todas las variables disponibles 𝐷 = {𝑥1, … , 𝑥𝑛}. Aquí el problema

es la partición del conjunto D en subconjuntos tales que los vectores 𝑥𝑖,

convertidos en el mismo subconjunto sean “cerrados” en comparación a la

medida ajustada de distancia. Básicamente es un problema de clasificación.

5.6.2 El perceptrón Multicapa.

Es considerada como la arquitectura más usada para predicción en minería

de datos; es una red de alimentación (avance) con posiblemente varias capas

ocultas, una capa de entrada y una de salida, totalmente interconectadas. Puede

ser considerada como una generalización no lineal del modelo de regresión logística

cuando las variables son cualitativas.

109

Análisis preliminar

Los perceptrones multicapa, y en redes neuronales en general, son usados

ineficientemente en datos reales porque no tienen consideraciones preliminares.

Por lo que aun siendo una herramienta computacional poderosa también requiere

de un previo análisis exploratorio (Capítulo 4).

Codificación de variables.

Las variables en redes neuronales pueden ser clasificadas por su tipo -

cualitativa o cuantitativa- y por su papel en la red –entrada o salida- que equivalen

a variables explicatorias y de respuesta, respectivamente, en métodos estadísticos.

Las variables cuantitativas son representadas por una neurona, mientras

que, en las cualitativas, tanto exploratorias como de respuesta, son representadas

de forma binaria usando varias neuronas para cada variable, donde el número de

neuronas es igual al número de niveles de la variable (Sección 3.3). En la práctica

el número de neuronas que representa a una variable no necesariamente es igual

al número de su nivel, es admisible eliminar un nivel y por tanto un neuron.

Transformación de las variables.

Una vez que las variables son codificadas, se podría requerir hacer algún tipo

de transformación, que, si bien podría ser la estandarización de los pesos de las

variables de salida, no es estrictamente necesario. Además, que, si se utilizan

entradas o salidas con alguna transformación para hacer predicción, la salida final

debe ser mapeada a la escala original.

Reducción en la dimensionalidad de las variables de salida.

Es una de las formas más importantes de pre procesamiento, el enfoque más

sencillo es eliminar un subconjunto de las entradas originales. Otro enfoque crea

110

combinaciones lineales o no lineales de las variables originales para representar las

entradas para la red, los métodos de componentes principales pueden ser muy

útiles para esto (Sección 4.5).

Elección de la arquitectura.

Muchas redes neuronales optimizan su arquitectura como parte del proceso

de aprendizaje. Las arquitecturas de redes rara vez son comparadas usando

métodos clásicos, esto porque una red neuronal no requiere de un fundamento en

un modelo probabilístico, y raramente tiene uno.

Aprendizaje de los pesos.

Una vez especificada una arquitectura para la red, los pesos son estimados

en base a los datos, como si fueran parámetros de un modelo de regresión

(complejo). En la práctica se consideran dos aspectos importantes:

La función de error entre los valores observados y los valores ajustados

deben ser una función de distancia clásica, tal como la Euclideana o el error

de clasificación errónea, o también puede depender de forma probabilística

de la distribución condicional de las variables de salida respecto a las

entradas.

Se necesita que el algoritmo de optimización sea un método

computacionalmente eficiente para obtener estimaciones de los pesos por

minimización de la función error.

Las funciones error usualmente empleadas por perceptrones multicapa son

basadas en el principio de máxima verosimilitud. Para un conjunto dado 𝐷 =

{(𝑥1, 𝑡1),… , (𝑥𝑛, 𝑡𝑛)} se requiere que se minimice la función de error de entropía.

111

𝐸(𝑤) =∑log 𝑝(𝑡𝑖|𝑥𝑖; 𝑤)

𝑛

𝑖=1

Donde 𝑝(𝑡𝑖|𝑥𝑖; 𝑤) es la distribución de la variable de respuesta, condicionada

a los valores de salida y a la función ponderada. Para más detalles ver Bishop

(1995).

Revisemos la forma de la función de error para dos aplicaciones principales

de dos perceptrones multicapa: predicción de respuestas continuas (regresión

predictiva) y predicción de respuestas cualitativas (clasificación predictiva).

Funciones de error para regresión predictiva.

Cada componente 𝑡𝑖,𝑘 del vector de respuesta 𝑡𝑘 es asumido como la suma

de un componente determinístico y un término error, similar a la regresión lineal:

𝑡𝑖,𝑘 = 𝑦𝑖,𝑘 + 휀𝑖,𝑘 (𝑘 = 1,… , 𝑞)

Donde 𝑦𝑖,𝑘 es el k-ésimo componente del vector de salida 𝑦𝑖.

Se puede asumir, además, que dos términos error son distribuidos

normalmente, con el propósito de obtener más información de la red neuronal.

Así entonces, el propósito principal del aprendizaje estadístico es minimizar

la función error en términos de los pesos, por lo que podemos omitir todo aquello

que no dependa de los pesos, obteniendo

𝐸(𝑤) =∑∑(𝑡𝑖,𝑘 − 𝑦𝑖,𝑘)2

𝑞

𝑘=1

𝑛

𝑖=1

La cual puede ser minimizada usando el procedimiento de mínimos

cuadrados (Sección 4.3). De hecho, una regresión lineal puede verse como un

112

modelo de redes neuronales sin capas ocultas y con una función lineal de

activación.

Funciones de error para clasificación predictiva.

Los perceptrones multicapa también pueden usarse para resolver problemas

de clasificación, específicamente, son usados para estimar las probabilidades de

afiliación de cada observación a los diferentes grupos. Usualmente hay una unidad

de salida para cada clase posible, además de que la función de activación para cada

unidad de salida representa la probabilidad condicionada 𝑃(𝐶𝑘|𝑥), donde 𝐶𝑘 es la k-

ésima clase y 𝑥 es el vector de salida. El valor de salida 𝑦𝑖,𝑘 representa la

probabilidad ajustada de la observación 𝑖 correspondiente al k-ésimo grupo 𝐶𝑘. Para

minimizar la función error respecto a los pesos, se necesita minimizar

𝐸(𝑤) = −∑∑[𝑡𝑖,𝑘 log 𝑦𝑖,𝑘 + (1 − 𝑡𝑖,𝑘) log(1 − 𝑦𝑖,𝑘)]

𝑞

𝑘=1

𝑛

𝑖=1

El cual representa una distancia basada en el índice de entropía de

heterogeneidad (Sección 4.1).

Elección del algoritmo de optimización.

Dado que en general la función error 𝐸(𝑤) de una red neuronal es altamente

no lineal en los pesos, hay muchos mínimos que satisfacen la condición ∇𝐸 = 0, lo

que ocasiona que no exista una solución óptima global 𝑤∗. Recurriremos entonces

a los algoritmos iterativos. Supongamos que existe un estimador inicial 𝑤(0) que

produce una secuencia de puntos 𝑤(𝑠); 𝑠 = 1,2, …, que convergen a un cierto valor

�̂�. Esto es descrito a más detalle

1. Elegir una dirección 𝑑(𝑠) para la búsqueda.

113

2. Elegir un “momento” 𝛼(𝑠) y un conjunto 𝑤(𝑠+1) = 𝑤(𝑠) + 𝛼(𝑠)𝑑(𝑠).

3. Si se verifica un cierto criterio de convergencia, entonces �̂� = 𝑤(𝑠+1), de otro

modo el conjunto 𝑠 = 𝑠 + 1 y se regresa al paso 1.

Es muy importante elegir cuidadosamente los pesos para poder obtener un

ajuste valido y una buena razón de convergencia. El parámetro “momento” también

necesita ser elegido cuidadosamente; si es muy pequeño, el algoritmo converge de

forma muy lenta; si es muy grande, el algoritmo oscila de forma inestable y puede

no converger.

También es importante elegir cuando detener o interrumpir el algoritmo de

aprendizaje. Algunas opciones son: detener después de cierto número de

iteraciones; detener después de un cierto tiempo de computo (uso de CPU); detener

cuando la función error entre dos valores consecutivos de la función de error sea

menor que un cierto valor. Para más detalles ver Bishop (1995). Dado que no es

posible establecer cuál es el mejor algoritmo para detener o interrumpir el algoritmo

de aprendizaje, se realizan diferentes dependiendo el problema.

Generalización y Predicción.

El objetivo de crear una red neuronal con datos, no es encontrar una

representación exacta de los datos, se trata de construir un modelo que pueda ser

generalizado o que guie a obtener clasificaciones y predicciones validas cuando se

le alimente con nuevos datos.

Al igual que en modelos árbol, se puede realizar supervisión de una red

neuronal evaluándola respecto a un conjunto de datos de validación. Una red que

es muy compleja y que se realizó con muchas iteraciones puede perfectamente

114

predecir y clasificar los datos en el conjunto de validación, aunque esto puede

resultar contraproducente en la aplicación en datos reales a causa de un

sobreajuste, lo cual implica una reducción en su capacidad predictiva sobre nuevos

datos.

Para ilustrar mejor el problema, considere solo dos observaciones para una

variable de entrada y una de salida, una línea recta se adapta perfectamente a los

datos, pero predice pobremente a una tercera observación, especialmente si esta

es muy diferente a las observaciones previas. En cambio, un modelo simple como

la media aritmética de las dos observaciones de salida que, si bien se ajusta muy

mal a los dos puntos, puede ser un predictor más razonable para el tercer punto.

Para limitar el problema de sobreajuste es importante controlar el grado de

complejidad del modelo. Para esto hay dos propuestas principales, la primera es la

regularización, que es la adición de un término de penalización para la función de

error, y la otra es la detención temprana, que es la introducción de un término de

detención en las iteraciones del proceso de aprendizaje.

En la regularización, el sobreajuste es abordado directamente cuando los

pesos son estimados. Es decir, los pesos son preparados para minimizar una

función de error de la siguiente forma

�̃�(𝑤) = 𝐸(𝑤) + 𝑣Ω

Donde 𝐸 es una función de error, Ω describe la complejidad de la red y 𝑣 es

un parámetro que penaliza la complejidad.

115

Una útil función de regularización es basada en la descomposición de los

pesos, el cual consiste en tomar Ω igual a la suma del cuadrado de los pesos

(incluyendo la pendiente) de la red neuronal:

Ω =1

2∑𝑤𝑖

2

𝑖

La detención temprana usa el hecho de que la función de error usualmente

muestra una reducción inicial seguido por un incremento, el cual inicia cuando la red

empieza a tener problemas con sobreajuste.

Propiedades optimas de perceptrones multicapa.

Una estructura simple de redes neuronales (con dos capas de pesos, función

de activación sigmoidal para los nodos ocultos y función de activación identidad

para los nodos de salida) es capaz de aproximarse a alguna forma funcional con

precisión arbitraria. Esto es conocido como el principio de aproximación universal -

la razón de convergencia no depende de la dimensión del problema.

116

Capítulo 6

Estadística en minería de

datos.

117

En este capítulo se mostrarán algunas de las metodologías estadísticas

usadas en minería de datos, las cuales son sustentadas bajo un modelo

probabilístico. Estas metodologías, aunque con una estructura más complicada,

proveen de mejores resultados que son más fáciles de interpretar. No obstante,

debido a que no es propósito de este trabajo, no se adentrará a fondo en los

métodos que se mencionen.

6.1 Medidas de Incertidumbre e Inferencia.

Hasta ahora no habíamos considerado ninguna hipótesis probabilística sobre

las variables, sin embargo, dado que generalmente las observaciones consideradas

son un subconjunto de la población objetivo, es decir, una muestra, es necesario

introducir un modelo probabilístico que pueda describir adecuadamente la

variabilidad muestral. En otras palabras, un modelo probabilístico es una

herramienta para modelar la información de incertidumbre que influye en la toma de

decisiones.

6.1.1 Probabilidad.

Un evento es cualquier proposición que pueda ser cierta o falsa y que es un

subconjunto de Ω, el cual es conocido como el espacio de todos los eventos

posibles. Sea 𝑎 una clase de subconjuntos de Ω, llamado espacio evento. Una

función de probabilidad 𝑃 es una función definida sobre 𝑎 que satisface los

siguientes axiomas:

a) 𝑃(𝐴) ≥ 0, ∀ 𝐴 ∈ 𝑎

b) 𝑃(Ω) = 1

118

c) Si 𝐴1, 𝐴2, … es una secuencia de eventos de 𝑎 que son mutuamente

excluyentes por pares (𝑖. 𝑒. 𝐴𝑖 ∩ 𝐴𝑗 = ∅ 𝑝𝑎𝑟𝑎 𝑖 ≠ 𝑗; 𝑖, 𝑗 = 1,2, … ) y si 𝐴1 ∪

𝐴2 ∪ … = ⋃ 𝐴𝑖 ∈ 𝑎∞𝑖=1 , entonces 𝑃(⋃ 𝐴𝑖

∞𝑖=1 ) = ∑ 𝑃(𝐴𝑖)

∞𝑖=1 .

El primer axioma dice que la probabilidad es una función no negativa; el

segundo establece que la probabilidad de Ω es 1, es decir, que Ω es un evento que

siempre será cierto dado que coincide con todos los posibles resultados, también

se sigue que para cualquier evento, subconjunto de Ω, su probabilidad es un número

real entre [0,1]; el tercer axioma dice que la probabilidad de ocurrencia de cualquier

colección de eventos (posiblemente infinita y mutuamente excluyente) es la suma

de las probabilidades de ocurrencia de cada uno de ellos. Esta es la definición

axiomática de probabilidad hecha por Kolmogorov (1933).

A partir de estos tres axiomas podemos deducir las siguientes reglas básicas

de probabilidad, como lo son:

Regla del complemento: si 𝐴 es cualquier evento en 𝑎 y �̅� es su

complemento (negación), entonces 𝑃(�̅�) = 1 − 𝑃(𝐴).

Regla de la unión: para cualquier par de eventos 𝐴, 𝐵 ∈ 𝑎, 𝑃(𝐴 ∪ 𝐵) =

𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵), donde el evento unión es cierto cuando ya

sea que 𝐴 𝑜 𝐵 sea cierto, y el evento intersección 𝐴 ∩ 𝐵 es cierto

cuando ambos 𝐴 𝑦 𝐵 son ciertos.

Además, podemos definir la probabilidad de que ocurra un evento 𝐴

condicionado a la información de que ocurrió un evento 𝐵, esto es

𝑃(𝐴|𝐵) =𝑃(𝐴 ∩ 𝐵)

𝑃(𝐵) 𝑐𝑜𝑛 𝑃(𝐵) > 0

119

Y a su vez, usando la probabilidad condicional podemos abordar reglas

importantes como:

Regla de intersección: Sea 𝐴, 𝐵 ∈ 𝑎. Entonces

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵)𝑃(𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴)

Eventos independientes: Si 𝐴 es independiente de 𝐵, se espera que:

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵)

𝑃(𝐴|𝐵) = 𝑃(𝐴)

𝑃(𝐵|𝐴) = 𝑃(𝐵)

En otras palabras, si dos eventos son independientes, se sabe que la

probabilidad de que uno de ellos ocurra no altera la probabilidad de

que el otro también ocurra.

Regla de probabilidad total: Considere 𝑛 eventos 𝐻𝑖 = 1,… , 𝑛,

mutuamente excluyentes por pares y exhaustivos de Ω

(equivalentemente, forma una partición de Ω), con 𝑃(𝐻𝑖) > 0.

Entonces, la probabilidad de un evento 𝐵 ∈ 𝑎 esta dado por

𝑃(𝐵) =∑𝑃(𝐵|𝐻𝑖)𝑃(𝐻𝑖)

𝑛

𝑖=1

Regla de Bayes: Considere 𝑛 eventos 𝐻𝑖 = 1,… , 𝑛, mutuamente

excluyentes por pares y exhaustivos de Ω (equivalentemente, forma

una partición de Ω), con 𝑃(𝐻𝑖) > 0. Entonces, la probabilidad de un

evento 𝐵 tal que 𝑃(𝐵) > 0 es dada por

𝑃(𝐻𝑖|𝐵) =𝑃(𝐵|𝐻𝑖)𝑃(𝐻𝑖)

∑ 𝑃(𝐵|𝐻𝑗)𝑃(𝐻𝑗)𝑗

120

Note que el denominador es el resultado de la regla de la probabilidad

total, la cual actúa como una constante normalizadora de la

probabilidad en el numerador.

El teorema de Bayes es la base central de la metodología inferencial

conocida como estadística Bayesiana.

6.1.2 Inferencia Estadística

Sea 𝑿 un vector formado por una secuencia de variables aleatorias, 𝑿 =

(𝑋1, 𝑋2, … , 𝑋𝑛), y 𝒙 = (𝑥1, 𝑥2, … , 𝑥𝑛) es la muestra de valores observados. Se puede

mostrar que si las observaciones son i.i.d. (independientes e idénticamente

distribuidas), la distribución acumulativa de 𝑿 se simplifica a

𝐹(𝒙) =∏𝐹(𝑥𝑖)

𝑛

𝑖=1

Donde 𝐹(𝑥𝑖) es la distribución acumulativa de 𝑋, evaluado para cada valor

de la muestra (𝑥1, 𝑥2, … , 𝑥𝑛). Si 𝒙 = (𝑥1, 𝑥2, … , 𝑥𝑛) son los valores de la muestra

observada, esta expresión da una probabilidad, de acuerdo al modelo estadístico

asumido, de que los valores de la muestra observados sean menores o iguales a

los valores observados. En otras palabras, se mide que tan bueno es el modelo

asumido para los datos. Además, cuando 𝑋 es una variable aleatoria continua,

𝑓(𝒙) =∏𝑓(𝑥𝑖)

𝑛

𝑖=1

121

Donde 𝑓 es la función de densidad de 𝑋 y cuando 𝑋 es una variable aleatoria

discreta

𝑝(𝒙) =∏𝑝(𝑥𝑖)

𝑛

𝑖=1

Donde 𝑝 es la función de probabilidad discreta de 𝑋. Un valor alto de 𝑝(𝒙),

cercano a 1, implica que los datos son bien descritos por el modelo; por el contrario,

si 𝑝(𝒙) es bajo, los datos son pobremente descritos. Se obtiene conclusiones

similares para 𝑓(𝒙) en el caso continuo, con la diferencia de que la densidad

muestral 𝑓(𝒙) no está contenida en [0,1] como la probabilidad muestral.

En ambos casos se puede decir que tanto 𝑝(𝒙) como 𝑓(𝒙) expresan la

verosimilitud del modelo para los datos. Como los datos observados son típicamente

valores muestrales, el propósito principal de la inferencia estadística es “extender”

la validez de los cálculos obtenidos sobre la muestra a la población total.

Bajo esta idea, cuando se calculan resúmenes estadísticos sobre una

muestra del total de la población, es más correcto utilizar el término “estimador”. Las

funciones de resumen producen los estimadores, cuando se aplican a los datos son

llamados estadísticos, por ejemplo, la media muestral y la varianza muestral. Una

propiedad deseada para los estimadores es: se dice que un estimador 𝑇 es

insesgado para un parámetro 𝜃 si 𝐸(𝑇) = 𝜃. La diferencia 𝐸(𝑇) − 𝜃 es conocida

como sesgo del estimador y es nula si el estimador es insesgado. Revisemos los

dos métodos más importantes en la práctica:

122

Método de Máxima Verosimilitud

Inicia considerando la verosimilitud de un modelo, el cual, en el caso

paramétrico, es la densidad conjunta de 𝑿 expresada como una función de

parámetros 𝜃 desconocidos:

𝑝(𝒙; 𝜃) =∏𝑝(𝑥𝑖, 𝜃)

𝑛

𝑖=1

Donde 𝜃 son los parámetros desconocidos y 𝑿 es asumida discreta. Se utiliza

la misma expresión para el caso continuo pero remplazando 𝑝 por 𝑓. Seguiremos

usando la notación para el caso discreto, pero sin perder generalidad. Entonces,

dado que la verosimilitud es una función de los parámetros 𝜃, la expresión puede

ser denotada como 𝐿(𝜃; 𝒙).

El método sugiere buscar el estadístico que maximice 𝐿(𝜃; 𝒙) con respecto a

𝜃, el parámetro desconocido. En otras palabras, se busca seleccionar el valor del

parámetro que haga que los datos observados sean más probables bajo el modelo

estadístico asumido.

Los estadísticos generados usando máxima verosimilitud son conocidos

como estimadores de máxima verosimilitud (MLEs, por sus siglas en ingles), los

cuales, en particular pueden ser usados para generar intervalos de confianza. El

procedimiento típico implica asumir la disponibilidad de un gran tamaño de muestra

(lo cual es frecuente en minería de datos), en tal caso el MLE es aproximadamente

distribuido como una distribución Gaussiana (Normal). Por lo que el estimador

123

puede ser usado para generar un intervalo de confianza asintótico. Por ejemplo, sea

𝑇 un MLE y sea 𝑉𝑎𝑟(𝑇) su varianza asintótica. Entonces, un intervalo de confianza

de 100(1 − 𝜃)% está dado por

(𝑇 − 𝑧1−𝛼 2⁄√𝑉𝑎𝑟(𝑇), 𝑇 + 𝑧1−𝛼 2⁄

√𝑉𝑎𝑟(𝑇))

Donde 𝑧1−𝛼 2⁄ es el 100(1 − 𝛼 2⁄ ) percentil de la distribución normal estándar,

tal que la probabilidad de obtener un valor mejor que 𝑧1−𝛼 2⁄ es igual a 1 − 𝛼 2⁄ . La

cantidad 1 − 𝛼 2⁄ también es conocida como el nivel de confianza del intervalo, que

da la confianza con la que el proceso es correcto en 100(1 − 𝛼 2⁄ )% de los casos,

es decir, que la cantidad desconocida estará dentro del intervalo elegido en

100(1 − 𝛼 2⁄ )% de las veces. Tiene que ser especificado antes del análisis.

Método Bayesiano

Este método utiliza la regla de Bayes, la cual proporciona una poderosa

herramienta para la combinación de información muestral (priori) con la opinión de

un especialista para producir una actualización de la opinión del especialista

(posteriori).

En el análisis Bayesiano un parámetro es tratado como una variable aleatoria,

cuya incertidumbre es modelada por una distribución de probabilidad. Esta

distribución es conocida como distribución a priori 𝑝(𝜃), establecida en ausencia de

datos muestreados.

La verosimilitud es la distribución de la muestra, condicionada sobre los

valores de la variable aleatoria 𝜃, 𝑝(𝒙|𝜃). La regla de Bayes provee un algoritmo

124

para actualizar la opinión del especialista con ayuda de los datos, produciendo la

llamada distribución a posteriori:

𝑝(𝜃|𝒙) = 𝑐−1𝑝(𝒙|𝜃)𝑝(𝜃)

Con 𝑐 = 𝑝(𝒙) como una constante que no depende del parámetro

desconocido 𝜃. La distribución a posteriori representa la principal herramienta para

la inferencia Bayesiana, ya que una vez obtenida, es fácil obtener cualquier

inferencia de interés.

Por otro lado, tiene la desventaja de que requiere de un enfoque

computacional más intensivo, así como de un pensamiento estadístico muy

cuidadoso, especialmente para proveer una distribución a priori adecuada.

Prueba de hipótesis.

Una hipótesis estadística es una aseveración acerca de una cantidad

poblacional desconocida, desarrollada en pares: una hipótesis nula 𝐻0, que

especifica la hipótesis a verificar; y una hipótesis alternativa 𝐻1, que especifica la

hipótesis con la cual se compara. Usualmente, su procedimiento es basado por la

elaboración de una regla de rechazo, con la que 𝐻0 es rechazada si una muestra

estadística observada satisface tal regla, y viceversa.

La forma más simple de construir una regla de rechazo es usando intervalos

de confianza. Se define a la región de aceptación de una prueba como el

complemento lógico de la región de rechazo. Una región de aceptación para una

prueba de hipótesis (de dos lados) puede ser obtenida mediante dos desigualdades

que describen un intervalo de confianza, intercambiando el parámetro con el

125

estadístico y ajustando el valor del parámetro para que sea igual al de la hipótesis

nula. La región de rechazo es obtenida invirtiendo los signos de las desigualdades.

Por ejemplo en la distribución normal, la hipótesis 𝐻0: 𝜇 = 0 será rechazada

en contra de la hipótesis alternativa 𝐻0: 𝜇 ≠ 0 cuando el valor observado de �̅� esta

fuera del intervalo

(0 − 𝑧(1−∝ 2⁄ )√𝑉𝑎𝑟(�̅�), 0 + 𝑧(1−∝ 2⁄ )

√𝑉𝑎𝑟(�̅�))

La probabilidad 𝛼 tiene que ser especificada a priori y es conocida como nivel

de significancia.

6.2 Modelación No Paramétrica.

El procedimiento no paramétrico elimina la necesidad de especificar la forma

de especificar la forma de la distribución anticipadamente; un modelo paramétrico

solo asume que las observaciones viene de cierta función de distribución 𝐹, sin

especificar ningún parámetro. Comparados con los modelos paramétricos, los

modelos no paramétricos son más difíciles de interpretar y de estimar. Un equilibrio

entre ellos son los modelos semi-paramétricos.

Los modelos no paramétricos pueden ser caracterizados por la función de

distribución o por la función de densidad, las cuales no necesitan ser especificadas

por completo. Consideremos el estimador de la función de distribución. Un

estimador valido es la función de distribución empírica, denotada por 𝑆(𝑥).

Intuitivamente es un estimador análogo de la función de distribución 𝐹(𝑥) de la

variable aleatoria 𝑋. Formalmente, la función empírica es calculada, en algún punto

de 𝑥, tomando la proporción de observaciones muestradas menores o iguales,

126

𝑆(𝑥) =1

𝑛#{𝑥𝑖 ≤ 𝑥}

Se puede mostrar que la esperanza de 𝑆(𝑥) es 𝐹(𝑥) y que

𝑉𝑎𝑟(𝑆(𝑥)) =1

𝑛𝐹(𝑥)(1 − 𝐹(𝑥))

Por lo tanto, la función de distribución empírica es un estimador insesgado

de 𝐹(𝑥) y se cumple que, para 𝑛 → ∞,𝑉𝑎𝑟(𝑆(𝑥)) → 0 tal que 𝑀𝑆𝐸(𝑆(𝑥)) → 0 (𝑀𝑆𝐸:

error de mínimos cuadrados).

Además, la función de distribución empírica puede ser usada para evaluar la

bondad de ajuste del modelo paramétrico en una forma explotaría. Para esto,

usualmente se usa la prueba de Kolmogorov-Smirnov. En esta prueba, la hipótesis

nula se refiere a una distribución en particular llamada 𝐹∗(𝑥), por lo tanto tenemos

𝐻0: 𝐹(𝑥) = 𝐹∗(𝑥)

𝐻1: 𝐹(𝑥) ≠ 𝐹∗(𝑥)

La idea de la prueba es comparar la función de distribución observada 𝑆(𝑥)

con la función de distribución teórica, 𝐹∗, calculada usando los valores observados.

Entonces si 𝑆(𝑥) estima a 𝐹(𝑥) es lógico pensar en que la prueba de hipótesis sea

una “distancia” entre 𝑆(𝑥) y 𝐹(𝑥), con lo cual, si son lo suficientemente cercanos

(i.e. suficientemente similares), la hipótesis nula es aceptada, y rechazada de

cualquier otro modo.

Una de las medidas más fáciles para esto es el supremo de la distancia

vertical entre las dos funciones. Este es el estadístico sugerido por Kolmogorov:

𝑇1 = 𝑠𝑢𝑝−∞<𝑥<+∞|𝑆(𝑥) − 𝐹∗(𝑥)|

127

Para valores altos de 𝑇1, la hipótesis nula es rechazada; para valores bajos

de 𝑇1, la hipótesis nula es aceptada. Aunque el estadístico 𝑇1 es muy lógico, el

cálculo de la distribución de probabilidad es complicado, sin embargo, esta

distribución esta tabulada e incluida en los principales paquetes estadísticos por lo

que es posible determinar valores críticos para 𝑇1 y obtener regiones de rechazo

para la 𝐻0.

La prueba de Kolmogorov-Smirnov es muy importante en análisis

exploratorio, por ejemplo, cuando la gráfica (qq-plot) no da indicios obvios de si

cierta distribución empírica es normal o no, podemos revisar si la distancia entre la

distribución normal y la distribución empírica es lo suficientemente grande para

rechazar la 𝐻0.

Ahora, los modelos semi paramétricos más importantes son los modelos

mixtos. Estos modelos son adecuados para situaciones donde el conjunto de datos

puede ser agrupado dentro de grupos de observaciones, cada uno con una forma

paramétrica diferente. Se dice que el modelo es semi paramétrico porque el número

de grupos, es decir el número de distribuciones a considerar, es desconocido. La

forma general de una distribución mixta finita para una variable aleatoria 𝑋 es

𝑓(𝑥) =∑𝑤𝑖𝑓𝑖(𝑥𝑖: 𝜃𝑖)

𝑔

𝑖=1

Donde 𝑤𝑖 es la probabilidad de que una observación sea distribuida como la

i-ésima población, con densidad 𝑓𝑖 y vector de parámetros 𝜃𝑖. Usualmente todas las

funciones de densidad son iguales (después normal) y esto simplifica el análisis.

128

Otros métodos usados son AIC, MIC, validación de forma cruzada y

Bayesiano. Y una vez que el número de componentes es encontrado, los

parámetros desconocidos son estimados con los métodos de máxima verosimilitud

o Bayesiano.

6.3 Modelos Lineales Generalizados.

Durante décadas, el modelo lineal fue el principal modelo estadístico para el

análisis de datos, sin embargo, en muchas ocasiones la hipótesis de linealidad no

es realista. Además, el segundo elemento restrictivo de un modelo lineal normal es

el supuesto de normalidad y varianza constante de la variable de respuesta, pero

esto no se cumple en muchas de aplicaciones, lo cual limita la utilidad de este

modelo.

Por estas razones y gracias al desarrollo en la teoría estadística y en el poder

computacional, durante los años sesenta permitió a los investigadores tomar sus

técnicas para modelos lineales y aplicarlos en otros contextos, con lo que se

encontró que muchas de las propiedades “deseadas” de la distribución normal son

compartidas por un grupo más amplio de modelos estadísticos conocidos como la

familia exponencial.

6.3.1 La Familia Exponencial.

Considere una única variable aleatoria 𝑌 cuya función de densidad (o función

de probabilidad discreta) depende de un único parámetro 𝜃 (posiblemente un vector

de valores). Se dice que una distribución de probabilidad pertenece a la familia

exponencial, si su densidad se puede escribir de la forma

129

𝑓(𝑦; 𝜃) = 𝑠(𝑦)𝑡(𝜃)𝑒𝑎(𝑦)𝑏(𝜃)

Donde 𝑎, 𝑏, 𝑠 y 𝑡 son funciones conocidas. Para hacer más evidente la

simetría entre 𝑦 y el parámetro 𝜃, reescribiremos la ecuación anterior de la siguiente

forma

𝑓(𝑦; 𝜃) = exp[𝑎(𝑦)𝑏(𝜃) + 𝑐(𝜃) + 𝑑(𝑦)]

Donde 𝑠(𝑦) = exp [𝑑(𝑦)] y 𝑡(𝜃) = exp [𝑐(𝜃)]. Si se cumple que 𝑎(𝑦) = 𝑦, se

dice que la distribución está en la forma canónica, y 𝑏(𝜃) se conoce como el

parámetro natural de la distribución. Si hay otros parámetros (que representaremos

por ∅) además del parámetro de interés 𝜃, estos son considerados como parámetros

molestia, lo cuales son usualmente tratados como conocidos. Algunos ejemplos de

distribuciones pertenecientes a la familia exponencial son la Normal, la Binomial y

la Poisson.

6.3.2 Definición de Modelos Lineales Generalizados.

Un modelo lineal generalizado toma una función del valor medio de la variable

de respuesta y lo relaciona con las variables explicatorias a través de una ecuación

de forma lineal. Esto es especificado por tres componentes: un componente

aleatorio, el cual identifica la variable de respuesta 𝑌 y asume una distribución de

probabilidad para esta; un componente simétrico, el cual especifica las variables

explicatorias usadas como predictores del modelo; y una función de enlace, la cual

describe la relación funcional entre el componente sistemático y el valor medio del

componente aleatorio.

130

Componente aleatorio.

Para una muestra de tamaño 𝑛, el componente aleatorio es descrito por las

variables aleatorias muestrales 𝑌1, 𝑌2, … , 𝑌𝑛; las cuales son independientes y cada

una tiene una distribución de la forma de la familia exponencial que depende de un

único parámetro 𝜃𝑖, y cada uno es descrito por la función de densidad

𝑓(𝑦; 𝜃) = exp[𝑦𝑖𝑏(𝜃𝑖) + 𝑐(𝜃𝑖) + 𝑑(𝑦𝑖)]

Todas las distribuciones para Yi tienen que ser de la misma forma (por

ejemplo, todas normal o todas binomial) pero sus parámetros θi no tienen que ser

iguales.

Componente sistemático.

Especifica las variables explicatorias y su papel en el modelo es dado por la

combinación lineal

𝜂 = 𝛽1𝑥1 +⋯+ 𝛽𝑝𝑥𝑝 =∑𝛽𝑗𝑥𝑗

𝑝

𝑗=1

La combinación lineal 𝜂 es conocida como el predictor lineal. Las 𝑋𝑗

representan las covariables, cuyos valores son conocidos (se pueden derivar de la

matriz de datos, por ejemplo). Los 𝛽𝑗 son los parámetros que describen el efecto de

cada variable explicatoria sobre la variable de respuesta.

Los valores de los parámetros son generalmente desconocidos y deben ser

estimados de los datos. La parte sistemática puede escribirse de la siguiente forma

131

𝜂𝑖 =∑𝛽𝑗𝑥𝑖𝑗

𝑝

𝑗=1

, 𝑖 = 1,2, … , 𝑛

Donde 𝑥𝑖𝑗 es el valor de la j-ésima variable explicatoria para la i-ésima

observación. En forma matricial, tenemos

𝜼 = 𝑿𝜷 (148)

Donde 𝜼 es el vector de orden 𝑛 × 1, 𝑿 es una matriz de orden 𝑛 × 𝑝 llamada

matriz modelo, y 𝜷 es un vector de 𝑝 × 1, llamado vector de parámetros

Función de enlace.

Especifica el enlace entre el componente aleatorio y el componente

sistemático. Sea el valor medio de 𝑌𝑖 denotado por 𝜇𝑖 = 𝐸(𝑌𝑖), 𝑖 = 1,2, … , 𝑛.

La función de enlace especifica cual función de 𝜇𝑖 depende linealmente de

las variables explicatorias mediante el componente sistemático 𝜂𝑖. Sea 𝑔(𝜇𝑖) una

función de 𝜇𝑖 (monótona y diferenciable). Entonces, la función de enlace es definida

por

𝑔(𝜇𝑖) = 𝜂𝑖 =∑𝛽𝑗𝑥𝑖𝑗

𝑝

𝑗=1

, 𝑖 = 1,2, … , 𝑛

En otras palabras, la función de enlace describe como las variables

explicatorias afectan el valor medio de las variables de respuesta, esto es, mediante

la función 𝑔 (quien no necesariamente es lineal). En la práctica, las funciones de

132

enlace comúnmente usadas son la canónica y el parámetro natural, definidos como

una función del valor medio de repuesta de una distribución en particular.

Tabla 6.1 Principales Enlaces Canónicos.

Distribución Enlace Canónico

Normal 𝑔(𝜇𝑖) = 𝜇𝑖

Binomial 𝑔(𝜇𝑖) = log (𝜋𝑖

1 − 𝜋𝑖)

Poisson 𝑔(𝜇𝑖) = log 𝜇𝑖

6.3.3 Comparación de Modelos.

En general se dice que los valores ajustados, digamos �̂�𝑖, no son

exactamente iguales que los valores observados, 𝑦𝑖. El problema es entonces

establecer la distancia entre los �̂�𝑖’s y los 𝑦𝑖’s. A continuación, se presentan dos

medidas para comparar la bondad de ajuste de diferentes modelos generalizados,

la deviance y el estadístico de Pearson.

Antes que nada, se debe evaluar la bondad ajuste de un modelo

comparándolo con los modelos que producen el mejor y el peor ajuste. El mejor

modelo ajustado es llamado modelo saturado, el cual contiene tantos parámetros

como sea el número de observaciones (𝑛); y el peor modelo ajustado es conocido

como modelo nulo, que solo tiene el parámetro intercepto.

El modelo saturado es útil para comparar la medida de la bondad de ajuste

de un modelo con 𝑝 parametros. La cantidad resultante es llamada deviance y es

definida por un modelo 𝑀 (con 𝑝 parámetros) en la clase de modelos lineales

generalizados:

133

𝐺2(𝑀) = −2𝑙𝑜𝑔 {𝐿(�̂�(𝑀))

𝐿(�̂�(𝑀∗))}

Donde el numerador, es la función de verosimilitud, calculada usando

máxima verosimilitud de los parámetros estimados bajo el modelo 𝑀, denotados por

�̂�(𝑀); y el denominador es la función de verosimilitud de las observaciones,

calculada usando la máxima verosimilitud de los parámetros estimados bajo el

modelo saturado 𝑀∗. La expresión dentro de las llaves es conocida como la razón

de verosimilitud.

Se sabe que para un gran tamaño de muestra, como el caso de minería de

datos, 𝐺2(𝑀) es aproximadamente distribuida como una chi cuadrada con 𝑛 − 𝑘

grados de libertad, donde 𝑛 es el número de observaciones y 𝑘 es el número de

parámetros estimados bajo el modelo 𝑀. Si el modelo 𝑀 es considerado “bueno”,

entonces el valor de su máxima verosimilitud será cercano a la máxima verosimilitud

del modelo saturado 𝑀∗. Por lo tanto, valores “pequeños” de 𝐺2 indican un buen

ajuste.

La significancia de un modelo también puede ser evaluada comparándola

con el modelo nulo, tomando la diferencia en la deviance entre el modelo

considerado y el modelo nulo, obteniendo la estadística

𝐷 = −2𝑙𝑜𝑔 {𝐿(�̂�(𝑀0))

𝐿(�̂�(𝑀))}

134

Bajo la hipótesis nula de que el modelo nulo es cierto, 𝐷 es asintóticamente

distribuido como 𝜒𝑝2, donde 𝑝 es el número de variables explicatorias en el modelo

𝑀. Esto puede ser obtenido notando que 𝐷 = 𝐺2(𝑀0) − 𝐺2(𝑀) y asumiendo que las

dos deviances asintóticas e independientes son distribuidas como variables

aleatorias chi cuadradas. Y de la propiedad aditiva de la distribución chi cuadrada,

se sigue que los grados de libertad de 𝐷 son (𝑛 − 1) − (𝑛 − 𝑝) = 𝑝.

El modelo es aceptado (i.e. el modelo nulo en la hipótesis nula es rechazado)

si el p-valor es pequeño. Esto es equivalente a que la diferencia 𝐷 entre las log-

verosimilitudes sea grande.

Ahora, cuando los datos analizados son categóricos o discretos, una

alternativa para 𝐺2 es la 𝑋2 de Pearson:

𝑋2 =∑(𝑜𝑖 − 𝑒𝑖)

2

𝑒𝑖𝑖

Donde, para cada categoría 𝑖, 𝑜𝑖 representa la frecuencia observada y 𝑒𝑖

representa la frecuencia esperada de acuerdo al modelo de examinación. Como en

la deviance 𝐺2, comparamos el modelo ajustado (correspondiente a los 𝑒𝑖) y el

modelo saturado (correspondiente a los 𝑜𝑖). Pero en este caso se hace una

comparación directa entre los valores observados y los ajustados para cada

categoría. El estadístico de Pearson es asintóticamente equivalente a 𝐺2, por lo que

bajo 𝐻0, 𝑋2 ≈ 𝜒𝑛−𝑘

2 .

135

Capítulo 7

Ejemplos y aplicaciones

de la Minería de Datos.

136

En este capítulo se presentarán dos ejemplos de aplicación del proceso de

minería de datos: el primero será expuesto y descrito a detalle para hacer más

entendible la aplicación de los métodos de minería de datos. En el segundo ejemplo,

se presenta un resumen del problema y la forma en que se desarrolla, esto se hace

con el objetivo de dar una idea del tipo de problemas que se pueden abordar con

minera de datos.

7.1 Ejemplo 1: Puntaje de Crédito.

7.1.1 Objetivos del análisis.

En este caso de estudio veremos cómo los métodos de minería de datos son

aplicados para evaluar la confiabilidad de crédito de individuos que solicitan un

crédito. Para el desarrollo del ejemplo, se usaron datos de clientes de un importante

banco en el sur de Alemania y se usaron para construir un modelo de puntuación

para clientes de crédito.

El término “puntaje de crédito” describe el método estadístico usado para

clasificar posibles créditos dentro de dos clases de riesgo: bueno y malo. Los

modelos estadísticos de puntaje de crédito, después conocidos como modelos de

scorecard, usan variables explicatorias con información de candidatos para estimar

la probabilidad de que no pague el préstamo. Para decidir si el crédito es

garantizado o rechazado se compara la probabilidad estimada con un límite de

confianza elegido por la administración.

137

Los métodos estadísticos más usados para desarrollar scorecards son redes

neuronales, regresión logística y árboles de clasificación. Para mayor detalle de

puntaje de crédito y modelos de crédito scorecards, ver Hand y Henley (1996).

7.1.2 Descripción de los datos.

El conjunto de datos es de 1000 observaciones que representan a 1000

candidatos a crédito para un banco del sur de Alemania; ver Fahrmeir y Hamerte

(1994) para una descripción más detallada de los datos.

Consideramos 21 variables, una de ellas es la variable binaria 𝑌, confianza

crediticia (𝑌 = 0 para confiables, 𝑌 = 1 para los no confiables) la cual tomaremos

como variable de respuesta u objetivo. Las otras 20 variables son tratadas como

variables explicatorias y podemos agruparlas de la siguiente forma:

Variables socio demográficas.

o Sexo y estado civil.

o Edad

o Residencia: número de años residente en el domicilio actual.

Variables personales y financieras.

o Cuenta: si es propietario de una cuenta de banco.

o Libro bancario: si es propietario de un libro bancario.

o Representante anterior: historia de pagos pasados.

o Deudas: cuenta con deudas previas.

o Concurrente: si otros fondos han sido requeridos.

o Empleado: tipo de empleado.

o Años trabajando: número de años de trabajo.

138

o Extranjero: si es trabajador extranjero.

o Familia: número de personas dependientes.

Variables específicas para el préstamo.

o Préstamo: de cuánto es el préstamo.

o Propósito: propósito del préstamo.

o Fecha límite: fecha límite del préstamo.

o Intereses mensuales.

o Otros: si otras deudas concurrentes son especificadas.

Indicadores de bienes.

o Casa: si tiene casa propia.

o Efectivos: si tiene otra persona de garantía.

o Teléfono: si tiene teléfono disponible.

Tabla 7.1 Estructura de la matriz de datos.

Candidato 𝑌 𝑋1 𝑋2 … 𝑋20

1 1 1 18 … 1

⋮

34 1 4 24 … 1

⋮

1000 0 1 30 … 1

Solamente 3 de las 20 variables explicatorias son continuas: fecha límite,

préstamo y edad. Las otras 17 son discretas, pero solo dos son binarias: teléfono y

extranjero. Las otras 15 variables discretas tienen diferente número de niveles.

Los datos son estratificados entre 300 clientes seleccionados como no

confiables (𝑌 = 1, préstamo no pagado) y 700 como confiables (𝑌 = 0, préstamos

pagados) con lo cual se ajustan los porcentajes de clientes, buenos y malos. Este

139

tipo de estratificación afecta los resultados obtenidos de los modelos estadísticos;

no es el mismo resultado que con un muestro simple aleatorio dado que el conjunto

de datos tiene un sesgo inherente ya que solo contiene a personas que recibieron

préstamo. Hay otros que no recibieron préstamo y por tanto no se sabe si pudieron

ser o no de riesgo. Aunque estas consideraciones no afectan la validez del análisis,

se deben recordar al momento de hacer la interpretación.

Aunque perderemos información, para simplificar el análisis se modifica el

conjunto de datos original para obtener exclusivamente variables binarias,

recordando que la binarización nos permite investigar la razón de odds.

Para variables cuantitativas principalmente se calcula la mediana; se crean

dos niveles, uno correspondiente a los valores más altos que la mediana, otro para

valores más bajos que la mediana. Por ejemplo, “Fecha límite” tiene valores en el

intervalo de 0-72 meses, pero se modifica como en la Tabla 7.2. Para las otras

variables, sea 0 para categorizar las menos confiables y 1 para las más confiables.

Usemos la variable “Representante anterior” como ejemplo, sea 1 el valor de la

categoría correspondiente a un impecable pago anterior y 0 el valor para la

categoría correspondiente a un pago anterior tardío.

Algunas variables discretas serán reclasificadas; por ejemplo, “Cuenta” es

subdividido en dos variables binarias, “Buena cuenta” y “Mala cuenta”. La Tabla 7.3

muestra las nuevas y viejas clasificaciones. La variable “Sexo y estado civil” es

dividida en dos variables binarias distintas: “Sexo” y “Estado civil”. La Tabla 7.4

resume esta representación.

140

Tabla 7.2 Clasificación de la variable “Tiempo límite”.

Clase previa Nueva clase Interpretación

Tiempo límite > 18 meses 1 Largo plazo

Tiempo límite < 18 meses 0 Corto plazo

Tabla 7.3 Clasificación de la variable “Cuenta”.

Nuevas variables Variables originales

Mala_cuenta Buena_cuenta Cuenta 1 0 2 balance

negativo Malo

0 1 4 balance > DM 200

Bueno

0 0 3 balance en [0-200]

Neutral

0 0 1 sin cuenta Neutral

Tabla 7.4 Clasificación de las variables “Sexo” y “Estado civil”.

Nuevas variables Variables originales

Sexo Estado civil Sexo y estado civil 0 0 1 hombre: soltero, divorciado o

separado 1 0 2 mujer: soltera, divorciada o

separada 0 1 3 hombre: casado o viudo 1 1 4 mujer: casada o viuda

7.1.3 Análisis exploratorio.

Iniciamos con un análisis univariado para investigar la fuerza de los enlaces

existentes entre cada variable explicatoria y la variable de respuesta. Esto indicaría

la eficiencia de cada variable explicatoria para identificar los clientes no confiables

(𝑌 = 1). Las variables explicatorias que están más asociadas con la variable de

respuesta deben ser mejores para determinar la confianza del cliente. Aunque se

descuide la interacción entre las variables, el análisis univariado es muy útil, es un

paso preliminar muy importante para establecer un modelo multivariado.

141

Para obtener las asociaciones entre la variable de respuesta y cada una de

las 22 variables explicatorias construiremos las razones de odds. Las razones de

odds resultantes son recíprocas a lo que obtendríamos usando el orden

convencional (Sección 4.4), es decir, ahora en cuanto más alta sea la razón de odds,

más negativa será la asociación de la variable explicatoria con la variable de

respuesta y más alta será la asociación positiva con la confiabilidad del crédito.

La Tabla 7.5 muestra las razones de odds y sus correspondientes intervalos

de confianza del 95%, en la última columna se muestra el p valor del estadístico

Chi-cuadrado de Pearson. Las 22 variables explicatorias son tabuladas en orden

decreciente de acuerdo a la razón de odds. Las primeras ocho variables en la tabla

tienen una asociación negativa con la variable de respuesta; de hecho, la razón de

odds muestra valores superiores a 1, y el 1 no está contenido en los intervalos de

confianza. Las últimas cinco variables tienen una asociación positiva con la variable

de respuesta, entonces la razón de odds toma valores en el intervalo [0,1] y el 1 no

está en contenido en los intervalos de confianza.

Tabla 7.5 Razones de odds univariadas con la variable de respuesta.

Variable Razón de

odds Intervalo de

Confianza 95% Asociación

Chi-Cuadrada p-valor

Buena-cuenta 5.459 (3.857;7.725) (-) 1.41 E-24

Representante anterior

3.958 (2.529;6.193) (-) 1.21 E-09

Libro de banco 2.75 (1.957;3.888) (-) 3.05 E-09

Fecha límite 1.842 (1.402;2.421) (-) 1.22 E-05

Años trabajando 1.781 (1.311;2.421) (-) 2.47 E-04

Propósito 1.679 (1.269;2.220) (-) 2.85 E-04

Edad 1.676 (1.274;2.206) (-) 2.48 E-04

Estado civil 1.532 (1.160;2.022) (-) 3.17 E-03

Interés mensual 1.342 (1.008;1.787) (-?) 0.045

Préstamo 1.241 (0.946;1.627) NO 0.129

Deudas 1.233 (0.928;1.639) NO 0.153

142

Teléfono 1.177 (0.892;1.554) NO 0.261

Residencia 1.031 (0.785;1.354) NO 0.835

Familia 1.018 (0.700;1.481) NO 1

Otros 0.994 (0.624;1.583) NO 1

Empleado 0.904 (0.651;1.257) NO 0.563

Sexo 0.769 (0.584;1.011) NO 0.067

Efectivos 0.642 (0.489;0.842) (+) 1.49 E-03

Mala-cuenta 0.568 (0.423;0.763) (+) 1.88 E-04

Concurrente 0.55 (0.395;0.765) (+) 4.06 E-04

Casa 0.531 (0.398;0.710) (+) 1.99 E-05

Extranjero 0.273 (0.096;0.778) (+) 9.42 E-03

La variable “Interés mensual” exhibe una probable asociación negativa dado

que la razón de odds es mayor que 1, pero el 1 está por fuera del intervalo de

confianza muy ligeramente. El resto de las variables no muestran una asociación

significativa, dado que el 1 está dentro de los intervalos de confianza. Estas

conclusiones son confirmadas por los p-valores del estadístico Chi-cuadrada en la

última columna de la tabla.

Para los primeros ocho y las últimas cinco variables el p-valor es menor que

0.05; esto significa que la hipótesis nula es rechazada y se acepta la

existencia de una asociación.

Para “Interés mensual” el p-valor es ligeramente menor que 0.05; esto

significa que la asociación con la variable de respuesta está en el límite

significante.

El resto de las variables tiene un p-valor más grande que 0.05; esto significa

que la hipótesis nula es aceptada.

La Tabla 7.6 muestra como dividimos las razones de odds y como se sigue

para las siguientes conclusiones:

143

Tabla 7.6 Interpretación de la razón de odds.

Variable Odds para

𝑿 = 𝟏, 𝜽𝟏 Odds para

𝑿 = 𝟎, 𝜽𝟐 Razón de

odds Asociación

Buena-cuenta 0.594 3.243 5.459 (-)

Representante anterior 0.291 1.152 3.958 (-)

Libro de banco 0.078 2.143 2.75 (-)

Fecha límite 0.730 1.344 1.842 (-)

Años trabajando 0.650 1.157 1.781 (-)

Propósito 0.720 1.209 1.679 (-)

Edad 0.788 1.322 1.676 (-)

Estado civil 0.767 1.175 1.532 (-)

Interés mensual 0.901 1.210 1.342 (-?)

Préstamo 0.901 1.116 1.241 NO

Deudas 0.928 1.114 1.233 NO

Teléfono 0.937 1.104 1.177 NO

Residencia 0.983 1.041 1.031 NO

Familia 0.997 1.016 1.018 NO

Otros 1.000 0.996 0.994 NO

Empleado 1.081 0.978 0.904 NO

Sexo 1.115 0.857 0.769 NO

Efectivos 1.253 0.804 0.642 (+)

Mala-cuenta 1.178 0.669 0.568 (+)

Concurrente 1.129 0.620 0.55 (+)

Casa 1.217 0.646 0.531 (+)

Extranjero 3.541 0.966 0.273 (+)

Los aplicantes que cuentan con una buena cuenta (más de DM 200) con un

banco de crédito son más confiables. De hecho, al ir de los clientes que

tienen una cuenta mediana o un balance negativo (Buena cuenta=0) a los

que tienen una buena cuenta (Buena cuenta=1) la probabilidad de pago

incrementa, va de una odds de 0.594 a una odds de 3.243. Por lo tanto, existe

una asociación negativa entre no confiabilidad y la posesión de una buena

cuenta corriente, y la medida exacta de dicha asociación está dada por la

razón de odds. En el caso de “Buena cuenta”, cuando el balance de cuentas

es más grande que DM 200 entonces la probabilidad de pago es 5.46 veces

144

la probabilidad de pago para clientes que tienen una cuenta media o un

balance negativo.

Trabajadores alemanes son más confiables que los trabajadores del exterior.

Viendo de clientes que son trabajadores alemanes (Extranjero=0) a clientes

que son trabajadores extranjeros (Extranjero=1) la odds de que pague se

reduce de 3.541 a 0.966; esto significa que existe una relación positiva entre

trabajador extranjero y ser no confiable. La medida exacta de esta asociación

está dada por la razón de odds, y la probabilidad de pago para trabajadores

extranjeros es 0.273 veces la probabilidad para trabajadores alemanes. En

otras palabras, la probabilidad de pago para trabajadores alemanes es

alrededor de 3.6 veces (1/0.273) la probabilidad de pago para trabajadores

extranjeros.

7.1.4 Construcción del modelo.

Una vez que realizamos el análisis exploratorio univariado, nos moveremos

a un análisis multivariado, específicamente a un modelo estadístico. Intentaremos

combinar todos los signos de las diferentes variables explicatorias para obtener un

modelo general que indique la confiabilidad de cada candidato.

Para poder elegir un modelo, debemos aclarar la naturaleza del problema.

En este caso, tenemos un problema de clasificación predictivo, debido a que la

variable de respuesta es binaria y nuestro objetivo es predecir si el candidato a

crédito será confiable o no. Nos concentraremos en una regresión logística, en

arboles de clasificación y en perceptrones multicapa, que son los métodos más

usados en general para clasificación predictiva y en particular para puntaje de

145

crédito. También consideraremos una aproximación basada en “bagging” (también

conocida como agregación de bootstrap), el cual combina los resultados de

diferentes modelos.

7.1.4.1 Modelo de regresión logística.

Elegiremos un modelo de regresión logística usando un procedimiento de

selección forward con un nivel de significancia del 0.05. Para revisar el modelo,

intentaremos un procedimiento stepwise y un backward para verificar que los tres

modelos son similares. La Tabla 6.7 describe el procedimiento de selección forward.

Tabla 7.7 Resultados del procedimiento de selección forward.

Paso

Efecto ingresado

Efecto removido

Gl Número in

Chi-cuadrad

o

Wald Chi-

cuadrado

P> Chi-

cuadrado

1 Buena cuenta - 1 1 103.9648 - <0.0001

2 Representante anterior

- 1 2 24.4942 - <0.0001

3 Libro bancario - 1 3 17.3725 - <0.0001

4 Fecha limite - 1 4 18.8629 - <0.0001

5 Casa - 1 5 8.3749 - 0.0038

6 Edad - 1 6 7.0758 - 0.0078

7 Propósito - 1 7 8.4775 - 0.0036

8 Extranjero - 1 8 7.9316 - 0.0049

9 Interés mensual - 1 9 6.9678 - 0.0083

10 Estado civil - 1 10 5.7610 - 0.0164

El punto de inicio es el modelo más simple, que contiene solo el intercepto,

luego entonces, en cada paso comparamos las deviances para decidir si adicionar

o no una variable explicatoria.

146

SAS Enterprise Miner usa el estadístico Chi-cuadrada en el procedimiento

forward y el estadístico Chi-cuadrado de Wald en el procedimiento backward. De

acuerdo a la Tabla 6.7 el modelo final es obtenido en el paso 10; además del

intercepto, se incluyen las siguientes variables explicatorias:

X1= tiempo limite X2= representante anterior X3= propósito X4= libro bancario X5= interés mensual X6= edad X7= casa X8= extranjero X9= buena cuenta X10= estado civil

Para revisar la calidad del modelo final, utilizamos la prueba de razón de

verosimilitud 𝐺2 para el modelo final (𝐻1) contra el modelo nulo (𝐻0). Se obtiene

𝐺2 = 219.89 con 10 grados de libertad. Como el p valor correspondiente de la

prueba es menos que 0.0001, la hipótesis nula es rechazada, implicando que al

menos una de los coeficientes del modelo en la Tabla 7.7 es significativa. El modelo

tiene un AIC de 1023.828, y un BIC de 1077.814. El total de la razón de clasificación

errónea es 0.244. La razón de clasificación errónea de un modelo con todas las

variables presentes (i.e. sin ninguna selección del modelo stepwise) es 0.252,

ligeramente más alto que 0.244.

La Tabla 7.8 muestra el estimador de máxima verosimilitud correspondiente

al modelo final y la significancia estadística de los parámetros. Para todas las

variables exploratorias obtenemos un p valor más bajo que 0.05, por lo tanto, la

hipótesis nula siempre es rechazada. Esto significa que todas las 10 variables

explicatorias seleccionadas usando el procedimiento stepwise son asociadas

147

significativamente con la variable de respuesta y son útiles al explicar si un

solicitante es confiable o no.

Tabla 7.8 Estimadores de máxima verosimilitud de los parámetros.

Parámetro Gl

Estimador

Error estándar

Wald Chi-

cuadrado

P> Chi-

cuadrado

Intercepto 1 0.5030 0.6479 0.6029 0.4375

Fecha limite 1 -0.6027 0.1567 14.7914 0.0001

Representante anterior

1 -1.0479 0.2573 16.5875 <0.0001

Propósito 1 -0.5598 0.1632 11.7703 0.0006

Libro bancario 1 -0.7870 0.1937 16.5063 <0.0001

Interés mensual 1 -0.4754 0.1660 8.2009 0.0042

Edad 1 -0.4203 0.1603 6.8701 0.0088

Casa 1 0.4934 0.1683 8.5914 0.0034

Extranjero 1 1.3932 0.5794 5.7825 0.0162

Buena cuenta 1 -1.4690 0.1863 62.1582 <0.0001

Estado civil 1 -0.3910 0.1633 5.7325 0.0167

Ahora que tenemos un modelo, necesitamos interpretarlo. Un procedimiento

stepwise puede ser inestable en las estimaciones, las cuales están condicionadas

a la selección del modelo. Un enfoque de modelo-promedio, tal como un enfoque

completo Bayesiano, pueden resolver este problema, pero se tendría un modelo

más complicado (Giudicci, 2001ª).

El modelo de regresión logística obtenido puede ser descrito con la siguiente

fórmula:

log𝑃(𝑌 = 1)

𝑃(𝑌 = 0)= 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2 +⋯+ 𝛽10𝑋10

148

En la cual la variable de respuesta es la confiabilidad de crédito (𝑌 = 0) si es

Si, 𝑌 = 1 si es No) y las variables explicatorias son como se describen en la Sección

7.2.

La Tabla 7.9 muestra los parámetros estimados y las razones de odds

estimadas para cada variable. Podemos interpretar la Tabla 7.9 considerándola

como un modelo formula. Esta fórmula es construida por el conjunto 𝑌 = 1 cuando

el deudor es no confiable, también podemos decir que un parámetro con signo

positivo indica que la variable correspondiente reduce la confiabilidad del deudor.

Inversamente, un parámetro con un signo negativo indica que la correspondiente

variable incrementa la confiabilidad del valor.

Tabla 7.9 Interpretación del modelo estimado.

Variables �̂� 𝒆−�̂� Intercepto 0.5030 0.605

Fecha limite -0.6027 1.827 Representante anterior -1.0479 2.852

Propósito -0.5598 1.750 Libro bancario -0.7870 2.197

Interés mensual -0.4754 1.609 Edad -0.4203 1.522 Casa 0.4934 0.611

Extranjero 1.3932 0.248 Buena cuenta -1.4690 4.345 Estado civil -0.3910 1.479

La variable “Buena cuenta” tiene un parámetro con signo negativo (�̂� =

−1.4690), esto significa que los clientes que tienen una buena cuenta, cerca de DM

200, tienen una probabilidad de pago mayor que los que tienen una cuenta media o

un balance negativo. Argumentos análogos son válidos para “Fecha límite”,

“Representante anterior”, “Propósito”, “Libro bancario”, “Interés mensual”, “Edad” y

149

“Estado civil”. Podemos entonces enlistar las ocho variables que reducen el riesgo

de no pago, o incrementar la probabilidad de pago.

Una buena cuenta.

Pagos anteriores implacables.

Posesión de libro bancario.

Un préstamo con un corto tiempo límite.

Un propósito de negocio para el préstamo.

La presencia de altas razones de interés.

No ser soltero.

Edad de alrededor de 33 años.

Los trabajadores extranjeros que preguntan por un préstamo (Extranjero=1)

son menos confiables que los trabajadores alemanes. Esto está indicado por el

signo positivo del coeficiente �̂� = 1.3932. Consecuentemente, hay una relación

directa entre ser un trabajador extranjero y se un candidato no confiable. Como

vimos durante la fase exploratoria, los clientes que tienen una casa propia y esperan

tener una hipoteca (Casa=1) son menos confiables que los que clientes que no

tienen casa propia. Esto se indica por el coeficiente �̂� = 0.4934, el cual tiene signo

positivo.

La razón de odds mide la fuerza de asociación entre cada variable

explicatoria y la variable de respuesta. En la Tabla 7.10 se comparan las razones

de odds con los valores del análisis exploratorio. Cuando un cliente posee una

buena cuenta (Buena cuenta=1) su probabilidad de pago es 4.345 veces más

grande que para un cliente sin una cuenta. Argumentos análogos son válidos para

“Representante anterior”, “Libro bancario”, “Tiempo límite”, “Propósito”, “Edad”,

“Interés mensual” y “Estado civil”. Las variables “Casa” y “Extranjero” están

asociadas positivamente con la variable de respuesta. La probabilidad de pago para

150

trabajadores extranjeros (Extranjero=1) es 0.248 veces que para trabajadores

alemanes. En otras palabras, la probabilidad de pago para trabajadores alemanes

es alrededor de 4 veces el valor para trabajadores extranjeros. Estas razones de

odds multivariadas son más confiables que las razones de odds univariadas, dan

una mejor descripción de la interrelación entre las variables, como cada asociación

individual esta corregida tomando en cuenta el efecto indirecto de la variable de

respuesta que ocurre mediante las variables explicatorias restantes.

Tabla 7.10 Comparación entre las razones de odds multivariadas y

univariadas

Variables Razones de Odds

Multivariado Univariado Fecha límite 1.827 1.842

Representante anterior 2.852 3.958 Propósito 1.750 1.679

Libro bancario 2.197 2.758 Interés mensual 1.609 1.342

Edad 1.522 1.676 Casa 0.611 0.531

Extranjero 0.248 0.273 Buena cuenta 4.345 5.459 Estado civil 1.479 1.532

7.1.4.2 Modelo de Clasificación Árbol.

SAS Enterprise Miner busca ajustar tres tipos de modelo árbol. Iniciaremos

con uno basado en el algoritmo CHAID y la medida de impureza Chi-cuadrada. Para

obtener un árbol parsimonioso, usaremos un nivel de significancia del 0.05 en la

regla de alto. La Figura 7.1 y la Tabla 7.11 presentan el resultado del análisis de

árboles de clasificación CHAID. La Figura 7.1 es autoexploratoria; el número total

de nodos terminales es 6, cada uno obtenido a través de divisiones sucesivas de

151

las variables binarias elegidas. En cada división, la única opción es decidir cuál

variable se usará para la división.

El número total de variables divididas en el árbol final es 4: Buena cuenta,

Libro bancario, Representante anterior y Fecha límite. Estas variables son las

primeras cuatro obtenidas por el procedimiento de selección forward para regresión

logística (Tabla 7.7). Del árbol de clasificación podemos ver que “Buena cuenta”

actúa por sí misma, pero las otras variables interactúan con las otras. Esto revela

una posible falta de ajuste cuando usamos un modelo de regresión logística que

considera solo los efectos separados de cada variable explicatoria y no los efectos

de interacción. Obviamente se pueden introducir las interacciones, pero esto

incrementaría considerablemente los cálculos y haría el modelo difícil de interpretar.

Tabla 7.11 Resultados del árbol de clasificación CHAID

Si una buena cuenta es igual a 1 N: 394 1: 11.7% 0:88.3%

Si el libro bancario es igual a 0 y representante previo es igual a 0 y buena cuenta es igual a 0

N: 59 1: 76.3% 0: 23.7%

Si libro bancario es igual 1 y libro bancario es igual a 0 y buena cuenta es igual a 1

N: 14 1: 28.6% 0: 71.4%

Si fecha límite es igual a 1 y representante anterior es igual a 1 y buena cuenta es igual a 0

N: 295 1: 29.5% 0: 70.5%

Si libro bancario es igual a 1 y fecha límite es igual a 0 y representante anterior es igual a 1 y buena cuenta es igual a 0

N: 52 1: 28.8% 0: 71.2%

152

Si libro bancario es igual a 0 y fecha límite es igual a 0 y representante anterior es igual a 1 y buena cuenta es igual a 0

N: 186 1: 55.4% 0: 44.6%

La Tabla 7.11 muestra el árbol elegido en la forma de reglas “si-entonces”,

donde la condición “si” corresponde para un camino del árbol que conduce al

resultado “entonces” de un nodo terminal, caracterizado por las frecuencias

absolutas indicadas (𝑁), porcentaje de malos candidatos (1) y porcentaje de buenos

candidatos (0).

153

Figura 7.1 Resultados del Árbol de Clasificación CHAID

Las seis reglas pueden ser interpretadas como reglas de asociación2, todas

tienen como base 𝑌 = 0 o 𝑌 = 1. Para hacer esto, necesitamos considerar como

elementos primitivos no solo el nivel 1 de cada variable, pero también los

complementos, para un total de 44 elementos. Entonces obtenemos resultados

como estos:

Buena Cuenta → No Confiable tiene un soporte de 39.4% y una

confianza de 11.7%.

2Paolo Giudici (2003). Aplied Data Mining. Sección 4.8 Local Models. 121-127

154

Libro Bancario=1 y Sin Representante Anterior y Sin Buena Cuenta →

No Confiable tiene un soporte de 1.4 % (14/1000) y una confianza de

28.6%.

Podemos calcular la razón de clasificación errónea como una medida del

desempeño total. En cada hoja clasificaremos todas las observaciones de acuerdo

a la mayoría de votos, esto es, la clase con la que se ajusta la probabilidad más alta

de estar presente. Esto corresponde a un límite de corte de 0.5. La razón de

clasificación errónea es 0.249, ligeramente más alta que la que obtuvimos con el

modelo de regresión logística.

Ahora veremos un modelo árbol usando el algoritmo CART y la impureza

Gini. Para la poda, calcularemos la razón de clasificación errónea sobre todo el

conjunto de datos usando un parámetro de penalización 𝛼 = 1. Esto puede ser

considerado como elección por default, en la ausencia de otras consideraciones. La

Tabla 7.12 muestra el árbol resultante de la forma de las reglas “si-entonces”. Una

representación gráfica puede ser fácilmente construida de la Tabla 7.12.

Comparado con el árbol CHAID, este es bastante complejo y tiene 33 nodos

terminales. Los 33 caminos en el modelo pueden ser interpretados como una

asociación de reglas. La complejidad extra ha bajado la razón de clasificación

errónea a 0.212, obtenida sobre los datos de entrenamiento. Pero esta mejora

puede que no justifique el incremento en la complejidad.

Casi todas las variables explicatorias son representadas en el modelo árbol,

excepto “Sexo” y “Estado civil”. Este es un resultado notable. No hay diferencia en

confiabilidad por sexo o por estado civil. Es también interesante notar que todos los

155

caminos son largos, longitudes entre 4 y 6. Podemos reducir la complejidad del

modelo incrementando 𝛼, pero lo dejaremos en 𝛼 = 1 para poder compararlo con el

árbol CHAID.

La Tabla 7.13 muestra un modelo CART usando la impureza de entropía y

usando 𝛼 = 1. Este modelo es también complejo, tiene 34 nodos terminales, uno

más que el modelo Gini. Los resultados también son algo similar, pero no

exactamente los mismos. La razón de clasificación errónea del modelo de entropía

es 0.211 sobre los datos de entrenamiento, comparado con 0.212 para el modelo

Gini. En la Sección 4.5 consideramos el mismo árbol como en la Tabla 7.13, pero

nos detuvimos en 4 niveles. Basados en la razón de clasificación errónea es

parecida que el CART, estos modelos son mejores que el modelo CHAID, y la

impureza de entropía es ligeramente mejor que la impureza de Gini. Pero hasta

ahora solo hemos comparado su bondad de ajuste, no su habilidad predictiva.

Ver Anexo1. Resultados para el árbol de clasificación CART con impureza Gini.

Ver Anexo2. Resultados del árbol de clasificación CART con impureza de entropía.

7.1.4.3 Modelo Perceptrón Multicapa.

Para especificar un perceptrón multicapa, necesitamos decidir sobre su

arquitectura. Dada la naturaleza de este problema, elegiremos una única capa de

nodos ocultos y haremos una activación de ambas funciones logísticas, de la

entrada a los nodos ocultos y de los nodos ocultos a la salida. Los nodos de salida

son combinados a través de una función softmax. De acuerdo a la implementación

de perceptrones multicapa en SAS Enterprise Miner, elegiremos un algoritmo de

156

estimación de propagación de retorno para los pesos, con un parámetro de impulso

de 0.1. La función de error es binomial, con en la Sección 4.6.

Para elegir el número óptimo de nodos en la capa oculta, iniciaremos con un

único nodo y bajo el procedimiento stepwise la razón de clasificación errónea

comenzara a decrecer. Con 3 nodos es de 0.182, con 4 es de 0.141 y con 5 es

0.148. Esto sugiere un perceptron multicapa con 4 nodos. Por lo tanto, la

arquitectura de nuestra red contiene 22 nodos de entrada, 4 nodos ocultos y un

nodo de salida. El número correspondiente de los parámetros de peso es 97.

A diferencia de regresión logística y de modelos árbol, las redes neuronales

son cajas negras. No hay una estructura de interés para ver, además los valores

ajustados 0-1 para cada observación, obtenidos de acuerdo a la regla del límite 0.5,

del cual derivamos la razón de clasificación errónea. A diferencia de los modelos

árbol, el perceptrón multicapa puede ser introducido en un marco paramétrico

(binomial). Esto conduce a obtener los valores del modelo, lo cual puede ser

comparado como los valores de la regresión logística. Para nuestro modelo final de

red neuronal, tenemos que AIC=1634.30 y BIC=2110.35. Ambos son

considerablemente más altos que para el modelo final de regresión logística,

indicando una posible mejora.

7.1.5 Comparación de modelos.

Para ayudarnos a elegir un modelo final, extenderemos nuestro análisis de

desempeño para incluir criterios basados en funciones de perdida. Para todos

nuestros modelos iniciaremos dividiendo los datos disponibles dentro de un

conjunto de datos de prueba, que contiene el 75% de las observaciones, y un

157

conjunto de datos de validación, que contienen 25% de las observaciones. Haremos

esto manteniendo la estratificación con la proporción de 70% confiables y 30% no

confiables en los nuevos conjuntos de datos. Después ajustaremos cada modelo

sobre la base de prueba, usando las observaciones de los datos de validación para

clasificar. Esta clasificación es posible por la producción de un puntaje y usando un

umbral de corte para clasificar los que estén por encima del límite como 𝑌 = 1 y los

que estén por debajo del límite como 𝑌 = 0. Finalmente, cada modelo es evaluado

la evaluación de la razón de clasificación errónea.

Empezaremos con el modelo de regresión logística y los errores de

clasificación para un umbral de corte de 50% (correspondiente a la regla de

discriminación). De acuerdo a este límite, todos los candidatos a los que la

probabilidad estimada de no confiabilidad (𝑌 = 1) que es mayor que 50% son

predichos como no confiables, de otro modo ellos son clasificados como clientes

confiables. Este modelo predice correctamente 90.29% de los clientes confiables

(𝑌 = 0). La probabilidad de cometer un error Tipo II es 9.71%. Un error Tipo II

significa considerar un cliente confiable y predecirlo como un no confiable. El modelo

es menos efectivo al predecir clientes no confiables; de hecho, se predice

correctamente solo en 39.56%. La probabilidad de cometer un error Tipo I es

60.44%. Un error Tipo I significa considerar un cliente no confiable y se predice

como confiable. Vemos que el modelo tiene mayor dificultad en predecir clientes no

confiables que a clientes confiables.

Este es un problema bastante común en puntación de crédito. La principal

dificultad de los modelos score cards está en predecir un mal riesgo. Pero

158

necesitamos modelos que puedan predecir un mal riesgo efectivamente, porque los

errores Tipo I son usualmente más costosos que los errores Tipo II. Las razones de

error previas son obtenidas para un corte umbral del 50%, pero un corte umbral más

bajo podría conducirnos a obtener un gran número de malos pagadores. Un corte

en 30% reduce el error Tipo I para 24.44%, pero le error Tipo II aumenta de 9.71%

a 22.80%.

El corte umbral debe elegirse para adaptarse a los costos de los errores Tipo

I y Tipo II. Si los costos son similares, un corte de 50% sería el adecuado; de otro

modo, un límite diferente puede ser mejor opción. En problemas de puntación de

crédito, donde el error Tipo I es usualmente más costoso, un corte menor que 50%

es posiblemente más conveniente. La curva ROC, la cual muestra como los errores

cambian cuando varían los límites, puede ser usada para este propósito. Antes de

ver la curva ROC, compararemos las razones de clasificación errónea predichas,

con un corte de 50%, para el modelo de regresión logística, el árbol de clasificación

y la red neuronal. Resulta que el modelo árbol tiene un mejor desempeño, con una

razón de clasificación errónea de 0.244, seguidos por el preceptron multicapa con

0.248 y el modelo de regresión logístico con 0.280. Respecto a los errores Tipo I, el

modelo de regresión logística muestra una probabilidad de 60.44% contra 54.67%

para el modelo árbol y 64.79% para la red neural.

Ahora comparamos los modelos árbol en términos de sus curvas ROC y el

índice de desempeño de Gini. Cuanto mayor sea el punto en la curva, menor será

umbral de corte, antes de que se estime si los candidatos son no confiables. La

Figura 7.2 muestra la curva ROC para nuestros modelos árbol finales; todos son

159

calculados usando la misma partición aleatoria de los datos. Se muestra el punto

para el corte de 50% usando el árbol de decisión, el cual es el mejor modelo cuando

usamos corte de 50%. El comportamiento predictivo de los modelos árbol es

bastante similar.

Figura 7.2 Curvas ROC para los modelos finales.

El modelo de regresión logística parece ligeramente inferior que los otros dos,

pero no es tan malo como aparecieron las razones de clasificación errónea. Para

hacer más clara la comparación, calcularemos el índice de desempeño de Gini; el

árbol de clasificación tiene el valor más alto (0.6260), seguido por el modelo de

regresión logística (0.5798) y la red neuronal (0.5738).

La Figura 7.3 es una gráfica de levantamiento. Una gráfica de levantamiento

da, por cada decimo, el porcentaje de eventos predichos (en este caso, candidatos

no confiables). Si el modelo fuera perfecto, este porcentaje debería ser 100% para

160

los primeros tres decimos (dado que esto es la proporción de eventos reales) e igual

a cero para las otras siete decimales.

Figura 7.3 Gráfica de levantamiento para los modelos finales.

De la Figura 7.3 pareciera que los modelos son bastantes similares para los

últimos siete decimales (con la red neuronal un poco peor, probablemente debido al

overfitting); y en los tres primeros decimales, la región más crítica para puntaje de

crédito, el árbol supera al modelo de regresión logístico, y a pesar de que son muy

diferentes en naturaleza, el árbol y la red neuronal, tiene un desempeño similar.

Para resumir, el árbol se observa como el modelo con el mejor desempeño, pero

las diferencias son muy pocas.

161

Consideremos ahora, si un modelo combinado conduce a un mejor

desempeño de clasificación. Dada la potencial inestabilidad de los modelos árbol,

intentaremos mejorarlos usando los algoritmos bagging (agregación Bootstrap) en

SAS Enterprise Miner. Tomamos 10 muestras aleatorias para los dos algoritmos.

Cada muestra es dividida aleatoriamente en forma estratificada dentro del conjunto

de datos de práctica y de un conjunto de datos de validación, y las observaciones

en los datos de validación son calculados de acuerdo a la regla de la mayoría de la

clasificación 10 del modelo CART usando impureza de entropía. Como resultado,

obtenemos una razón de clasificación errónea de 0.224, con probabilidad error Tipo

I de 48%. Esto muestra una notable mejora sobre el modelo árbol único (el cual

tiene una razón de clasificación errónea de 0.244 y una probabilidad de error Tipo I

cerca de 54%).

La Figura 7.4 muestra las cuervas ROC más el 50% de los puntos de corte

usando el modelo árbol combinado. El modelo combinado es bastante similar que

el modelo árbol único. Pero si los cortes están ajustados a 50%, entonces el árbol

combinado tiene mejor interpretación.

162

Figura 7.4 Curvas ROC para el modelo árbol bagged y modelo árbol único.

Tabla 7.12 Comparación de modelo bagged con los tres modelos

individuales.

Herramient

a

Objetiv

o

Evento

Objetiv

o

Raíz ASE Valido: Raíz

ASE

Criterio

Bayesiano

Schwarz

Razón de

Clasificación

Errónea

Valido:

Razón de

Clasificació

n Errónea

Conjunto BAD 1 0.395645366

5

0.406258492

9

0.221333333

3 0.248

Red

neuronal BAD 1

0.401194503

8

0.413113649

3

2107.785882

3 0.24 0.248

Árbol BAD 1 0.409723863

5

0.417736648

6

0.222666666

7 0.244

Regresión BAD 1 0.406894728

5

0.417736648

6

825.6359714

7

0.249333333

3 0.28

163

Ahora usaremos votación mayoritaria no ponderada para combinar los

resultados del modelo de regresión, el modelo árbol y la red neuronal. La Tabla 7.12

muestra los resultados. A pesar de que el modelo combinado es mejor en el

conjunto de datos de práctica, en términos de clasificación predictiva es superado

por el modelo árbol, el cual demuestra ser mejor. Sin embargo, note que la

diferencia en desempeño es muy pequeña, no más de 0.04. La probabilidad de error

Tipo I del modelo combinado es 56%, peor que el modelo árbol único. La Figura 7.5

muestra las curvas ROC para esta comparación. Note que el modelo combinado es

mejor que el árbol para valores bajos de corte, pero el error Tipo I también es alto.

El índice de Gini de desempeño para el modelo combinado es 0.5699, más bajo que

antes. Por tanto, en modelo árbol, el cual es mejor para valores de corte altos, es

preferible.

164

Figura 7.5 Curvas ROC para el modelo árbol bagged y sus modelos

componentes.

Para concluir, el mejor modelo para clasificar el conjunto de datos es el

modelo de árbol único, o si los recursos computacionales lo permiten, el modelo

árbol bagged. Sin embargo, todos los modelos finales tienen un desempeño

bastante similar, entonces podemos elegir el modelo más claro, normalmente, el de

regresión logística,

7.1.6 Resumen

o Contexto: este caso de estudio concierne a puntaje de crédito.

También puede ser aplicado a cualquier situación donde el objetivo es

el puntaje de comportamiento pasado de un individuo o compañía en

orden para planear una acción futura sobre el mismo individuo o

compañía en el marco de referencia. El puntaje puede ser usado para

evaluar la confiabilidad crediticia, lealtad del cliente o habilidad de

rotación de cliente. Además, se puede usar para seleccionar clientes

en orden para maximizar el retorno en una inversión (ejemplo: clientes

a recibir una campaña promocional, clientes para involucrar en una

relación bancaria uno a uno, clientes a los que dirigirse con un regalo

personalizado).

o Objetivos: el objetivo del análisis es construir una regla de puntajes

que ajuste un valor para cada cliente.

o Organización de los datos: los datos son toda la información disponible

en un banco sobre cada cliente de crédito, incluyendo datos

165

individuales y datos de su comportamiento bancario. Hay 21 variables

categóricas, una de las cuales es la confiabilidad de crédito

observada, usando una variable de supervisión para construir una

regla de puntaje de crédito capaz de discriminar deudores confiables

de deudores no confiables. Una regla de puntaje de crédito debe ser

capaz de decir cuáles son las variables discriminantes y dar su peso

en el puntaje final.

o Análisis exploratorio de los datos: esta fase fue conducido usando

análisis de razones de odds, dado que las variables fueron todas

discretas (actualmente binarizadas). Las razones de odds sugieren

cuales variables exploratorias pueden ser discriminadas. Dos de las

variables originales fueron bastantes confusas, por lo que se

subdividieron en nuevas variables binarias, dando un total de 22

variables exploratorias.

o Especificación del modelo: el análisis objetivo sugiere un modelo

predictivo, capaz de encontrar una regla que divida deudores dentro

de categorías homogéneas y otorgue a cada categoría un puntaje

expresado como una probabilidad de confiabilidad. Consideramos los

tres tipos de modelo que son típicamente usados en problemas de

puntaje de crédito: regresión logística, arboles de clasificación y

perceptrones multicapa.

o Comparación de modelos: los modelos fueron comparados usando

estadísticas o valores basados en criterios, tal como 𝐺2, AIC y BIC así

como la razón de clasificación errónea. No hubo suficientes datos para

166

confiar en una validación cruzada solamente. La comparación de

ajuste de bondad mostró que la red neuronal desempeño un mejor

trabajo, seguido por la regresión logística y árboles de clasificación.

Entonces consideramos una aproximación a una validación cruzada,

y comparando los errores de clasificación sobre los datos de

validación. Para convertir un valor estimado entre 0-1 (buenos o malos

deudores) asumimos un límite de 50%. Entonces el modelo árbol tuvo

el mejor desempeño, seguido por el perceptron multicapa y el modelo

de regresión logística. Sin embargo, en términos de errores Tipo I, los

cuales usualmente son más costosos en este tipo de problemas, la

regresión logística superó el desempeño de redes neuronales. Para

obtener un resultado independiente del límite elegido, comparamos las

curvas de ROC y calculamos el índice de Gini para desempeño. Aquí

el árbol de clasificación resulto mejor, confirmado por la tabla de

levantamiento. Dada la cantidad limitada de datos y la inestabilidad

potencial de los modelos árbol, intentamos mejorar nuestro modelo

por bagging; el resultado para el modelo bagged fue

considerablemente mejor cuando se eligió un límite de 50%.

o Interpretación del modelo: basado en la comparación del modelo, se

observa que los arboles de clasificación, o su versión bagged, hace un

mejor trabajo para este problema. Pero los modelos de regresión

logística no son tan inferiores en los datos considerados,

especialmente si los errores Tipo I son enfatizados. La elección

también depende de cómo serán usados los resultados. Si la toma de

167

decisión se hace por reglas jerárquicas ‘y si’, las cuales clasifica

clientes dentro de perfiles de clase de riesgo, entonces los arboles de

clasificación son muy buenos. Por otro lado, si se desean reglas

analíticas, las cuales se basan en el impacto de los pesos de cada

variable explicatoria (medidas por un coeficiente de regresión o una

razón de odds), la regresión logística es mejor.

7.2 Ejemplo 2: Pronosticando audiencia televisiva.

En este caso de estudio se busca prever las acciones de televisión, pero

también puede ser aplicado a cualquier situación donde el objetivo es predecir el

grado de preferencias individuales. En este caso, las preferencias son medidas a

través del cambio de canal de televisión; en forma más general, este tipo de ajustes

se aplica para cualquier contexto donde los datos reflejen las elecciones del cliente

de entre un conjunto de alternativas, observadas en un tiempo determinado.

Algunos ejemplos de esto son las elecciones entre los portales de internet,

videotapes o renta de DVDs en un periodo dado; marcas elegidas en subsecuentes

visitas a tiendas especializadas; elección de restaurante en un área dada, en un

año, ect.

El objetivo del análisis es construir una regla de predicción que permita una

red de televisión para programas en emisión con la que se maximice la audiencia.

Los datos son de un año de acciones de televisión para los seis principales

canales italianos durante la hora estelar. Además de acciones, hay información

sobre los programas en emisión y su tipo, así como los programas emitidos y el día

168

de trasmisión. El tipo de programa depende de cómo los programas son clasificados

en categorías; estos es un problema bastante crítico.

El análisis de datos exploratorio sugiere que las acciones de televisión son

afectadas principalmente por tres fuentes de variación: el canal en trasmisión, el

cual expresa la lealtad al canal; el tipo de programa, que parece ser la fuerza

principal de preferencias individuales; y el día de la semana, lo cual determina que

más está disponible para los espectadores, además de ver televisión. Esto también

explica porque es importante incluir el total de la audiencia en el análisis. El análisis

exploratorio sugiere que debemos transformar las acciones en acciones logit para

lograr normalidad y hacer más fácil el análisis.

En la especificación del modelo, el objetivo del análisis sugiere un modelo

predictivo, y los datos disponibles (transformados) especifican que hay seis

potenciales variables de respuesta (acciones logit) y un número de variables

explicatorias, algunas de las cuales son canales específicos, tal como el tipo de

programa, y algunos no, tal como el día de la semana y el total de audiencia.

Consideramos predecir una acción para un único canal y las seis acciones totales

de forma simultánea. Para el problema univariado, consideramos un modelo de

regresión lineal, una regresión árbol, un perceptron multicapa y una red RBF. Para

el problema multivariado, consideramos un modelo de regresión lineal, un

perceptron multicapa y una red RBF. Los arboles de regresión de multi respuesta

no estuvieron disponibles.

Para la comparación de modelos, estos fueron comparados usando un cruce

de validación, en términos del error cuadrado medio (ECM) de las predicciones,

169

sobre los datos de práctica y los datos de validación. También consideramos el

coeficiente de correlación entre la acción observada y la acción predicha. En el caso

univariado, la regresión árbol tiene un mejor desempeño, seguid por el modelo lineal

y redes neuronales. En el caso multivariado, el modelo lineal supera los modelos de

redes neuronales, probablemente porque las redes neuronales requieren de más

datos.

Para la interpretación del modelo, basado en la comparación de modelos, se

muestra que un modelo más simple, tal como los modelos lineales y árboles de

regresión, hacen un mejor trabajo para este problema. Esto generalmente se

cumple cuando los datos disponibles no son suficientes para obtener estimaciones

correctas para un número grande de parámetros contenidos en un modelo más

complejo. Un modelo sobre-parametrizado, tal como una red neuronal, puede

adaptarse muy bien a los datos, pero su estimador basado en muy pocos datos,

tiene un pobre comportamiento de predicción. Este problema es enfatizado cuando

hay outliers presentes en los datos. En este caso no pueden ser removidos porque

pueden ser muy importantes para la construcción del modelo. En términos de la

interpretación del negocio, el modelo lineal y la regresión árbol (para el caso de

repuesta univariada) dan una comprensible regla de decisión, analítica en el caso

de los modelos lineales y lógica deductiva en el caso de árboles. En este tipo de

problema, es muy importante el incorporar juicios de expertos, por ejemplo, un

experto en la clasificación de tipos de programas.

Para ver este ejemplo de aplicación a detalle, ver Giudici, 2003.

170

Capítulo 8

Conclusiones

171

Con el avance de la tecnología y el crecimiento en la capacidad de captación

y almacenamiento de información, se convierte en una necesidad el adecuar o

buscar nuevas herramientas que permitan realizar el análisis de esta gran masa de

información. En este trabajo de tesis se expuso una de alternativa surgida ante esta

necesidad, el proceso de minería de datos. En la actualidad, el proceso de minería

de datos se está posicionando como una de las opciones más viables para enfrentar

los retos surgidos con este gran avance en el almacenaje y captación de

información.

De las cosas que resaltaron más en este trabajo, observamos que el enfoque

exploratorio de la minería de datos permite encontrar en los datos relaciones entre

diversas variables que en ocasiones no son visibles a simple vista. Esta es una de

las principales razones por la cual la minería de datos resulta ser una muy buena

opción para el manejo de bases de datos con un gran número de variables.

También, en este trabajo se describieron los métodos que pueden ser

utilizados durante el proceso de minería de datos, donde la mayoría de ellos son

herramientas relativamente nuevas en el campo del manejo de bases de datos, tales

como las redes neuronales y los modelos de árbol, sin dejar atrás herramientas de

la Estadística que cumplen un papel muy importante en el proceso, tales como los

modelos de regresión lineal, multivariada y logística.

Como forma de ilustración, en el trabajo se presenta un ejemplo descrito a

detalle en el que se explica cómo se puede aplicar el proceso de minería de datos

con el propósito de modelar y hacer predicción sobre un fenómeno en específico,

en este caso, la confianza de un candidato a crédito.

172

173

Capítulo 9

Propuesta: Programa para curso de Minería de Datos

174

Por último, se presenta una propuesta de los temas que consideramos

necesarios para un curso introductorio al proceso de Minería de Datos pensado para

el programa de la Licenciatura en Estadística.

Temario. Introducción a la Minería de Datos

1. ¿Qué es Minería de Datos?

Se define el proceso de Minería de Datos, se describe la relación y las

diferencias que hay entre Estadística y Minería de Datos, y se describe el tipo de

datos en los que se puede aplicar este proceso. También se describen de forma

general los pasos a seguir en este proceso, considerándolos como se enlistan:

Definición de objetivos.

Organización de los datos.

Análisis exploratorio de los datos.

Especificación de los modelos Estadísticos.

Análisis de los datos.

Evaluación y comparación de los modelos.

Interpretación e implementación de los modelos.

2. Organización de los datos.

Se describen los tipos datos, tipo de bases de datos, las diversas fuentes de

información para cada tipo de bases de datos, distribución de frecuencias y

transformaciones posibles de los datos.

3. Análisis Exploratorio de los datos.

Comenzando con un análisis univariado y los tipos de mediciones para este,

luego, se continúa con la descripción de un análisis bivaraido, para luego describir

un análisis multivariado diferenciando entre tipos de datos.

175

4. Métodos computacionales para Minería de Datos.

Descripción de las medidas de distancia disponibles para Minería de datos, el

tipo de análisis de grupo, regresión lineal, tanto bivariada como múltiple, regresión

logística y enfatizando en la descripción de los modelos de redes neuronales y

modelos de árboles de clasificación.

5. Estadística en Minería de Datos.

Se describen los métodos y modelos estadísticos que pueden ser usados dentro

de un proceso de Minería de Datos, como lo son las medidas de incertidumbre e

inferencia, tal como probabilidad e inferencia, la modelación no paramétrica, los

modelos lineales no generalizados y los métodos disponibles para la comparación

de modelos.

6. Ejemplo y aplicaciones de Minería de Datos.

Se busca mostrar los tipos de problemas que se pueden abordar o solucionar

usando el proceso de Minería de Datos y se complementa con la descripción de uno

o más ejemplos con datos reales.

176

Anexo1

Resultados para el árbol de clasificación CART con impureza Gini.

Si Familia es igual a 0 Y Libro bancario es igual a 1 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0

N: 10 1: 10.0% 0: 90.0%


N: 4 1: 75.0% 0: 25.0%

Si Efectivos es igual a 0 Y Libro bancario es igual a 1 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0

N: 194 1: 24.7% 0: 75.3%

Si Familia es igual a 0 Y Edad es igual a 1 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1

N: 144 1: 2.8% 0: 97.2%

Si Deudas es igual a 0 Y Propósito es igual a 0 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1

N: 9 1: 22.2% 0: 77.8%

Si Edad es igual a 0 Y Propósito es igual a 1 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1

N: 19 1: 0.0% 0: 100%

Si Edad es igual a 1 Y Casa es igual a 0 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0

N: 10 1: 90% 0: 10.0%

Si Extranjero es igual a 0 Y Casa es igual a 1 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0

N: 1 1: 0.0 % 0: 100.0%

Si Extranjero es igual a 1 N: 28

177

Y Casa es igual a 1 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0

1: 92.9% 0: 7.1%

Si Interés mensual es igual a 0 Y Libro bancario es igual a 0 Y Fecha límite es igual a 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0

N: 119 1: 61.3% 0: 38.7%

Si Deudas es igual a 1 Y Efectivos es igual a 1 Y Fecha límite es igual a 1 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0

N: 30 1: 26.7% 0: 73.3%

Si Otros es igual a 0 Y Años trabajando es igual a 0 Y Edad es igual a 0 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1

N: 31 1: 21.6% 0: 77.4%


N: 1 1: 100.0% 0: 0.0%

Si Empleado es igual a 1 Y Años trabajando es igual a 1 Y Edad es igual a 0 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1

N: 107 1: 9.3% 0: 90.7%

Si Otros es igual a 0 Y Familia es igual a 1 Y Edad es igual a 1 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1

N: 34 1: 5.9% 0: 94.1%

Si Otros es igual a 1 Y Familia es igual a 1 Y Edad es igual a 1 Y Concurrente es igual a 0

N: 1 1: 100.0% 0: 0.0%

178

Y Buena cuenta es igual a 1

Si Otros es igual a 1 Y Deudas es igual a 1 Y Propósito es igual a 0 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1

N: 1 1: 0.0% 0: 100.0%

Si Residencia es igual a 0 Y Edad es igual a 1 Y Propósito es igual a 1 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1

N: 3% 1: 66.7% 0: 33.3%


N: 16 1: 12.5% 0: 87.5%

Si Préstamo es igual a 0 Y Edad es igual a 0 Y Casa es igual a 0 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0

N: 12 1: 33.3% 0: 66.7%


N: 8 1: 75.0% 0: 25.0%

Si Teléfono es igual a 0 Y Mala cuenta es igual a 0 Y Libro bancario es igual a 1 Y Fecha límite es igual a 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0

N: 15 1: 60.0% 0: 40.0%

Si Teléfono es igual a 1 Y Mala cuenta es igual a 0 Y Libro bancario es igual a 1 Y Fecha límite es igual a 0 Y Representante anterior es igual a 1

N: 10 1: 20.0% 0: 80.0%

179


Si Otros es igual a 0 Y Mala cuenta es igual a 1 Y Libro bancario es igual a 1 Y Fecha límite es igual 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0

N: 26 1: 11.5% 0: 88.5%


N: 1 1: 100.0% 0: 0.0%

Si Préstamo es igual a 0 Y Interés mensual es igual a 1 Y Libro bancario es igual a 0 Y Fecha límite es igual 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0

N: 61 1: 41.0% 0: 59.0%

Si Préstamo es igual a 1 Y Interés mensual es igual a 1 Y Libro bancario es igual a 0 Y Fecha límite es igual 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0

N: 6 1: 83.3% 0: 16.7%

Si Préstamo es igual a 1 Y Deudas es igual a 0 Y Efectivos es igual a 1 Y Fecha límite es igual 1 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0

N: 42 1: 52.4% 0:47.6%


N: 29 1: 31.0% 0: 69.0%

Si Libro bancario es igual a 0 Y Empleado es igual a 0

N: 11 1: 18.2%

180

Y Años trabajando es igual a 1 Y Edad es igual 0 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1

0: 81.8%

Si Libro bancario es igual a 1 Y Empleado es igual a 0 Y Años trabajando es igual a 1 Y Edad es igual 0 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1

N: 4 1: 75.0% 0: 25.0%

Si Empleado es igual a 1 Y Otros es igual a 0 Y Deudas es igual a 1 Y Propósito es igual a 0 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1

N: 11 1: 81.8 % 0: 18.2%

Si Empleado es igual a 0 Y Otros es igual a 0 Y Deudas es igual a 1 Y Propósito es igual 0 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1

N: 1 1: 0.0 % 0: 100.0%

181

Anexo2

Resultados del árbol de clasificación CART con impureza de entropía.


N: 10 1: 10.0% 0: 90.0%


N: 4 1: 75.0% 0: 25.0%

Si Efectivos es igual a 0 Y Libro bancario es igual a 1 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0

N: 194 1: 24.7% 0: 75.3%

Si Familia es igual a 0 Y Edad es igual a 1 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1

N: 144 1: 2.8% 0: 97.2%

Si Deudas es igual a 0 Y Propósito es igual a 0 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1

N: 9 1: 22.2% 0: 77.8%

Si Edad es igual a 0 Y Propósito es igual a 1 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1

N: 19 1: 0.0% 0: 100%

Si Edad es igual a 1 Y Casa es igual a 0 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0

N: 10 1: 90% 0: 10.0%

Si Concurrente es igual a 0 Y Casa es igual a 1 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0

N: 18 1: 100.0 % 0: 0.0%

182


Si Deudas es igual a 1 Y Efectivos igual a 1 Y Fecha límite es igual a 1 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0

N: 30 1: 26.7% 0: 73.3%


N: 31 1: 22.6% 0: 77.4%

Si Otras es igual a 1 Y Años trabajando es igual a 0 Y Edad es igual a 0 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1

N: 2 1: 100.0% 0: 0.0%

Si Empleado es igual a 1 Y Años trabajando es igual a 1 Y Edad es igual a 0 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1

N: 107 1: 9.3% 0: 90.7%


N: 34 1: 5.9% 0: 94.1%


N: 1 1: 100.0% 0: 0.0%

Si Residencia es igual a 1 Y Deudas es igual a 1 Y Propósito es igual a 0 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1

N: 3 1: 100.0% 0: 0.0%

Si Residencia es igual a 0 Y Edad es igual a 1

N: 3 1: 66.7%

183

Y Propósito es igual a 1 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1

0: 33.3%


N: 16 1: 12.5% 0: 87.5%


N: 12 1: 33.3% 0: 66.7%


N: 8 1: 75.0% 0: 25.0%

Si Años de trabajo es igual a 0 Y Concurrente es igual a 1 Y Casa es igual a 1 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0

N: 2 1: 0.0% 0: 100.0%

Si Años de trabajando es igual a 1 Y Concurrente es igual a 1 Y Casa es igual a 1 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0

N: 9 1: 88.9% 0: 11.1%

Si Teléfono es igual a 0 Y Mala cuenta es igual a 0 Y Libro bancario es igual a 1 Y Fecha límite es igual a 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0

N: 15 1: 60.0% 0: 40.0%

Si Teléfono es igual a 1 N: 10

184

Y Mala cuenta es igual a 0 Y Libro bancario es igual a 1 Y Fecha límite es igual a 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0

1: 20.0% 0: 80.0%


N: 26 1: 11.5% 0: 88.5%


N: 1 1: 100.0% 0: 0.0%

Si Interés mensual igual a 0 Y Préstamo es igual a 0 Y Libro bancario es igual a 0 Y Fecha límite es igual 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0

N: 82 1: 58.5% 0: 41.5%

Si interés mensual es igual a 1 Y Préstamo es igual a 0 Y Libro bancario es igual a 0 Y Fecha límite es igual 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0

N: 61 1: 41.0% 0: 59.0%


N: 42 1: 52.4% 0:47.6%

Si Préstamo es igual a 0 Y Deudas es igual a 0 Y Efectivos es igual a 1 Y Fecha límite es igual 1 Y Representante anterior es igual a 1

N: 29 1: 31.0% 0: 69.0%

185



N: 11 1: 18.2% 0: 81.8%


N: 4 1: 75.0% 0: 25.0%

Si Libro bancario es igual a 0 Y Residencia es igual a 0 Y Deudas es igual a 1 Y Propósito es igual a 0 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1

N: 8 1: 75.0% 0: 25.0%

Si Libro bancario es igual a 1 Y Residencia es igual a 0 Y Deudas es igual a 1 Y Propósito es igual 0 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1

N: 2 1: 0.0 % 0: 100.0%

186

Bibliografía

Agresti, A. (1990) Categorical Data Analysis. John Wiley & Sons, Inc., New York.

Berry, M. and Linoff, G. (1997) Data Mining Techniques for Marketing, Sale, and

Customer Support. Jhon Wiley & Sons, Inc., New York.

Bishop, C. (1995) Neuronal Networks for Pattern Recognition. Clarendon Press,

Oxford.

Fahrmeir, L. and Hamerle, A. (1994) Multivariate Statistical Modelling Based on

Generalised Linear Models. Spring- Verlag, Berlin.

Giudici, P. (2003) Applied Data Minig: Statistical Methods for Business and Industry.

Jhon Wiley & Sons, Inc., Italy.

Giudici, P. and Figini, S. (2009) Applied Data Mining for Business and Industry. Jhon

Wiley & Sons, Inc., Italy.

Goodman, L. A. and Kruskal, W. H. (1979) Measures of Association for Cross

Classification. Springer- Verlag, New York.

Hand, D. J. and Henley, W. E. (1997) Statistical clasification method in consumer

scoring: a review. Journal of the Royal Statistical Society, Series A 160, 523-541.

Immon, W. H. (1996) Building the Data Warehouse. Jhon Wiley & Sons, Inc., New

York.

Kolmogorov, A. N. (1933) Sulla determinazioneempirica di una leggi di probabilita.

Guirnale dell’ Instituto Italiano degli Attuari 4, 83-91.

SAS Institute (2001) SAS Enterprise Miner Reference Manual. SAS Institute Inc.,

Cary NC.

Documents

División de Ciencias Forestales | UACh-DiCiFodicifo.chapingo.mx/pdf/tesislic/2018/Ocampo_Olvera_Alberto.pdf · En ocasiones las palabras no bastan para demostrar los sentimientos;