Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
Dedicado a
mi familia.
Agradecimientos
En ocasiones las palabras no bastan para demostrar los sentimientos;
agradezco principalmente a mi madre, que sin ella nada de esto sería posible, que,
con su amor, su esfuerzo, su sacrificio y sus palabras de aliento hoy es posible
cumplir esta meta.
Durante mi estancia en la UACh tuve la oportunidad de conocer excelentes
personas con quienes compartí un sin fin de experiencias, agradezco a mis
hermanos que siempre me han brindado su apoyo, en especial a mi hermano
Samuel con quien he compartido grandes aventuras; agradezco a mis profesores
por tan grandes enseñanzas, gracias al Dr. Villanueva por su guía y la confianza
para la realización de este trabajo; y en particular, gracias al profesor Víctor
Hernández, quien no solo fue profesor si no también gran amigo y guía en mi
formación.
Grandes amigos me pasan por la mente al mirar atrás, le agradezco a Juan, a
Gustavo y a Nery por tantas risas, por su compañía y apoyo desde la prepa; le
agradezco a Alma, por su apoyo siempre incondicional y su honestidad; agradezco
a Ale por los consejos y su amistad de tantos años; gracias a Lupita por su alegría
e irreverencia, gracias por la confianza.
Agradezco profundamente a la Universidad Autónoma Chapingo por darme la
oportunidad de crecer y desarrollarme como profesional y agradezco a la
Licenciatura en Estadística por las enseñanzas y formación brindada.
A todos y cada uno de ellos
“Gracias por tanto y perdón por tan poco”.
1
Resumen
En este trabajo se describe el proceso de Minería de Datos, explicando
primeramente la forma en la que surge esta metodología a raíz del crecimiento en
la capacidad de almacenamiento y generación de datos en diversos procesos y la
necesidad que hay de describirlos; así también se desglosan las herramientas de
las que este proceso hace uso para el manejo de datos, que van desde el
tratamiento de las bases de datos hasta la modelación de los mismos, con el
objetivo de hacer predicción. Como fundamento del trabajo se muestra el enfoque
y los métodos estadísticos en los que se apoya la minería de datos para realizar y
mejorar sus procesos, así como también se hace hincapié en la diferencia entre la
estadística clásica y el proceso de minería de datos. Como ilustración del proceso
de minería de datos, se presentan dos ejemplos, el primero descrito de forma
detallada para ilustrar el proceso en práctica; mientras que el segundo ejemplo se
considera de forma general.
2
Summary
In this work the process of Data Mining is described, explaining first the way in
which it arises as a result of the growth in the capacity of storage and generation of
data in diverse processes and the need that there is to describe them; it also shows
the tools that this process uses for data management, ranging from the treatment of
data bases to the modeling of data with the aim of making predictions. As a
foundation of the work, the approach and statistical methods on which data mining
is supported to carry out and improve its processes will be shown, as well as the
difference between classical statistics and the data mining process. As illustration of
the data mining process , two examples are presented, the first described in detail
to illustrate the process in practice; while the second example is considered in a
general way.
3
Índice General Resumen ................................................................................................................ 1
Summary ................................................................................................................ 2
Lista de tablas. ...................................................................................................... 6
Lista de figuras. ..................................................................................................... 7
Protocolo del trabajo de investigación de la tesis .................................................... 8
1.1 Introducción ................................................................................................... 9
1.2 Antecedentes ................................................................................................. 9
1.3 Justificación y objetivos .............................................................................. 9
1.3.1 Objetivo principal de la tesis .................................................................... 9
1.3.2 Objetivos específicos ............................................................................ 10
1.3.3 Metas académicas ................................................................................ 10
Minería de datos .................................................................................................... 11
2.1 ¿Qué es Minería de Datos? ......................................................................... 12
2.2 Minería de datos y estadística ..................................................................... 13
2.3 El proceso de minería de datos. .................................................................. 16
2.3.1 Definición de objetivos .......................................................................... 16
2.3.2 Organización de los datos ..................................................................... 17
2.3.3 Análisis Exploratorio de los datos.......................................................... 18
2.3.4 Especificación de los Métodos Estadísticos .......................................... 19
2.3.5 Análisis de los Datos ............................................................................. 21
2.3.6 Evaluación de Métodos Estadísticos. .................................................... 21
2.3.7 Implementación de los métodos. ........................................................... 22
2.4 Software para Minería de Datos .................................................................. 25
Organización de los datos. .................................................................................... 28
3.1 Desde la estructura data webhouse hasta la estructura data marts ............ 29
3.1.1 Data warehouse .................................................................................... 30
3.1.1.2 Data webhouse .................................................................................. 33
3.1.1.3 Data marts .......................................................................................... 33
3.2 Clasificación de los datos. ........................................................................... 34
3.3 Matriz de Datos ............................................................................................ 36
3.3.1 Binarización de la Matriz de Datos. ....................................................... 37
3.4 Distribución de Frecuencias ......................................................................... 39
4
3.4.1 Distribuciones Univariadas .................................................................... 39
3.4.2 Distribuciones Multivariadas .................................................................. 41
3.5 Transformación de los datos. ....................................................................... 43
Análisis exploratorio de los datos. ......................................................................... 44
4.1 Análisis Exploratorio Univariado. ................................................................. 45
4.1.1 Medidas de Localización. ...................................................................... 47
4.1.2 Medidas de Variabilidad. ....................................................................... 49
4.1.3 Medidas de Heterogeneidad ................................................................. 50
4.1.4 Medida de Concentración. .................................................................... 51
4.1.5 Medida de Asimetría. ............................................................................ 54
4.1.6 Medida de Kurtosis. ............................................................................... 55
4.2 Análisis Exploratorio Bivariado. ................................................................... 57
4.3 Análisis Exploratorio Multivariado de Datos Cuantitativos. .......................... 61
4.4 Análisis Exploratorio Multivariado de Datos Cualitativos. ............................ 63
4.4.1 Independencia y Asociación. ................................................................. 65
4.4.2 Medidas de Distancia. ........................................................................... 66
4.4.3 Medidas de Dependencia. ..................................................................... 67
4.4.4 Medidas Basadas en Modelos. ............................................................. 69
4.5 Reducción de Dimensionalidad ................................................................... 71
4.5.1 Interpretación de los Componentes Principales. ................................... 74
Minería de datos computacionales. ....................................................................... 77
5.1 Medidas de Distancia................................................................................... 78
5.1.1 Distancia Euclideana. ............................................................................ 78
5.1.2 Medidas de Semejanza. ........................................................................ 79
5.1.3 Ajuste Multidimensional. ........................................................................ 80
5.2 Análisis de Grupo. ....................................................................................... 81
5.2.1 Métodos Jerárquicos. ............................................................................ 82
5.2.2 Métodos No Jerárquicos. ...................................................................... 86
5.3 Regresión Lineal. ......................................................................................... 87
5.3.1 Regresión Lineal Bivariada ................................................................... 87
5.3.2 Regresión Lineal Múltiple. ..................................................................... 90
5.4 Regresión Logística. .................................................................................... 92
5.5 Modelos Árbol. ............................................................................................. 93
5.5.1 Criterio de División para Modelos Árbol. ............................................... 97
5
5.5.2 Poda. ..................................................................................................... 99
5.6 Redes Neuronales. .................................................................................... 101
5.6.1 Arquitectura de una Red Neuronal. ..................................................... 105
5.6.2 El perceptrón Multicapa. ...................................................................... 108
Estadística en minería de datos. ......................................................................... 116
6.1 Medidas de Incertidumbre e Inferencia. ..................................................... 117
6.1.1 Probabilidad. ....................................................................................... 117
6.1.2 Inferencia Estadística .......................................................................... 120
6.2 Modelación No Paramétrica. ...................................................................... 125
6.3 Modelos Lineales Generalizados. .............................................................. 128
6.3.1 La Familia Exponencial. ...................................................................... 128
6.3.2 Definición de Modelos Lineales Generalizados. .................................. 129
6.3.3 Comparación de Modelos. .................................................................. 132
Ejemplos y aplicaciones de la Minería de Datos. ................................................ 135
7.1 Ejemplo 1: Puntaje de Crédito. .................................................................. 136
7.1.1 Objetivos del análisis. .......................................................................... 136
7.1.2 Descripción de los datos. .................................................................... 137
7.1.3 Análisis exploratorio. ........................................................................... 140
7.1.4 Construcción del modelo. .................................................................... 144
7.1.5 Comparación de modelos. .................................................................. 156
7.1.6 Resumen ............................................................................................. 164
7.2 Ejemplo 2: Pronosticando audiencia televisiva. ......................................... 167
Conclusiones ....................................................................................................... 170
Propuesta: Programa para curso de Minería de Datos ....................................... 173
Anexo1 ............................................................................................................... 176
Anexo2 ............................................................................................................... 181
Bibliografía ......................................................................................................... 186
6
Lista de tablas.
Tabla 3.1 Matriz de Datos ..................................................................................... 36
Tabla 3.2 Ejemplo real de una matriz de datos ..................................................... 37
Tabla 3.3 Ejemplo de binarización. ....................................................................... 38
Tabla 3.4 Distribución de Frecuencias Univariada. ............................................... 40
Tabla 3.5 Ejemplo de una Distribución de Frecuencias. ....................................... 40
Tabla 3.6 Distribución de Frecuencias Relativas Univariada. ............................... 40
Tabla 3.7 Ejemplo de una Distribución de Frecuencias Relativas Univariada. ..... 40
Tabla 3.8 Tabla de Contingencia de dos entradas. ............................................... 42
Tabla 4.1 Distribución de Frecuencias para una Variable Cualitativa. .................. 50
Tabla 4.2 Construcción de la curva de concentración. ......................................... 53
Tabla 4.3 Matriz de varianzas y covarianzas. ....................................................... 59
Tabla 4.4 Matriz de correlación. ............................................................................ 60
Tabla 4.5 Clasificación de variables ordinales. ..................................................... 64
Tabla 4.6 Tabla de contingencia teórica de dos variables. ................................... 64
Tabla 6.1 Principales Enlaces Canónicos. .......................................................... 132
Tabla 7.1 Estructura de la matriz de datos. ........................................................ 138
Tabla 7.2 Clasificación de la variable “Tiempo límite”. ........................................ 140
Tabla 7.3 Clasificación de la variable “Cuenta”. .................................................. 140
Tabla 7.4 Clasificación de las variables “Sexo” y “Estado civil”. ......................... 140
Tabla 7.5 Razones de odds univariadas con la variable de respuesta. .............. 141
Tabla 7.6 Interpretación de la razón de odds. ..................................................... 143
Tabla 7.7 Resultados del procedimiento de selección forward. .......................... 145
Tabla 7.8 Estimadores de máxima verosimilitud de los parámetros. .................. 147
Tabla 7.9 Interpretación del modelo estimado. ................................................... 148
Tabla 7.10 Comparación entre las razones de odds multivariadas y univariadas ............................................................................................................................ 150
Tabla 7.11 Resultados del árbol de clasificación CHAID .................................... 151
Tabla 7.12 Comparación de modelo bagged con los tres modelos individuales. 162
7
Lista de figuras.
Figura 4.1 Ejemplos: (a) un diagrama de frecuencias y (b) un histograma. ......... 47
Figura 4.2 Representación de la curva de concentración. .................................... 53
Figura 4.3 Histogramas que describen distribuciones simétricas y asimétricas ... 54
Figura 4.4 Aproximación normal para un histograma. .......................................... 56
Figura 4.5 Ejemplo de una gráfica de dispersión. ................................................. 57
Figura 4.6 Ejemplo de un diagrama de graficas de dispersión. ............................ 58
Figura 5.1 Estructura de un dendrograma. ........................................................... 83
Figura 5.2 Ejemplo del ajuste de una regresión lineal. ......................................... 90
Figura 5.3 Ejemplo de probabilidades de respuesta binaria. ................................ 95
Figura 7.1 Resultados del Árbol de Clasificación CHAID ................................... 153
Figura 7.2 Curvas ROC para los modelos finales. .............................................. 159
Figura 7.3 Gráfica de levantamiento para los modelos finales. .......................... 160
Figura 7.4 Curvas ROC para el modelo árbol bagged y modelo árbol único. ..... 162
8
Capítulo 1
Protocolo del trabajo de investigación de la tesis
9
1.1 Introducción
En los últimos años se ha dado un incremento significativo en nuestra habilidad
para generar y recolectar datos, principalmente por el desarrollo en el campo
computacional y por la reducción de costos en cuestión del almacenamiento de la
información. Sin embargo, dentro de estas enormes masas de datos existe
información “oculta” que no es posible recuperar con las técnicas de análisis de
información clásicas.
Es aquí donde la minería de datos (Data Mining) surge con la necesidad de
recuperar esa información, haciendo uso, entre otras técnicas, del aprendizaje
automático (Machine Learning). Al ser un tema relativamente nuevo, en este trabajo
de tesis se buscará hacer una revisión detallada de la teoría y el proceso completo
de minería de datos en la actualidad.
1.2 Antecedentes
En el proceso de inteligencia de negocios (Bussiness Intelligence), el proceso de
minería de datos es una herramienta de gran utilidad para optimizar el manejo, análisis
y obtención de resultados a partir de la base de datos de la empresa o compañía. Su
utilidad se debe principalmente a su capacidad de manejar grandes masas de datos.
Por ello, este trabajo consiste en describir con detalle el proceso de minería de datos,
así como el tipo de problemas que este puede abordar.
1.3 Justificación y objetivos
El proceso de minería de datos ha demostrado, a pesar de ser una técnica poco
conocida, ser muy eficiente y una muy buena opción para el análisis de grandes bases
de datos, el cual conjunta técnicas computacionales con técnicas de análisis
estadístico.
1.3.1 Objetivo principal de la tesis
El objetivo principal en esta tesis será estudiar las etapas del proceso de
minería de datos y generar un documento de revisión que describa su aplicación en
la industria y en los negocios.
10
1.3.2 Objetivos específicos
Las metas específicas de este proyecto son:
1. Revisar los conceptos relevantes del proceso de minería de datos y
describir a detalle sus etapas para plantearlo como una alternativa en el
manejo de grandes bases de datos.
2. Explicar con detalle los métodos estadísticos y el software requerido para
ajustar modelos de regresión a la información obtenida de grandes bases
de datos.
3. Ejemplificar el proceso de minería de datos con datos reales.
1.3.3 Metas académicas
Los resultados que se esperan obtener del desarrollo de este proyecto son:
1. Obtener conocimiento del proceso de minería de datos y de su aplicación
actual en los campos de la industria y los negocios, con el fin de
fortalecer mi formación profesional.
2. Proponer una alternativa de análisis estadístico para grandes bases de
datos.
3. Escribir un documento de revisión bibliográfica que describa detallada y
claramente los conceptos y las etapas del proceso de minería de datos,
que pueda servir de referencia de consulta tanto para profesionales de
la industria y los negocios como para académicos y estudiantes de
programas de licenciatura y postgrado en la rama de Estadística.
4. Proponer un programa analítico sobre los temas importantes que
debería contener un posible curso de minería de datos en la Licenciatura
en Estadística de la Universidad Autónoma Chapingo.
11
Capítulo 2
Minería de datos
12
2.1 ¿Qué es Minería de Datos?
Actualmente, la minería de datos puede considerarse como un proceso
analítico con la función de revelar patrones o tendencias ocultas en el vasto océano
de datos existente, haciendo uso de la última generación de programas
computacionales. El significado original de “minería” es referido a la extracción de
recursos, tal como el petróleo o el oro, de la tierra. La combinación con la palabra
“datos” sugiere el análisis a fondo de los datos con el objetivo de revelar el
conocimiento “puntual” que no es expuesto a simple vista en la masa de datos. Una
definición más completa sería:
Minería de Datos es el proceso de selección, exploración y modelación de
grandes cantidades de datos para descubrir regularidades o relaciones que son
inicialmente desconocidas con el objetivo de obtener una depuración de los datos y
para que el propietario haga un uso útil de su base de datos.1
Desde la perspectiva de la investigación científica, minería de datos
cercanamente relacionada con muchas otras disciplinas, tal como aprendizaje
automático, bases de datos, estadística, análisis de datos, investigación de
operaciones, apoyo de decisiones, sistemas de información, entre otros.
Sin embargo, es importante distinguir minería de datos del análisis
estadístico, mientras que la estadística clásica se basa en la prueba de hipótesis,
minería de datos es un proceso exploratorio que busca revelar información oculta
en una base de datos. Minería de datos no es el uso de un algoritmo de cómputo o
1 Definición traducida de Paolo Giudici. (2003) Aplied Data Mining: Statistical Methods for Business and Industry.
13
una técnica estadística, es un proceso de “inteligencia de negocios” usado para
proporcionar información que apoye en la toma de decisiones de una compañía.
2.2 Minería de datos y estadística
La Estadística siempre ha tenido como principal propósito la creación de
métodos para el análisis de datos, por ende, los métodos estadísticos son
usualmente desarrollados en relación a los datos que están siendo analizados
siguiendo normas conceptuales. Mientras esto hace que los métodos estadísticos
sean coherentes y rigurosos, también limita su habilidad para adaptarse a las
nuevas tecnologías de información y de nuevas aplicaciones de aprendizaje
automático. Esta es posiblemente la principal diferencia entre los métodos
estadísticos y los métodos de aprendizaje automático.
Recientemente, se ha dado un interés en minería de datos por parte de los
estadísticos y esto debería ayudar en el desarrollo de esta disciplina, sin embargo,
aún existen críticas hacia esta por dos razones principalmente. Primero, en su
procedimiento no existe justificación de un modelo teórico como referencia, además
de que varios modelos compiten entre ellos y que estos modelos son cambiantes
dependiendo de la base de datos que se esté examinando. La crítica a su
procedimiento es que siempre es posible encontrar un modelo, el cual se adapta
bien a los datos, pero este normalmente resulta ser complejo. Segundo, es criticada
por la gran cantidad de datos que es capaz de manejar para encontrar relaciones
“no existentes” dentro de la base de datos.
Sin embargo, los métodos modernos de minería de datos prestan gran
atención al momento de generar resultados para que estos sean de confianza. Esto
14
implica que cuando se cambia un modelo, se considera y pone a prueba el poder
predictivo, además de que los modelos más complejos son penalizados.
Es difícil ignorar el hecho de que los descubrimientos o resultados obtenidos
con minería de datos eran en principio desconocidos, por lo que no podían ser
usados para el desarrollo de una prueba de hipótesis. Siendo esto algo muy común
tratándose de grandes bases de datos. Este último aspecto es una de las
características que distinguen minería de datos del análisis estadístico.
Además, mientras que el análisis estadístico tradicionalmente se enfoca en
un análisis primario de datos que fueron colectados para revisar una hipótesis
específica, minería de datos puede también enfocarse con datos secundarios, es
decir, con datos que fueron colectados por otras razones.
Berry y Linoff (1997) distinguen en minería de datos dos tipos de enfoques
de análisis. Los dividen en análisis top-down (de arriba hacia abajo, tipo
confirmativo) y análisis bottom-up (de abajo hacia arriba, tipo exploratorio).
El análisis top-down tiene como principal objetivo el confirmar o rechazar una
hipótesis y trata de extender nuestro conocimiento respecto a un fenómeno
conocido, logra esto principalmente por hacer uso de métodos estadísticos
tradicionales.
A su vez, en el análisis bottom-up busca la forma de usar la información que
ha pasado inadvertida, es decir, busca a lo largo de la base de datos las conexiones
que permitan la creación de alguna hipótesis. El enfoque del análisis de bottom-up
es típico de minería de datos.
En realidad, estos dos enfoques son complementarios, de hecho, la
información obtenida con el análisis bottom-up, en la cual se identifican importantes
15
relaciones y tendencias, es posible que no se pueda explicar por qué estos
descubrimientos son de utilidad ni en qué nivel son válidos. Es aquí donde las
herramientas de confirmación del análisis top-down pueden ser usadas para
confirmar los descubrimientos y evaluar la calidad de estos.
Hay otros tres aspectos menos importantes que distinguen el análisis
estadístico de minería de datos. Primero, minería de datos analiza grandes bases
de datos, esto implica que se tienen que hacer nuevas consideraciones para el
análisis estadístico. Además de esto, para muchas aplicaciones es prácticamente
imposible analizar o incluso abrir bases de datos de tal magnitud, por razones de
eficiencia computacional. Por lo que surge la necesidad de tener una muestra de
datos de la base de datos que está siendo examinada. Dicho muestreo debe ya
estar considerado dentro de los objetivos de minería de datos, por lo que no puede
ser utilizada la teoría estadística tradicional.
Segundo, muchas bases de datos no están en la forma clásica que están los
datos estadísticos, por ejemplo, los datos colectados de internet. Esto crea la
necesidad de métodos de análisis apropiados que comúnmente no están
considerados dentro del campo de la estadística. Tercero, los resultados de minería
de datos surgen como consecuencia de algún fenómeno, esto implica que se debe
tener precaución al momento de usar los resultados, obtenidos de los métodos de
análisis, que serán implementados en el negocio.
En conclusión, hay razones para creer que minería de datos no es algo nuevo
de la visión estadística, pero también hay razones que sustentan la idea de que, por
su naturaleza, los métodos estadísticos deben ser suficientes para estudiar y
formalizar los métodos usados en minería de datos. Esto significa que por un lado
16
nos vemos en la necesidad de ver un problema planteado por minería de datos
desde el punto de vista estadístico; mientras que por el otro lado es necesario
desarrollar un paradigma conceptual, que, al presentarse, el enfoque estadístico
prefiere dirigir los métodos de minería de datos a que regresen al esquema general
y al análisis coherente.
2.3 El proceso de minería de datos.
Minería de datos comprende una serie de actividades que van desde definir
objetivos hasta la evaluación de resultados. A continuación, se presentan siete fases
para este proceso:
A. Definición de objetivos para el análisis.
B. Selección, organización y pretratamiento de la base de datos.
C. Análisis exploratorio de los datos y su posterior transformación.
D. Especificación de los métodos estadísticos que se usarán en la fase de
análisis.
E. Análisis de los datos basados en los modelos elegidos.
F. Evaluación y comparación de los métodos usados y la elección del modelo
final para el análisis.
G. Interpretación del modelo elegido y de su posterior uso en el proceso de
decisión.
2.3.1 Definición de objetivos
Involucra la definición de los objetivos para el análisis. No siempre resulta
sencillo definir el fenómeno que queremos analizar, de hecho, es común que las
compañías tengan claro sus objetivos, sin embargo el problema muchas veces
17
resulta al momento de trasladar los objetivos que necesitan ser analizados de una
forma detallada. El tener claridad de los objetivos y del problema es requisito
indispensable para poder realizar un análisis correcto. Esta etapa es de las más
difícil del proceso dado que determina como se organizará la metodología
posteriormente, por lo tanto, los objetivos deben ser claros y no debe haber lugar
para dudas o incertidumbre.
2.3.2 Organización de los datos
Una vez que ya han sido definidos los objetivos es necesario seleccionar los
datos para el análisis. Primero, es necesario identificar la fuente de los datos,
usualmente los datos son tomados de fuentes internas que son de mayor confianza
y más a fondo. Además, de que también tienen la ventaja de que contienen
experiencias y procesos de la propia empresa.
Los mejores datos de los que se pueden hacer uso son los que provienen de
la warehouse (casa de datos) de la compañía, la cual se puede describir como un
depósito de datos de la historia de la compañía, en la que no es difícil observar
cambios y resulta sencillo el obtener los datos deseados para el análisis,
comúnmente los datos de mercado son de gran interés. Si no hay una warehouse,
entonces los datos de mercado pueden ser obtenidos haciendo un cruce entre las
diferentes fuentes de datos con las que cuente la compañía.
En general, la obtención o creación de datos de mercado es fundamental
para el posterior análisis de los datos, puesto que conduce a la representación de
los datos, comúnmente representados en un arreglo rectangular conocido como
18
matriz de datos. Este arreglo es debido a la necesidad de análisis y al
establecimiento preciso de los objetivos.
Luego de que la matriz de datos se encuentra disponible, se prosigue a
realizar una limpieza preliminar de los datos, en otras palabras, aplicar un control
de calidad conocido como limpieza de datos. Es un proceso que funciona para hacer
notar variables que existen pero que no son adecuadas para el análisis. Es
importante revisar el contenido de las variables para evitar la presencia de datos
perdidos o datos incorrectos y si alguna información esencial está perdida, es
necesario revisar la fase para destacar variables.
Para terminar esta etapa, es conveniente hacer un análisis sobre un
subconjunto o muestra de la base de datos disponible, esto porque la calidad de la
información, en datos de mercado, obtenida de muestras es muchas veces mejor
que la colectada del análisis de la base de datos completa. Además de que el
análisis de bases de datos en minería de datos es a menudo muy largo, entonces
es preferible usar una muestra de los datos para reducir el tiempo de análisis.
2.3.3 Análisis Exploratorio de los datos.
Este proceso en muy similar a las técnicas de OLAP (Online Analitical
Processing), el cual es un instrumento usado para hacer notar relaciones entre las
variables disponibles siguiendo la lógica de un reporte de dos dimensiones.
El objetivo de este análisis preliminar es cambiar la visualización de los datos
transformando la distribución de los datos originales, tratando que esta sea más fácil
de entender. También es capaz de identificar anomalías en los datos, artículos que
sean diferentes a los demás, aunque no necesariamente estos artículos deben ser
19
eliminados puesto que podrían contener información importante para lograr los
objetivos del análisis.
El análisis exploratorio es una fase esencial en el análisis porque permite al
analista tener una idea de qué tipo de métodos estadísticos podrían ser los más
indicados para la siguiente fase, sin dejar de considerar la calidad de los datos
obtenida en la fase anterior.
Además, este análisis también podría sugerir la necesidad de una nueva
extracción de datos debido a que los datos colectados son insuficientes para
conseguir los objetivos del análisis. Los métodos exploratorios principales en
minería de datos serán discutidos más adelante.
2.3.4 Especificación de los Métodos Estadísticos
La selección del método depende mucho del problema que se esté
estudiando o del tipo de datos disponibles. Existen muchos métodos estadísticos
que podemos seleccionar, así como una gran variedad de algoritmos disponibles
para minería de datos, por lo que es importante tener una clasificación de los
métodos existentes. Minería de datos está enfocada a la aplicación por lo que los
métodos usados se pueden clasificar de acuerdo al objetivo del análisis.
2.3.4.1 Métodos descriptivos.
También conocidos como simétricos, sin supervisión o métodos indirectos.
Su objetivo es describir el estado de los datos que estamos analizando, para hacer
estos es necesario observar a fondo la distribución de los datos, exteriorizando las
relaciones entre las observaciones, y obteniendo las características en común de la
distribución de los datos haciendo uso de métodos de inteligencia automática, las
20
observaciones pueden ser clasificadas en grupos que no eran conocidos de
antemano con el uso de un análisis de agrupación (análisis por grupos, Kohonen
maps) basados en la distancia mutua o similar entre ellas. Las variables pueden ser
conectadas entre ellas de acuerdo a enlaces, antes desconocidos, usando métodos
de asociación, modelos log-lineal o modelos gráficos. De este modo se asegura que
todas las variables en general serán tratadas de igual forma.
2.3.4.2 Método predictivo.
Es también llamado asimétrico, supervisado o método directo. Su objetivo es
describir una o más variables respecto a todas las demás mediante reglas de
clasificación o de predicción. Estas reglas ayudan en la predicción de resultados a
futuro y se obtienen a partir de la generación de enlaces entre las variables
respuesta y las variables observadas.
Los principales métodos para este enfoque son desarrollados en el campo
de aprendizaje automático, tal como lo son redes neuronales (perceptrones
multicapa) y los árboles de decisión, pero también hay modelos de estadística
clásica con este enfoque, como los modelos lineales y de regresión logística.
2.3.4.3 Método Local
Su objetivo es identificar características particulares, relacionadas en
subconjuntos de la base de datos. El método descriptivo y el predictivo, están
enfocados en la exploración de las propiedades generales de los datos en lugar de
hacerlo con la información local.
Algunas veces el análisis, gradualmente, más pequeño nos provee de más
información que la descripción o predicción de los datos en general. Este método
21
es el medio para encontrar las relaciones mutuas locales a un nivel bajo. Ejemplos
de métodos locales son las reglas de asociación para análisis de datos de
transacciones y la identificación de observaciones anormales (outliers).
Aunque existen varios métodos, en la aplicación de la vida real es necesario
hacer una mezcla o cruce de métodos dependiendo de los objetivos del análisis o
de los datos disponibles.
2.3.5 Análisis de los Datos
Una vez que el método ha sido especificado, este se debe trasladar con los
algoritmos apropiados para poder realizar los cálculos computacionales que
servirán para sintetizar los resultados que necesitamos de la base de datos.
Debido al amplio número de softwares especializados y no especializados en
minería de datos, no es necesario desarrollar algoritmos para aplicaciones estándar,
los algoritmos con los que cuenta el software deben ser suficientes para los cálculos.
Sin embargo, es necesario que el gestor del proceso tenga un profundo
conocimiento tanto de los diferentes métodos como de las soluciones del software,
para que en caso de ser necesario sea capaz de adaptar el proceso para satisfacer
las necesidades de la compañía y poder interpretar los resultados correctamente al
momento de tomar decisiones.
2.3.6 Evaluación de Métodos Estadísticos.
Para poder tomar una decisión final es necesario seleccionar el mejor modelo
para el análisis de los datos de entre los métodos estadísticos disponibles, por lo
que es necesario hacer una comparación de resultados obtenidos a partir de
diferentes métodos para seleccionar el modelo y las reglas de decisión final.
22
Es indispensable hacer una revisión de los métodos estadísticos
especificados, ya que es posible que con ninguno de los métodos se logre conseguir
los objetivos planteados. En tal caso es necesario regresar y especificar un nuevo
método que sea más apropiado para el análisis.
Al momento de evaluar el desempeño de un método, analizando medidas de
tipo estadístico, también se deben tener en cuenta otros aspectos tal como
restricciones de tiempo, restricciones de recursos, calidad y disponibilidad de los
datos, entre otros.
En procesos de minería de datos es muy poco común el uso de un solo
método para el análisis de los datos, normalmente la combinación de varios
métodos crea el potencial para poder identificar diferentes aspectos que de otro
modo habrían pasado inadvertidos.
Para poder elegir el mejor modelo final se requiere aplicar varias técnicas
rápidas y simples para comparar los diferentes resultados producidos y hacer una
evaluación del negocio con las diferentes reglas creadas.
2.3.7 Implementación de los métodos.
Minería de datos no se restringe al análisis de los datos, sino que también
involucra la integración de los resultados dentro de la toma de decisiones de la
compañía. El conocimiento del negocio, la extracción de reglas y su participación
en el proceso de decisión van encaminados en ir desde de la fase analítica hasta la
producción de maquinarias para la toma de decisiones.
Una vez que el modelo ha sido elegido y probado con un conjunto de datos,
la clasificación de reglas puede ser generalizada y aplicada como referencia a toda
23
la población de datos disponibles. Es de vital importancia aplicar el modelo de forma
correcta para que se pueda explotar su máximo potencial.
La inclusión del proceso minería de datos en la organización de la compañía
debe hacerse de forma gradual, primero estableciendo objetivos realistas y
observando los resultados a lo largo del tiempo.
El objetivo final de minería de datos es integrarse por completo con las otras
actividades que son usadas de apoyo en la toma de decisiones de la compañía.
Para conseguir esto, ocupa de al menos cuatro fases:
Fase estratégica. En esta primera fase se hace un estudio del proceso de
negocio o compañía para identificar los puntos en los que minería de datos
puede ofrecer mayores beneficios. Como resultado de esta fase se obtienen
los objetivos de la compañía para iniciar con el proyecto piloto de minería de
datos y además se generan los criterios con los que el proyecto será
evaluado.
Fase de entrenamiento. Aquí se lleva a cabo una evaluación a fondo del
proceso de minería de datos. Se comienza por desarrollar un proyecto o
prueba piloto y los resultados de este serán evaluados mediante los objetivos
y criterios establecidos en la fase anterior. La elección del proyecto piloto es
muy importante, debe ser simple y fácil de aplicar pero lo suficientemente
importante para causar interés. En caso que el proyecto piloto sea positivo
se pueden presentar dos opciones: que se realice una evaluación preliminar
de la utilidad de las diferentes técnicas del proceso minería de datos; y las
otra, que se defina un sistema prototipo de minería de datos.
24
Fase de creación. En caso de que los resultados del proyecto piloto hayan
aprobado la evaluación, aplicando por completo el proceso de minería de
datos, es necesario establecer un plan minuciosamente detallado para
reorganizar el procedimiento de la compañía con la intención de incluir el
proceso de minería de datos dentro de sus actividades. Siendo más
específico, es necesario reorganizar la base de datos de la compañía y
plantear la posible creación de una data warehouse, esto para poder
desarrollar el proyecto previo de minería de datos, hasta que se cuente con
una versión operacional inicial, además de que se tiene que asignar personal
y tiempo para seguir el proyecto.
Fase de migración. Para esta etapa sólo es necesario planificar una
organización apropiada para que el proceso de minería de datos pueda ser
integrado exitosamente dentro de las actividades de la compañía. Esto
implica, enseñar a posibles usuarios el potencial del nuevo sistema para
incrementar su confianza en los beneficios que brindará, además se requiere
también de hacer evaluaciones contantes de los resultados obtenidos del
proceso de minería de datos, así como de comunicar y evaluar las eficiencias
del mismo.
Para que la minería de datos pueda ser considerada como un proceso válido
dentro de una compañía, es necesario involucrar al menos tres tipos de personas
diferentes pero con habilidades de comunicación y ser interactivas.
- Expertos en negocios, para desarrollar el conjunto de objetivos e interpretar
los resultados de minería de datos.
25
- Expertos en tecnologías de información, alguien que conozca acerca de
datos y las tecnologías necesarias para manipularlos.
- Expertos en métodos estadísticos, para la fase del análisis de los datos.
2.4 Software para Minería de Datos
Para efectuar este proceso se requiere de un software adecuado que permita
realizar el análisis. Debido a que el proceso busca relaciones desconocidas de
antemano y compara los métodos de análisis disponibles no es posible hacer uso
de sistemas especializados para el análisis estadístico.
Para que un software sea válido para el proceso debe tener integrado
previamente un sistema de minería de datos, es decir que haya sido creado junto
con él, uno que le permita usar y comparar diferentes técnicas.
Si se desea planear, implementar y desarrollar exitosamente un proyecto de
minería de datos es necesario que el software también cuente con soluciones que
incluyan a todas las fases del proceso analítico. Esto va desde el muestreo de los
datos, mediante el análisis y las fases de modelación, hasta la publicación de la
información de la compañía resultante del proceso.
Además de esto, el software debe ser de uso-amistoso, intuitivo y
suficientemente flexible para permitir a usuarios con poca experiencia en estadística
entenderlo y usarlo. Existen pocos software que pueden hacer esto y uno de ellos
es el software SAS, en el cual se encuentra integrado el proceso de minería de
datos conocido como Enterprise Miner (SAS Institute, 2001).
En sus características, reúne el sistema de análisis estadístico y los reportes
de SAS con un interface de uso gráfico, GUI por sus siglas en inglés, que es
26
relativamente fácil de usar y puede ser entendido por analistas corporativos y
expertos en estadística. Los elementos GUI pueden ser usados para desarrollar el
proceso de minería de datos mediante el método SEMMA.
En este método se establecen algunos elementos básicos del proceso pero
sin imponer una ruta rígida y predeterminada. También provee un proceso lógico
que los analistas corporativos y expertos en estadística pueden seguir para lograr
los objetivos de los proyectos de minería de datos cambiando los elementos de GUI
que sean necesarios. La representación de esta estructura es un diagrama de flujo
de un proceso, PFD por sus siglas en inglés, que ilustra gráficamente las etapas
necesarias para completar un proceso de minería de datos.
El método SEMMA definido por SAS Institute hace referencia a una
estructura general que puede ser usada para organizar las fases de un proyecto de
minería de datos: ‘SEMMA es un acrónimo para: sample, explore, modify, model
and assess.
Sample (muestra): básicamente se extrae una muestra de la base de datos
que sea lo bastante grande para contener información importante pero
también lo bastante pequeña para que sea analizada rápidamente.
Explore (explorar): se realiza una exploración de los datos con el propósito
de encontrar alguna relación o anormalidad que ayude a identificar que datos
pueden ser de interés.
Modify and model (modificación y modelación): en esta fase se busca
identificar las variables y los modelos que puedan proveer la información
contenida en los datos.
27
Assess (evaluar): finalmente se hace una evaluación de la utilidad y de la
confiabilidad de la información descubierta en el proceso.
28
Capítulo 3
Organización de los
datos.
29
Es necesario que los datos estén organizados en una base de datos bien
ordenada para que se pueda realizar un buen desarrollo del análisis. Además, la
forma en la que se realizará el análisis de los datos dependerá generalmente de la
forma en la que se encuentre organizada la base de datos.
Una estrategia usada por medianas y grandes empresas es la generación y
uso de una data warehouse (almacén de datos) con el propósito de conseguir
información precisa de la forma de manejo del negocio, integrada por distintos tipos
de datos, como por ejemplo: datos de contabilidad derivados de datos que surgen
del proceso de producción, contactos con proveedores (manejo en la cadena de
suministros), tendencia de ventas, contactos con clientes (manejo de la relación de
clientes), entre otros.
Otro ejemplo en la obtención de información se da con en el aumento de la
difusión del comercio electrónico, el cual produce abundantes datos referentes a las
páginas web que cuentan con transferencia de pago que han sido visitadas. En este
caso resulta esencial para los proveedores, mediante el uso de internet, conocer
qué tipo de clientes frecuenta las páginas web para así poder planificar ofertas. Este
tipo de datos son guardados en una base de datos llamada webhouse.
Si no se cuenta con una buena organización de los datos es fácil perder
patrones importantes que son parte fundamental en el diseño de los datos y que
pueden ser significativos en el análisis de los datos.
3.1 Desde la estructura data webhouse hasta la estructura data marts
Se puede decir que la operación más importante para el desarrollo de un
proceso de minería de datos y para poder obtener información útil, es la creación
30
de una base de datos válida. Además de que comúnmente, esta operación también
resulta ser la más costosa de todo el proceso en cuestión de recursos destinados
para ésta y en el tiempo necesario para su implementación y desarrollo.
A continuación, se describen tres tipos de estructura de bases de datos para
el análisis en minería de datos: data warehouse, data webhouse y data mart. Siendo
las dos primeras, ya mencionadas anteriormente, estructuras de datos más
complejas a diferencia de la data mart, que es un base simple, que comúnmente se
deriva de otras estructuras, las cuales deben estar listas para ser analizadas.
3.1.1 Data warehouse
De acuerdo con Immon (1996) una data warehouse es “una colección de
datos acerca de una colección de temas (unidades), las cuales no son volátiles en
el paso del tiempo y pueden ser de apoyo en la toma de decisiones del
administrador”.
Analizando esta definición, la primer característica señalada es la orientación
de la data warehouse hacia los temas, esto quiere decir que los datos son
organizados y o divididos respecto al tema en lugar del tipo de negocio. Por ejemplo,
en el caso de una compañía de seguros, los datos que integran la warehouse
posiblemente están divididos por Cliente, Póliza y Seguro Premium en lugar de
Responsabilidad Civil, Vida y Accidentes como podría suponerse.
Una segunda característica de la warehouse, posiblemente la más
importante, es la integración de los datos, en otras palabras, la warehouse debe ser
capaz de integrar perfectamente los diversos estándares usados por las diferentes
aplicaciones de las que los datos son obtenidos. Por ejemplo, varias aplicaciones
31
relacionadas con las operaciones de negocio codifican el sexo de los clientes en
diferentes formas por lo que la warehouse debe ser capaz de identificar sin error
estos estándares antes de mandar la información dentro del almacén.
Como tercer característica tenemos que la data warehouse puede variar con
el paso del tiempo, esto debido a que la duración de los datos es temporal, entre
cinco y diez años. Consideremos a los datos en este periodo simplemente como
una serie de fotografías instantáneas tomadas en momentos específicos, así
entonces, cada cierto tiempo la data warehouse cambiará, pero solo en tamaño,
esto porque la “actualización” de los datos no es más que la adición de nuevas
fotografías instantáneas a la base, en otra palabras los datos ya incluidos no serán
actualizados. Esto hace que la data warehouse no sea volátil.
Por último, la información contenida en la data warehouse debe ser relevante
y de ayuda para la toma de decisiones, esto quiere decir que un data warehouse es
un contenedor de toda la información necesaria para realizar operaciones de
negocio inteligente.
Es importante mencionar que el uso de este tipo de estructura tiene un
problema, y es que el hacer uso de la data warehouse como base operacional es
casi imposible, esto a causa de su gran tamaño. Por otro lado, tiene la ventaja de
que es planeada y construida bajo objetivos específicos.
Hay dos formas de iniciar con la construcción de una data warehouse, la
primera se basa en la creación de un archivo único en el que se colectaran todos
los datos de la empresa; la segunda forma implica la unión de bases data marts
(datos de mercado) para formar un solo archivo.
32
En la primera propuesta se requiere de un constante seguimiento por parte
del administrador con el fin de mantener un buen control de calidad respecto a los
datos de la base, además de que también se requiere de mucho cuidado al
momento de programar puesto que es necesario considerar el constante
crecimiento de la base de datos con cada actualización de la información.
La segunda forma es mayormente usada, debido a la facilidad con la que se
aplica en un inicio, sin embargo en cierto punto se presenta el problema de hacer
coincidir los datos de la diferentes bases de data marts, lo que vuelve necesario el
definir, limpiar y transformar los datos con el propósito de obtener un nivel de
uniformidad suficiente entre estos.
En un sistema que busca la preservación y distribución de datos es
conveniente que incluya información acerca de la organización de los datos dentro
de la base. Este tipo de datos son llamados metadatos, los cuales no son más que
datos que describen a otros datos y pueden ser usados para incrementar los niveles
de seguridad y de confianza dentro de la warehouse.
Otro aspecto muy importante en el sistema de una data warehouse es que
ésta debe contar con una colección de data marts. Una data marts es una base de
datos temática, usualmente representada de forma simple y de acuerdo a objetivos
específicos, por ejemplo con propósitos de marketing.
En resumen, consideremos como una estructura válida para un sistema de
data warehouse a aquella que incluya los siguientes componentes: (a) un archivo
central, el cual se convertirá en el almacén de los datos; (b) una estructura de
metadatos que describa qué tipo de datos están disponibles dentro de la base y en
dónde se encuentran; (c) una serie de específicas y temáticas data marts que sean
33
de fácil acceso y que además sean de fácil manejo estadísticamente hablando,
como lo son los datos matriciales.
3.1.1.2 Data webhouse
La llegada del internet propició la acumulación de grandes cantidades de
datos por lo que la data warehouse se vio forzada a adaptarse a los nuevos
requerimientos convirtiéndose en una web data warehouse, mejor conocida como
data webhouse. La web resultó ser una gran fuente de datos, principalmente acerca
de las personas que navegan por las páginas web y de cómo navegan por la red.
Toda esta vasta información puede ser colectada en la data webhouse, para
que luego ésta forme parte de la warehouse, y así entonces la webhouse se
convierta en otra fuente de información de la data warehouse.
3.1.1.3 Data marts
A grandes rasgos, la data marts es una base de datos enfocada hacia el
campo del márquetin; puede ser considerada con un archivo orientado al manejo de
la información respecto a la relación de clientes, incluidos nuevos y/o posibles
clientes. Siendo que el estudio de datos de la relación de clientes es uno de los
principales campos donde la minería de datos puede desarrollarse, es posible
extraer de la data warehouse varias data marts.
De cualquier modo, es factible la creación de una data marts aún si no se
cuenta con un sistema warehouse, aunque esto puede ocasionar algunas
dificultades. Además, la creación de una estructura temática de datos, tal como la
data marts, es el primer y fundamental movimiento hacia un ambiente de
información para la actividad de minería de datos.
34
3.2 Clasificación de los datos.
Supongamos que tenemos a nuestra disposición una data mart que fue
extraída de una base de datos disponible. Entonces, respecto al punto de vista
estadístico, es necesario que la data mart esté organizada respecto a dos puntos
importantes: unidades estadísticas, que se refiere a los elementos de la población
que son de interés para los objetivos del análisis (por ejemplo, los suministros de la
compañía, los clientes, las personas que visitan el sitio web de la empresa); y la
variables estadísticas, que no son más que las características de relevancia, las
cuales son medidas para cada unidad estadística (por ejemplo, la cantidad de
compra por cliente, la forma de pago, el perfil socio-demográfico de cada cliente).
Las unidades estadísticas pueden estar formadas por toda la población de
referencia o solo por una muestra representativa de ella. El hecho de considerar
una muestra representativa de la población trae consigo varias ventajas, sobre todo
en la reducción de costos en el proceso de recopilación de la información y en la
reducción de tiempo en el análisis e interpretación de los resultados. Como es bien
sabido, el campo de muestreo y de estrategias de muestreo es muy basto, por lo
que, al no ser objetivo de este escrito, no será abordado.
Las variables estadísticas son consideradas como la principal fuente para la
obtención de conclusiones sobre las unidades observadas, las cuales
posteriormente son extendidas al resto de la población.
En este caso es bueno contar con un gran número de variables con el fin de
conseguir los objetivos deseados, sin embargo pueden existir problemas si el
número de variables es excesivo, principalmente por dos limitaciones. Primero que
35
nada, para lograr un análisis eficiente y estable es necesario que no haya variables
en las que se duplique información, por ejemplo, la información del ingreso anual de
una persona hace que la información del ingreso mensual de la misma se vuelva
superflua.
Y además, la información de cada unidad estadística debe ser “correcta” para
cada variable, sin embargo, la existencia de un gran número de variables puede
ocasionar la pérdida de información y, como es de suponerse, los datos perdidos
causan problemas para el análisis.
Una vez que las unidades y variables estadísticas que son de interés para el
análisis han sido establecidas, cada observación es relacionada con una unidad
estadística y se le asigna un valor distinto (nivel) para cada variable. A este proceso
se le conoce como clasificación.
Por lo general hay dos tipos de variables: cualitativas y cuantitativas. Las
variables cualitativas son comúnmente expresadas como adjetivos y son
clasificadas dentro de niveles, llamados categorías, por ejemplo, sexo, código postal
y marca preferida. Un dato cualitativo es nominal si este puede estar en varias
categorías que no tienen un orden en específico, pero también puede ser ordinal si
las diferentes categorías tienen un orden ya sea de forma explícita o implícita.
La medición de un nivel nominal es establecido por la relación de igualdad o
desigualdad entre los niveles (=, ≠), por ejemplo el color de ojos de una persona y
el estado legal de una compañía. Aunque la medición ordinal también sigue un
orden entre las categorías, ésta no cuenta con una métrica para diferenciar una
categoría de otra, en otras palabras, podemos decir qué categoría es más grande o
36
mejor pero no podemos decir por cuánto (=, >, <), por ejemplo la habilidad
computacional de una persona y la razón de crédito de una compañía.
Por otro lado, las variables cuantitativas están estrechamente relacionadas
con cantidades numéricas, por ejemplo la edad y el ingreso del cliente. A su vez,
estas pueden ser divididas en variables cuantitativas discretas, cuando se tiene un
número finito de niveles, y como variables cuantitativas continuas, si los niveles no
pueden ser medidos. Ejemplos de variables cuantitativas discretas y continuas son
el número de llamadas telefónicas recibidas en un día y el ingreso anual de una
compañía, respectivamente.
3.3 Matriz de Datos
Una vez que los datos y variables han sido clasificados dentro de alguna de
la cuatro posibilidades (cualitativo nominal, cualitativo ordinal, cuantitativo discreto
y cuantitativo continuo), es necesario que la base de datos sea transformada a una
estructura que sea factible para el análisis estadístico de los datos. Esta nueva
estructura puede ser del formato de una matriz de datos, que es básicamente una
tabla, usualmente de dos dimensiones, donde las n unidades estadísticas están
representadas por las filas y las p variables de interés son a su vez representadas
por las columnas de la matriz. En otras palabras, las unidades de la matriz de datos
(i,j) están dadas por la unidad estadística i de acuerdo a al j-ésima variable, donde
i=1,…, n y j=1,…, p.
Tabla 3.1 Matriz de Datos
1 … j … p 1 𝑋1,1 … 𝑋1,𝑗 … 𝑋1,𝑝
37
⋮ ⋮ ⋮ ⋮
I 𝑋𝑖,1 … 𝑋𝑖,𝑗 … 𝑋𝑖,𝑝
⋮ ⋮ ⋮ ⋮ N 𝑋𝑛,1 … 𝑋𝑛,𝑗 … 𝑋𝑛,𝑝
Tabla 3.2 Ejemplo real de una matriz de datos con 1000 unidades estadísticas y 20
variables, pero solo se muestran algunas de estas observaciones y variables.
Y X1 X2 … X10 … X20
N1 1 1 18 … 1049 … 1
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
N34 1 4 24 … 1376 … 1
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ N1000 0 1 30 … 6350 … 1
3.3.1 Binarización de la Matriz de Datos.
En caso de que las variables de la matriz de datos sean todas cuantitativas,
incluyendo algunas continuas, es más sencillo y fácil tratar a la matriz de datos como
una entrada sin previo análisis. Por el contrario, si todas las variables son
cualitativas o cuantitativas discretas es necesario hacer una transformación de la
matriz de datos dentro de una tabla de contingencia (con solo una dimensión), sin
embargo, esto no siempre es una buena idea, sobre todo si p es de gran tamaño.
Además, si la matriz de datos cuenta con los dos tipos de variable, es mejor
solo transformar las variables del tipo minoritario. Por ejemplo, si la mayoría de las
variables son cualitativas y hay variables cuantitativas, algunas de las cuales son
cuantitativas continúas, se debe usar tablas de contingencia, pero para esto se debe
38
antes realizar la discretización de las variables continuas dentro de intervalos,
aunque esto implica que haya pérdida de información.
Ahora bien, si la mayoría de las variables en la matriz de datos son
cuantitativas, la mejor opción es transformar las variables cualitativas en variables
métricas, este proceso es conocido como binarización. Considere una variable
binaria donde el 0 representa un resultado válido o cierto y el 1 corresponde a un
resultado ausente o no válido, de este modo, ahora podemos ver a las variable
cualitativa como cuantitativa.
Siguiendo el enfoque de la binarización, cada variable cualitativa es
transformada en el mismo número de variables binarias como el número que esta
tenga de niveles. Por ejemplo, si la variable X tiene r niveles, entonces deben
crearse r variables binarias de la siguiente forma: para el nivel i, la correspondencia
debe ser 1 cuando X es igual a i, o 0 de cualquier otro modo.
Tabla 3.3 Ejemplo de binarización.
Y X1 X2 X3
1 1 1 0 0
2 3 0 0 1
3 1 1 0 0
4 2 0 1 0
5 3 0 0 1
6 1 1 0 0
39
3.4 Distribución de Frecuencias
Es muy común que las variables estadísticas sean resumidas por la
ocurrencia de sus niveles. Un resumen de este tipo es conocido como distribución
de frecuencias. En general, este tipo de resumen hace más fácil el análisis y la
presentación de los resultados pero también conlleva la pérdida de información. En
el caso de variables cualitativas, el resumen se justifica por la necesidad de la
realización de un análisis cuantitativo; por otro lado, en variables cuantitativas, la
función principal del resumen es simplificar el análisis y la presentación de
resultados.
3.4.1 Distribuciones Univariadas
El análisis univariado simplifica la presentación de resultados y el método
analítico, pero además de eso, resulta ser más fácil extraer información de una base
de datos comenzando con un análisis univariado para después pasar a un análisis
multivariado de la misma.
El primer paso para un análisis univariado es determinar la distribución de
frecuencias de la matriz de datos, para esto es necesario conocer el número de
veces que aparece cada nivel en los datos. Este número es conocido como
frecuencia absoluta.
Las observaciones relacionadas con la variable que está siendo examinada
son identificadas como 𝑥1, 𝑥2, … , 𝑥𝑁. Los valores distintos que se encuentran entre
las N observaciones son identificadas como 𝑥1∗, 𝑥2
∗, … , 𝑥𝑘∗, (k ≤ N), los cuales
determinan los niveles dentro de las observaciones. La distribución de frecuencias
es mostrada en la tabla 2.4 donde 𝑛𝑖 indica las veces que aparece el nivel 𝑥𝑖∗, siendo
40
esto la frecuencia absoluta. Note que ∑ 𝑛𝑖𝑘𝑖=1 = 𝑁, donde N es el número de
unidades clasificadas.
Tabla 3.4 Distribución de Frecuencias Univariada.
NIVEL FRECUENCIAS ABSOLUTAS
𝒙𝟏∗ 𝑛1 𝒙𝟐∗ 𝑛2
⋮ ⋮
𝒙𝒌∗ 𝑛𝑘
Tabla 3.5 Ejemplo de una Distribución de Frecuencias.
NIVEL FRECUENCIAS ABSOLUTAS
0 1445 1 1006
Para facilitar la lectura e interpretación de la distribución de frecuencias,
usualmente estas se presentan como frecuencias relativas, donde la frecuencia
relativa del nivel 𝑥𝑖∗ esta dada por la relación entre la frecuencia absoluta 𝑛1 y el
número total de observaciones, es decir 𝑝𝑖 =𝑛𝑖𝑁⁄ . Note que ∑ 𝑝𝑖
𝑘𝑖=1 = 1.
Tabla 3.6 Distribución de Frecuencias Relativas Univariada.
NIVEL FRECUENCIAS RELATIVAS
𝒙𝟏∗ 𝑝1 𝒙𝟐∗ 𝑝2
⋮ ⋮
𝒙𝒌∗ 𝑝𝑘
Tabla 3.7 Ejemplo de una Distribución de Frecuencias Relativas Univariada.
MODALIDAD FRECUENCIAS RELATIVAS
41
0 0.59 1 0.41
Para la distribución de frecuencias mostrada en la Tabla 3.5, obtenemos las
frecuencias relativas que son mostradas en la Tabla 3.7.
3.4.2 Distribuciones Multivariadas
Ahora consideremos la creación de una distribución de frecuencias
multivariada, para esto analizaremos el caso particular de variables cualitativas y de
cuantitativas discretas como campo de estudio. Para el caso de variables
cuantitativas continuas multivariadas es recomendable trabajar directamente con la
matriz de datos.
En el caso de distribuciones de frecuencia multivariada es más fácil trabajar
con ellas si estas son representadas mediante tablas de contingencia y con el
propósito de hacer más explícita y clara la explicación del tema, nos enfocaremos
al caso en el que dos variables son analizadas al mismo tiempo, creando por
consecuencia una tabla de contingencia de dos dimensiones.
Sean entonces X y Y dos variables con N unidades estadísticas cada una,
con h niveles para X, 𝑥1∗, 𝑥2
∗, … , 𝑥ℎ∗ ; y con k niveles para Y, 𝑦1
∗, 𝑦2∗, … , 𝑦𝑘
∗. El resultado
de la clasificación conjunta de las variables dentro de una tabla de contingencia
puede ser representado por los pares {(𝑥𝑖∗, 𝑦𝑗
∗), 𝑛𝑋𝑌(𝑥𝑖∗, 𝑦𝑗
∗)}, donde 𝑛𝑋𝑌(𝑥𝑖∗, 𝑦𝑗
∗) indica
el número de unidades estadísticas consideradas de entre las N totales y donde el
nivel para (𝑥𝑖∗, 𝑦𝑗
∗) es observado.
El valor observado por 𝑛𝑋𝑌(𝑥𝑖∗, 𝑦𝑗
∗) es conocido como frecuencia conjunta
absoluta referida al par (𝑥𝑖∗, 𝑦𝑗
∗). Para menciones posteriores y por simplicidad nos
42
referiremos a 𝑛𝑋𝑌(𝑥𝑖∗, 𝑦𝑗
∗) con el símbolo 𝑛𝑖,𝑗. Note que 𝑁 = ∑ ∑ 𝑛𝑋𝑌(𝑥𝑖∗, 𝑦𝑗
∗)𝑗𝑖 es
equivalente al número total de unidades clasificadas, y podemos obtener la
frecuencia conjunta relativa de la ecuación
𝑝𝑋𝑌(𝑥𝑖, 𝑦𝑗) =𝑛𝑋𝑌(𝑥𝑖
∗, 𝑦𝑗∗)
𝑵
Tabla 3.8 Tabla de Contingencia de dos entradas.
X\Y 𝑦1∗ 𝑦
2∗ … 𝑦
𝑗∗ … 𝑦
𝑘∗
𝑥1∗ 𝑛𝑋𝑌(𝑥1
∗, 𝑦1∗) 𝑛𝑋𝑌(𝑥1
∗, 𝑦2∗) … 𝑛𝑋𝑌(𝑥1
∗, 𝑦𝑗∗) … 𝑛𝑋𝑌(𝑥1
∗, 𝑦𝑘∗) 𝑛𝑋(𝑥1
∗)
𝑥2∗ 𝑛𝑋𝑌(𝑥2
∗, 𝑦1∗) 𝑛𝑋𝑌(𝑥2
∗, 𝑦2∗) … 𝑛𝑋𝑌(𝑥2
∗, 𝑦𝑗∗) … 𝑛𝑋𝑌(𝑥2
∗, 𝑦𝑘∗) 𝑛𝑋(𝑥2
∗)
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑥𝑖∗ 𝑛𝑋𝑌(𝑥𝑖
∗, 𝑦1∗) 𝑛𝑋𝑌(𝑥𝑖
∗, 𝑦2∗) … 𝑛𝑋𝑌(𝑥𝑖
∗, 𝑦𝑗∗) … 𝑛𝑋𝑌(𝑥𝑖
∗, 𝑦𝑘∗) 𝑛𝑋(𝑥𝑖
∗)
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑥ℎ∗ 𝑛𝑋𝑌(𝑥ℎ
∗ , 𝑦1∗) 𝑛𝑋𝑌(𝑥ℎ
∗ , 𝑦2∗) … 𝑛𝑋𝑌(𝑥ℎ
∗ , 𝑦𝑗∗) … 𝑛𝑋𝑌(𝑥ℎ
∗ , 𝑦𝑘∗) 𝑛𝑋(𝑥ℎ
∗)
𝑛𝑌(𝑦1∗) 𝑛𝑌(𝑦2
∗) … 𝑛𝑌(𝑦𝑗∗) … 𝑛𝑌(𝑦𝑘
∗) N
Note que a partir de las frecuencias conjuntas es fácil generar las frecuencias
marginales univariadas de X y Y usando las siguientes ecuaciones
𝑛𝑋(𝑥𝑖∗) =∑𝑛𝑋𝑌(𝑥𝑖
∗, 𝑦𝑗∗)
𝑗
𝑛𝑌(𝑦𝑗∗) =∑𝑛𝑋𝑌(𝑥𝑖
∗, 𝑦𝑗∗)
𝑖
A partir de una distribución de frecuencias conjunta también es posible
determinar la distribución de la frecuencia de la variable Y condicionada a los niveles
de X, indicadas por (𝑌|𝑋 = 𝑥𝑖∗), donde 𝑖 = 1, … , ℎ y donde la frecuencia está dada
por
𝑝𝑌|𝑥(𝑦𝑖∗, 𝑥𝑖
∗) =𝑝𝑥𝑦(𝑥𝑖
∗, 𝑦𝑖∗)
𝑝𝑥(𝑥𝑖∗)
43
Donde 𝑝𝑥𝑦 indica la distribución de la frecuencia conjunta de X y Y, y donde
𝑝𝑥 representa la distribución de frecuencia marginal de X. De forma análoga,
podemos obtener las k distribuciones de frecuencias de X condicionadas a los k
niveles de Y.
3.5 Transformación de los datos.
Además de transformar la matriz de datos en distribuciones de frecuencia
univariadas o multivariadas existen otros tipos de transformaciones, por ejemplo,
cuando las p variables de la matriz de datos están expresadas en diferentes
unidades de medida, es recomendable transformar todas las variables a una solo
unidad de medida, esto para prevenir que las diferentes escalas causen problemas
en el análisis.
Para esto se puede hacer uso de una transformación lineal con el fin de
estandarizar las variables, dicho método consiste en que a cada variable se le quite
su media y se divida entre la raíz cuadrada de su varianza (desviación estándar),
produciendo que los datos tengan ahora media cero y varianza unitaria.
44
Capítulo 4
Análisis exploratorio de
los datos.
45
Para obtener un análisis estadístico de calidad lo primero es realizar un
análisis exploratorio, aplicado a la información organizada en el capítulo anterior.
Para esto se recomienda hacer uso de gráficas y de resúmenes de medidas
estadísticas apropiadas para los objetivos del análisis.
Un análisis exploratorio puede parecer equivalente al proceso de minería de
datos, pero existen dos diferencias principales. Un análisis exploratorio sólo puede
hacer uso de técnicas estadísticas descriptivas, mientras que minería de datos
puede hacer uso de métodos descriptivos y de inferencia estadística, donde los
métodos de inferencia están basados en técnicas probabilísticas.
La segunda diferencia está dada en que el propósito de un análisis
exploratorio es describir la estructura y las relaciones existentes en los datos, para
posteriormente hacer uso de un modelo estadístico. Por otra parte, el proceso de
minería de datos tiene como propósito la producción directa de reglas de decisión
basadas en la estructura y en los modelos que describen a los datos.
Es decir, mientras que el análisis exploratorio usa varias técnicas donde cada
una captura diferentes pero potenciales aspectos importantes de los datos, en
minería de datos las técnicas usadas son evaluadas y comparadas en orden para
luego elegir una que posteriormente sea implementada como regla de decisión.
4.1 Análisis Exploratorio Univariado.
Este es un importante paso para el análisis preliminar de los datos. Sus
principales herramientas son el uso de representaciones gráficas, donde el tipo de
gráficas depende del tipo de datos, y ciertos índices de resumen. Para variables
cualitativas nominales es muy frecuente el uso de gráficas de barras y de diagramas
46
de pastel, mientras que para variables cualitativas ordinales y variables cuantitativas
discretas es común representarlas mediante diagramas de frecuencia, que bien se
pueden describir como graficas de barras donde el orden de las variables en el eje
horizontal debe corresponder con el orden numérico de los niveles.
En el caso de variables cuantitativas continuas, para obtener una distribución
de frecuencias es necesario clasificar o discretizar las variables dentro de intervalos,
comenzando por establecer el ancho o tamaño de los intervalos. A menos de que
haya razones especiales, es convencional que se elijan intervalos del mismo
tamaño o con diferente tamaño pero con el mismo número de frecuencia, aunque
esto puede ocasionar pérdida de información. Luego que las variables han sido
clasificadas dentro de intervalos, su representación gráfica es obtenida mediante un
histograma.
Los intervalos seleccionados son colocados en el eje x, en cada uno de los
intervalos se construye un rectángulo en el que su altura está dada por la frecuencia
de ese intervalo, de tal forma que la altura de estos intervalos representa la densidad
de frecuencia, indicada mediante una función analítica f(x), llamada función de
densidad. Esta adopta en el análisis exploratorio un valor constante sobre cada
intervalo, correspondiente a su altura.
Además, la función de densidad también puede ser utilizada para especificar
un modelo probabilístico continuo, f(x) debe ser una función continua.
47
Figura 4.1 Ejemplos: (a) un diagrama de frecuencias y (b) un histograma.
4.1.1 Medidas de Localización.
La medida de localización mayormente usada, computable solo para
variables cuantitativas, es la media. Dados valores 𝑥1, 𝑥2, … , 𝑥𝑛 de 𝑁 observaciones,
la media aritmética está dada por
�̅� =𝑥1 + 𝑥2 +⋯+ 𝑥𝑛
𝑁=∑
𝑥𝑖𝑁
Por otro lado, cuando los datos univariados son clasificados en términos de
una distribución de frecuencia, la media aritmética puede ser calculada
directamente con la siguiente expresión
�̅� =∑𝑥𝑖∗𝑝𝑖
48
Conocida como la media aritmética ponderada, donde 𝑥𝑖∗ indica los niveles
que la variable puede tomar y 𝑝𝑖 es la frecuencia relativa para cada nivel.
Analicemos algunas de las propiedades de la media aritmética:
La suma de las desviaciones es cero: ∑(𝑥𝑖 − �̅�) = 0
La media aritmética es la constante que minimiza la suma de
cuadrados de las desviaciones respecto a la constante en sí:
𝑚𝑖𝑛𝑎 ∑(𝑥𝑖 − 𝑎)2 = �̅�
La media aritmética es un operador lineal: 1
𝑁∑(𝑎 + 𝑏𝑥𝑖) = 𝑎 + 𝑏�̅�
Pero debemos mencionar que puede existir un problema al momento de
hacer el cálculo de la media ya que si hay valores muy grandes que sobre salen al
resto de los datos, estos pueden hacer contrapeso o inclusive dominar a los más
pequeños, es decir, dado que todos los valores de los datos son usados, algunos
de los valores pueden afectar considerablemente el valor calculado. Este problema
es muy común, por ejemplo, en datos de finanzas donde los datos outliers son muy
comunes.
Otra opción como medida de localización es la moda, la cual es computable
para todo tipo de variables, incluyendo cualitativas nominales. Para variables
cualitativas o cuantitativas discretas la moda es asociada con la mayor frecuencia,
mientras que para variables continuas se discretiza la variable de la misma forma
en que se hace en un histograma y se computa la moda como el intervalo con la
densidad más alta, correspondiente al peso más grande del histograma y por
convención se utiliza el valor medio del intervalo donde se encuentra la moda.
49
Una medida de localización también importante es la mediana, la cual puede
describirse como el valor para el cual la mitad de la observaciones son más grandes
y la otra mitad son más pequeños, es decir, divide la distribución de frecuencias en
dos partes con la misma área. Aunque ésta solo es computable para variables
cuantitativas y para variables cualitativas ordinales.
4.1.2 Medidas de Variabilidad.
Es muy común que sea de interés el estudiar la dispersión o la variabilidad
de una distribución. Dos indicadores simples de variabilidad son el rango, que es la
diferencia entre el mayor valor y el menor valor de los datos, y el rango inter cuartil,
el cual es obtenido por la diferencia entre el tercer y el primer cuartil, aunque éstas
no son muy comunes.
La medida de variabilidad más común para datos cuantitativos es la varianza.
Dados 𝑥1, 𝑥2, … , 𝑥𝑁 de 𝑁 observaciones cuantitativas de una variable x, donde �̅�
representa la media aritmética, la varianza está dada por
𝜎2(𝑥) =1
𝑁∑(𝑥𝑖 − �̅�)
2
Dicho en palabras, la varianza es el promedio del cuadrado de las
desviaciones respecto a la media. Cuando todas las observaciones tienen el mismo
valor, la varianza es igual a cero, y además, a diferencia de la media, la varianza no
es un operador lineal.
𝑉𝑎𝑟(𝑎 + 𝑏𝑥) = 𝑏2𝑉𝑎𝑟(𝑥)
La varianza eleva al cuadrado las unidades en que la variable x fue medida,
es decir, si x fue medida en metros, la varianza estará en metros cuadrados. En la
práctica es conveniente preservar las unidades originales para las unidades de
50
propagación, esto porque la raíz cuadrada de la varianza, conocida como desviación
estándar, puede ser de gran utilidad. Además, para facilitar comparaciones entre
diferentes distribuciones se usa el coeficiente de variación y éste se obtiene al dividir
la desviación estándar entre el valor absoluto de la media aritmética, siempre que
la media sea diferente de cero.
4.1.3 Medidas de Heterogeneidad
Para poder medir la dispersión de datos cualitativos usamos la
heterogeneidad. Considere entonces la siguiente distribución de frecuencias de una
variable cualitativa con k niveles.
Tabla 4.1 Distribución de Frecuencias para una Variable Cualitativa.
MODALIDAD FRECUENCIAS RELATIVAS
𝒙𝟏∗ 𝑝1 𝒙𝟐∗ 𝑝2 ⋮ ⋮ 𝒙𝒌∗ 𝑝𝑘
En la práctica existen dos posibles situaciones extremas:
Heterogeneidad nula, es cuando todas las observaciones tienen el
mismo nivel de x, esto es, 𝑝𝑖 = 1 para cierto i, y 𝑝𝑖 = 0 para los otros
k-1 niveles. En este caso se alcanza la heterogeneidad mínima.
Heterogeneidad máxima, que es cuando las observaciones son
distribuidas uniformemente para los k niveles, esto es 𝑝𝑖 =1𝑘⁄ para
todo i=1,…, k.
Presentamos dos índices de heterogeneidad:
El índice de Gini, definido por
51
𝐺 = 1 −∑𝑝𝑖2
𝑘
𝑖=1
Donde 𝐺 = 0 si se presenta el caso de la perfecta homogeneidad y 𝐺 = 1 −
1 𝑘⁄ en el caso de heterogeneidad máxima. Para obtener un índice ‘normalizado’, el
cual toma valores en el intervalo [0,1], el índice de Gini puede ser reajustado por su
valor máximo, dando el siguiente índice relativo de heterogeneidad
𝐺′ =𝐺
(𝑘 − 1) 𝑘⁄
El segundo índice es el de Entropía, definido por
𝐸 = −∑𝑝𝑖 log 𝑝𝑖
𝑘
𝑖=1
Donde 𝐸 = 0 en el caso de la perfecta homogeneidad y 𝐸 = log 𝑘 si es el caso
de la heterogeneidad máxima, y para obtener un índice ‘normalizado’ debemos
reajustar el índice de entropía usando su valor máximo, obteniendo el siguiente
índice relativo de heterogeneidad
𝐸′ =𝐸
log 𝑘
4.1.4 Medida de Concentración.
La concentración está muy relacionada con la heterogeneidad, de hecho, se
dice que una distribución de datos se encuentra en su concentración máxima
cuando presenta heterogeneidad nula y que se encuentra en su concentración
mínima cuando tiene heterogeneidad máxima. El concepto de concentración aplica
particularmente en la medición de variables transferibles (cuantitativas y cualitativas
ordinales).
52
Considere N mediciones cuantitativas no negativas, ordenadas de forma no
decreciente 0 ≤ 𝑥1 ≤ ⋯ ≤ 𝑥𝑁.
Sea 𝑁�̅� = ∑𝑥𝑖 el número total de observaciones disponibles, donde �̅� es la
media aritmética. Entonces se pueden presentar dos casos extremos:
𝑥1 = 𝑥2 = ⋯ = 𝑥𝑁 = �̅�, correspondiente a una concentración mínima
(igual de ingreso para cada observación).
𝑥1 = 𝑥2 = ⋯ = 𝑥𝑁−1 = 0, 𝑥𝑁 = 𝑁�̅�, correspondiente a una
concentración máxima (todo el ingreso está contenido en una sola
observación).
Por lo general lo que se busca es evaluar el nivel de concentración, el cual
se encuentra entre estos casos extremos, para esto, definimos
𝐹𝑖 =1
𝑁, 𝑝𝑎𝑟𝑎 𝑖 = 1, … ,𝑁
𝑄𝑖 =𝑥1 + 𝑥2 +⋯+ 𝑥𝑖
𝑁�̅�=∑ 𝑥𝑗𝑖𝑖=1
𝑁�̅�; 𝑝𝑎𝑟𝑎 𝑖 = 1, … , 𝑁
Para cada i, 𝐹𝑖 es el porcentaje acumulado de unidades consideradas hasta
las 𝑖 unidades y 𝑄𝑖 es el porcentaje acumulado de las características que pertenecen
a las mismas 𝑖 unidades. Además, se puede mostrar que
0 ≤ 𝐹𝑖 ≤ 1; 0 ≤ 𝑄𝑖 ≤ 1
𝑄𝑖 ≤ 𝐹𝑖
𝐹𝑁 = 𝑄𝑁 = 1
Sea 𝐹0 = 𝑄0 = 0 y considere 𝑁 + 1 coordenadas
(0,0), (𝐹1, 𝑄1),… , (𝐹𝑁−1, 𝑄𝑁−1), (1,1), si los graficamos y unimos los puntos por líneas
obtendremos la curva de concentración. La Tabla 3.2 contiene de forma ordenada
53
el ingreso de siete individuos y los respectivos cálculos para la obtención de la curva
de concentración. La Figura 3.2 muestra la curva de concentración de los datos de
la Tabla 3.2, incluyendo una recta de 45° correspondiente a la concentración
mínima.
Tabla 4.2 Construcción de la curva de concentración.
INGRESO 𝑭𝒊 𝑮𝒊 0 0
11 1/7 11/256 15 2/7 26/256 20 3/7 46/256 30 4/7 76/256 50 5/7 126/256 60 6/7 186/256 70 1 1
Figura 4.2 Representación de la curva de concentración.
Un índice estadístico para medir el nivel de concentración es el índice de Gini,
que está basado en las diferencias de 𝐹𝑖 − 𝑄𝑖. Antes de plantear el índice de Gini,
consideremos los siguientes tres puntos:
Para concentración mínima, 𝐹𝑖 − 𝑄𝑖 = 0, 𝑖 = 1,2, … ,𝑁.
54
Para concentración máxima, 𝐹𝑖 − 𝑄𝑖 = 𝐹𝑖, 𝑖 = 1,2, … ,𝑁 − 1 𝑦 𝐹𝑁 −
𝑄𝑁 = 0.
En general, 0 < 𝐹𝑖 − 𝑄𝑖 < 𝐹𝑖 , 𝑖 = 1,2, … ,𝑁 − 1, con las diferencias
creciendo aproximando a una concentración máxima.
El índice de concentración de está dado por la siguiente razón
𝑅 =∑ (𝐹𝑖 − 𝑄𝑖)𝑁−1𝑖=1
∑ 𝐹𝑖𝑁−1𝑖=1
El coeficiente de concentración de Gini, R, es igual a 0 para concentración
mínima y 1 para concentración máxima. Para los datos de la tabla 3.2, R=0.387
indica un nivel moderado de concentración.
4.1.5 Medida de Asimetría.
Para obtener un indicador de la asimetría de una distribución basta con
comparar la media y la mediana. Si son iguales, los datos tendrán una distribución
de forma simétrica; si la media es la mayor que la mediana, los datos presentarán
sesgo a la derecha (asimetría positiva); ahora bien, si la mediana es mayor que la
media, entonces los datos tendrán sesgo a la izquierdo (asimetría negativa). Otra
forma de investigar la forma de la distribución de los datos es mediante el uso de
graficas de barras o histogramas.
Figura 4.3 Histogramas que describen distribuciones simétricas y asimétricas:
55
a) media>mediana, b) media=mediana, c) media<mediana.
Para poder construir un índice estadístico que pueda medir el grado de
asimetría de una distribución es necesario primero calcular
𝜇3 =∑(𝑥𝑖 − �̅�)
3
𝑁
Conocido como el tercer momento central de la distribución. Así entonces, el
índice de simetría está definido como
𝛾 =𝜇3𝜎3
Donde σ es la desviación estándar y cabe mencionar que 𝛾 solo es calculable
para variables cuantitativas, además de que asume valores reales, i.e. no está
normalizado. Observemos los tres casos posibles:
Si la distribución es simétrica, 𝛾 = 0
Si la distribución es asimétrica por la derecha, 𝛾 < 0
Si la distribución es asimétrica por la izquierda, 𝛾 > 0
4.1.6 Medida de Kurtosis.
Los datos continuos pueden ser bien representados usando un histograma,
al cual es posible aproximar, o bien interpolar, un histograma con una función de
densidad continua. En particular, si el histograma está formado por un gran número
de clases y cada clase es relativamente estrecha, el histograma puede ser
aproximado usando la distribución normal o función de densidad Gaussiana.
56
Figura 4.4 Aproximación normal para un histograma.
El índice de kurtosis permite examinar si los datos observados siguen una
distribución normal.
𝛽 =𝜇4
𝜇22 , 𝑑𝑜𝑛𝑑𝑒 𝜇4 =
∑(𝑥𝑖 − �̅�)4
𝑁 (21) 𝑦 𝜇2 =
∑(𝑥𝑖 − �̅�)2
𝑁
Si la variable es perfectamente normal, 𝛽 = 0.
Si 𝛽 > 3 la distribución es llamada hyponormal (más delgada con
respecto a la distribución normal pero teniendo la misma varianza,
por lo tanto, hay una baja frecuencia para valores lejanos a la
media).
Si 𝛽 < 3 la distribución es llamada hypernormal (más ancha con
respecto a la distribución normal, lo que implica que exista una gran
frecuencia para los valores muy distantes a la media).
57
4.2 Análisis Exploratorio Bivariado.
La relación existente entre dos variables puede ser representada
gráficamente usando graficas de dispersión, con las cuales se puede graficar
cualquier tipo de variable. Ahora, dado que se puede obtener un análisis bivariado
con el cruzamiento de todas las variables, es recomendable crear una matriz de
graficas de dispersión, donde cada elemento es una gráfica de dispersión de las
variables indicadas por las filas y las columnas.
Figura 4.5 Ejemplo de una gráfica de dispersión.
La Figura 4.5 muestra la relación entre dos variable de desempeño: retorno
de inversión (ROI, por sus siglas en ingles) y la rentabilidad sobre recursos propios
(ROE, por sus siglas en ingles).
58
Figura 4.6 Ejemplo de un diagrama de graficas de dispersión.
En la Figura 4.6 se ejemplifican datos reales colectados semanalmente sobre
el retorno de un fondo de inversión en compañías internacionales y una serie de
índices financieros en todo el mundo.
El desarrollar índices estadísticos bivariados, que además de resumir la
distribución de frecuencia, también mejora la interpretación de los datos, resulta ser
de gran utilidad para el análisis.
Refiriéndonos a variables meramente cuantitativas, se conoce como
concordancia a la tendencia observada entre los valores altos (bajos) de una
variable y los valores altos (bajos) de otra variable. A su vez, discordancia es la
tendencia observada entre los valores bajos (altos) de una variable y los valores
altos (bajos) de otra variable. Para medir el nivel de concordancia, el índice más
común es la covarianza, definida como
𝐶𝑜𝑣(𝑋, 𝑌) =1
𝑁∑[𝑥𝑖 − 𝜇(𝑋)]
𝑁
𝑖=1
[𝑦𝑖 − 𝜇(𝑌)]
59
Donde 𝜇(𝑋) y 𝜇(𝑌) son las medias de las variables 𝑋 y 𝑌, respectivamente.
La 𝐶𝑜𝑣(𝑋, 𝑌) toma valores positivos cuando las variables son concordantes y
valores negativos cuando son discordantes.
Note que a covarianza se puede calcular directamente de la matriz de datos
y dado que hay una covarianza por cada par de variables, se recomienda crear una
nueva matriz, conocida como matriz de varianzas y covarianzas. En donde la
diagonal principal está conformada por las varianzas de las variables y todas las
demás celdas fuera de la diagonal principal son las covarianzas entre cada par de
variables. Note que 𝐶𝑜𝑣(𝑥𝑖, 𝑥𝑗) = 𝐶𝑜𝑣(𝑥𝑗 , 𝑥𝑖).
Tabla 4.3 Matriz de varianzas y covarianzas.
𝑿𝟏 … 𝑿𝒋 … 𝑿𝒉
𝑿𝟏 𝑉𝑎𝑟(𝑥1) … 𝐶𝑜𝑣(𝑥1, 𝑥𝑗) … 𝐶𝑜𝑣(𝑥1, 𝑥ℎ)
⋮ ⋮ ⋮ ⋮ 𝑿𝒋 𝐶𝑜𝑣(𝑥𝑗 , 𝑥1) … 𝑉𝑎𝑟(𝑥𝑗) … 𝐶𝑜𝑣(𝑥𝑗 , 𝑥ℎ)
⋮ ⋮ ⋮ ⋮
𝑿𝒉 𝐶𝑜𝑣(𝑥ℎ, 𝑥1) … 𝐶𝑜𝑣(𝑥ℎ, 𝑥𝑗) … 𝑉𝑎𝑟(𝑥ℎ)
Sin embargo, aunque la varianza puede identificar la presencia de una
relación entre dos variables, no nos puede decir nada acerca del grado de esta. En
otras palabras, para usar la covarianza como un índice exploratorio, antes es
necesario normalizar los datos, convirtiéndolo en un índice relativo.
Los valor mínimo y máximo de la 𝐶𝑜𝑣(𝑋, 𝑌) son 𝜎𝑥𝜎𝑦 y −𝜎𝑥𝜎𝑦,
respectivamente, que son el producto de las desviaciones estándares de las
variables pero con signos contrarios.
Además, la 𝐶𝑜𝑣(𝑋, 𝑌) asume valores máximos cuando los puntos de los datos
observados se encuentran posicionados sobre una línea con inclinación positiva, y
60
asumen valores mínimos cuando los puntos de los datos están presentes sobre una
línea con inclinación negativa. Para aclarar esto, definiremos el coeficiente de
correlación (lineal) entre dos variables 𝑋 y 𝑌 como
𝑟(𝑋, 𝑌) =𝐶𝑜𝑣(𝑋, 𝑌)
𝜎(𝑋)𝜎(𝑌)
Y que cuenta con las siguientes propiedades:
𝑟(𝑋, 𝑌) = 1 si los puntos de los datos observados están sobre una
línea con inclinación positiva y 𝑟(𝑋, 𝑌) = −1 si están sobre una línea
con inclinación negativa. Es por esto que se le conoce como
coeficiente de correlación lineal.
𝑟(𝑋, 𝑌) = 0 cuando las variables 𝑋 y 𝑌 no están correlacionadas.
−1 ≤ 𝑟(𝑋, 𝑌) ≤ 1.
Tabla 4.4 Matriz de correlación.
𝑿𝟏 … 𝑿𝒋 … 𝑿𝒉
𝑿𝟏 1 … 𝐶𝑜𝑟(𝑥1, 𝑥𝑗) … 𝐶𝑜𝑟(𝑥1, 𝑥ℎ)
⋮ ⋮ ⋮ ⋮ 𝑿𝒋 𝐶𝑜𝑟(𝑥𝑗 , 𝑥1) … 1 … 𝐶𝑜𝑟(𝑥𝑗 , 𝑥ℎ)
⋮ ⋮ ⋮ ⋮
𝑿𝒉 𝐶𝑜𝑟(𝑥ℎ, 𝑥1) … 𝐶𝑜𝑟(𝑥ℎ , 𝑥𝑗) … 1
Es necesario contar con una regla que nos permita decidir cuándo hay
información suficiente en los datos para rechazar la hipótesis de que el coeficiente
de correlación es cero. Si asumimos que los datos vienen de una distribución normal
bivariada, podemos usar la siguiente regla: Rechazar la hipótesis de que el
coeficiente de correlación es nulo cuando
|𝑟(𝑋, 𝑌)
√1 − 𝑟2(𝑋, 𝑌)√𝑛 − 2| > 𝑡𝛼
2⁄
61
Donde 𝑡𝛼2⁄ es el (1 − 𝛼 2⁄ ) percentil de la distribución 𝑡 de Student con 𝑛 − 2
grados de libertad.
4.3 Análisis Exploratorio Multivariado de Datos Cuantitativos.
Asumamos que la matriz de datos está compuesta en su totalidad por
variables del tipo cuantitativo. Sea 𝑋 una matriz de datos con 𝑛 filas y 𝑝 columnas.
Las principales medidas de resumen pueden ser expresadas directamente en
términos de operaciones matriciales con 𝑋.
Por ejemplo, la media aritmética
�̅� =1
𝑛1𝑋
Donde �̅� es un vector p-dimensional, 1 representa un vector de longitud 𝑛
con todos sus elementos iguales a 1. Como se vio antes, a menudo es
recomendable estandarizar las variables en 𝑋. Para esto, necesitamos sustraer la
media a cada variable, tal como se expresa en la siguiente matriz
�̃� = 𝑋 −1
𝑛𝐽𝑋
Donde 𝐽 es una matriz 𝑛 × 𝑛 con todos sus elementos iguales a 1.
Sea 𝑆 una matriz cuadrada 𝑝 × 𝑝 que representa la matriz de varianzas y
covarianzas, en la que su diagonal principal se encuentra la varianza de cada
variable. Los elementos fuera de la diagonal principal contienen las 𝑝(𝑝 − 1)/2
covarianzas de todos los pares de las 𝑝 variables consideradas,
𝑆 =1
𝑛�̃�′�̃�
Donde �̃�′ representa la transpuesta de �̃�. Y el elemento (𝑖, 𝑗) está dado por
62
𝑆𝑖,𝑗 =1
𝑛∑(𝑥𝑙𝑖 − �̃�𝑖)
𝑛
𝑙=1
(𝑥𝑙𝑗 − �̃�𝑗)
Además, 𝑆 es una matriz simétrica y definida positiva, lo que significa, que
para algún vector 𝑥 no cero, se cumple que 𝑥′𝑆𝑥 > 0. Esto puede ser muy útil, por
ejemplo, para comparar diferentes bases de datos.
Es posible resumir con un solo número la variabilidad de toda la matriz de
varianzas y covarianzas, para esto tenemos dos opciones.
La traza, denotado por 𝑡𝑟, es la suma de los elementos de la diagonal
principal de 𝑆, las varianzas de las variables,
𝑡𝑟(𝑆) =∑𝜎𝑠2
𝑝
𝑠=1
Se puede mostrar que 𝑡𝑟(𝑆) es igual a la suma de los eigen valores de la
matriz
𝑡𝑟(𝑆) =∑𝜆𝑠
𝑝
𝑠=1
Una segunda medida de variabilidad total es definida por el determinante de
𝑆, llamado también como la varianza generalizada de Wilks.
𝑊 = |𝑆|
Una forma fácil de interpretar fácilmente las relaciones entre las variables
dentro de la matriz, es usando la matriz de correlaciones 𝑅.
𝑅 =1
𝑛𝑍′𝑍
63
Donde 𝑍 = �̃�𝐹 es una matriz que contiene las variables estandarizadas y 𝐹
es una matriz 𝑝 × 𝑝 que tiene sus elementos de la diagonal principal iguales al
reciproco de las desviaciones estándar de las variables,
𝐹 = [𝑑𝑖𝑎𝑔(𝑠11, … , 𝑠𝑝𝑝)]−1
A pesar de que la matriz de correlación ofrece mucha información respecto a
las relaciones (lineales) estadísticas entre las variables consideradas, en realidad
los cálculos los hace marginalmente para cada par de variables, sin incluir la
información de las demás variables.
Una alternativa para corregir esto es usando la correlación parcial entre las
variables 𝑋𝑖 y 𝑋𝑗, dadas todas las demás variables, y sea 𝐾 = 𝑅−1 la inversa de la
matriz de correlaciones. Entonces
𝑟𝑖𝑗|𝑅𝐸𝑆𝑇 =−𝑘𝑖𝑗
[𝑘𝑖𝑖𝑘𝑗𝑗]12⁄
Donde 𝑘𝑖𝑖, 𝑘𝑗𝑗 y 𝑘𝑖𝑗 son los elementos en las posiciones (𝑖, 𝑖), (𝑗, 𝑗) y (𝑖, 𝑗),
respectivamente de la matriz 𝐾.
4.4 Análisis Exploratorio Multivariado de Datos Cualitativos.
Para variables cualitativas ordinales, es posible extender la noción de
covarianza y correlación a los rangos de las observaciones, donde la correlación
entre los rangos de las variables es conocida como coeficiente de correlación de
Spearman.
Si la matriz de datos contiene datos cualitativos en un nivel nominal, la noción
de covarianza y correlación no pueden ser usados. Una opción para esto son las
medidas conocidas como índices de asociación.
64
Tabla 4.5 Clasificación de variables ordinales. El coeficiente de correlación
de Spearman para estos datos es cero, lo que implica que los rangos de los datos
no están correlacionados.
Variable A Variable B Rangos de A Rangos de B Alto Simple 3 1
Medio Intermedio 2 2 Medio Elaborado 2 3 Bajo Simple 1 1
Dado que en la examinación de variables cualitativas las frecuencias de los
niveles mantienen un papel fundamental, haremos uso de tabla de frecuencias,
aunque a diferencia de las tablas vistas anteriormente, los datos cualitativos a
menudo están disponibles en forma de tablas de contingencia, sin la necesidad de
acceder a la matriz original. Para enfatizar esto, haremos un cambio en la notación.
Dado un carácter cualitativo X con niveles 𝑥1, 𝑥2, … , 𝑥𝐼 de una población n, la
frecuencia absoluta (𝑛𝑖) del nivel 𝑥𝑖 (𝑖 = 1,2, … , 𝐼) es el número de veces que la
variable 𝑋 presenta el valor 𝑥𝑖.
Tabla 4.6 Tabla de contingencia teórica de dos variables.
Y X
𝑌1 … 𝑌𝑗 … 𝑌𝐽 Total
𝑋1 𝑛11 … 𝑛1𝑗 … 𝑛1𝐽 𝑛1+
⋮ ⋮ ⋮ ⋮ ⋮
𝑋𝑖 𝑛𝑖1 … 𝑛𝑖𝑗 … 𝑛𝑖𝐽 𝑛𝑖+
⋮ ⋮ ⋮ ⋮ ⋮
𝑋𝐼 𝑛𝐼1 … 𝑛𝐼𝑗 … 𝑛𝐼𝐽 𝑛𝐼+
Total 𝑛+1 … 𝑛+𝑗 … 𝑛+𝐽 n
Donde 𝑛𝑖𝑗 es la frecuencia de los pares de niveles (𝑋𝑖, 𝑌𝑗), 𝑖 = 1, 2, … , 𝐼; 𝑗 =
1, 2, … , 𝐽.
65
𝑛𝑖+ = ∑ 𝑛𝑖𝑗𝐽𝑗=1 es la frecuencia marginal de la i-ésima fila.
𝑛+𝑗 = ∑ 𝑛𝑖𝑗𝐼𝑖=1 es la frecuencia marginal de la j-ésima columna.
∑𝑛𝑖+
𝐼
𝑖=1
=∑𝑛+𝑗
𝐽
𝑗=1
=∑∑𝑛𝑖𝑗
𝐽
𝑗=1
𝐼
𝑖=1
= 𝑛
4.4.1 Independencia y Asociación.
Dos variables 𝑋 y 𝑌 son independientes si
𝑛𝑖1𝑛+1
= ⋯ =𝑛𝑖𝐽𝑛+𝐽
=𝑛𝑖+𝑛 ∀ 𝑖 = 1, … , 𝐼
O equivalentemente
𝑛1𝑗
𝑛1+= ⋯ =
𝑛𝐼𝑗
𝑛𝐼+=𝑛+𝑗
𝑛 ∀ 𝑗 = 1, … , 𝐽
En tal caso se dice que 𝑋 y 𝑌 son estadísticamente independientes, también
se puede decir que si 𝑋 es independiente de 𝑌, entonces 𝑌 es independiente de 𝑋,
y más convencionalmente, se expresa como una función de la frecuencias
marginales 𝑛𝑖+ y 𝑛+𝑗; entonces 𝑋 y 𝑌 son independientes si
𝑛𝑖𝑗 =𝑛𝑖+𝑛+𝑗
𝑛 ∀ 𝑖 = 1,2, … , 𝐼; 𝑗 = 1,2, … , 𝐽
En términos de frecuencias relativas, esto es
𝑝𝑋𝑌(𝑥𝑖, 𝑦𝑖) = 𝑝𝑋(𝑥𝑖)𝑝𝑌(𝑦𝑖) ∀ 𝑖 = 1,2, … , 𝐼; 𝑗 = 1,2, … , 𝐽
Normalmente, cuando trabajamos con datos reales, la condición estadística
de independencia nunca se cumple con exactitud. Por lo que los datos observados
muestran algún grado de interdependencia entre las variables.
La noción de independencia estadística aplica tanto para variables
cuantitativas como para variables cualitativas, pero una medida de
66
interdependencia trabaja de forma diferente para variables cuantitativas que para
variables cualitativas. Mientras que para variables cuantitativas las medidas de
resumen (llamadas medidas de correlación) trabajan sobre los niveles y las
frecuencias, para variables cualitativas, las medidas de resumen (llamadas medidas
de asociación) pueden usar solo las frecuencias, porque los niveles no son métricos.
4.4.2 Medidas de Distancia.
Una medida extensamente usada para verificar la hipótesis de independencia
entre 𝑋 y 𝑌 es la estadística propuesta por Kar Pearson, definida en el caso general
como
𝑋2 =∑∑(𝑛𝑖𝑗 − 𝑛𝑖𝑗
∗ )2
𝑛𝑖𝑗∗
𝐽
𝑗=1
𝐼
𝑖=1
Donde 𝑛𝑖𝑗∗ =
𝑛𝑖+𝑛+𝑗
𝑛, 𝑖 = 1,2, … , 𝐼; 𝑗 = 1,2, … , 𝐽
Note que 𝑋2 = 0 si las variables 𝑋 y 𝑌 son independientes. En este caso los
factores en el numerador son todos cero. La estadística 𝑋2 puede reescribirse de la
siguiente forma equivalente
𝑋2 = 𝑛 [∑∑𝑛𝑖𝑗2
𝑛𝑖+𝑛+𝑗
𝐽
𝑗=1
𝐼
𝑖=1
− 1]
Dicha forma, enfatiza la dependencia del estadístico sobre el número de
observaciones 𝑛. Revelando un serio problema, el valor de 𝑋2 es una función
creciente de la muestra de tamaño 𝑛.
Algunas funciones de la estadística anterior, son tomadas como medidas
alternativas para salir de tal inconveniente. Aquí una de ellas
67
∅2 =𝑋2
𝑛=∑∑
𝑛𝑖𝑗2
𝑛𝑖+𝑛+𝑗
𝐽
𝑗=1
𝐼
𝑖=1
− 1
Conocida usualmente como media de contingencia, donde su raíz cuadrada
es conocida como coeficiente de phi.
Para tablas de contingencia 2 × 2, representando variables binarias, ∅2 es
normalizado cuando toma valores entre 0 y 1, además se puede mostrar que
∅2 =𝑐𝑜𝑣2(𝑋, 𝑌)
𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟(𝑌)
Ahora, considerando tablas de contingencia mayores a 2 × 2, encontramos
que ∅2 no está normalizado, por lo que es necesario usar una modificación diferente
de 𝑋2, conocida como índice de Cramer, el cual es obtenido al dividir la estadística
∅2 entre el valor máximo que este puede asumir en la estructura de la tabla de
contingencia.
Tal máximo resulta ser el mínimo entre los valores 𝐼 − 1 y 𝐽 − 1, por lo que el
índice de Cramer es igual a
𝑉2 =𝑋2
𝑛 𝑚𝑖𝑛[(𝐼 − 1)(𝐽 − 1)]
Se puede mostrar que 0 ≤ 𝑉2 ≤ 1 para alguna tabla de contingencia 𝐼 × 𝐽, y
𝑉2 = 0 si y solo si 𝑋 y 𝑌 son independientes, en otras palabras 𝑉2 = 1 implica la
máxima dependencia entre las dos variables.
4.4.3 Medidas de Dependencia.
Dado que todas las medidas de asociación vistas hasta el momento son
todas funciones de la estadística 𝑋2, y que además, son de difícil interpretación para
68
aplicaciones reales, Goodman y Kruskal (1979) propusieron un índice alternativo
para medir la asociación en una tabla de contingencia.
Suponga una tabla de contingencia 2 × 2, donde 𝑌 es la variable dependiente
y 𝑋 es la variable explicativa. Puede ser de interés el evaluar si el conocimiento del
nivel de 𝑋 es capaz de reducir la incertidumbre respecto a la categoría
correspondiente de 𝑌. El grado de incertidumbre es un carácter cualitativo
representado usualmente por el índice de heterogeneidad.
Sea 𝛿(𝑌) una medida de heterogeneidad para la distribución marginal de 𝑌,
indicado por un vector de frecuencias relativas marginales, {𝑓+1, 𝑓+2, … , 𝑓+𝐽}.
Similarmente sea 𝛿(𝑌|𝑖) la misma medida calculada sobre la distribución condicional
de 𝑌 para la i-ésima fila de la variable X, {𝑓1|𝑖, 𝑓2|𝑖 , … , 𝑓𝐽|𝑖}.
Un índice de asociación basado en la “reducción proporcional de la
heterogeneidad” o error de reducción proporcional (EPR, por sus siglas en inglés),
puede calcularse como sigue (Agresti, 1990)
𝐸𝑃𝑅 =𝛿(𝑌) −𝑀[𝛿(𝑌|𝑋)]
𝛿(𝑌)
Donde 𝑀[𝛿(𝑌|𝑋)] indica la heterogeneidad media respecto a la distribución
de 𝑋.
𝑀[𝛿(𝑌|𝑋)] =∑𝑓𝑖+𝛿(𝑌|𝑖)
𝑖
Donde 𝑓𝑖+ =𝑛𝑖+
𝑛⁄ , 𝑖 = 1,2, … , 𝐼.
Ahora bien, para elegir un 𝛿 apropiado se pueden obtener diferentes medidas
de asociación, usualmente se elige mediante el índice de Gini y el índice de
entropía.
69
Usando el índice de Gini en EPR, obtenemos el llamado índice de
concentración:
𝜏𝑌|𝑋 =∑∑
𝑓𝑖𝑗2
𝑓𝑖+⁄ − ∑𝑓+𝑗
2
1 − ∑ 𝑓+𝑗2
𝑗
Y usando el índice de entropía en EPR, obtenemos el llamado coeficiente de
incertidumbre dado por
𝑈𝑌|𝑋 = −∑ ∑ 𝑓𝑖𝑗log (
𝑓𝑖𝑗𝑓𝑖+⁄ ∗ 𝑓+𝑗)𝑗𝑖
∑ 𝑓+𝑗𝑙𝑜𝑔𝑓+𝑗𝑗
𝜏𝑌|𝑋 y 𝑈𝑌|𝑋 toman valores entre [0,1]. Además podemos demostrar que
𝜏𝑌|𝑋 = 𝑈𝑌|𝑋 si y solo si las variables son independientes.
𝜏𝑌|𝑋 = 𝑈𝑌|𝑋 = 1 si y solo si Y tiene máxima dependencia sobre X.
4.4.4 Medidas Basadas en Modelos.
Consideremos índices que no dependen de las distribuciones marginales, en
cambio, estos índices son basados en modelos probabilísticos y por lo tanto
permiten un tratamiento inferencial. Asuma una tabla de contingencia 2 × 2 (𝑋 =
0,1; 𝑌 = 0,1). Sean 𝜋11, 𝜋00,𝜋10 𝑦 𝜋01 las probabilidades de que una observación sea
clasificada en una de las cuatro celdas de la tabla.
Una medida de asociación que se constituye como un parámetro
fundamental en los modelos estadísticos para el análisis de datos cualitativos es la
razón de odds.
70
Sean 𝜋1|1 𝑦 𝜋0|1 las probabilidades condicionales de tener 1 (un éxito) y un 0
(un fallo) en la fila 1; sean entonces 𝜋1|0 𝑦 𝜋0|0 las mismas probabilidades pero para
la fila 0. La odds de éxito para la fila 1 está dada por
𝑜𝑑𝑑𝑠1 =𝜋1|1
𝜋0|1=𝑃(𝑌 = 1|𝑋 = 1)
𝑃(𝑌 = 0|𝑋 = 1)
Mientras que la odds de éxito para la fila 0 es
𝑜𝑑𝑑𝑠0 =𝜋1|0
𝜋0|0=𝑃(𝑌 = 1|𝑋 = 0)
𝑃(𝑌 = 0|𝑋 = 0)
Las odds son cantidades no-negativas, con un valor más grande que 1
cuando un éxito (nivel 1) es más probable que un fallo (nivel 0), esto es,
𝑃(𝑌 = 1|𝑋 = 1) > 𝑃(𝑌 = 0|𝑋 = 1)
La razón de odds está definida como
𝜃 =𝑜𝑑𝑑𝑠1𝑜𝑑𝑑𝑠0
=
𝜋1|1𝜋0|1⁄
𝜋1|0𝜋0|0⁄
De la definición de odd y usando la definición de probabilidad conjunta, es
fácil mostrar que
𝜃 =𝜋11𝜋00𝜋10𝜋01
Para el cálculo computacional de la razón de odds, las probabilidades serán
representadas con las frecuencias observadas
𝜃𝑖𝑗 =𝑛11𝑛
𝑛10𝑛01
Además de ser usada como herramienta en la construcción de un modelo
probabilístico, similar al coeficiente de correlación lineal, también podemos usar la
razón de odds para la construcción de reglas de decisión.
71
En este sentido, es posible crear un intervalo de confianza, hecho para el
coeficiente de correlación. El intervalo dicta que una asociación es significante
cuando
|𝑙𝑜𝑔𝜃𝑖𝑗| > 𝑍𝛼 2⁄ √∑1
√𝑛𝑖𝑗𝑖𝑗
Donde 𝑍𝛼2⁄ es el (1 − 𝛼 2⁄ ) percentil de una distribución normal estándar.
Podemos calcular la razón de odds del mismo modo para tablas de
contingencia más grandes. La razón de odds para tablas 𝐼 × 𝐽 se puede definir
respecto a cada par de las filas
(𝐼2) =
𝐼(𝐼 − 2)2⁄
En combinación con cada par de las columnas
(𝐽2) =
𝐽(𝐽 − 2)2⁄
De ahí que existan (𝐼2) (𝐽2) razones de odds de este tipo. Al ser un número
enorme de razones de odds, es recomendable elegir representantes con
parsimonia.
4.5 Reducción de Dimensionalidad
El análisis multivariado puede resultar más fácil si se reduce la
dimensionalidad del problema, expresada por el número de variables existentes.
Para esto, típicamente se usa la operación lineal conocida como transformación de
componentes principales. Técnica solo usada para variables cuantitativas y
posiblemente para variables binarias.
72
La idea primordial es transformar las p variables, usualmente
correlacionadas, en términos de 𝑘 < 𝑝 combinaciones lineales no correlacionadas.
Considere una matriz 𝑋 con 𝑛 filas y 𝑝 columnas; el análisis inicia a partir de
la matriz de varianzas y covarianzas, 𝑆 =1
𝑛�̃�′�̃�. Por notación, asumiremos que las
observaciones están expresadas como desviaciones de la media, por lo tanto 𝑋 =
�̃�.
Debido a que las variables pueden estar en diferentes escalas de medida, es
recomendable estandarizarlas antes de calcular 𝑆. Una alternativa a esto es sustituir
a 𝑆 con la matriz de correlación 𝑅, entonces 𝑅 =1
𝑛𝑍′𝑍. Donde, tanto 𝑆 como 𝑅 son
de rango completo, es decir, ninguna de la variables consideradas es una función
lineal de las otras (una combinación lineal de ellas).
Definición. El primer componente de la matriz 𝑋 es un vector dado por la
siguiente combinación lineal
(𝑌11⋮𝑌𝑛1
) = 𝑎11 (
𝑥11⋮𝑥𝑛1) + 𝑎21 (
𝑥12⋮𝑥𝑛2) +⋯+ 𝑎𝑝1 (
𝑥1𝑝⋮𝑥𝑛𝑝)
En términos matriciales es equivalente decir que
𝑌1 =∑𝑎𝑗1𝑋𝑗
𝑝
𝑗=1
= 𝑋𝑎1
El vector de coeficientes 𝑎1 = (𝑎11, 𝑎21, … , 𝑎𝑝1)′, también conocido como
pesos, es elegido al maximizar la varianza de la variable 𝑌1. Además, para poder
obtener una única solución, es necesario que los pesos estén normalizados y
restringidos a que la suma de sus cuadrados sea igual a 1. En otras palabras, el
primer componente principal es determinado por un vector de pesos 𝑎1 tal que
73
max𝑉𝑎𝑟(𝑌1) = max(𝑎1′ 𝑆𝑎1), bajo la restricción 𝑎1
′𝑎1 = 1, con lo cual se normaliza el
vector. Para encontrar una solución al problema, es necesario hacer uso de
Multiplicadores de Lagrange, y con ello, se puede mostrar también que para
maximizar la varianza de 𝑌1, el vector de los pesos elegido puede ser el eigen vector
correspondiente al eigen valor más grande de la matriz de varianzas y covarianzas,
𝑆.
Definición. El segundo componente principal de 𝑋 está dado por la siguiente
combinación lineal
(𝑌12⋮𝑌𝑛2
) = 𝑎12 (
𝑥11⋮𝑥𝑛1) + 𝑎22 (
𝑥12⋮𝑥𝑛2) +⋯+ 𝑎𝑝2 (
𝑥1𝑝⋮𝑥𝑛𝑝)
Y en términos matriciales
𝑌2 =∑𝑎𝑗2𝑋𝑗
𝑝
𝑗=1
= 𝑋𝑎2
Donde el vector de los coeficientes 𝑎2 = (𝑎12, 𝑎22, … , 𝑎𝑝2)′ es tal que
max𝑉𝑎𝑟(𝑌2) = max(𝑎1′ 𝑆𝑎2), bajo las restricciones 𝑎2
′ 𝑎2 = 1 y 𝑎2′ 𝑎1 = 0. Note que la
segunda restricción indica que se requiere que 𝑎1 y 𝑎2 sean ortogonales, es decir,
que sean no correlacionados.
La expresión del segundo componente principal puede ser obtenida usando
Multiplicadores de Lagrange, además de que 𝑎2 es el eigen vector (normalizado y
ortogonal para 𝑎1) correspondiente al segundo eigen valor más grande de 𝑆.
Este proceso se repite 𝑘 veces, con 𝑘 < 𝑝. En general el v-ésimo componente
principal, para 𝑣 = 1,2, … , 𝑘 está dado por la siguiente combinación lineal
74
𝑌𝑣 =∑𝑎𝑗𝑣𝑋𝑗
𝑝
𝑗=1
= 𝑋𝑎𝑣
Donde el vector de coeficientes 𝑎𝑣 es el eigen vector de 𝑆 correspondiente al
v-ésimo eigen valor más grande, además de estar normalizado y ser ortogonal a
todos los eigen vectores previos.
4.5.1 Interpretación de los Componentes Principales.
Debido a que cada componente principal es una combinación lineal de todas
las variables disponibles, no existe una clara escala de medida, con lo que se
dificulta su interpretación. Como solución a esto, abordaremos los conceptos de
importancia absoluta e importancia relativa de los componentes principales.
Analizaremos entonces la información que puede usarse como unidad de
medida de la importancia absoluta en la elección de los 𝑘 componentes principales,
en términos de cuánta información se mantiene al pasar de las 𝑝 variables a los 𝑘
componentes.
Primero, para resolver el problema de maximización, podemos mostrar que
𝑆𝑎𝑣 = 𝜆𝑣𝑎𝑣, con lo que tenemos que la varianza de v-ésimo componente principal
es igual al v-ésimo eigen valor de la matriz de datos:
𝑉𝑎𝑟(𝑌𝑣) = 𝑉𝑎𝑟(𝑋𝑎𝑣) = 𝑎𝑣′ 𝑆𝑎𝑣 = 𝜆𝑣
Y la covarianza entre los componentes principales satisface que
𝐶𝑜𝑣(𝑌𝑖, 𝑌𝑗) = 𝐶𝑜𝑣(𝑋𝑎𝑖, 𝑋𝑎𝑗) = 𝑎𝑖′𝑆𝑎𝑗 = 𝑎𝑖
′𝜆𝑣𝑎𝑗 = 0
Esto debido a que se asume que 𝑎𝑖 y 𝑎𝑗 son ortogonales, lo que implica que
los componentes principales sean no correlacionados. Y su matriz de varianzas y
covarianzas está dada por
75
𝑉𝑎𝑟(𝑌) = (𝜆1 ⋯ 0⋮ ⋱ ⋮0 ⋯ 𝜆𝑘
)
La siguiente razón representa la proporción de variabilidad en la
transformación de las p variables originales a los k<p componentes principales.
𝑡𝑟(𝑉𝑎𝑟 𝑌)
𝑡𝑟(𝑉𝑎𝑟 𝑋)=∑ 𝜆𝑖𝑘𝑖=0
∑ 𝜆𝑖𝑝𝑖=1
⁄
La ecuación expresa una medida acumulada de la cota de variabilidad, y por
lo tanto, de la información estadística producida por los primeros 𝑘 componentes
principales respecto a la variabilidad total de la matriz original, medida por la traza
de la matriz de varianzas y covarianzas.
Ahora examinemos la importancia relativa de cada componente principal.
Primero debemos obtener la expresión general de la correlación lineal entre un
componente principal y una variable original. Para esto, tenemos que
𝐶𝑜𝑣(𝑌𝑗 , 𝑋) = 𝐶𝑜𝑣(𝑋𝑎𝑗 , 𝑋) = 𝑆𝑎𝑗 = 𝜆𝑗𝑎𝑗
Así entonces 𝐶𝑜𝑣(𝑌𝑗 , 𝑋𝑖) = 𝜆𝑗𝑎𝑖𝑗. Además, sustituyendo 𝑉𝑎𝑟(𝑋𝑖) por 𝑠𝑖2 y
recalculando con 𝑉𝑎𝑟(𝑌𝑣) = 𝜆𝑣, tenemos
𝐶𝑜𝑟𝑟(𝑌𝑗 , 𝑋𝑖) =√𝜆𝑖𝑎𝑖𝑗
𝑠𝑖
Note que el signo algebraico y el valor del coeficiente 𝑎𝑖𝑗, también llamado
carga, determina el signo y la fuerza de la correlación entre el j-ésimo componente
principal y la j-ésima variable original. Se sigue también que la proporción de
variabilidad de una variable original, digamos 𝑋𝑖, explicada por 𝑘 componentes
principales puede ser descrita por la siguiente expresión
76
∑𝐶𝑜𝑟𝑟2(𝑌𝑗, 𝑋𝑖)
𝑘
𝑗=1
=(𝜆1𝑎1𝑖
2 +⋯+ 𝜆𝑘𝑎𝑘𝑖2 )
𝑠𝑖2⁄
En donde se describe la cota de variabilidad (información) de cada variable
explicativa que se obtiene al pasar de las variables originales a los componentes
principales.
Estos son los puntos importantes del análisis de compontes principales:
El método permite la reducción de complejidad de una matriz de datos,
refiriéndose a la transformación y reducción del número de variables.
Los componentes principales pueden ser obtenidos a partir de la
extracción de los eigen valores y los eigen vectores correspondientes
de la matriz de correlación 𝑅 en lugar de la matriz de varianzas y
covarianzas 𝑆.
77
Capítulo 5
Minería de datos
computacionales.
78
Tanto científicos de la computación como estadísticos están trabajando sobre
metodologías de minería de datos, pero enfocados en diferentes aspectos: los
científicos computacionales están más preocupadas con aspectos algorítmicos y
eficiencia computacional para el procedimiento; mientras que los estadísticos
estudian los fundamentos matemáticos y las propiedades estadísticas. Nosotros
nos enfocaremos más por en el segundo aspecto y sobre la aplicación de los
métodos.
5.1 Medidas de Distancia.
Bajo la idea de comparar observaciones, necesitamos introducir la idea de
una medida de distancia o proximidad entre ellas. Un índice de proximidad entre
dos variables cualesquiera 𝑥𝑖 y 𝑥𝑗 puede ser definido como una función de la
correspondencia de los vectores en las filas de la matriz de datos:
𝐼𝑃𝑖𝑗 = 𝑓(𝑥𝑖′, 𝑥𝑗
′), 𝑖, 𝑗 = 1,2, … , 𝑛
Al considerar variables cuantitativas, los índices de proximidad son conocidos
como distancias. Si las variables son cualitativas, la distancia entre las
observaciones puede ser medida por índices de similaridad. Y si los datos están en
una tabla de contingencia, se puede emplear la distancia chi-cuadrada.
5.1.1 Distancia Euclideana.
Considere una matriz con variables cuantitativas (o binarias), si 𝑥 y 𝑦 son filas
de la matriz, se dice que 𝑑(𝑥, 𝑦) es la distancia entre las observaciones si cumple:
No negatividad: 𝑑(𝑥, 𝑦) ≥ 0 ∀ 𝑥, 𝑦
Identidad: 𝑑(𝑥, 𝑦) = 0 <=> 𝑥 = 𝑦 ∀ 𝑥, 𝑦
79
Simetría: 𝑑(𝑥, 𝑦) = 𝑑(𝑦, 𝑥) ∀ 𝑥, 𝑦
Desigualdad del triángulo: 𝑑(𝑥, 𝑦) ≤ 𝑑(𝑥, 𝑧) + 𝑑(𝑦, 𝑧) ∀ 𝑥, 𝑦, 𝑧
La siguiente es una matriz de distancias en la que se representan las
distancias entre todas las observaciones presentes en la matriz de datos:
∆= (0 ⋯ 𝑑1𝑛⋮ ⋱ ⋮𝑑𝑛1 ⋯ 0
)
La distancia Euclideana es la medida de distancia más utilizada, definida para
cualquiera 𝑥𝑖 y 𝑥𝑗, en el espacio Euclideano p-dimensional:
𝑑(𝑥𝑖, 𝑥𝑗) = [∑(𝑥𝑖𝑠 − 𝑥𝑗𝑠)2
𝑝
𝑗=1
]
12⁄
Para evitar problemas con las diferentes escalas de medida, es preferible que
la distancia Euclideana sea calculada con las variables previamente
estandarizadas.
5.1.2 Medidas de Semejanza.
Dado un conjunto finito de observaciones 𝑢𝑖 ∈ 𝑈, una función 𝑆(𝑢𝑖 , 𝑢𝑗) = 𝑆𝑖𝑗
de 𝑈𝑥𝑈 → ℝ es considerada índice de semejanza si satisface las siguientes
propiedades:
No negatividad: 𝑆𝑖𝑗 ≥ 0, para todo 𝑢𝑖 , 𝑢𝑗 ∈ 𝑈
Normalización: 𝑆𝑖𝑖 = 1, para todo 𝑢𝑖 ∈ 𝑈
Simetría: 𝑆𝑖𝑗 = 𝑆𝑗𝑖 , para todo 𝑢𝑖 , 𝑢𝑗 ∈ 𝑈
80
A diferencia de las medidas de distancia, los índices de semejanza pueden
ser aplicados a todo tipo de variables, incluyendo variables cualitativas, además de
que al tomar valores entre [0, 1] se facilita su interpretación.
El complemento de un índice de semejanza es conocido como índice de
disimilitud y representa una clase de índices de proximidad más amplia que las
distancias.
5.1.3 Ajuste Multidimensional.
Al igual que en el cálculo de semejanzas, los métodos de ajuste
multidimensional están dirigidos a representar observaciones cuyos valores
observados son desconocidos (o no están expresados numéricamente) en un
espacio Euclideano de baja dimensión (usualmente en ℝ2).
La representación se consigue al preservar las distancias originales tanto
como sea posible. Para esto se busca minimizar la distancia correspondiente entre
las distancias originales y las nuevas distancias Euclideanas.
Los métodos de ajuste multidimensional difieren principalmente en cómo es
definida tal distancia. Comúnmente se elige la función de tensión (estrés)
√∑∑(𝛿𝑖𝑗 − 𝑑𝑖𝑗)2
𝑛
𝑗=1
𝑛
𝑖=1
Donde 𝛿𝑖𝑗 son las distancias originales (o disimilitudes) entre cada par de
observaciones, y 𝑑𝑖𝑗 son las distancias correspondientes entre las coordenadas
producidas.
81
La métrica de los métodos de ajuste multidimensional busca 𝑛 vectores
dimensionales para 𝑘 valores reales, cada uno representando una medición de
coordenada de las 𝑛 observaciones, tal que la matriz de distancias 𝑛 × 𝑛 entre las
observaciones, representada por 𝑑𝑖𝑗, minimice el cuadrado de la función de tensión.
Típicamente 𝑘 = 2, además de que es conveniente representar los resultados del
procedimiento con un gráfico de dispersión.
5.2 Análisis de Grupo.
Mejor conocido como método descriptivo de minería de datos, su objetivo
principal es agrupar las observaciones dentro de grupos que son homogéneos
internamente (cohesión interna) y heterogéneos entre grupos (separación externa).
Note que la creación de los grupos pueda interpretarse como una reducción
de dimensionalidad, pero no de la misma forma que como un análisis de
componentes principales.
Presentamos entonces algunos puntos importantes a considerar para un
buen análisis de grupo:
Elección de Variables.
Las variables elegidas para el agrupamiento, deben ser aquellas que sean
de aspecto relevante para cumplir los objetivos fijos; recordemos que usar variables
de poca importancia afecta fuertemente los resultados finales.
En general, se puede considerar como una agrupación satisfactoria cuando
no se muestra una fuerte sensibilidad a los pequeños cambios en el conjunto de
variables usadas.
Método de Formación de Grupos.
82
Existen dos tipos de métodos, jerárquicos y no jerárquicos. Los métodos
jerárquicos buscan llegar a sucesiones de agrupaciones, iniciando del más simple.
Y los métodos no jerárquicos buscan recopilar las 𝑛 unidades dentro de un número
de grupos previamente establecidos.
Tipos de Índices de Proximidad.
En resumen, si los datos que predominan son cuantitativos, se usa la
distancia Euclideana; si los datos predominantes son cualitativos, se usa un índice
de similaridad; y si los datos están disponibles en un formato de tabla de
contingencia, se usa la distancia chi-cuadrada entre los niveles.
Elección de Criterios de Evaluación.
La evaluación de los resultados de la agrupación implica el verificar que los
grupos son consistentes con el objetivo principal del análisis de grupos, es decir,
que satisfagan las condiciones de cohesión interna y de separación externa.
5.2.1 Métodos Jerárquicos.
Estos métodos agrupan las unidades con el propósito de formar familias de
particiones, que pueden ser representadas usando gráficas con estructura de árbol,
conocidas como árbol de agrupación jerárquica o dendrograma.
83
Figura 5.1 Estructura de un dendrograma. Las ramas del árbol (Branches)
describen agrupaciones subsecuentes de las observaciones. En la raíz (Root),
todas las observaciones están contenidas en una sola clase.
Usualmente los paquetes de software estadístico reportan tal dendograma,
desde la raíz hasta el número final de ramas, igual al número de observaciones.
Aquí una idea general para un algoritmo de agrupación aglomerativa:
1. Inicio: dadas 𝑛 observaciones estadísticas, cada elemento representa un
grupo, y deben ser identificados con un número de 1 a 𝑛.
2. Selección: en términos de la distancia seleccionada los dos grupos “más
cercanos” son seleccionados.
3. Actualización: se actualiza el número de grupos (para 𝑛 − 1) por medio de
la unión, en un solo grupo, de dos grupos seleccionados en el paso 2. Se
actualiza la matriz de distancias, tomando las dos filas (y las dos
columnas) de distancias entre los dos grupos y remplazándolos con una
sola fila (y una columna) de distancias, “representativa” del nuevo grupo.
4. Repetición: los pasos 2 y 3 son repetidos 𝑛 − 1 veces.
5. Fin: el procedimiento se detiene cuando todos los elementos son
incorporados en un único grupo.
Por otro lado, existen métodos que solo requieren de la distancia matricial,
por ejemplo:
Enlace único: la distancia es definida como el mínimo de la distancia 𝑛1𝑛2
entre cada observación del grupo 𝐶1 con cada observación del grupo 𝐶2:
𝑑(𝐶1, 𝐶2) = min(𝑑𝑟𝑠) 𝑐𝑜𝑛 𝑟 ∈ 𝐶1, 𝑠 ∈ 𝐶2
84
Enlace completo: la distancia es definida como el máximo de la distancia
𝑛1𝑛2 entre cada observación del grupo 𝐶1 con cada observación del grupo 𝐶2:
𝑑(𝐶1, 𝐶2) = max(𝑑𝑟𝑠) 𝑐𝑜𝑛 𝑟 ∈ 𝐶1, 𝑠 ∈ 𝐶2
Enlace promedio: la distancia es definida como el promedio aritmético de la
distancia 𝑛1𝑛2 entre cada observación de un grupo son cada observación del otro
grupo:
𝑑(𝐶1, 𝐶2) =1
𝑛1𝑛2∑∑𝑑𝑟𝑠
𝑛2
𝑠=1
𝑛1
𝑟=1
𝑐𝑜𝑛 𝑟 ∈ 𝐶1, 𝑠 ∈ 𝐶2
Dos métodos que requieren de la matriz de datos tal como la distancia
matricial son el método del centroide y el método de Ward.
Método del Centroide.
Considere 𝑛1 y 𝑛2 observaciones de dos grupos, 𝐶1 y 𝐶2 respectivamente. La
distancia de estos grupos es definida como la distancia entre los centroides
respectivos (usualmente las medias), �̅�1 y �̅�2:
𝑑(𝐶1, 𝐶2) = 𝑑(�̅�1, �̅�2)
Para calcular el centroide de un grupo de observaciones es necesario
remplazar las distancias con respecto a los centroides de los dos grupos previos por
las distancias con respecto a los centroides de los nuevos grupos. Los centroides
del nuevo grupo se pueden obtener de
�̅�1𝑛1 + �̅�2𝑛2
𝑛1 + 𝑛2
Método de Ward
Este método minimiza una función objetivo usando principalmente las
agrupaciones principales para crear grupos que tengan máxima cohesión interna y
85
máxima separación externa. La desviación total (𝑇) de las 𝑝 variables,
correspondiente a 𝑛 veces la traza de la matriz de varianzas y covarianzas, puede
ser dividida en dos partes: la desviación dentro de los grupos (𝑊) y la desviación
entre los grupos (𝐵), 𝑇 = 𝑊 + 𝐵.
En términos formales, dada una partición entre g grupos, la desviación (𝑇)
de las 𝑝 variables corresponde a la suma de las desviaciones entre las variables
singulares con respecto a la media total, definida por
𝑇 =∑∑(𝑥𝑖𝑠 − �̅�𝑠)2
𝑛
𝑖=1
𝑝
𝑠=1
La desviación dentro de los grupos (𝑊) es dada por la suma de las
desviaciones de cada grupo
𝑊 =∑𝑊𝑘
𝑔
𝑘=1
Donde 𝑊𝑘 representa las desviaciones de las 𝑝 variables en el k-ésimo grupo,
descrito por
𝑊𝑘 =∑∑(𝑥𝑖𝑠 − �̅�𝑠𝑘)2
𝑛𝑘
𝑖=1
𝑝
𝑠=1
La desviación entre los grupos (𝐵) está dada por la suma de las desviaciones
ponderadas de las medias de cada grupo con respecto al promedio general
correspondiente:
𝐵 =∑∑𝑛𝑘(�̅�𝑠𝑘 − �̅�𝑠)2
𝑔
𝑘=1
𝑝
𝑠=1
Note que estos no requieren un cálculo previo de la distancia matricial.
86
5.2.2 Métodos No Jerárquicos.
Los métodos no jerárquicos buscan obtener una partición de las 𝑛
observaciones en 𝑔 grupos (𝑔 < 𝑛), con 𝑔 definido a priori. Para algún 𝑔 dado, un
algoritmo no jerárquico clasificará cada una de las variables solo basándose en el
criterio de selección, usualmente dado por la media de una función objetivo. En
general, una agrupación no jerárquica puede resumirse por el siguiente algoritmo:
1. Elegir el número de grupos 𝑔 y elegir una agrupación inicial de las 𝑛
unidades estadísticas dentro de los grupos.
2. Evaluar la “transferencia” de cada observación de grupo inicial al otro
grupo con el propósito de maximizar la cohesión interna de los grupos. Se
mide la variación de la transferencia y, si es relevante, la transferencia se
vuelve permanente.
3. Se repite el paso 2 hasta que la regla sea satisfecha.
Los algoritmos no jerárquicos suelen ser más rápidos que algunos
jerárquicos porque utilizan una estructura de cálculo interactiva, por lo cual no
requieren determinar la distancia matricial. Además, la construcción de algoritmos
no jerárquicos tiende a ser más estable respecto a la variabilidad de los datos y
también suelen ser más adecuados para grandes conjuntos de datos.
El método más usado para una agrupación no jerárquica es el método de 𝑘
medias, donde 𝑘 es el número de grupos establecidos a priori. Tal método sigue el
siguiente proceso:
87
1. Inicio. Habiendo un determinado número de grupos, 𝑔 puntos, llamados
semillas, se constituyen los centroides (medidas de posición, usualmente
las medias) de la agrupación inicial.
2. Evaluación de transferencia. Para los 𝑔 grupos, se calcula la distancia de
cada observación al centroide. Para calcular la distancia, se utiliza la
distancia euclideana
𝑑(𝑥𝑖, �̅�𝑙(𝑡)) = √∑(𝑥𝑖𝑠 − �̅�𝑠𝑙
(𝑡))2
𝑝
𝑖=1
Que es igual, para la t-ésima iteración, a la distancia entre la i-ésima
observación y el centroide de grupo l, donde �̅�𝑙(𝑡) = [�̅�1𝑙
(𝑡), … , �̅�𝑝𝑙(𝑡)]′ es el
centroide del grupo l calculado para la t-ésima iteración.
3. Repetición. Repetimos el paso 2 hasta obtener una situación estable entre
los grupos.
5.3 Regresión Lineal.
Parar esta sección nos enfocaremos únicamente en variables de respuesta
cuantitativa, considerando, la regresión lineal como un método predictivo de minería
de datos.
5.3.1 Regresión Lineal Bivariada
En muchas aplicaciones resulta ser de interés el explicar una variable en
particular, conocida como variable dependiente o de respuesta, comúnmente
representada por 𝑦, la cual puede ser causada o explicada en función de otra
variable, conocida como independiente o explicativa, representada comúnmente por
88
𝑥. La regresión lineal es el modelo de regresión más simple que se puede usar para
describir a 𝑦 en función de 𝑥, expresada para cada par de observación (𝑥𝑖, 𝑦𝑖) como
𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖 + 𝑒𝑖 (𝑖 = 1,2, … , 𝑛)
Donde 𝑎 es el intercepto de la función de regresión, 𝑏 es el coeficiente de
regresión y 𝑒𝑖 es el error aleatorio de la función de regresión, relativo a la i-ésima
observación.
Note que la función de regresión tiene dos partes principales: la regresión
lineal y el término error. Mientras que la regresión lineal puede ser construida a partir
de la matriz de datos de forma empírica, el termino error describe que tan buena es
la aproximación de la regresión lineal a la variable de respuesta observada.
Entonces la regresión lineal se convierte en un problema de ajustar una línea
recta sobre el diagrama de dispersión observado. La regresión lineal es dada por la
función lineal
�̂�𝑖 = 𝑎 + 𝑏𝑥𝑖 (𝑖 = 1,2, … , 𝑛)
Donde �̂�𝑖 es el i-ésimo valor ajustado de la variable dependiente, calculado
en base al i-ésimo valor de la variable explicatoria 𝑥𝑖. Una vez definida la regresión
lineal, se sigue que el término de error 𝑒𝑖, para cada observación 𝑦𝑖, representa el
residual de la función de regresión, normalmente obtenido de la diferencia entre los
valores de respuesta observados 𝑦𝑖 y los valores correspondientes ajustados con la
regresión lineal �̂�𝑖.
𝑒𝑖 = 𝑦𝑖 − �̂�𝑖
Cada residual puede ser interpretado como la parte del valor correspondiente
que no puede ser explicado por la relación lineal con la variable explicatoria. Así
89
entonces, para obtener una expresión analítica de regresión lineal, basta con
calcular los parámetros 𝑎 y 𝑏 en base a los datos disponibles.
Para esto se puede aplicar el método de mínimos cuadrados, donde se elige
la línea recta que minimice la suma de errores al cuadrado, definido como
𝑆𝑆𝐸 =∑𝑒𝑖2 =
𝑛
𝑖=1
∑(𝑦𝑖 − �̂�𝑖)2
𝑛
𝑖=1
=∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖)2
𝑛
𝑖=1
Para encontrar el mínimo de SSE necesitamos tomar sus derivadas parciales
respecto a los parámetros 𝑎 y 𝑏 e igualarlas a cero. La suma de cuadrados es una
función cuadrática por lo que sí existe un punto extremo, este será mínimo. Por lo
tanto, los parámetros son encontrados al resolver el siguiente sistema de
ecuaciones, conocido como ecuaciones normales:
𝜕 ∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖)2
𝜕𝑎= −2∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖)
𝑖
= 0
𝜕 ∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖)2
𝜕𝑏= −2∑𝑥𝑖(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖)
𝑖
= 0
De la primera ecuación se tiene que
𝑎 =∑𝑦𝑖𝑛− 𝑏∑
𝑥𝑖𝑛= 𝜇𝑦 − 𝑏𝜇𝑥
Y sustituyendo en la segunda ecuación y simplificando, tenemos
𝑏 = (∑𝑥𝑖𝑦𝑖 𝑛⁄ − ∑𝑦𝑖 ∑
𝑥𝑖𝑛2⁄
∑𝑥𝑖2
𝑛⁄ − (∑𝑥𝑖𝑛⁄ )2) =
𝐶𝑜𝑣(𝑋, 𝑌)
𝑉𝑎𝑟(𝑋)= 𝑟(𝑋, 𝑌)
𝜎𝑦
𝜎𝑥
Donde 𝜇𝑥 y 𝜇𝑦 son las medias, 𝜎𝑥 y 𝜎𝑦 son las desviaciones estándar y 𝑟(𝑋, 𝑌)
es el coeficiente de correlación entre 𝑋 y 𝑌.
90
En resumen, la regresión es una simple pero poderosa herramienta de
predicción. Para situaciones reales basta con calcular los parámetros de la
regresión lineal en base a los datos disponibles. Luego entonces, para predecir un
valor de 𝑦 solo se requiere sustituir un valor para 𝑥 en la ecuación de regresión
lineal.
Figura 5.2 Ejemplo del ajuste de una regresión lineal.
5.3.2 Regresión Lineal Múltiple.
Consideremos ahora un caso general, donde hay más de una variable
explicatoria. Supongamos que, en la matriz de datos todas las variables son
explicatorias a excepción de una, la cual será elegida como variable de respuesta.
Sea 𝑘 el número de dichas variables explicatorias, entonces la regresión lineal
múltiple está dada por
𝑦𝑖 = 𝑎 + 𝑏1𝑥𝑖1 + 𝑏2𝑥𝑖2 +⋯+ 𝑏𝑘𝑥𝑖𝑘 + 𝑒𝑖
Para 𝑖 = 1,2, … , 𝑛, donde n es el número total de observaciones, y
equivalentemente en términos matriciales tenemos
𝑌 = 𝑋𝑏 + 𝐸
91
Donde 𝑌 es un vector columna con 𝑛 filas que contiene los valores de la
variable de respuesta; 𝑋 es un matriz de 𝑛 filas y 𝑘 + 1 columnas que contiene los
valores para cada variable explicatoria por columna para las 𝑛 observaciones, más
una columna extra (referida al intercepto) que contiene los valores igual a 1; b es un
vector con 𝑘 + 1 filas que contiene los 𝑘 parámetros que serán estimados más el
intercepto y 𝐸 es un vector columna de tamaño 𝑛 que contiene los términos error.
El caso de la regresión lineal múltiple está representado por un plano (𝑘 + 1)
dimensional, conocido plano de regresión definido por la ecuación
𝑦𝑖 = 𝑎 + 𝑏1𝑥𝑖1 + 𝑏2𝑥𝑖2 +⋯+ 𝑏𝑘𝑥𝑖𝑘
También, es necesario estimar el vector de parámetros (𝑎, 𝑏1, … , 𝑏𝑘) respecto
a la base de datos disponible, utilizando el criterio de mínimos cuadrados para
minimizar el cuadrado de la distancia euclidiana.
𝑑2(𝑦, �̂�) =∑(𝑦𝑖 − �̂�𝑖)2
𝑛
𝑖=1
De forma similar a la regresión bivariada, podemos obtener una solución en
términos matriciales; se tiene que �̂� = 𝑋𝛽 donde
𝛽 = (𝑋′𝑋)−1𝑋′𝑌
Por lo tanto, el ajuste óptimo del plano está definido por
�̂� = 𝑋(𝑋′𝑋)−1𝑋′𝑌 = 𝐻𝑌
Desde el punto de vista geométrico, se establece entonces que el plano
óptimo se obtiene a partir de la proyección del autor observado 𝑦 ∈ ℝ𝑛 sobre el
hiperplano (𝑘 + 1) dimensional, en este caso el operador de proyección es la matriz
92
𝐻. De hecho, si 𝑘 = 1 los dos parámetros de 𝛽 coinciden con los parámetros 𝑎 y 𝑏
del caso bivariado.
5.4 Regresión Logística.
Ahora consideraremos un modelo predictivo para variables de respuesta
cualitativas. Un problema de respuestas cualitativas puede ser transformado como
un problema de respuestas binarias (ej. Agresti, 1990), donde el modelo de
regresión logística es la construcción de bloques de modelos de respuesta
cualitativa.
Sea 𝑦𝑖 (𝑖 = 1,2, … , 𝑛) los valores observados de una variable de respuesta,
los cuales solo pueden tomar valores 0 y 1, donde el nivel 1 usualmente representa
la ocurrencia o suceso de un evento de interés.
Un modelo de regresión logística es definido en términos de valores
ajustados para ser interpretado como probabilidades de que el evento ocurra en
diferentes sub poblaciones
𝜋𝑖 = 𝑃(𝑌𝑖 = 1), 𝑖 = 1,2, … , 𝑛
En otras palabras, un modelo de regresión logística especifica que una
función apropiada para el ajuste de probabilidad del evento es una función lineal de
los valores observados de las variables exploratorias disponibles, por ejemplo
log [𝜋𝑖
1 − 𝜋𝑖] = 𝑎 + 𝑏1𝑥𝑖1 + 𝑏2𝑥𝑖2 +⋯+ 𝑏𝑘𝑥𝑖𝑘
Del lado izquierdo se encuentra definida la función logit de la probabilidad
ajustada, 𝑙𝑜𝑔𝑖𝑡(𝜋𝑖), como el logaritmo de las odds para el evento, normalmente
como el logaritmo de la probabilidad de ocurrencia (fallo):
93
𝑙𝑜𝑔𝑖𝑡(𝜋𝑖) = 𝑙𝑜𝑔 [𝜋𝑖
1 − 𝜋𝑖]
Así entonces, se calcula 𝜋𝑖 de acuerdo a la base de datos y para poder
obtener un valor ajustado para cada observación binaria �̂�𝑖 se introduce un valor
límite de 𝜋𝑖 por encima de �̂�𝑖 = 1 y por debajo de �̂�𝑖 = 0. El ajuste resultante
raramente es perfecto, por lo que se debe ajustar un error, el cual se debe mantener
tan bajo como sea posible.
5.5 Modelos Árbol.
Mientras que los métodos de regresión lineal y logística producen un valor
para así posibilitar una clasificación de acuerdo a una regla discriminante, los
modelos árbol comienzan haciendo una clasificación de las observaciones dentro
de grupos, para después obtener un valor para cada grupo.
Cuando la variable de respuesta es continua, lo modelos árbol son divididos
dentro de árboles de regresión; cuando la variable de respuesta es cuantitativa
discreta o cualitativa (categórica) son divididos en arboles de clasificación. Pero
como la mayoría de conceptos aplica para ambos casos, no haremos distinción
entre ellos.
Los modelos árbol pueden ser definidos como un procedimiento recursivo, a
través del cual un conjunto de 𝑛 unidades estadísticas son divididas
progresivamente dentro de grupos, de acuerdo a una regla de división cuyo objetivo
es maximizar una medida de homogeneidad o pureza de la variable de respuesta
en cada uno de los grupos obtenidos.
94
Además, en cada uno de los pasos del procedimiento se especifica una regla
de división para la elección de una variable exploratoria a dividir y por la elección de
una regla de división de tal variable, la cual establece como será la partición de las
observaciones.
El principal objetivo de un modelo árbol es conseguir como resultado una
participación final de las observaciones, y para conseguirla se requiere especificar
un criterio para detener el proceso de división.
Suponga que se logra una partición final, que consiste en 𝑔 grupos (𝑔 < 𝑛).
Entonces para alguna observación 𝑦𝑖 de la variable de respuesta observada, se
produce un valor ajustado �̂�𝑖 por una regresión árbol, el cual es igual a la media de
respuesta del grupo al cual pertenece la observación 𝑖. Sea 𝑚 tal grupo, entonces
tenemos
�̂�𝑖 =1
𝑛𝑚∑𝑦𝑙𝑚
𝑛𝑚
𝑙=𝑖
Por otro lado, para una clasificación árbol, los valores ajustados son dados
en términos de probabilidades ajustadas asociadas a un grupo en particular. Si solo
hay dos casos posibles (clasificación binaria) la probabilidad ajustada de éxito es
𝜋𝑖 =1
𝑛𝑚∑𝑦𝑙𝑚
𝑛𝑚
𝑙=1
Donde 𝑦𝑙𝑚 puede tomar valores 0 y 1, por lo tanto la probabilidad ajustada
corresponde a la proporción de éxitos observada en el grupo 𝑚. Note que �̂�𝑖 y 𝜋𝑖
son constantes para todas las observaciones en el grupo.
95
La salida del análisis es comúnmente representada usando un árbol, muy
similar al diagrama producido por un agrupamiento jerárquico, lo que también indica
que la partición realizada es influenciada, en cierto nivel, por elecciones previas.
Figura 5.3 Ejemplo de probabilidades de respuesta binaria.
A los nodos finales de un árbol se le conoce como “hojas”, las cuales
contienen la información principal transportada por el análisis del modelo árbol, en
el ejemplo de la Figura 5.3 hay una partición de las observaciones dentro de cuatro
grupos, ordenados por las probabilidades ajustadas de la variable de respuesta.
Estas probabilidades ajustadas pueden ser comparadas con las que pueden ser
obtenidas del modelo de regresión logística.
Además, podemos clasificar nuevas observaciones, para las cuales los
niveles de la variable de respuesta son desconocidos. En la Figura 5.3 podemos
hacer esto localizando tal observación en una de las cuatro clases correspondientes
al final de las ramas, conforme a los niveles asumidos por las variables explicatorias
‘Good Account’, ‘Previous Repayments’ y ‘Concurrent’, siguiendo las reglas
descritas.
96
Una regla comúnmente utilizada es clasificar todas las observaciones
pertenecientes a un nodo final en la clase correspondiente al nivel más frecuente
(moda), esta correspondencia es llamada “regla de la mayoría”. Aunque existen
otros esquemas de agrupación, la ausencia de otras consideraciones, hace que esta
regla sea la más razonable.
Cada camino en el modelo árbol está representado por una regla de
clasificación y además comparándolo con los modelos discriminantes, los modelos
árbol producen reglas, que si bien son menos explicitas analíticamente, son fáciles
de entender gráficamente.
Los modelos árbol también pueden ser considerados como modelos
predictivos no paramétricos, es decir, no requieren asumir nada de la distribución
de probabilidad de la variable de respuesta. De hecho, esta flexibilidad implica que
los modelos árbol sean generalmente aplicables sin importar la naturaleza de la
variable dependiente ni de las variables explicatorias. Pero esta gran flexibilidad
puede tener desventajas, por ejemplo, que requiera de una alta demanda de
recursos computacionales.
Además, su secuencia natural y su complejidad algorítmica pueden crear
dependencias sobre los datos observados, tanto que incluso un pequeño cambio en
la probabilidad altera la estructura del árbol. Esto hace difícil el tomar un modelo
árbol diseñado para un contexto y generalizarlo para otros contextos.
A pesar de sus graficas similares, existen importantes diferencias entre
análisis de agrupación jerárquica y clasificación de árboles, siendo esta última más
predictiva que descriptiva. El análisis de agrupación jerárquica realiza una
clasificación no supervisada de las observaciones, en base a todas las variables
97
disponibles, mientras que la clasificación de árboles realiza una clasificación de las
observaciones en base a todas las variables explicatorias disponibles y supervisado
por la variable de respuesta.
Una segunda diferencia está en la regla de partición. La clasificación árbol es
llevada a cabo generalmente usando solo una variable explicatoria a la vez,
mientras que en una agrupación jerárquica la regla de división o de aglomeración
en grupos es establecido de acuerdo a la distancia entre ellos, calculada con todas
las variables disponibles.
5.5.1 Criterio de División para Modelos Árbol.
El elegir una regla de división implica elegir también un predictor y una buena
partición de ese nivel. Para hacer la elección se usa generalmente una medida de
bondad de la correspondiente regla de división.
Una medida de bondad Φ(𝑡) es una medida del rendimiento ganado al
subdividir un nodo (padre) 𝑡 en cierto número de nodos (hijos). Sea 𝑡𝑟 , 𝑟 = 1,… , 𝑠,
que indica el grupo de hijos generado por la segmentación (𝑠 = 2 para una
segmentación binaria) y sea 𝑝𝑟 la proporción de observaciones, que están en el
nodo 𝑡, localizados en cada nodo hijo, con ∑𝑝𝑟 = 1. Entonces la función de criterio
está dada expresada como
Φ(𝑠, 𝑡) = 𝐼(𝑡) −∑𝐼(𝑡𝑟)𝑝𝑟
𝑠
𝑟=1
Donde 𝐼 indica una función de impureza, la cual se refiere a una medida de
la variabilidad de los valores de respuesta de las observaciones. Valores altos de la
función de criterio implican que la partición elegida es buena.
98
Se dice que la regresión árbol es pura cuando tiene varianza nula (todas las
observaciones son iguales) e impura si la varianza es alta. La impureza del nodo 𝑚
está definida por
𝐼𝑣(𝑚) =∑ (𝑦𝑙𝑚 − �̂�𝑚)
2𝑛𝑚𝑙=1
𝑛𝑚
Donde �̂�𝑚 indica el valor de la media ajustada para el grupo 𝑚. A
continuación, se presentan las elecciones más comunes para medir impureza.
Impureza de Clasificación Errónea
𝐼𝑀(𝑚) =∑ 1(𝑦𝑙𝑚, 𝑦𝑘)𝑛𝑚𝑙=1
𝑛𝑚= 1 − 𝜋𝑘
Donde 𝑦𝑘 es el modelo categórico del nodo, con el ajuste de probabilidad 𝜋𝑘;
la función 1() representa la función indicador, la cual toma valor 1 si 𝑦𝑙𝑚 = 𝑦𝑘 y 0 de
otro modo.
Impureza de Gini
𝐼𝐺(𝑚) = 1 − ∑ 𝜋𝑖2
𝑘(𝑚)
𝑖=1
Donde los 𝜋𝑖 ’s son las probabilidades ajustadas de los niveles presentes en
el nodo 𝑚, que son a lo mucho 𝑘(𝑚).
Impureza de Entropía
𝐼𝐸(𝑚) = − ∑ 𝜋𝑖 log 𝜋𝑖
𝑘(𝑚)
𝑖=1
99
Con 𝜋𝑖 definido como anteriormente. Note que la impureza de Entropía y la
de Gini corresponden a la aplicación de los índices de heterogeneidad (Sección
4.1).
Evaluación del Árbol
Además de dar un útil criterio de división, una medida de impureza puede ser
usada para la evaluación total de un árbol. Sea 𝑁(𝑇) el número de hojas (nodos
finales) de un árbol 𝑇. Entonces, la impureza total de 𝑇 esta dada por
𝐼(𝑇) = ∑ 𝐼(𝑡𝑚)𝑝𝑚
𝑁(𝑇)
𝑛=1
Donde 𝑝𝑚 son las proporciones de las observaciones en la clasificación final.
La medida de impureza usada por Chaid es la distancia que hay entre las
frecuencias observadas y las esperadas, donde las frecuencias esperadas son
calculadas usando la hipótesis para homogeneidad de las observaciones en el nodo
considerado.
La función de criterio de división es el índice de Pearson 𝜒2. Si el
decrecimiento en 𝜒2 es significativo (esto es, el p-valor es más bajo que el nivel de
𝛼 pre-especificado) entonces un nodo es dividido, de otro modo permanece sin
dividirse y se convierte en una hoja.
5.5.2 Poda.
Debido a la falta de un criterio para detener el proceso, un modelo árbol debe
crecer hasta que cada nodo contenga observaciones idénticas en términos de
valores o niveles de la variable dependiente. Esto obviamente no constituye una
segmentación parsimoniosa, por lo que es necesario detener el crecimiento del
100
árbol en una dimensión razonable, bajo el ideal de que la configuración del árbol
sea tanto parsimoniosa como precisa.
La primera propiedad implica que el árbol tenga un pequeño número de
hojas, esto para que la regla predictiva sea fácil de interpretar. La segunda
propiedad deseada implica un gran número de hojas que se encuentren con la
mayor pureza posible. Entonces, la elección final está comprometida entre dos
estrategias opuestas.
Es por eso que algunos algoritmos árbol usan reglas de “alto” basadas en
límites sobre el número hojas o sobre el número máximo de pasos en el proceso.
Otros en cambio, asumen probabilidades sobre las variables usando la prueba
estadística más adecuada, pero con la ausencia de probabilidades asumidas, el
crecimiento se detiene cuando el decrecimiento en la impureza es pequeño.
El método Cart utiliza una estrategia diferente, basado en el concepto de
poda. Primeramente el árbol es construido hasta su tamaño más grande, es decir,
el árbol con el mayor número de hojas posible, o el árbol en que cada nodo contenga
solo una observación, o en el que todas las observaciones tengan el mismo valor o
nivel de salida.
Luego entonces, el árbol es “recortado” o “podado” de acuerdo a un criterio
de costo de complejidad.
Sea 𝑇0 el árbol de mayor tamaño y sea 𝑇 un árbol general. De un árbol se
puede obtener un subárbol a partir del colapso de cierto número de sus nodos
internos (no finales). La idea de una poda es encontrar de forma óptima un subárbol
de 𝑇0 que minimice la función de pérdida usada en el algoritmo, la cual depende de
la impureza total del árbol 𝑇 y de la complejidad del árbol:
101
𝐶(𝑇) = 𝐼(𝑇) + 𝛼𝑁(𝑇)
Donde, para el árbol 𝑇, 𝐼(𝑇) es la función de impureza total calculada a partir
de las hojas, 𝑁(𝑇) es el número de hojas, y con 𝛼 como una constante que penaliza
linealmente la complejidad. Dado que en un análisis de árbol la impureza es una
varianza, la impureza total pude ser determinada como
𝐼(𝑇) = ∑ 𝑇𝑣(𝑚)𝑛𝑚
𝑁(𝑇)
𝑚=1
Note que la minimización de la función de pérdida de las hojas está sujeta a
elegir entre un modelo complejo (impureza baja, pero alto costo de complejidad) y
un modelo simple (impureza alta, pero bajo costo de complejidad). La elección
depende del valor de 𝛼 que se elija; para cada 𝛼 se puede mostrar que hay un único
subárbol de 𝑇0 el cual minimiza 𝐶𝛼(𝑇).
5.6 Redes Neuronales.
Las redes neuronales fueron desarrolladas en el campo de aprendizaje
automático (machine learning) con la idea de imitar la neuropsicología del cerebro
humano a través de la combinación de elementos simples computacionales
(neuronas) en un sistema altamente interconectado; y una aparte de sus muchos
usos, es fungir como un método importante de minería de datos.
En particular, son muy útiles para ajustar datos observados, especialmente
con bases de datos de alta dimensión y con aquellas bases caracterizadas por
información incompleta, con errores o incongruencias.
Una red neuronal está compuesta de un conjunto de unidades
computacionales llamadas neuronas, conectadas entre sí a través de un peso de
102
conexión. Dichas unidades están organizadas en capaz de tal forma que cada
neurona es conectada únicamente con las neuronas de niveles previos y niveles
subsecuentes.
Cada neurona, también llamada nodo, representa una unidad computacional
autónoma que recibe salidas como una serie de señales que indican su activación,
con las cuales la neurona genera su propia salida y a pesar de que todas las señales
de salida llegan a una neurona simultáneamente, esta solamente produce una
salida.
Cada señal de salida es asociada con un peso de conexión, el cual determina
la importancia que la señal de salida puede producir en el impulso final trasmitido
por la neurona. La conexión puede ser de exaltación, inhibición o nula de acuerdo
a si los pesos correspondientes son positivo, negativo o nulo, respectivamente.
Los pesos son coeficientes adaptables que, en analogía con el método
biológico, son modificados en respuesta a varias señales que viajan a través de la
red de acuerdo al algoritmo de aprendizaje disponible. Además, se introduce un
valor umbral, llamado inclinación, que se puede comparar con el intercepto de un
modelo de regresión.
En términos más formales, una neurona general 𝑗, con un límite 𝜃𝑗, recibe 𝑛
señales de entrada 𝑥 = [𝑥1, 𝑥2, … , 𝑥𝑛] de las unidades de capas previas con las que
está conectada. Cabe señalar que es adherida con un peso de importancia 𝑤𝑗 =
[𝑤1𝑗, 𝑤2𝑗, … , 𝑤𝑛𝑗].
La misma neurona elabora entonces señales de entrada, sus pesos de
importancia y el valor límite, unidos en una función de combinación, la cual es la
103
encargada de producir un valor conocido como potencial o entrada neta. Es
entonces cuando una función de activación transforma el potencial en una señal de
salida.
Figura 5.4 Representación de la actividad de una neurona en una red
neuronal.
Dado que la función de combinación es usualmente lineal, el potencial es la
suma ponderada de los valores de entrada multiplicados por los pesos de las
conexiones respectivas. Esta suma es comparada con el valor umbral, por tanto, el
potencial de la neurona 𝑗 está definido por
𝑃𝑗 =∑(𝑥𝑖𝑤𝑖𝑗 − 𝜃𝑗)
𝑛
𝑖=1
Para simplificar la expresión, el término de inclinación puede ser absorbido
considerándolo como la salida más lejana con valor constante 𝑥0 = 1, conectado a
través de un peso 𝑤0𝑗 = −𝜃𝑗:
𝑃𝑗 =∑(
𝑛
𝑖=0
𝑥𝑖𝑤𝑖𝑗)
Ahora, la señal de salida de la j-ésima neurona 𝑦𝑗 es obtenida aplicando la
función de activación a la potencia 𝑃𝑗:
104
𝑦𝑗 = 𝑓(𝒙,𝒘𝒊) = 𝑓(𝑃𝑗) = 𝑓 (∑𝑥𝑖𝑤𝑖𝑗
𝑛
𝑖=0
)
Donde x y wi son vectores.
La función de activación es uno de los elementos a especificar en la definición
de un modelo de redes neuronales. Tres tipos comunes son: lineal, paso a paso y
sigmoidal. Una función de activación lineal está definida por:
𝑓(𝑃𝑗) = 𝛼 + 𝛽𝑃𝑗
Donde 𝑃𝑗 ∈ ℝ y 𝛼 y 𝛽 son constantes reales.
Una función de activación paso a paso está definida como
𝑓(𝑃𝑗) = {𝛼 𝑃𝑗 ≥ 𝜃𝑗𝛽 𝑃𝑗 < 𝜃𝑗
La cual solo puede asumir dos valores dependiendo de si excede o no el
limite 𝜃𝑗. Para 𝛼 = 1, 𝛽 = 0 y 𝜃𝑗 = 0 obtenemos la llamada señal de función de
activación, la cual toma valores 0 si el potencial es negativo y valor +1 si el potencial
el positivo.
Las funciones de activación sigmoidal o en forma de s, son posiblemente las
más usadas, solo producen salidas positivas y su dominio se encuentra en el
intervalo [0,1]. Probablemente son las más usadas porque no son lineales y son
fácilmente diferenciables y entendibles. Una función de activación sigmoidal está
definida como
𝑓(𝑃𝑗) =1
1 + 𝑒−𝛼𝑃𝑗
Donde 𝛼 es un parámetro positivo que regula la pendiente de la función.
105
5.6.1 Arquitectura de una Red Neuronal.
Las capas en las que están organizadas las neuronas en una red neuronal
pueden ser de tres tipos: de entrada, ocultas o de salida. Las primeras reciben la
información solo de ambientes externos, donde cada neurona corresponde a una
variable explicatoria, las capas de entrada no realizan ningún cálculo y solo
transmiten la información hacia el siguiente nivel.
Las capas de salida son las que producen los resultados finales, los cuales
son enviados por la red hasta la salida del sistema. Entre las capas de entrada y de
salida puede haber una o más capas intermedias, llamadas capas ocultas, que son
destinadas exclusivamente para el análisis, además de que hacen la relación entre
las capas de entrada y de salida.
Dado que en la literatura no hay una convención estándar para calcular el
número de capas en una red neuronal, algunos autores cuentan todas las capas de
las neuronas y otros cuentan las capas de neuronas ponderadas.
La arquitectura de una red neuronal se refiere a la organización de las
neuronas: número de capas, número de unidades (neuronas) en cada capa, y la
forma en la que estas unidades están conectadas. La arquitectura de una red puede
ser representada usando una gráfica, por lo que en ocasiones se utiliza el término
“topología de la red” en lugar de “arquitectura de la red”. Para clasificar la topología
de la red se usan cuatro características principales:
Grado de diferenciación entre la capa de entrada y la capa de salida.
Número de capas.
Dirección del flujo para la computación.
106
Tipo de conexión.
La topología más simple para una red es conocida como auto asociativa, esta
tiene una única capa de neuronas inter conectadas donde las unidades de entrada
coinciden con las unidades de salida, este tipo no suele ser de interés estadístico.
Las neuronas con una única capa de neuronas ponderadas son conocidas
como perceptrones de única capa, las cuales tienen 𝑛 unidades de entrada
(𝑥1, … , 𝑥𝑛) conectadas a una capa de 𝑝 unidades de salida (𝑦1, … , 𝑦𝑝) a través de un
sistema de pesos, el cual puede ser representado en forma de matriz.
(
𝑤11 ⋯⋮ ⋱
𝑤1𝑗 ⋯
⋮ ⋱
𝑤1𝑝⋮
𝑤𝑖1 ⋯⋮ ⋱
𝑤𝑖𝑗 ⋯
⋮ ⋱
𝑤𝑖𝑝⋮
𝑤𝑛1 ⋯ 𝑤𝑛𝑗 ⋯ 𝑤𝑛𝑝)
Para 𝑖 = 1,… , 𝑛, 𝑗 = 1,… , 𝑝. El peso 𝑤𝑖𝑗 representa el peso de la conexión
entre el i-ésimo neuron de la capa de entrada y el j-ésimo neuron de la capa de
salida.
Enfoquémonos en las redes neuronales con más de una capa de neuronas
ponderadas, las cuales contienen una o más capas ocultas, conocidas como
perceptrones multicapa. Una red de dos capas tiene una capa oculta, 𝑛 neuronas
en la capa de entrada, ℎ en la capa oculta y 𝑝 en la capa de salida. Los pesos
𝑤𝑖𝑘 (𝑖 = 1, … , 𝑛; 𝑘 = 1,… , ℎ) conectan los nodos de la capa de entrada con los nodos
de la capa oculta, y los pesos 𝑧𝑘𝑗 (𝑘 = 1,… , ℎ; 𝑗 = 1,… , 𝑝) conectan los nodos de la
capa oculta con los nodos de la capa de salida.
Las neuronas de la capa oculta reciben información de la capa de entrada,
ponderada por los pesos 𝑤𝑖𝑘 y produce salidas ℎ𝑘 = 𝑓(𝑥,𝑤𝑘), donde 𝑓 es la función
107
de activación de las unidades en la capa oculta. Las neuronas de la capa de salida
reciben las salidas de la capa oculta, ponderadas por los pesos 𝑧𝑘𝑗 y produce las
salidas finales de la red 𝑦𝑖 = 𝑔(ℎ, 𝑧𝑗).
Entonces, la salida de la neurona 𝑗 en la capa de salida es
𝑦𝑖 = 𝑔(∑ℎ𝑘𝑧𝑘𝑗𝑘
) = 𝑔(∑𝑧𝑘𝑗𝑓 (∑𝑥𝑖𝑤𝑖𝑘𝑖
)
𝑘
)
Note que los valores de salida de una red neuronal no son de forma lineal.
Diferente información de flujo conduce a diferentes tipos de redes. En redes
de avance, la información se mueve en una sola dirección, de una capa a la
siguiente y sin ciclos de retorno. Mientras que, en redes de realimentación es posible
que la información regrese a capas previas.
Si cada unidad de una capa está conectada con todas las unidades de la
siguiente capa, se dice que la red está totalmente interconectada; y si cada unidad
es conectada con cada unidad de cada capa, se dice que la red está totalmente
conectada.
Las redes también pueden ser clasificadas en tres tipos de acuerdo a sus
conexiones ponderadas: redes con pesos ajustados, redes supervisadas y redes no
supervisadas. Dado que las redes con pesos ajustados no pueden ‘aprender’ de los
datos y no ofrecen un modelo estadístico, no las consideraremos.
Las redes supervisadas usan una variable de supervisión, como se vio en la
sección 4.5, mediante está se puede obtener información de los valores de una
variable de respuesta correspondiente respecto a los valores de las variables
explicatorias; tal información puede ser usada para saber los pesos del modelo de
108
redes neuronales. La variable de respuesta fungirá como un supervisor del
problema.
Si esta información no está disponible, entonces el aprendizaje de los pesos
es basado exclusivamente en las variables explicatorias y no hay supervisor. Escrito
formalmente tenemos:
Aprendizaje supervisado: Asuma que cada observación está descrita por un
par de vectores (𝑥𝑖, 𝑡𝑖) que representan las variables exploratorias y de
respuesta, respectivamente. Sea 𝐷 = {(𝑥1, 𝑡1),… , (𝑥𝑛, 𝑡𝑛)} el conjunto de
todas las observaciones disponibles. El problema entonces es determinar
una red neuronal 𝑦𝑖 = 𝑓(𝑥𝑖), 𝑖 = 1,… , 𝑛, tal que la suma de las distancias
𝑑(𝑦𝑖, 𝑡𝑖) sea mínima. Note que es análoga con los modelos de regresión
lineal.
Aprendizaje no supervisado: Cada observación es descrita por un único
vector, con todas las variables disponibles 𝐷 = {𝑥1, … , 𝑥𝑛}. Aquí el problema
es la partición del conjunto D en subconjuntos tales que los vectores 𝑥𝑖,
convertidos en el mismo subconjunto sean “cerrados” en comparación a la
medida ajustada de distancia. Básicamente es un problema de clasificación.
5.6.2 El perceptrón Multicapa.
Es considerada como la arquitectura más usada para predicción en minería
de datos; es una red de alimentación (avance) con posiblemente varias capas
ocultas, una capa de entrada y una de salida, totalmente interconectadas. Puede
ser considerada como una generalización no lineal del modelo de regresión logística
cuando las variables son cualitativas.
109
Análisis preliminar
Los perceptrones multicapa, y en redes neuronales en general, son usados
ineficientemente en datos reales porque no tienen consideraciones preliminares.
Por lo que aun siendo una herramienta computacional poderosa también requiere
de un previo análisis exploratorio (Capítulo 4).
Codificación de variables.
Las variables en redes neuronales pueden ser clasificadas por su tipo -
cualitativa o cuantitativa- y por su papel en la red –entrada o salida- que equivalen
a variables explicatorias y de respuesta, respectivamente, en métodos estadísticos.
Las variables cuantitativas son representadas por una neurona, mientras
que, en las cualitativas, tanto exploratorias como de respuesta, son representadas
de forma binaria usando varias neuronas para cada variable, donde el número de
neuronas es igual al número de niveles de la variable (Sección 3.3). En la práctica
el número de neuronas que representa a una variable no necesariamente es igual
al número de su nivel, es admisible eliminar un nivel y por tanto un neuron.
Transformación de las variables.
Una vez que las variables son codificadas, se podría requerir hacer algún tipo
de transformación, que, si bien podría ser la estandarización de los pesos de las
variables de salida, no es estrictamente necesario. Además, que, si se utilizan
entradas o salidas con alguna transformación para hacer predicción, la salida final
debe ser mapeada a la escala original.
Reducción en la dimensionalidad de las variables de salida.
Es una de las formas más importantes de pre procesamiento, el enfoque más
sencillo es eliminar un subconjunto de las entradas originales. Otro enfoque crea
110
combinaciones lineales o no lineales de las variables originales para representar las
entradas para la red, los métodos de componentes principales pueden ser muy
útiles para esto (Sección 4.5).
Elección de la arquitectura.
Muchas redes neuronales optimizan su arquitectura como parte del proceso
de aprendizaje. Las arquitecturas de redes rara vez son comparadas usando
métodos clásicos, esto porque una red neuronal no requiere de un fundamento en
un modelo probabilístico, y raramente tiene uno.
Aprendizaje de los pesos.
Una vez especificada una arquitectura para la red, los pesos son estimados
en base a los datos, como si fueran parámetros de un modelo de regresión
(complejo). En la práctica se consideran dos aspectos importantes:
La función de error entre los valores observados y los valores ajustados
deben ser una función de distancia clásica, tal como la Euclideana o el error
de clasificación errónea, o también puede depender de forma probabilística
de la distribución condicional de las variables de salida respecto a las
entradas.
Se necesita que el algoritmo de optimización sea un método
computacionalmente eficiente para obtener estimaciones de los pesos por
minimización de la función error.
Las funciones error usualmente empleadas por perceptrones multicapa son
basadas en el principio de máxima verosimilitud. Para un conjunto dado 𝐷 =
{(𝑥1, 𝑡1),… , (𝑥𝑛, 𝑡𝑛)} se requiere que se minimice la función de error de entropía.
111
𝐸(𝑤) =∑log 𝑝(𝑡𝑖|𝑥𝑖; 𝑤)
𝑛
𝑖=1
Donde 𝑝(𝑡𝑖|𝑥𝑖; 𝑤) es la distribución de la variable de respuesta, condicionada
a los valores de salida y a la función ponderada. Para más detalles ver Bishop
(1995).
Revisemos la forma de la función de error para dos aplicaciones principales
de dos perceptrones multicapa: predicción de respuestas continuas (regresión
predictiva) y predicción de respuestas cualitativas (clasificación predictiva).
Funciones de error para regresión predictiva.
Cada componente 𝑡𝑖,𝑘 del vector de respuesta 𝑡𝑘 es asumido como la suma
de un componente determinístico y un término error, similar a la regresión lineal:
𝑡𝑖,𝑘 = 𝑦𝑖,𝑘 + 휀𝑖,𝑘 (𝑘 = 1,… , 𝑞)
Donde 𝑦𝑖,𝑘 es el k-ésimo componente del vector de salida 𝑦𝑖.
Se puede asumir, además, que dos términos error son distribuidos
normalmente, con el propósito de obtener más información de la red neuronal.
Así entonces, el propósito principal del aprendizaje estadístico es minimizar
la función error en términos de los pesos, por lo que podemos omitir todo aquello
que no dependa de los pesos, obteniendo
𝐸(𝑤) =∑∑(𝑡𝑖,𝑘 − 𝑦𝑖,𝑘)2
𝑞
𝑘=1
𝑛
𝑖=1
La cual puede ser minimizada usando el procedimiento de mínimos
cuadrados (Sección 4.3). De hecho, una regresión lineal puede verse como un
112
modelo de redes neuronales sin capas ocultas y con una función lineal de
activación.
Funciones de error para clasificación predictiva.
Los perceptrones multicapa también pueden usarse para resolver problemas
de clasificación, específicamente, son usados para estimar las probabilidades de
afiliación de cada observación a los diferentes grupos. Usualmente hay una unidad
de salida para cada clase posible, además de que la función de activación para cada
unidad de salida representa la probabilidad condicionada 𝑃(𝐶𝑘|𝑥), donde 𝐶𝑘 es la k-
ésima clase y 𝑥 es el vector de salida. El valor de salida 𝑦𝑖,𝑘 representa la
probabilidad ajustada de la observación 𝑖 correspondiente al k-ésimo grupo 𝐶𝑘. Para
minimizar la función error respecto a los pesos, se necesita minimizar
𝐸(𝑤) = −∑∑[𝑡𝑖,𝑘 log 𝑦𝑖,𝑘 + (1 − 𝑡𝑖,𝑘) log(1 − 𝑦𝑖,𝑘)]
𝑞
𝑘=1
𝑛
𝑖=1
El cual representa una distancia basada en el índice de entropía de
heterogeneidad (Sección 4.1).
Elección del algoritmo de optimización.
Dado que en general la función error 𝐸(𝑤) de una red neuronal es altamente
no lineal en los pesos, hay muchos mínimos que satisfacen la condición ∇𝐸 = 0, lo
que ocasiona que no exista una solución óptima global 𝑤∗. Recurriremos entonces
a los algoritmos iterativos. Supongamos que existe un estimador inicial 𝑤(0) que
produce una secuencia de puntos 𝑤(𝑠); 𝑠 = 1,2, …, que convergen a un cierto valor
�̂�. Esto es descrito a más detalle
1. Elegir una dirección 𝑑(𝑠) para la búsqueda.
113
2. Elegir un “momento” 𝛼(𝑠) y un conjunto 𝑤(𝑠+1) = 𝑤(𝑠) + 𝛼(𝑠)𝑑(𝑠).
3. Si se verifica un cierto criterio de convergencia, entonces �̂� = 𝑤(𝑠+1), de otro
modo el conjunto 𝑠 = 𝑠 + 1 y se regresa al paso 1.
Es muy importante elegir cuidadosamente los pesos para poder obtener un
ajuste valido y una buena razón de convergencia. El parámetro “momento” también
necesita ser elegido cuidadosamente; si es muy pequeño, el algoritmo converge de
forma muy lenta; si es muy grande, el algoritmo oscila de forma inestable y puede
no converger.
También es importante elegir cuando detener o interrumpir el algoritmo de
aprendizaje. Algunas opciones son: detener después de cierto número de
iteraciones; detener después de un cierto tiempo de computo (uso de CPU); detener
cuando la función error entre dos valores consecutivos de la función de error sea
menor que un cierto valor. Para más detalles ver Bishop (1995). Dado que no es
posible establecer cuál es el mejor algoritmo para detener o interrumpir el algoritmo
de aprendizaje, se realizan diferentes dependiendo el problema.
Generalización y Predicción.
El objetivo de crear una red neuronal con datos, no es encontrar una
representación exacta de los datos, se trata de construir un modelo que pueda ser
generalizado o que guie a obtener clasificaciones y predicciones validas cuando se
le alimente con nuevos datos.
Al igual que en modelos árbol, se puede realizar supervisión de una red
neuronal evaluándola respecto a un conjunto de datos de validación. Una red que
es muy compleja y que se realizó con muchas iteraciones puede perfectamente
114
predecir y clasificar los datos en el conjunto de validación, aunque esto puede
resultar contraproducente en la aplicación en datos reales a causa de un
sobreajuste, lo cual implica una reducción en su capacidad predictiva sobre nuevos
datos.
Para ilustrar mejor el problema, considere solo dos observaciones para una
variable de entrada y una de salida, una línea recta se adapta perfectamente a los
datos, pero predice pobremente a una tercera observación, especialmente si esta
es muy diferente a las observaciones previas. En cambio, un modelo simple como
la media aritmética de las dos observaciones de salida que, si bien se ajusta muy
mal a los dos puntos, puede ser un predictor más razonable para el tercer punto.
Para limitar el problema de sobreajuste es importante controlar el grado de
complejidad del modelo. Para esto hay dos propuestas principales, la primera es la
regularización, que es la adición de un término de penalización para la función de
error, y la otra es la detención temprana, que es la introducción de un término de
detención en las iteraciones del proceso de aprendizaje.
En la regularización, el sobreajuste es abordado directamente cuando los
pesos son estimados. Es decir, los pesos son preparados para minimizar una
función de error de la siguiente forma
�̃�(𝑤) = 𝐸(𝑤) + 𝑣Ω
Donde 𝐸 es una función de error, Ω describe la complejidad de la red y 𝑣 es
un parámetro que penaliza la complejidad.
115
Una útil función de regularización es basada en la descomposición de los
pesos, el cual consiste en tomar Ω igual a la suma del cuadrado de los pesos
(incluyendo la pendiente) de la red neuronal:
Ω =1
2∑𝑤𝑖
2
𝑖
La detención temprana usa el hecho de que la función de error usualmente
muestra una reducción inicial seguido por un incremento, el cual inicia cuando la red
empieza a tener problemas con sobreajuste.
Propiedades optimas de perceptrones multicapa.
Una estructura simple de redes neuronales (con dos capas de pesos, función
de activación sigmoidal para los nodos ocultos y función de activación identidad
para los nodos de salida) es capaz de aproximarse a alguna forma funcional con
precisión arbitraria. Esto es conocido como el principio de aproximación universal -
la razón de convergencia no depende de la dimensión del problema.
116
Capítulo 6
Estadística en minería de
datos.
117
En este capítulo se mostrarán algunas de las metodologías estadísticas
usadas en minería de datos, las cuales son sustentadas bajo un modelo
probabilístico. Estas metodologías, aunque con una estructura más complicada,
proveen de mejores resultados que son más fáciles de interpretar. No obstante,
debido a que no es propósito de este trabajo, no se adentrará a fondo en los
métodos que se mencionen.
6.1 Medidas de Incertidumbre e Inferencia.
Hasta ahora no habíamos considerado ninguna hipótesis probabilística sobre
las variables, sin embargo, dado que generalmente las observaciones consideradas
son un subconjunto de la población objetivo, es decir, una muestra, es necesario
introducir un modelo probabilístico que pueda describir adecuadamente la
variabilidad muestral. En otras palabras, un modelo probabilístico es una
herramienta para modelar la información de incertidumbre que influye en la toma de
decisiones.
6.1.1 Probabilidad.
Un evento es cualquier proposición que pueda ser cierta o falsa y que es un
subconjunto de Ω, el cual es conocido como el espacio de todos los eventos
posibles. Sea 𝑎 una clase de subconjuntos de Ω, llamado espacio evento. Una
función de probabilidad 𝑃 es una función definida sobre 𝑎 que satisface los
siguientes axiomas:
a) 𝑃(𝐴) ≥ 0, ∀ 𝐴 ∈ 𝑎
b) 𝑃(Ω) = 1
118
c) Si 𝐴1, 𝐴2, … es una secuencia de eventos de 𝑎 que son mutuamente
excluyentes por pares (𝑖. 𝑒. 𝐴𝑖 ∩ 𝐴𝑗 = ∅ 𝑝𝑎𝑟𝑎 𝑖 ≠ 𝑗; 𝑖, 𝑗 = 1,2, … ) y si 𝐴1 ∪
𝐴2 ∪ … = ⋃ 𝐴𝑖 ∈ 𝑎∞𝑖=1 , entonces 𝑃(⋃ 𝐴𝑖
∞𝑖=1 ) = ∑ 𝑃(𝐴𝑖)
∞𝑖=1 .
El primer axioma dice que la probabilidad es una función no negativa; el
segundo establece que la probabilidad de Ω es 1, es decir, que Ω es un evento que
siempre será cierto dado que coincide con todos los posibles resultados, también
se sigue que para cualquier evento, subconjunto de Ω, su probabilidad es un número
real entre [0,1]; el tercer axioma dice que la probabilidad de ocurrencia de cualquier
colección de eventos (posiblemente infinita y mutuamente excluyente) es la suma
de las probabilidades de ocurrencia de cada uno de ellos. Esta es la definición
axiomática de probabilidad hecha por Kolmogorov (1933).
A partir de estos tres axiomas podemos deducir las siguientes reglas básicas
de probabilidad, como lo son:
Regla del complemento: si 𝐴 es cualquier evento en 𝑎 y �̅� es su
complemento (negación), entonces 𝑃(�̅�) = 1 − 𝑃(𝐴).
Regla de la unión: para cualquier par de eventos 𝐴, 𝐵 ∈ 𝑎, 𝑃(𝐴 ∪ 𝐵) =
𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵), donde el evento unión es cierto cuando ya
sea que 𝐴 𝑜 𝐵 sea cierto, y el evento intersección 𝐴 ∩ 𝐵 es cierto
cuando ambos 𝐴 𝑦 𝐵 son ciertos.
Además, podemos definir la probabilidad de que ocurra un evento 𝐴
condicionado a la información de que ocurrió un evento 𝐵, esto es
𝑃(𝐴|𝐵) =𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵) 𝑐𝑜𝑛 𝑃(𝐵) > 0
119
Y a su vez, usando la probabilidad condicional podemos abordar reglas
importantes como:
Regla de intersección: Sea 𝐴, 𝐵 ∈ 𝑎. Entonces
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵)𝑃(𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴)
Eventos independientes: Si 𝐴 es independiente de 𝐵, se espera que:
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵)
𝑃(𝐴|𝐵) = 𝑃(𝐴)
𝑃(𝐵|𝐴) = 𝑃(𝐵)
En otras palabras, si dos eventos son independientes, se sabe que la
probabilidad de que uno de ellos ocurra no altera la probabilidad de
que el otro también ocurra.
Regla de probabilidad total: Considere 𝑛 eventos 𝐻𝑖 = 1,… , 𝑛,
mutuamente excluyentes por pares y exhaustivos de Ω
(equivalentemente, forma una partición de Ω), con 𝑃(𝐻𝑖) > 0.
Entonces, la probabilidad de un evento 𝐵 ∈ 𝑎 esta dado por
𝑃(𝐵) =∑𝑃(𝐵|𝐻𝑖)𝑃(𝐻𝑖)
𝑛
𝑖=1
Regla de Bayes: Considere 𝑛 eventos 𝐻𝑖 = 1,… , 𝑛, mutuamente
excluyentes por pares y exhaustivos de Ω (equivalentemente, forma
una partición de Ω), con 𝑃(𝐻𝑖) > 0. Entonces, la probabilidad de un
evento 𝐵 tal que 𝑃(𝐵) > 0 es dada por
𝑃(𝐻𝑖|𝐵) =𝑃(𝐵|𝐻𝑖)𝑃(𝐻𝑖)
∑ 𝑃(𝐵|𝐻𝑗)𝑃(𝐻𝑗)𝑗
120
Note que el denominador es el resultado de la regla de la probabilidad
total, la cual actúa como una constante normalizadora de la
probabilidad en el numerador.
El teorema de Bayes es la base central de la metodología inferencial
conocida como estadística Bayesiana.
6.1.2 Inferencia Estadística
Sea 𝑿 un vector formado por una secuencia de variables aleatorias, 𝑿 =
(𝑋1, 𝑋2, … , 𝑋𝑛), y 𝒙 = (𝑥1, 𝑥2, … , 𝑥𝑛) es la muestra de valores observados. Se puede
mostrar que si las observaciones son i.i.d. (independientes e idénticamente
distribuidas), la distribución acumulativa de 𝑿 se simplifica a
𝐹(𝒙) =∏𝐹(𝑥𝑖)
𝑛
𝑖=1
Donde 𝐹(𝑥𝑖) es la distribución acumulativa de 𝑋, evaluado para cada valor
de la muestra (𝑥1, 𝑥2, … , 𝑥𝑛). Si 𝒙 = (𝑥1, 𝑥2, … , 𝑥𝑛) son los valores de la muestra
observada, esta expresión da una probabilidad, de acuerdo al modelo estadístico
asumido, de que los valores de la muestra observados sean menores o iguales a
los valores observados. En otras palabras, se mide que tan bueno es el modelo
asumido para los datos. Además, cuando 𝑋 es una variable aleatoria continua,
𝑓(𝒙) =∏𝑓(𝑥𝑖)
𝑛
𝑖=1
121
Donde 𝑓 es la función de densidad de 𝑋 y cuando 𝑋 es una variable aleatoria
discreta
𝑝(𝒙) =∏𝑝(𝑥𝑖)
𝑛
𝑖=1
Donde 𝑝 es la función de probabilidad discreta de 𝑋. Un valor alto de 𝑝(𝒙),
cercano a 1, implica que los datos son bien descritos por el modelo; por el contrario,
si 𝑝(𝒙) es bajo, los datos son pobremente descritos. Se obtiene conclusiones
similares para 𝑓(𝒙) en el caso continuo, con la diferencia de que la densidad
muestral 𝑓(𝒙) no está contenida en [0,1] como la probabilidad muestral.
En ambos casos se puede decir que tanto 𝑝(𝒙) como 𝑓(𝒙) expresan la
verosimilitud del modelo para los datos. Como los datos observados son típicamente
valores muestrales, el propósito principal de la inferencia estadística es “extender”
la validez de los cálculos obtenidos sobre la muestra a la población total.
Bajo esta idea, cuando se calculan resúmenes estadísticos sobre una
muestra del total de la población, es más correcto utilizar el término “estimador”. Las
funciones de resumen producen los estimadores, cuando se aplican a los datos son
llamados estadísticos, por ejemplo, la media muestral y la varianza muestral. Una
propiedad deseada para los estimadores es: se dice que un estimador 𝑇 es
insesgado para un parámetro 𝜃 si 𝐸(𝑇) = 𝜃. La diferencia 𝐸(𝑇) − 𝜃 es conocida
como sesgo del estimador y es nula si el estimador es insesgado. Revisemos los
dos métodos más importantes en la práctica:
122
Método de Máxima Verosimilitud
Inicia considerando la verosimilitud de un modelo, el cual, en el caso
paramétrico, es la densidad conjunta de 𝑿 expresada como una función de
parámetros 𝜃 desconocidos:
𝑝(𝒙; 𝜃) =∏𝑝(𝑥𝑖, 𝜃)
𝑛
𝑖=1
Donde 𝜃 son los parámetros desconocidos y 𝑿 es asumida discreta. Se utiliza
la misma expresión para el caso continuo pero remplazando 𝑝 por 𝑓. Seguiremos
usando la notación para el caso discreto, pero sin perder generalidad. Entonces,
dado que la verosimilitud es una función de los parámetros 𝜃, la expresión puede
ser denotada como 𝐿(𝜃; 𝒙).
El método sugiere buscar el estadístico que maximice 𝐿(𝜃; 𝒙) con respecto a
𝜃, el parámetro desconocido. En otras palabras, se busca seleccionar el valor del
parámetro que haga que los datos observados sean más probables bajo el modelo
estadístico asumido.
Los estadísticos generados usando máxima verosimilitud son conocidos
como estimadores de máxima verosimilitud (MLEs, por sus siglas en ingles), los
cuales, en particular pueden ser usados para generar intervalos de confianza. El
procedimiento típico implica asumir la disponibilidad de un gran tamaño de muestra
(lo cual es frecuente en minería de datos), en tal caso el MLE es aproximadamente
distribuido como una distribución Gaussiana (Normal). Por lo que el estimador
123
puede ser usado para generar un intervalo de confianza asintótico. Por ejemplo, sea
𝑇 un MLE y sea 𝑉𝑎𝑟(𝑇) su varianza asintótica. Entonces, un intervalo de confianza
de 100(1 − 𝜃)% está dado por
(𝑇 − 𝑧1−𝛼 2⁄√𝑉𝑎𝑟(𝑇), 𝑇 + 𝑧1−𝛼 2⁄
√𝑉𝑎𝑟(𝑇))
Donde 𝑧1−𝛼 2⁄ es el 100(1 − 𝛼 2⁄ ) percentil de la distribución normal estándar,
tal que la probabilidad de obtener un valor mejor que 𝑧1−𝛼 2⁄ es igual a 1 − 𝛼 2⁄ . La
cantidad 1 − 𝛼 2⁄ también es conocida como el nivel de confianza del intervalo, que
da la confianza con la que el proceso es correcto en 100(1 − 𝛼 2⁄ )% de los casos,
es decir, que la cantidad desconocida estará dentro del intervalo elegido en
100(1 − 𝛼 2⁄ )% de las veces. Tiene que ser especificado antes del análisis.
Método Bayesiano
Este método utiliza la regla de Bayes, la cual proporciona una poderosa
herramienta para la combinación de información muestral (priori) con la opinión de
un especialista para producir una actualización de la opinión del especialista
(posteriori).
En el análisis Bayesiano un parámetro es tratado como una variable aleatoria,
cuya incertidumbre es modelada por una distribución de probabilidad. Esta
distribución es conocida como distribución a priori 𝑝(𝜃), establecida en ausencia de
datos muestreados.
La verosimilitud es la distribución de la muestra, condicionada sobre los
valores de la variable aleatoria 𝜃, 𝑝(𝒙|𝜃). La regla de Bayes provee un algoritmo
124
para actualizar la opinión del especialista con ayuda de los datos, produciendo la
llamada distribución a posteriori:
𝑝(𝜃|𝒙) = 𝑐−1𝑝(𝒙|𝜃)𝑝(𝜃)
Con 𝑐 = 𝑝(𝒙) como una constante que no depende del parámetro
desconocido 𝜃. La distribución a posteriori representa la principal herramienta para
la inferencia Bayesiana, ya que una vez obtenida, es fácil obtener cualquier
inferencia de interés.
Por otro lado, tiene la desventaja de que requiere de un enfoque
computacional más intensivo, así como de un pensamiento estadístico muy
cuidadoso, especialmente para proveer una distribución a priori adecuada.
Prueba de hipótesis.
Una hipótesis estadística es una aseveración acerca de una cantidad
poblacional desconocida, desarrollada en pares: una hipótesis nula 𝐻0, que
especifica la hipótesis a verificar; y una hipótesis alternativa 𝐻1, que especifica la
hipótesis con la cual se compara. Usualmente, su procedimiento es basado por la
elaboración de una regla de rechazo, con la que 𝐻0 es rechazada si una muestra
estadística observada satisface tal regla, y viceversa.
La forma más simple de construir una regla de rechazo es usando intervalos
de confianza. Se define a la región de aceptación de una prueba como el
complemento lógico de la región de rechazo. Una región de aceptación para una
prueba de hipótesis (de dos lados) puede ser obtenida mediante dos desigualdades
que describen un intervalo de confianza, intercambiando el parámetro con el
125
estadístico y ajustando el valor del parámetro para que sea igual al de la hipótesis
nula. La región de rechazo es obtenida invirtiendo los signos de las desigualdades.
Por ejemplo en la distribución normal, la hipótesis 𝐻0: 𝜇 = 0 será rechazada
en contra de la hipótesis alternativa 𝐻0: 𝜇 ≠ 0 cuando el valor observado de �̅� esta
fuera del intervalo
(0 − 𝑧(1−∝ 2⁄ )√𝑉𝑎𝑟(�̅�), 0 + 𝑧(1−∝ 2⁄ )
√𝑉𝑎𝑟(�̅�))
La probabilidad 𝛼 tiene que ser especificada a priori y es conocida como nivel
de significancia.
6.2 Modelación No Paramétrica.
El procedimiento no paramétrico elimina la necesidad de especificar la forma
de especificar la forma de la distribución anticipadamente; un modelo paramétrico
solo asume que las observaciones viene de cierta función de distribución 𝐹, sin
especificar ningún parámetro. Comparados con los modelos paramétricos, los
modelos no paramétricos son más difíciles de interpretar y de estimar. Un equilibrio
entre ellos son los modelos semi-paramétricos.
Los modelos no paramétricos pueden ser caracterizados por la función de
distribución o por la función de densidad, las cuales no necesitan ser especificadas
por completo. Consideremos el estimador de la función de distribución. Un
estimador valido es la función de distribución empírica, denotada por 𝑆(𝑥).
Intuitivamente es un estimador análogo de la función de distribución 𝐹(𝑥) de la
variable aleatoria 𝑋. Formalmente, la función empírica es calculada, en algún punto
de 𝑥, tomando la proporción de observaciones muestradas menores o iguales,
126
𝑆(𝑥) =1
𝑛#{𝑥𝑖 ≤ 𝑥}
Se puede mostrar que la esperanza de 𝑆(𝑥) es 𝐹(𝑥) y que
𝑉𝑎𝑟(𝑆(𝑥)) =1
𝑛𝐹(𝑥)(1 − 𝐹(𝑥))
Por lo tanto, la función de distribución empírica es un estimador insesgado
de 𝐹(𝑥) y se cumple que, para 𝑛 → ∞,𝑉𝑎𝑟(𝑆(𝑥)) → 0 tal que 𝑀𝑆𝐸(𝑆(𝑥)) → 0 (𝑀𝑆𝐸:
error de mínimos cuadrados).
Además, la función de distribución empírica puede ser usada para evaluar la
bondad de ajuste del modelo paramétrico en una forma explotaría. Para esto,
usualmente se usa la prueba de Kolmogorov-Smirnov. En esta prueba, la hipótesis
nula se refiere a una distribución en particular llamada 𝐹∗(𝑥), por lo tanto tenemos
𝐻0: 𝐹(𝑥) = 𝐹∗(𝑥)
𝐻1: 𝐹(𝑥) ≠ 𝐹∗(𝑥)
La idea de la prueba es comparar la función de distribución observada 𝑆(𝑥)
con la función de distribución teórica, 𝐹∗, calculada usando los valores observados.
Entonces si 𝑆(𝑥) estima a 𝐹(𝑥) es lógico pensar en que la prueba de hipótesis sea
una “distancia” entre 𝑆(𝑥) y 𝐹(𝑥), con lo cual, si son lo suficientemente cercanos
(i.e. suficientemente similares), la hipótesis nula es aceptada, y rechazada de
cualquier otro modo.
Una de las medidas más fáciles para esto es el supremo de la distancia
vertical entre las dos funciones. Este es el estadístico sugerido por Kolmogorov:
𝑇1 = 𝑠𝑢𝑝−∞<𝑥<+∞|𝑆(𝑥) − 𝐹∗(𝑥)|
127
Para valores altos de 𝑇1, la hipótesis nula es rechazada; para valores bajos
de 𝑇1, la hipótesis nula es aceptada. Aunque el estadístico 𝑇1 es muy lógico, el
cálculo de la distribución de probabilidad es complicado, sin embargo, esta
distribución esta tabulada e incluida en los principales paquetes estadísticos por lo
que es posible determinar valores críticos para 𝑇1 y obtener regiones de rechazo
para la 𝐻0.
La prueba de Kolmogorov-Smirnov es muy importante en análisis
exploratorio, por ejemplo, cuando la gráfica (qq-plot) no da indicios obvios de si
cierta distribución empírica es normal o no, podemos revisar si la distancia entre la
distribución normal y la distribución empírica es lo suficientemente grande para
rechazar la 𝐻0.
Ahora, los modelos semi paramétricos más importantes son los modelos
mixtos. Estos modelos son adecuados para situaciones donde el conjunto de datos
puede ser agrupado dentro de grupos de observaciones, cada uno con una forma
paramétrica diferente. Se dice que el modelo es semi paramétrico porque el número
de grupos, es decir el número de distribuciones a considerar, es desconocido. La
forma general de una distribución mixta finita para una variable aleatoria 𝑋 es
𝑓(𝑥) =∑𝑤𝑖𝑓𝑖(𝑥𝑖: 𝜃𝑖)
𝑔
𝑖=1
Donde 𝑤𝑖 es la probabilidad de que una observación sea distribuida como la
i-ésima población, con densidad 𝑓𝑖 y vector de parámetros 𝜃𝑖. Usualmente todas las
funciones de densidad son iguales (después normal) y esto simplifica el análisis.
128
Otros métodos usados son AIC, MIC, validación de forma cruzada y
Bayesiano. Y una vez que el número de componentes es encontrado, los
parámetros desconocidos son estimados con los métodos de máxima verosimilitud
o Bayesiano.
6.3 Modelos Lineales Generalizados.
Durante décadas, el modelo lineal fue el principal modelo estadístico para el
análisis de datos, sin embargo, en muchas ocasiones la hipótesis de linealidad no
es realista. Además, el segundo elemento restrictivo de un modelo lineal normal es
el supuesto de normalidad y varianza constante de la variable de respuesta, pero
esto no se cumple en muchas de aplicaciones, lo cual limita la utilidad de este
modelo.
Por estas razones y gracias al desarrollo en la teoría estadística y en el poder
computacional, durante los años sesenta permitió a los investigadores tomar sus
técnicas para modelos lineales y aplicarlos en otros contextos, con lo que se
encontró que muchas de las propiedades “deseadas” de la distribución normal son
compartidas por un grupo más amplio de modelos estadísticos conocidos como la
familia exponencial.
6.3.1 La Familia Exponencial.
Considere una única variable aleatoria 𝑌 cuya función de densidad (o función
de probabilidad discreta) depende de un único parámetro 𝜃 (posiblemente un vector
de valores). Se dice que una distribución de probabilidad pertenece a la familia
exponencial, si su densidad se puede escribir de la forma
129
𝑓(𝑦; 𝜃) = 𝑠(𝑦)𝑡(𝜃)𝑒𝑎(𝑦)𝑏(𝜃)
Donde 𝑎, 𝑏, 𝑠 y 𝑡 son funciones conocidas. Para hacer más evidente la
simetría entre 𝑦 y el parámetro 𝜃, reescribiremos la ecuación anterior de la siguiente
forma
𝑓(𝑦; 𝜃) = exp[𝑎(𝑦)𝑏(𝜃) + 𝑐(𝜃) + 𝑑(𝑦)]
Donde 𝑠(𝑦) = exp [𝑑(𝑦)] y 𝑡(𝜃) = exp [𝑐(𝜃)]. Si se cumple que 𝑎(𝑦) = 𝑦, se
dice que la distribución está en la forma canónica, y 𝑏(𝜃) se conoce como el
parámetro natural de la distribución. Si hay otros parámetros (que representaremos
por ∅) además del parámetro de interés 𝜃, estos son considerados como parámetros
molestia, lo cuales son usualmente tratados como conocidos. Algunos ejemplos de
distribuciones pertenecientes a la familia exponencial son la Normal, la Binomial y
la Poisson.
6.3.2 Definición de Modelos Lineales Generalizados.
Un modelo lineal generalizado toma una función del valor medio de la variable
de respuesta y lo relaciona con las variables explicatorias a través de una ecuación
de forma lineal. Esto es especificado por tres componentes: un componente
aleatorio, el cual identifica la variable de respuesta 𝑌 y asume una distribución de
probabilidad para esta; un componente simétrico, el cual especifica las variables
explicatorias usadas como predictores del modelo; y una función de enlace, la cual
describe la relación funcional entre el componente sistemático y el valor medio del
componente aleatorio.
130
Componente aleatorio.
Para una muestra de tamaño 𝑛, el componente aleatorio es descrito por las
variables aleatorias muestrales 𝑌1, 𝑌2, … , 𝑌𝑛; las cuales son independientes y cada
una tiene una distribución de la forma de la familia exponencial que depende de un
único parámetro 𝜃𝑖, y cada uno es descrito por la función de densidad
𝑓(𝑦; 𝜃) = exp[𝑦𝑖𝑏(𝜃𝑖) + 𝑐(𝜃𝑖) + 𝑑(𝑦𝑖)]
Todas las distribuciones para Yi tienen que ser de la misma forma (por
ejemplo, todas normal o todas binomial) pero sus parámetros θi no tienen que ser
iguales.
Componente sistemático.
Especifica las variables explicatorias y su papel en el modelo es dado por la
combinación lineal
𝜂 = 𝛽1𝑥1 +⋯+ 𝛽𝑝𝑥𝑝 =∑𝛽𝑗𝑥𝑗
𝑝
𝑗=1
La combinación lineal 𝜂 es conocida como el predictor lineal. Las 𝑋𝑗
representan las covariables, cuyos valores son conocidos (se pueden derivar de la
matriz de datos, por ejemplo). Los 𝛽𝑗 son los parámetros que describen el efecto de
cada variable explicatoria sobre la variable de respuesta.
Los valores de los parámetros son generalmente desconocidos y deben ser
estimados de los datos. La parte sistemática puede escribirse de la siguiente forma
131
𝜂𝑖 =∑𝛽𝑗𝑥𝑖𝑗
𝑝
𝑗=1
, 𝑖 = 1,2, … , 𝑛
Donde 𝑥𝑖𝑗 es el valor de la j-ésima variable explicatoria para la i-ésima
observación. En forma matricial, tenemos
𝜼 = 𝑿𝜷 (148)
Donde 𝜼 es el vector de orden 𝑛 × 1, 𝑿 es una matriz de orden 𝑛 × 𝑝 llamada
matriz modelo, y 𝜷 es un vector de 𝑝 × 1, llamado vector de parámetros
Función de enlace.
Especifica el enlace entre el componente aleatorio y el componente
sistemático. Sea el valor medio de 𝑌𝑖 denotado por 𝜇𝑖 = 𝐸(𝑌𝑖), 𝑖 = 1,2, … , 𝑛.
La función de enlace especifica cual función de 𝜇𝑖 depende linealmente de
las variables explicatorias mediante el componente sistemático 𝜂𝑖. Sea 𝑔(𝜇𝑖) una
función de 𝜇𝑖 (monótona y diferenciable). Entonces, la función de enlace es definida
por
𝑔(𝜇𝑖) = 𝜂𝑖 =∑𝛽𝑗𝑥𝑖𝑗
𝑝
𝑗=1
, 𝑖 = 1,2, … , 𝑛
En otras palabras, la función de enlace describe como las variables
explicatorias afectan el valor medio de las variables de respuesta, esto es, mediante
la función 𝑔 (quien no necesariamente es lineal). En la práctica, las funciones de
132
enlace comúnmente usadas son la canónica y el parámetro natural, definidos como
una función del valor medio de repuesta de una distribución en particular.
Tabla 6.1 Principales Enlaces Canónicos.
Distribución Enlace Canónico
Normal 𝑔(𝜇𝑖) = 𝜇𝑖
Binomial 𝑔(𝜇𝑖) = log (𝜋𝑖
1 − 𝜋𝑖)
Poisson 𝑔(𝜇𝑖) = log 𝜇𝑖
6.3.3 Comparación de Modelos.
En general se dice que los valores ajustados, digamos �̂�𝑖, no son
exactamente iguales que los valores observados, 𝑦𝑖. El problema es entonces
establecer la distancia entre los �̂�𝑖’s y los 𝑦𝑖’s. A continuación, se presentan dos
medidas para comparar la bondad de ajuste de diferentes modelos generalizados,
la deviance y el estadístico de Pearson.
Antes que nada, se debe evaluar la bondad ajuste de un modelo
comparándolo con los modelos que producen el mejor y el peor ajuste. El mejor
modelo ajustado es llamado modelo saturado, el cual contiene tantos parámetros
como sea el número de observaciones (𝑛); y el peor modelo ajustado es conocido
como modelo nulo, que solo tiene el parámetro intercepto.
El modelo saturado es útil para comparar la medida de la bondad de ajuste
de un modelo con 𝑝 parametros. La cantidad resultante es llamada deviance y es
definida por un modelo 𝑀 (con 𝑝 parámetros) en la clase de modelos lineales
generalizados:
133
𝐺2(𝑀) = −2𝑙𝑜𝑔 {𝐿(�̂�(𝑀))
𝐿(�̂�(𝑀∗))}
Donde el numerador, es la función de verosimilitud, calculada usando
máxima verosimilitud de los parámetros estimados bajo el modelo 𝑀, denotados por
�̂�(𝑀); y el denominador es la función de verosimilitud de las observaciones,
calculada usando la máxima verosimilitud de los parámetros estimados bajo el
modelo saturado 𝑀∗. La expresión dentro de las llaves es conocida como la razón
de verosimilitud.
Se sabe que para un gran tamaño de muestra, como el caso de minería de
datos, 𝐺2(𝑀) es aproximadamente distribuida como una chi cuadrada con 𝑛 − 𝑘
grados de libertad, donde 𝑛 es el número de observaciones y 𝑘 es el número de
parámetros estimados bajo el modelo 𝑀. Si el modelo 𝑀 es considerado “bueno”,
entonces el valor de su máxima verosimilitud será cercano a la máxima verosimilitud
del modelo saturado 𝑀∗. Por lo tanto, valores “pequeños” de 𝐺2 indican un buen
ajuste.
La significancia de un modelo también puede ser evaluada comparándola
con el modelo nulo, tomando la diferencia en la deviance entre el modelo
considerado y el modelo nulo, obteniendo la estadística
𝐷 = −2𝑙𝑜𝑔 {𝐿(�̂�(𝑀0))
𝐿(�̂�(𝑀))}
134
Bajo la hipótesis nula de que el modelo nulo es cierto, 𝐷 es asintóticamente
distribuido como 𝜒𝑝2, donde 𝑝 es el número de variables explicatorias en el modelo
𝑀. Esto puede ser obtenido notando que 𝐷 = 𝐺2(𝑀0) − 𝐺2(𝑀) y asumiendo que las
dos deviances asintóticas e independientes son distribuidas como variables
aleatorias chi cuadradas. Y de la propiedad aditiva de la distribución chi cuadrada,
se sigue que los grados de libertad de 𝐷 son (𝑛 − 1) − (𝑛 − 𝑝) = 𝑝.
El modelo es aceptado (i.e. el modelo nulo en la hipótesis nula es rechazado)
si el p-valor es pequeño. Esto es equivalente a que la diferencia 𝐷 entre las log-
verosimilitudes sea grande.
Ahora, cuando los datos analizados son categóricos o discretos, una
alternativa para 𝐺2 es la 𝑋2 de Pearson:
𝑋2 =∑(𝑜𝑖 − 𝑒𝑖)
2
𝑒𝑖𝑖
Donde, para cada categoría 𝑖, 𝑜𝑖 representa la frecuencia observada y 𝑒𝑖
representa la frecuencia esperada de acuerdo al modelo de examinación. Como en
la deviance 𝐺2, comparamos el modelo ajustado (correspondiente a los 𝑒𝑖) y el
modelo saturado (correspondiente a los 𝑜𝑖). Pero en este caso se hace una
comparación directa entre los valores observados y los ajustados para cada
categoría. El estadístico de Pearson es asintóticamente equivalente a 𝐺2, por lo que
bajo 𝐻0, 𝑋2 ≈ 𝜒𝑛−𝑘
2 .
135
Capítulo 7
Ejemplos y aplicaciones
de la Minería de Datos.
136
En este capítulo se presentarán dos ejemplos de aplicación del proceso de
minería de datos: el primero será expuesto y descrito a detalle para hacer más
entendible la aplicación de los métodos de minería de datos. En el segundo ejemplo,
se presenta un resumen del problema y la forma en que se desarrolla, esto se hace
con el objetivo de dar una idea del tipo de problemas que se pueden abordar con
minera de datos.
7.1 Ejemplo 1: Puntaje de Crédito.
7.1.1 Objetivos del análisis.
En este caso de estudio veremos cómo los métodos de minería de datos son
aplicados para evaluar la confiabilidad de crédito de individuos que solicitan un
crédito. Para el desarrollo del ejemplo, se usaron datos de clientes de un importante
banco en el sur de Alemania y se usaron para construir un modelo de puntuación
para clientes de crédito.
El término “puntaje de crédito” describe el método estadístico usado para
clasificar posibles créditos dentro de dos clases de riesgo: bueno y malo. Los
modelos estadísticos de puntaje de crédito, después conocidos como modelos de
scorecard, usan variables explicatorias con información de candidatos para estimar
la probabilidad de que no pague el préstamo. Para decidir si el crédito es
garantizado o rechazado se compara la probabilidad estimada con un límite de
confianza elegido por la administración.
137
Los métodos estadísticos más usados para desarrollar scorecards son redes
neuronales, regresión logística y árboles de clasificación. Para mayor detalle de
puntaje de crédito y modelos de crédito scorecards, ver Hand y Henley (1996).
7.1.2 Descripción de los datos.
El conjunto de datos es de 1000 observaciones que representan a 1000
candidatos a crédito para un banco del sur de Alemania; ver Fahrmeir y Hamerte
(1994) para una descripción más detallada de los datos.
Consideramos 21 variables, una de ellas es la variable binaria 𝑌, confianza
crediticia (𝑌 = 0 para confiables, 𝑌 = 1 para los no confiables) la cual tomaremos
como variable de respuesta u objetivo. Las otras 20 variables son tratadas como
variables explicatorias y podemos agruparlas de la siguiente forma:
Variables socio demográficas.
o Sexo y estado civil.
o Edad
o Residencia: número de años residente en el domicilio actual.
Variables personales y financieras.
o Cuenta: si es propietario de una cuenta de banco.
o Libro bancario: si es propietario de un libro bancario.
o Representante anterior: historia de pagos pasados.
o Deudas: cuenta con deudas previas.
o Concurrente: si otros fondos han sido requeridos.
o Empleado: tipo de empleado.
o Años trabajando: número de años de trabajo.
138
o Extranjero: si es trabajador extranjero.
o Familia: número de personas dependientes.
Variables específicas para el préstamo.
o Préstamo: de cuánto es el préstamo.
o Propósito: propósito del préstamo.
o Fecha límite: fecha límite del préstamo.
o Intereses mensuales.
o Otros: si otras deudas concurrentes son especificadas.
Indicadores de bienes.
o Casa: si tiene casa propia.
o Efectivos: si tiene otra persona de garantía.
o Teléfono: si tiene teléfono disponible.
Tabla 7.1 Estructura de la matriz de datos.
Candidato 𝑌 𝑋1 𝑋2 … 𝑋20
1 1 1 18 … 1
⋮
34 1 4 24 … 1
⋮
1000 0 1 30 … 1
Solamente 3 de las 20 variables explicatorias son continuas: fecha límite,
préstamo y edad. Las otras 17 son discretas, pero solo dos son binarias: teléfono y
extranjero. Las otras 15 variables discretas tienen diferente número de niveles.
Los datos son estratificados entre 300 clientes seleccionados como no
confiables (𝑌 = 1, préstamo no pagado) y 700 como confiables (𝑌 = 0, préstamos
pagados) con lo cual se ajustan los porcentajes de clientes, buenos y malos. Este
139
tipo de estratificación afecta los resultados obtenidos de los modelos estadísticos;
no es el mismo resultado que con un muestro simple aleatorio dado que el conjunto
de datos tiene un sesgo inherente ya que solo contiene a personas que recibieron
préstamo. Hay otros que no recibieron préstamo y por tanto no se sabe si pudieron
ser o no de riesgo. Aunque estas consideraciones no afectan la validez del análisis,
se deben recordar al momento de hacer la interpretación.
Aunque perderemos información, para simplificar el análisis se modifica el
conjunto de datos original para obtener exclusivamente variables binarias,
recordando que la binarización nos permite investigar la razón de odds.
Para variables cuantitativas principalmente se calcula la mediana; se crean
dos niveles, uno correspondiente a los valores más altos que la mediana, otro para
valores más bajos que la mediana. Por ejemplo, “Fecha límite” tiene valores en el
intervalo de 0-72 meses, pero se modifica como en la Tabla 7.2. Para las otras
variables, sea 0 para categorizar las menos confiables y 1 para las más confiables.
Usemos la variable “Representante anterior” como ejemplo, sea 1 el valor de la
categoría correspondiente a un impecable pago anterior y 0 el valor para la
categoría correspondiente a un pago anterior tardío.
Algunas variables discretas serán reclasificadas; por ejemplo, “Cuenta” es
subdividido en dos variables binarias, “Buena cuenta” y “Mala cuenta”. La Tabla 7.3
muestra las nuevas y viejas clasificaciones. La variable “Sexo y estado civil” es
dividida en dos variables binarias distintas: “Sexo” y “Estado civil”. La Tabla 7.4
resume esta representación.
140
Tabla 7.2 Clasificación de la variable “Tiempo límite”.
Clase previa Nueva clase Interpretación
Tiempo límite > 18 meses 1 Largo plazo
Tiempo límite < 18 meses 0 Corto plazo
Tabla 7.3 Clasificación de la variable “Cuenta”.
Nuevas variables Variables originales
Mala_cuenta Buena_cuenta Cuenta 1 0 2 balance
negativo Malo
0 1 4 balance > DM 200
Bueno
0 0 3 balance en [0-200]
Neutral
0 0 1 sin cuenta Neutral
Tabla 7.4 Clasificación de las variables “Sexo” y “Estado civil”.
Nuevas variables Variables originales
Sexo Estado civil Sexo y estado civil 0 0 1 hombre: soltero, divorciado o
separado 1 0 2 mujer: soltera, divorciada o
separada 0 1 3 hombre: casado o viudo 1 1 4 mujer: casada o viuda
7.1.3 Análisis exploratorio.
Iniciamos con un análisis univariado para investigar la fuerza de los enlaces
existentes entre cada variable explicatoria y la variable de respuesta. Esto indicaría
la eficiencia de cada variable explicatoria para identificar los clientes no confiables
(𝑌 = 1). Las variables explicatorias que están más asociadas con la variable de
respuesta deben ser mejores para determinar la confianza del cliente. Aunque se
descuide la interacción entre las variables, el análisis univariado es muy útil, es un
paso preliminar muy importante para establecer un modelo multivariado.
141
Para obtener las asociaciones entre la variable de respuesta y cada una de
las 22 variables explicatorias construiremos las razones de odds. Las razones de
odds resultantes son recíprocas a lo que obtendríamos usando el orden
convencional (Sección 4.4), es decir, ahora en cuanto más alta sea la razón de odds,
más negativa será la asociación de la variable explicatoria con la variable de
respuesta y más alta será la asociación positiva con la confiabilidad del crédito.
La Tabla 7.5 muestra las razones de odds y sus correspondientes intervalos
de confianza del 95%, en la última columna se muestra el p valor del estadístico
Chi-cuadrado de Pearson. Las 22 variables explicatorias son tabuladas en orden
decreciente de acuerdo a la razón de odds. Las primeras ocho variables en la tabla
tienen una asociación negativa con la variable de respuesta; de hecho, la razón de
odds muestra valores superiores a 1, y el 1 no está contenido en los intervalos de
confianza. Las últimas cinco variables tienen una asociación positiva con la variable
de respuesta, entonces la razón de odds toma valores en el intervalo [0,1] y el 1 no
está en contenido en los intervalos de confianza.
Tabla 7.5 Razones de odds univariadas con la variable de respuesta.
Variable Razón de
odds Intervalo de
Confianza 95% Asociación
Chi-Cuadrada p-valor
Buena-cuenta 5.459 (3.857;7.725) (-) 1.41 E-24
Representante anterior
3.958 (2.529;6.193) (-) 1.21 E-09
Libro de banco 2.75 (1.957;3.888) (-) 3.05 E-09
Fecha límite 1.842 (1.402;2.421) (-) 1.22 E-05
Años trabajando 1.781 (1.311;2.421) (-) 2.47 E-04
Propósito 1.679 (1.269;2.220) (-) 2.85 E-04
Edad 1.676 (1.274;2.206) (-) 2.48 E-04
Estado civil 1.532 (1.160;2.022) (-) 3.17 E-03
Interés mensual 1.342 (1.008;1.787) (-?) 0.045
Préstamo 1.241 (0.946;1.627) NO 0.129
Deudas 1.233 (0.928;1.639) NO 0.153
142
Teléfono 1.177 (0.892;1.554) NO 0.261
Residencia 1.031 (0.785;1.354) NO 0.835
Familia 1.018 (0.700;1.481) NO 1
Otros 0.994 (0.624;1.583) NO 1
Empleado 0.904 (0.651;1.257) NO 0.563
Sexo 0.769 (0.584;1.011) NO 0.067
Efectivos 0.642 (0.489;0.842) (+) 1.49 E-03
Mala-cuenta 0.568 (0.423;0.763) (+) 1.88 E-04
Concurrente 0.55 (0.395;0.765) (+) 4.06 E-04
Casa 0.531 (0.398;0.710) (+) 1.99 E-05
Extranjero 0.273 (0.096;0.778) (+) 9.42 E-03
La variable “Interés mensual” exhibe una probable asociación negativa dado
que la razón de odds es mayor que 1, pero el 1 está por fuera del intervalo de
confianza muy ligeramente. El resto de las variables no muestran una asociación
significativa, dado que el 1 está dentro de los intervalos de confianza. Estas
conclusiones son confirmadas por los p-valores del estadístico Chi-cuadrada en la
última columna de la tabla.
Para los primeros ocho y las últimas cinco variables el p-valor es menor que
0.05; esto significa que la hipótesis nula es rechazada y se acepta la
existencia de una asociación.
Para “Interés mensual” el p-valor es ligeramente menor que 0.05; esto
significa que la asociación con la variable de respuesta está en el límite
significante.
El resto de las variables tiene un p-valor más grande que 0.05; esto significa
que la hipótesis nula es aceptada.
La Tabla 7.6 muestra como dividimos las razones de odds y como se sigue
para las siguientes conclusiones:
143
Tabla 7.6 Interpretación de la razón de odds.
Variable Odds para
𝑿 = 𝟏, 𝜽𝟏 Odds para
𝑿 = 𝟎, 𝜽𝟐 Razón de
odds Asociación
Buena-cuenta 0.594 3.243 5.459 (-)
Representante anterior 0.291 1.152 3.958 (-)
Libro de banco 0.078 2.143 2.75 (-)
Fecha límite 0.730 1.344 1.842 (-)
Años trabajando 0.650 1.157 1.781 (-)
Propósito 0.720 1.209 1.679 (-)
Edad 0.788 1.322 1.676 (-)
Estado civil 0.767 1.175 1.532 (-)
Interés mensual 0.901 1.210 1.342 (-?)
Préstamo 0.901 1.116 1.241 NO
Deudas 0.928 1.114 1.233 NO
Teléfono 0.937 1.104 1.177 NO
Residencia 0.983 1.041 1.031 NO
Familia 0.997 1.016 1.018 NO
Otros 1.000 0.996 0.994 NO
Empleado 1.081 0.978 0.904 NO
Sexo 1.115 0.857 0.769 NO
Efectivos 1.253 0.804 0.642 (+)
Mala-cuenta 1.178 0.669 0.568 (+)
Concurrente 1.129 0.620 0.55 (+)
Casa 1.217 0.646 0.531 (+)
Extranjero 3.541 0.966 0.273 (+)
Los aplicantes que cuentan con una buena cuenta (más de DM 200) con un
banco de crédito son más confiables. De hecho, al ir de los clientes que
tienen una cuenta mediana o un balance negativo (Buena cuenta=0) a los
que tienen una buena cuenta (Buena cuenta=1) la probabilidad de pago
incrementa, va de una odds de 0.594 a una odds de 3.243. Por lo tanto, existe
una asociación negativa entre no confiabilidad y la posesión de una buena
cuenta corriente, y la medida exacta de dicha asociación está dada por la
razón de odds. En el caso de “Buena cuenta”, cuando el balance de cuentas
es más grande que DM 200 entonces la probabilidad de pago es 5.46 veces
144
la probabilidad de pago para clientes que tienen una cuenta media o un
balance negativo.
Trabajadores alemanes son más confiables que los trabajadores del exterior.
Viendo de clientes que son trabajadores alemanes (Extranjero=0) a clientes
que son trabajadores extranjeros (Extranjero=1) la odds de que pague se
reduce de 3.541 a 0.966; esto significa que existe una relación positiva entre
trabajador extranjero y ser no confiable. La medida exacta de esta asociación
está dada por la razón de odds, y la probabilidad de pago para trabajadores
extranjeros es 0.273 veces la probabilidad para trabajadores alemanes. En
otras palabras, la probabilidad de pago para trabajadores alemanes es
alrededor de 3.6 veces (1/0.273) la probabilidad de pago para trabajadores
extranjeros.
7.1.4 Construcción del modelo.
Una vez que realizamos el análisis exploratorio univariado, nos moveremos
a un análisis multivariado, específicamente a un modelo estadístico. Intentaremos
combinar todos los signos de las diferentes variables explicatorias para obtener un
modelo general que indique la confiabilidad de cada candidato.
Para poder elegir un modelo, debemos aclarar la naturaleza del problema.
En este caso, tenemos un problema de clasificación predictivo, debido a que la
variable de respuesta es binaria y nuestro objetivo es predecir si el candidato a
crédito será confiable o no. Nos concentraremos en una regresión logística, en
arboles de clasificación y en perceptrones multicapa, que son los métodos más
usados en general para clasificación predictiva y en particular para puntaje de
145
crédito. También consideraremos una aproximación basada en “bagging” (también
conocida como agregación de bootstrap), el cual combina los resultados de
diferentes modelos.
7.1.4.1 Modelo de regresión logística.
Elegiremos un modelo de regresión logística usando un procedimiento de
selección forward con un nivel de significancia del 0.05. Para revisar el modelo,
intentaremos un procedimiento stepwise y un backward para verificar que los tres
modelos son similares. La Tabla 6.7 describe el procedimiento de selección forward.
Tabla 7.7 Resultados del procedimiento de selección forward.
Paso
Efecto ingresado
Efecto removido
Gl Número in
Chi-cuadrad
o
Wald Chi-
cuadrado
P> Chi-
cuadrado
1 Buena cuenta - 1 1 103.9648 - <0.0001
2 Representante anterior
- 1 2 24.4942 - <0.0001
3 Libro bancario - 1 3 17.3725 - <0.0001
4 Fecha limite - 1 4 18.8629 - <0.0001
5 Casa - 1 5 8.3749 - 0.0038
6 Edad - 1 6 7.0758 - 0.0078
7 Propósito - 1 7 8.4775 - 0.0036
8 Extranjero - 1 8 7.9316 - 0.0049
9 Interés mensual - 1 9 6.9678 - 0.0083
10 Estado civil - 1 10 5.7610 - 0.0164
El punto de inicio es el modelo más simple, que contiene solo el intercepto,
luego entonces, en cada paso comparamos las deviances para decidir si adicionar
o no una variable explicatoria.
146
SAS Enterprise Miner usa el estadístico Chi-cuadrada en el procedimiento
forward y el estadístico Chi-cuadrado de Wald en el procedimiento backward. De
acuerdo a la Tabla 6.7 el modelo final es obtenido en el paso 10; además del
intercepto, se incluyen las siguientes variables explicatorias:
X1= tiempo limite X2= representante anterior X3= propósito X4= libro bancario X5= interés mensual X6= edad X7= casa X8= extranjero X9= buena cuenta X10= estado civil
Para revisar la calidad del modelo final, utilizamos la prueba de razón de
verosimilitud 𝐺2 para el modelo final (𝐻1) contra el modelo nulo (𝐻0). Se obtiene
𝐺2 = 219.89 con 10 grados de libertad. Como el p valor correspondiente de la
prueba es menos que 0.0001, la hipótesis nula es rechazada, implicando que al
menos una de los coeficientes del modelo en la Tabla 7.7 es significativa. El modelo
tiene un AIC de 1023.828, y un BIC de 1077.814. El total de la razón de clasificación
errónea es 0.244. La razón de clasificación errónea de un modelo con todas las
variables presentes (i.e. sin ninguna selección del modelo stepwise) es 0.252,
ligeramente más alto que 0.244.
La Tabla 7.8 muestra el estimador de máxima verosimilitud correspondiente
al modelo final y la significancia estadística de los parámetros. Para todas las
variables exploratorias obtenemos un p valor más bajo que 0.05, por lo tanto, la
hipótesis nula siempre es rechazada. Esto significa que todas las 10 variables
explicatorias seleccionadas usando el procedimiento stepwise son asociadas
147
significativamente con la variable de respuesta y son útiles al explicar si un
solicitante es confiable o no.
Tabla 7.8 Estimadores de máxima verosimilitud de los parámetros.
Parámetro Gl
Estimador
Error estándar
Wald Chi-
cuadrado
P> Chi-
cuadrado
Intercepto 1 0.5030 0.6479 0.6029 0.4375
Fecha limite 1 -0.6027 0.1567 14.7914 0.0001
Representante anterior
1 -1.0479 0.2573 16.5875 <0.0001
Propósito 1 -0.5598 0.1632 11.7703 0.0006
Libro bancario 1 -0.7870 0.1937 16.5063 <0.0001
Interés mensual 1 -0.4754 0.1660 8.2009 0.0042
Edad 1 -0.4203 0.1603 6.8701 0.0088
Casa 1 0.4934 0.1683 8.5914 0.0034
Extranjero 1 1.3932 0.5794 5.7825 0.0162
Buena cuenta 1 -1.4690 0.1863 62.1582 <0.0001
Estado civil 1 -0.3910 0.1633 5.7325 0.0167
Ahora que tenemos un modelo, necesitamos interpretarlo. Un procedimiento
stepwise puede ser inestable en las estimaciones, las cuales están condicionadas
a la selección del modelo. Un enfoque de modelo-promedio, tal como un enfoque
completo Bayesiano, pueden resolver este problema, pero se tendría un modelo
más complicado (Giudicci, 2001ª).
El modelo de regresión logística obtenido puede ser descrito con la siguiente
fórmula:
log𝑃(𝑌 = 1)
𝑃(𝑌 = 0)= 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2 +⋯+ 𝛽10𝑋10
148
En la cual la variable de respuesta es la confiabilidad de crédito (𝑌 = 0) si es
Si, 𝑌 = 1 si es No) y las variables explicatorias son como se describen en la Sección
7.2.
La Tabla 7.9 muestra los parámetros estimados y las razones de odds
estimadas para cada variable. Podemos interpretar la Tabla 7.9 considerándola
como un modelo formula. Esta fórmula es construida por el conjunto 𝑌 = 1 cuando
el deudor es no confiable, también podemos decir que un parámetro con signo
positivo indica que la variable correspondiente reduce la confiabilidad del deudor.
Inversamente, un parámetro con un signo negativo indica que la correspondiente
variable incrementa la confiabilidad del valor.
Tabla 7.9 Interpretación del modelo estimado.
Variables �̂� 𝒆−�̂� Intercepto 0.5030 0.605
Fecha limite -0.6027 1.827 Representante anterior -1.0479 2.852
Propósito -0.5598 1.750 Libro bancario -0.7870 2.197
Interés mensual -0.4754 1.609 Edad -0.4203 1.522 Casa 0.4934 0.611
Extranjero 1.3932 0.248 Buena cuenta -1.4690 4.345 Estado civil -0.3910 1.479
La variable “Buena cuenta” tiene un parámetro con signo negativo (�̂� =
−1.4690), esto significa que los clientes que tienen una buena cuenta, cerca de DM
200, tienen una probabilidad de pago mayor que los que tienen una cuenta media o
un balance negativo. Argumentos análogos son válidos para “Fecha límite”,
“Representante anterior”, “Propósito”, “Libro bancario”, “Interés mensual”, “Edad” y
149
“Estado civil”. Podemos entonces enlistar las ocho variables que reducen el riesgo
de no pago, o incrementar la probabilidad de pago.
Una buena cuenta.
Pagos anteriores implacables.
Posesión de libro bancario.
Un préstamo con un corto tiempo límite.
Un propósito de negocio para el préstamo.
La presencia de altas razones de interés.
No ser soltero.
Edad de alrededor de 33 años.
Los trabajadores extranjeros que preguntan por un préstamo (Extranjero=1)
son menos confiables que los trabajadores alemanes. Esto está indicado por el
signo positivo del coeficiente �̂� = 1.3932. Consecuentemente, hay una relación
directa entre ser un trabajador extranjero y se un candidato no confiable. Como
vimos durante la fase exploratoria, los clientes que tienen una casa propia y esperan
tener una hipoteca (Casa=1) son menos confiables que los que clientes que no
tienen casa propia. Esto se indica por el coeficiente �̂� = 0.4934, el cual tiene signo
positivo.
La razón de odds mide la fuerza de asociación entre cada variable
explicatoria y la variable de respuesta. En la Tabla 7.10 se comparan las razones
de odds con los valores del análisis exploratorio. Cuando un cliente posee una
buena cuenta (Buena cuenta=1) su probabilidad de pago es 4.345 veces más
grande que para un cliente sin una cuenta. Argumentos análogos son válidos para
“Representante anterior”, “Libro bancario”, “Tiempo límite”, “Propósito”, “Edad”,
“Interés mensual” y “Estado civil”. Las variables “Casa” y “Extranjero” están
asociadas positivamente con la variable de respuesta. La probabilidad de pago para
150
trabajadores extranjeros (Extranjero=1) es 0.248 veces que para trabajadores
alemanes. En otras palabras, la probabilidad de pago para trabajadores alemanes
es alrededor de 4 veces el valor para trabajadores extranjeros. Estas razones de
odds multivariadas son más confiables que las razones de odds univariadas, dan
una mejor descripción de la interrelación entre las variables, como cada asociación
individual esta corregida tomando en cuenta el efecto indirecto de la variable de
respuesta que ocurre mediante las variables explicatorias restantes.
Tabla 7.10 Comparación entre las razones de odds multivariadas y
univariadas
Variables Razones de Odds
Multivariado Univariado Fecha límite 1.827 1.842
Representante anterior 2.852 3.958 Propósito 1.750 1.679
Libro bancario 2.197 2.758 Interés mensual 1.609 1.342
Edad 1.522 1.676 Casa 0.611 0.531
Extranjero 0.248 0.273 Buena cuenta 4.345 5.459 Estado civil 1.479 1.532
7.1.4.2 Modelo de Clasificación Árbol.
SAS Enterprise Miner busca ajustar tres tipos de modelo árbol. Iniciaremos
con uno basado en el algoritmo CHAID y la medida de impureza Chi-cuadrada. Para
obtener un árbol parsimonioso, usaremos un nivel de significancia del 0.05 en la
regla de alto. La Figura 7.1 y la Tabla 7.11 presentan el resultado del análisis de
árboles de clasificación CHAID. La Figura 7.1 es autoexploratoria; el número total
de nodos terminales es 6, cada uno obtenido a través de divisiones sucesivas de
151
las variables binarias elegidas. En cada división, la única opción es decidir cuál
variable se usará para la división.
El número total de variables divididas en el árbol final es 4: Buena cuenta,
Libro bancario, Representante anterior y Fecha límite. Estas variables son las
primeras cuatro obtenidas por el procedimiento de selección forward para regresión
logística (Tabla 7.7). Del árbol de clasificación podemos ver que “Buena cuenta”
actúa por sí misma, pero las otras variables interactúan con las otras. Esto revela
una posible falta de ajuste cuando usamos un modelo de regresión logística que
considera solo los efectos separados de cada variable explicatoria y no los efectos
de interacción. Obviamente se pueden introducir las interacciones, pero esto
incrementaría considerablemente los cálculos y haría el modelo difícil de interpretar.
Tabla 7.11 Resultados del árbol de clasificación CHAID
Si una buena cuenta es igual a 1 N: 394 1: 11.7% 0:88.3%
Si el libro bancario es igual a 0 y representante previo es igual a 0 y buena cuenta es igual a 0
N: 59 1: 76.3% 0: 23.7%
Si libro bancario es igual 1 y libro bancario es igual a 0 y buena cuenta es igual a 1
N: 14 1: 28.6% 0: 71.4%
Si fecha límite es igual a 1 y representante anterior es igual a 1 y buena cuenta es igual a 0
N: 295 1: 29.5% 0: 70.5%
Si libro bancario es igual a 1 y fecha límite es igual a 0 y representante anterior es igual a 1 y buena cuenta es igual a 0
N: 52 1: 28.8% 0: 71.2%
152
Si libro bancario es igual a 0 y fecha límite es igual a 0 y representante anterior es igual a 1 y buena cuenta es igual a 0
N: 186 1: 55.4% 0: 44.6%
La Tabla 7.11 muestra el árbol elegido en la forma de reglas “si-entonces”,
donde la condición “si” corresponde para un camino del árbol que conduce al
resultado “entonces” de un nodo terminal, caracterizado por las frecuencias
absolutas indicadas (𝑁), porcentaje de malos candidatos (1) y porcentaje de buenos
candidatos (0).
153
Figura 7.1 Resultados del Árbol de Clasificación CHAID
Las seis reglas pueden ser interpretadas como reglas de asociación2, todas
tienen como base 𝑌 = 0 o 𝑌 = 1. Para hacer esto, necesitamos considerar como
elementos primitivos no solo el nivel 1 de cada variable, pero también los
complementos, para un total de 44 elementos. Entonces obtenemos resultados
como estos:
Buena Cuenta → No Confiable tiene un soporte de 39.4% y una
confianza de 11.7%.
2Paolo Giudici (2003). Aplied Data Mining. Sección 4.8 Local Models. 121-127
154
Libro Bancario=1 y Sin Representante Anterior y Sin Buena Cuenta →
No Confiable tiene un soporte de 1.4 % (14/1000) y una confianza de
28.6%.
Podemos calcular la razón de clasificación errónea como una medida del
desempeño total. En cada hoja clasificaremos todas las observaciones de acuerdo
a la mayoría de votos, esto es, la clase con la que se ajusta la probabilidad más alta
de estar presente. Esto corresponde a un límite de corte de 0.5. La razón de
clasificación errónea es 0.249, ligeramente más alta que la que obtuvimos con el
modelo de regresión logística.
Ahora veremos un modelo árbol usando el algoritmo CART y la impureza
Gini. Para la poda, calcularemos la razón de clasificación errónea sobre todo el
conjunto de datos usando un parámetro de penalización 𝛼 = 1. Esto puede ser
considerado como elección por default, en la ausencia de otras consideraciones. La
Tabla 7.12 muestra el árbol resultante de la forma de las reglas “si-entonces”. Una
representación gráfica puede ser fácilmente construida de la Tabla 7.12.
Comparado con el árbol CHAID, este es bastante complejo y tiene 33 nodos
terminales. Los 33 caminos en el modelo pueden ser interpretados como una
asociación de reglas. La complejidad extra ha bajado la razón de clasificación
errónea a 0.212, obtenida sobre los datos de entrenamiento. Pero esta mejora
puede que no justifique el incremento en la complejidad.
Casi todas las variables explicatorias son representadas en el modelo árbol,
excepto “Sexo” y “Estado civil”. Este es un resultado notable. No hay diferencia en
confiabilidad por sexo o por estado civil. Es también interesante notar que todos los
155
caminos son largos, longitudes entre 4 y 6. Podemos reducir la complejidad del
modelo incrementando 𝛼, pero lo dejaremos en 𝛼 = 1 para poder compararlo con el
árbol CHAID.
La Tabla 7.13 muestra un modelo CART usando la impureza de entropía y
usando 𝛼 = 1. Este modelo es también complejo, tiene 34 nodos terminales, uno
más que el modelo Gini. Los resultados también son algo similar, pero no
exactamente los mismos. La razón de clasificación errónea del modelo de entropía
es 0.211 sobre los datos de entrenamiento, comparado con 0.212 para el modelo
Gini. En la Sección 4.5 consideramos el mismo árbol como en la Tabla 7.13, pero
nos detuvimos en 4 niveles. Basados en la razón de clasificación errónea es
parecida que el CART, estos modelos son mejores que el modelo CHAID, y la
impureza de entropía es ligeramente mejor que la impureza de Gini. Pero hasta
ahora solo hemos comparado su bondad de ajuste, no su habilidad predictiva.
Ver Anexo1. Resultados para el árbol de clasificación CART con impureza Gini.
Ver Anexo2. Resultados del árbol de clasificación CART con impureza de entropía.
7.1.4.3 Modelo Perceptrón Multicapa.
Para especificar un perceptrón multicapa, necesitamos decidir sobre su
arquitectura. Dada la naturaleza de este problema, elegiremos una única capa de
nodos ocultos y haremos una activación de ambas funciones logísticas, de la
entrada a los nodos ocultos y de los nodos ocultos a la salida. Los nodos de salida
son combinados a través de una función softmax. De acuerdo a la implementación
de perceptrones multicapa en SAS Enterprise Miner, elegiremos un algoritmo de
156
estimación de propagación de retorno para los pesos, con un parámetro de impulso
de 0.1. La función de error es binomial, con en la Sección 4.6.
Para elegir el número óptimo de nodos en la capa oculta, iniciaremos con un
único nodo y bajo el procedimiento stepwise la razón de clasificación errónea
comenzara a decrecer. Con 3 nodos es de 0.182, con 4 es de 0.141 y con 5 es
0.148. Esto sugiere un perceptron multicapa con 4 nodos. Por lo tanto, la
arquitectura de nuestra red contiene 22 nodos de entrada, 4 nodos ocultos y un
nodo de salida. El número correspondiente de los parámetros de peso es 97.
A diferencia de regresión logística y de modelos árbol, las redes neuronales
son cajas negras. No hay una estructura de interés para ver, además los valores
ajustados 0-1 para cada observación, obtenidos de acuerdo a la regla del límite 0.5,
del cual derivamos la razón de clasificación errónea. A diferencia de los modelos
árbol, el perceptrón multicapa puede ser introducido en un marco paramétrico
(binomial). Esto conduce a obtener los valores del modelo, lo cual puede ser
comparado como los valores de la regresión logística. Para nuestro modelo final de
red neuronal, tenemos que AIC=1634.30 y BIC=2110.35. Ambos son
considerablemente más altos que para el modelo final de regresión logística,
indicando una posible mejora.
7.1.5 Comparación de modelos.
Para ayudarnos a elegir un modelo final, extenderemos nuestro análisis de
desempeño para incluir criterios basados en funciones de perdida. Para todos
nuestros modelos iniciaremos dividiendo los datos disponibles dentro de un
conjunto de datos de prueba, que contiene el 75% de las observaciones, y un
157
conjunto de datos de validación, que contienen 25% de las observaciones. Haremos
esto manteniendo la estratificación con la proporción de 70% confiables y 30% no
confiables en los nuevos conjuntos de datos. Después ajustaremos cada modelo
sobre la base de prueba, usando las observaciones de los datos de validación para
clasificar. Esta clasificación es posible por la producción de un puntaje y usando un
umbral de corte para clasificar los que estén por encima del límite como 𝑌 = 1 y los
que estén por debajo del límite como 𝑌 = 0. Finalmente, cada modelo es evaluado
la evaluación de la razón de clasificación errónea.
Empezaremos con el modelo de regresión logística y los errores de
clasificación para un umbral de corte de 50% (correspondiente a la regla de
discriminación). De acuerdo a este límite, todos los candidatos a los que la
probabilidad estimada de no confiabilidad (𝑌 = 1) que es mayor que 50% son
predichos como no confiables, de otro modo ellos son clasificados como clientes
confiables. Este modelo predice correctamente 90.29% de los clientes confiables
(𝑌 = 0). La probabilidad de cometer un error Tipo II es 9.71%. Un error Tipo II
significa considerar un cliente confiable y predecirlo como un no confiable. El modelo
es menos efectivo al predecir clientes no confiables; de hecho, se predice
correctamente solo en 39.56%. La probabilidad de cometer un error Tipo I es
60.44%. Un error Tipo I significa considerar un cliente no confiable y se predice
como confiable. Vemos que el modelo tiene mayor dificultad en predecir clientes no
confiables que a clientes confiables.
Este es un problema bastante común en puntación de crédito. La principal
dificultad de los modelos score cards está en predecir un mal riesgo. Pero
158
necesitamos modelos que puedan predecir un mal riesgo efectivamente, porque los
errores Tipo I son usualmente más costosos que los errores Tipo II. Las razones de
error previas son obtenidas para un corte umbral del 50%, pero un corte umbral más
bajo podría conducirnos a obtener un gran número de malos pagadores. Un corte
en 30% reduce el error Tipo I para 24.44%, pero le error Tipo II aumenta de 9.71%
a 22.80%.
El corte umbral debe elegirse para adaptarse a los costos de los errores Tipo
I y Tipo II. Si los costos son similares, un corte de 50% sería el adecuado; de otro
modo, un límite diferente puede ser mejor opción. En problemas de puntación de
crédito, donde el error Tipo I es usualmente más costoso, un corte menor que 50%
es posiblemente más conveniente. La curva ROC, la cual muestra como los errores
cambian cuando varían los límites, puede ser usada para este propósito. Antes de
ver la curva ROC, compararemos las razones de clasificación errónea predichas,
con un corte de 50%, para el modelo de regresión logística, el árbol de clasificación
y la red neuronal. Resulta que el modelo árbol tiene un mejor desempeño, con una
razón de clasificación errónea de 0.244, seguidos por el preceptron multicapa con
0.248 y el modelo de regresión logístico con 0.280. Respecto a los errores Tipo I, el
modelo de regresión logística muestra una probabilidad de 60.44% contra 54.67%
para el modelo árbol y 64.79% para la red neural.
Ahora comparamos los modelos árbol en términos de sus curvas ROC y el
índice de desempeño de Gini. Cuanto mayor sea el punto en la curva, menor será
umbral de corte, antes de que se estime si los candidatos son no confiables. La
Figura 7.2 muestra la curva ROC para nuestros modelos árbol finales; todos son
159
calculados usando la misma partición aleatoria de los datos. Se muestra el punto
para el corte de 50% usando el árbol de decisión, el cual es el mejor modelo cuando
usamos corte de 50%. El comportamiento predictivo de los modelos árbol es
bastante similar.
Figura 7.2 Curvas ROC para los modelos finales.
El modelo de regresión logística parece ligeramente inferior que los otros dos,
pero no es tan malo como aparecieron las razones de clasificación errónea. Para
hacer más clara la comparación, calcularemos el índice de desempeño de Gini; el
árbol de clasificación tiene el valor más alto (0.6260), seguido por el modelo de
regresión logística (0.5798) y la red neuronal (0.5738).
La Figura 7.3 es una gráfica de levantamiento. Una gráfica de levantamiento
da, por cada decimo, el porcentaje de eventos predichos (en este caso, candidatos
no confiables). Si el modelo fuera perfecto, este porcentaje debería ser 100% para
160
los primeros tres decimos (dado que esto es la proporción de eventos reales) e igual
a cero para las otras siete decimales.
Figura 7.3 Gráfica de levantamiento para los modelos finales.
De la Figura 7.3 pareciera que los modelos son bastantes similares para los
últimos siete decimales (con la red neuronal un poco peor, probablemente debido al
overfitting); y en los tres primeros decimales, la región más crítica para puntaje de
crédito, el árbol supera al modelo de regresión logístico, y a pesar de que son muy
diferentes en naturaleza, el árbol y la red neuronal, tiene un desempeño similar.
Para resumir, el árbol se observa como el modelo con el mejor desempeño, pero
las diferencias son muy pocas.
161
Consideremos ahora, si un modelo combinado conduce a un mejor
desempeño de clasificación. Dada la potencial inestabilidad de los modelos árbol,
intentaremos mejorarlos usando los algoritmos bagging (agregación Bootstrap) en
SAS Enterprise Miner. Tomamos 10 muestras aleatorias para los dos algoritmos.
Cada muestra es dividida aleatoriamente en forma estratificada dentro del conjunto
de datos de práctica y de un conjunto de datos de validación, y las observaciones
en los datos de validación son calculados de acuerdo a la regla de la mayoría de la
clasificación 10 del modelo CART usando impureza de entropía. Como resultado,
obtenemos una razón de clasificación errónea de 0.224, con probabilidad error Tipo
I de 48%. Esto muestra una notable mejora sobre el modelo árbol único (el cual
tiene una razón de clasificación errónea de 0.244 y una probabilidad de error Tipo I
cerca de 54%).
La Figura 7.4 muestra las cuervas ROC más el 50% de los puntos de corte
usando el modelo árbol combinado. El modelo combinado es bastante similar que
el modelo árbol único. Pero si los cortes están ajustados a 50%, entonces el árbol
combinado tiene mejor interpretación.
162
Figura 7.4 Curvas ROC para el modelo árbol bagged y modelo árbol único.
Tabla 7.12 Comparación de modelo bagged con los tres modelos
individuales.
Herramient
a
Objetiv
o
Evento
Objetiv
o
Raíz ASE Valido: Raíz
ASE
Criterio
Bayesiano
Schwarz
Razón de
Clasificación
Errónea
Valido:
Razón de
Clasificació
n Errónea
Conjunto BAD 1 0.395645366
5
0.406258492
9
0.221333333
3 0.248
Red
neuronal BAD 1
0.401194503
8
0.413113649
3
2107.785882
3 0.24 0.248
Árbol BAD 1 0.409723863
5
0.417736648
6
0.222666666
7 0.244
Regresión BAD 1 0.406894728
5
0.417736648
6
825.6359714
7
0.249333333
3 0.28
163
Ahora usaremos votación mayoritaria no ponderada para combinar los
resultados del modelo de regresión, el modelo árbol y la red neuronal. La Tabla 7.12
muestra los resultados. A pesar de que el modelo combinado es mejor en el
conjunto de datos de práctica, en términos de clasificación predictiva es superado
por el modelo árbol, el cual demuestra ser mejor. Sin embargo, note que la
diferencia en desempeño es muy pequeña, no más de 0.04. La probabilidad de error
Tipo I del modelo combinado es 56%, peor que el modelo árbol único. La Figura 7.5
muestra las curvas ROC para esta comparación. Note que el modelo combinado es
mejor que el árbol para valores bajos de corte, pero el error Tipo I también es alto.
El índice de Gini de desempeño para el modelo combinado es 0.5699, más bajo que
antes. Por tanto, en modelo árbol, el cual es mejor para valores de corte altos, es
preferible.
164
Figura 7.5 Curvas ROC para el modelo árbol bagged y sus modelos
componentes.
Para concluir, el mejor modelo para clasificar el conjunto de datos es el
modelo de árbol único, o si los recursos computacionales lo permiten, el modelo
árbol bagged. Sin embargo, todos los modelos finales tienen un desempeño
bastante similar, entonces podemos elegir el modelo más claro, normalmente, el de
regresión logística,
7.1.6 Resumen
o Contexto: este caso de estudio concierne a puntaje de crédito.
También puede ser aplicado a cualquier situación donde el objetivo es
el puntaje de comportamiento pasado de un individuo o compañía en
orden para planear una acción futura sobre el mismo individuo o
compañía en el marco de referencia. El puntaje puede ser usado para
evaluar la confiabilidad crediticia, lealtad del cliente o habilidad de
rotación de cliente. Además, se puede usar para seleccionar clientes
en orden para maximizar el retorno en una inversión (ejemplo: clientes
a recibir una campaña promocional, clientes para involucrar en una
relación bancaria uno a uno, clientes a los que dirigirse con un regalo
personalizado).
o Objetivos: el objetivo del análisis es construir una regla de puntajes
que ajuste un valor para cada cliente.
o Organización de los datos: los datos son toda la información disponible
en un banco sobre cada cliente de crédito, incluyendo datos
165
individuales y datos de su comportamiento bancario. Hay 21 variables
categóricas, una de las cuales es la confiabilidad de crédito
observada, usando una variable de supervisión para construir una
regla de puntaje de crédito capaz de discriminar deudores confiables
de deudores no confiables. Una regla de puntaje de crédito debe ser
capaz de decir cuáles son las variables discriminantes y dar su peso
en el puntaje final.
o Análisis exploratorio de los datos: esta fase fue conducido usando
análisis de razones de odds, dado que las variables fueron todas
discretas (actualmente binarizadas). Las razones de odds sugieren
cuales variables exploratorias pueden ser discriminadas. Dos de las
variables originales fueron bastantes confusas, por lo que se
subdividieron en nuevas variables binarias, dando un total de 22
variables exploratorias.
o Especificación del modelo: el análisis objetivo sugiere un modelo
predictivo, capaz de encontrar una regla que divida deudores dentro
de categorías homogéneas y otorgue a cada categoría un puntaje
expresado como una probabilidad de confiabilidad. Consideramos los
tres tipos de modelo que son típicamente usados en problemas de
puntaje de crédito: regresión logística, arboles de clasificación y
perceptrones multicapa.
o Comparación de modelos: los modelos fueron comparados usando
estadísticas o valores basados en criterios, tal como 𝐺2, AIC y BIC así
como la razón de clasificación errónea. No hubo suficientes datos para
166
confiar en una validación cruzada solamente. La comparación de
ajuste de bondad mostró que la red neuronal desempeño un mejor
trabajo, seguido por la regresión logística y árboles de clasificación.
Entonces consideramos una aproximación a una validación cruzada,
y comparando los errores de clasificación sobre los datos de
validación. Para convertir un valor estimado entre 0-1 (buenos o malos
deudores) asumimos un límite de 50%. Entonces el modelo árbol tuvo
el mejor desempeño, seguido por el perceptron multicapa y el modelo
de regresión logística. Sin embargo, en términos de errores Tipo I, los
cuales usualmente son más costosos en este tipo de problemas, la
regresión logística superó el desempeño de redes neuronales. Para
obtener un resultado independiente del límite elegido, comparamos las
curvas de ROC y calculamos el índice de Gini para desempeño. Aquí
el árbol de clasificación resulto mejor, confirmado por la tabla de
levantamiento. Dada la cantidad limitada de datos y la inestabilidad
potencial de los modelos árbol, intentamos mejorar nuestro modelo
por bagging; el resultado para el modelo bagged fue
considerablemente mejor cuando se eligió un límite de 50%.
o Interpretación del modelo: basado en la comparación del modelo, se
observa que los arboles de clasificación, o su versión bagged, hace un
mejor trabajo para este problema. Pero los modelos de regresión
logística no son tan inferiores en los datos considerados,
especialmente si los errores Tipo I son enfatizados. La elección
también depende de cómo serán usados los resultados. Si la toma de
167
decisión se hace por reglas jerárquicas ‘y si’, las cuales clasifica
clientes dentro de perfiles de clase de riesgo, entonces los arboles de
clasificación son muy buenos. Por otro lado, si se desean reglas
analíticas, las cuales se basan en el impacto de los pesos de cada
variable explicatoria (medidas por un coeficiente de regresión o una
razón de odds), la regresión logística es mejor.
7.2 Ejemplo 2: Pronosticando audiencia televisiva.
En este caso de estudio se busca prever las acciones de televisión, pero
también puede ser aplicado a cualquier situación donde el objetivo es predecir el
grado de preferencias individuales. En este caso, las preferencias son medidas a
través del cambio de canal de televisión; en forma más general, este tipo de ajustes
se aplica para cualquier contexto donde los datos reflejen las elecciones del cliente
de entre un conjunto de alternativas, observadas en un tiempo determinado.
Algunos ejemplos de esto son las elecciones entre los portales de internet,
videotapes o renta de DVDs en un periodo dado; marcas elegidas en subsecuentes
visitas a tiendas especializadas; elección de restaurante en un área dada, en un
año, ect.
El objetivo del análisis es construir una regla de predicción que permita una
red de televisión para programas en emisión con la que se maximice la audiencia.
Los datos son de un año de acciones de televisión para los seis principales
canales italianos durante la hora estelar. Además de acciones, hay información
sobre los programas en emisión y su tipo, así como los programas emitidos y el día
168
de trasmisión. El tipo de programa depende de cómo los programas son clasificados
en categorías; estos es un problema bastante crítico.
El análisis de datos exploratorio sugiere que las acciones de televisión son
afectadas principalmente por tres fuentes de variación: el canal en trasmisión, el
cual expresa la lealtad al canal; el tipo de programa, que parece ser la fuerza
principal de preferencias individuales; y el día de la semana, lo cual determina que
más está disponible para los espectadores, además de ver televisión. Esto también
explica porque es importante incluir el total de la audiencia en el análisis. El análisis
exploratorio sugiere que debemos transformar las acciones en acciones logit para
lograr normalidad y hacer más fácil el análisis.
En la especificación del modelo, el objetivo del análisis sugiere un modelo
predictivo, y los datos disponibles (transformados) especifican que hay seis
potenciales variables de respuesta (acciones logit) y un número de variables
explicatorias, algunas de las cuales son canales específicos, tal como el tipo de
programa, y algunos no, tal como el día de la semana y el total de audiencia.
Consideramos predecir una acción para un único canal y las seis acciones totales
de forma simultánea. Para el problema univariado, consideramos un modelo de
regresión lineal, una regresión árbol, un perceptron multicapa y una red RBF. Para
el problema multivariado, consideramos un modelo de regresión lineal, un
perceptron multicapa y una red RBF. Los arboles de regresión de multi respuesta
no estuvieron disponibles.
Para la comparación de modelos, estos fueron comparados usando un cruce
de validación, en términos del error cuadrado medio (ECM) de las predicciones,
169
sobre los datos de práctica y los datos de validación. También consideramos el
coeficiente de correlación entre la acción observada y la acción predicha. En el caso
univariado, la regresión árbol tiene un mejor desempeño, seguid por el modelo lineal
y redes neuronales. En el caso multivariado, el modelo lineal supera los modelos de
redes neuronales, probablemente porque las redes neuronales requieren de más
datos.
Para la interpretación del modelo, basado en la comparación de modelos, se
muestra que un modelo más simple, tal como los modelos lineales y árboles de
regresión, hacen un mejor trabajo para este problema. Esto generalmente se
cumple cuando los datos disponibles no son suficientes para obtener estimaciones
correctas para un número grande de parámetros contenidos en un modelo más
complejo. Un modelo sobre-parametrizado, tal como una red neuronal, puede
adaptarse muy bien a los datos, pero su estimador basado en muy pocos datos,
tiene un pobre comportamiento de predicción. Este problema es enfatizado cuando
hay outliers presentes en los datos. En este caso no pueden ser removidos porque
pueden ser muy importantes para la construcción del modelo. En términos de la
interpretación del negocio, el modelo lineal y la regresión árbol (para el caso de
repuesta univariada) dan una comprensible regla de decisión, analítica en el caso
de los modelos lineales y lógica deductiva en el caso de árboles. En este tipo de
problema, es muy importante el incorporar juicios de expertos, por ejemplo, un
experto en la clasificación de tipos de programas.
Para ver este ejemplo de aplicación a detalle, ver Giudici, 2003.
170
Capítulo 8
Conclusiones
171
Con el avance de la tecnología y el crecimiento en la capacidad de captación
y almacenamiento de información, se convierte en una necesidad el adecuar o
buscar nuevas herramientas que permitan realizar el análisis de esta gran masa de
información. En este trabajo de tesis se expuso una de alternativa surgida ante esta
necesidad, el proceso de minería de datos. En la actualidad, el proceso de minería
de datos se está posicionando como una de las opciones más viables para enfrentar
los retos surgidos con este gran avance en el almacenaje y captación de
información.
De las cosas que resaltaron más en este trabajo, observamos que el enfoque
exploratorio de la minería de datos permite encontrar en los datos relaciones entre
diversas variables que en ocasiones no son visibles a simple vista. Esta es una de
las principales razones por la cual la minería de datos resulta ser una muy buena
opción para el manejo de bases de datos con un gran número de variables.
También, en este trabajo se describieron los métodos que pueden ser
utilizados durante el proceso de minería de datos, donde la mayoría de ellos son
herramientas relativamente nuevas en el campo del manejo de bases de datos, tales
como las redes neuronales y los modelos de árbol, sin dejar atrás herramientas de
la Estadística que cumplen un papel muy importante en el proceso, tales como los
modelos de regresión lineal, multivariada y logística.
Como forma de ilustración, en el trabajo se presenta un ejemplo descrito a
detalle en el que se explica cómo se puede aplicar el proceso de minería de datos
con el propósito de modelar y hacer predicción sobre un fenómeno en específico,
en este caso, la confianza de un candidato a crédito.
172
173
Capítulo 9
Propuesta: Programa para curso de Minería de Datos
174
Por último, se presenta una propuesta de los temas que consideramos
necesarios para un curso introductorio al proceso de Minería de Datos pensado para
el programa de la Licenciatura en Estadística.
Temario. Introducción a la Minería de Datos
1. ¿Qué es Minería de Datos?
Se define el proceso de Minería de Datos, se describe la relación y las
diferencias que hay entre Estadística y Minería de Datos, y se describe el tipo de
datos en los que se puede aplicar este proceso. También se describen de forma
general los pasos a seguir en este proceso, considerándolos como se enlistan:
Definición de objetivos.
Organización de los datos.
Análisis exploratorio de los datos.
Especificación de los modelos Estadísticos.
Análisis de los datos.
Evaluación y comparación de los modelos.
Interpretación e implementación de los modelos.
2. Organización de los datos.
Se describen los tipos datos, tipo de bases de datos, las diversas fuentes de
información para cada tipo de bases de datos, distribución de frecuencias y
transformaciones posibles de los datos.
3. Análisis Exploratorio de los datos.
Comenzando con un análisis univariado y los tipos de mediciones para este,
luego, se continúa con la descripción de un análisis bivaraido, para luego describir
un análisis multivariado diferenciando entre tipos de datos.
175
4. Métodos computacionales para Minería de Datos.
Descripción de las medidas de distancia disponibles para Minería de datos, el
tipo de análisis de grupo, regresión lineal, tanto bivariada como múltiple, regresión
logística y enfatizando en la descripción de los modelos de redes neuronales y
modelos de árboles de clasificación.
5. Estadística en Minería de Datos.
Se describen los métodos y modelos estadísticos que pueden ser usados dentro
de un proceso de Minería de Datos, como lo son las medidas de incertidumbre e
inferencia, tal como probabilidad e inferencia, la modelación no paramétrica, los
modelos lineales no generalizados y los métodos disponibles para la comparación
de modelos.
6. Ejemplo y aplicaciones de Minería de Datos.
Se busca mostrar los tipos de problemas que se pueden abordar o solucionar
usando el proceso de Minería de Datos y se complementa con la descripción de uno
o más ejemplos con datos reales.
176
Anexo1
Resultados para el árbol de clasificación CART con impureza Gini.
Si Familia es igual a 0 Y Libro bancario es igual a 1 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0
N: 10 1: 10.0% 0: 90.0%
Si Familia es igual a 1 Y Libro bancario es igual a 1 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0
N: 4 1: 75.0% 0: 25.0%
Si Efectivos es igual a 0 Y Libro bancario es igual a 1 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 194 1: 24.7% 0: 75.3%
Si Familia es igual a 0 Y Edad es igual a 1 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1
N: 144 1: 2.8% 0: 97.2%
Si Deudas es igual a 0 Y Propósito es igual a 0 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1
N: 9 1: 22.2% 0: 77.8%
Si Edad es igual a 0 Y Propósito es igual a 1 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1
N: 19 1: 0.0% 0: 100%
Si Edad es igual a 1 Y Casa es igual a 0 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0
N: 10 1: 90% 0: 10.0%
Si Extranjero es igual a 0 Y Casa es igual a 1 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0
N: 1 1: 0.0 % 0: 100.0%
Si Extranjero es igual a 1 N: 28
177
Y Casa es igual a 1 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0
1: 92.9% 0: 7.1%
Si Interés mensual es igual a 0 Y Libro bancario es igual a 0 Y Fecha límite es igual a 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 119 1: 61.3% 0: 38.7%
Si Deudas es igual a 1 Y Efectivos es igual a 1 Y Fecha límite es igual a 1 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 30 1: 26.7% 0: 73.3%
Si Otros es igual a 0 Y Años trabajando es igual a 0 Y Edad es igual a 0 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1
N: 31 1: 21.6% 0: 77.4%
Si Otros es igual a 1 Y Años trabajando es igual a 0 Y Edad es igual a 0 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1
N: 1 1: 100.0% 0: 0.0%
Si Empleado es igual a 1 Y Años trabajando es igual a 1 Y Edad es igual a 0 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1
N: 107 1: 9.3% 0: 90.7%
Si Otros es igual a 0 Y Familia es igual a 1 Y Edad es igual a 1 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1
N: 34 1: 5.9% 0: 94.1%
Si Otros es igual a 1 Y Familia es igual a 1 Y Edad es igual a 1 Y Concurrente es igual a 0
N: 1 1: 100.0% 0: 0.0%
178
Y Buena cuenta es igual a 1
Si Otros es igual a 1 Y Deudas es igual a 1 Y Propósito es igual a 0 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1
N: 1 1: 0.0% 0: 100.0%
Si Residencia es igual a 0 Y Edad es igual a 1 Y Propósito es igual a 1 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1
N: 3% 1: 66.7% 0: 33.3%
Si Residencia es igual a 1 Y Edad es igual a 1 Y Propósito es igual a 1 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1
N: 16 1: 12.5% 0: 87.5%
Si Préstamo es igual a 0 Y Edad es igual a 0 Y Casa es igual a 0 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0
N: 12 1: 33.3% 0: 66.7%
Si Préstamo es igual a 1 Y Edad es igual a 0 Y Casa es igual a 0 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0
N: 8 1: 75.0% 0: 25.0%
Si Teléfono es igual a 0 Y Mala cuenta es igual a 0 Y Libro bancario es igual a 1 Y Fecha límite es igual a 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 15 1: 60.0% 0: 40.0%
Si Teléfono es igual a 1 Y Mala cuenta es igual a 0 Y Libro bancario es igual a 1 Y Fecha límite es igual a 0 Y Representante anterior es igual a 1
N: 10 1: 20.0% 0: 80.0%
179
Y Buena cuenta es igual a 0
Si Otros es igual a 0 Y Mala cuenta es igual a 1 Y Libro bancario es igual a 1 Y Fecha límite es igual 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 26 1: 11.5% 0: 88.5%
Si Otros es igual a 1 Y Mala cuenta es igual a 1 Y Libro bancario es igual a 1 Y Fecha límite es igual 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 1 1: 100.0% 0: 0.0%
Si Préstamo es igual a 0 Y Interés mensual es igual a 1 Y Libro bancario es igual a 0 Y Fecha límite es igual 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 61 1: 41.0% 0: 59.0%
Si Préstamo es igual a 1 Y Interés mensual es igual a 1 Y Libro bancario es igual a 0 Y Fecha límite es igual 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 6 1: 83.3% 0: 16.7%
Si Préstamo es igual a 1 Y Deudas es igual a 0 Y Efectivos es igual a 1 Y Fecha límite es igual 1 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 42 1: 52.4% 0:47.6%
Si Préstamo es igual a 0 Y Deudas es igual a 0 Y Efectivos es igual a 1 Y Fecha límite es igual 1 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 29 1: 31.0% 0: 69.0%
Si Libro bancario es igual a 0 Y Empleado es igual a 0
N: 11 1: 18.2%
180
Y Años trabajando es igual a 1 Y Edad es igual 0 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1
0: 81.8%
Si Libro bancario es igual a 1 Y Empleado es igual a 0 Y Años trabajando es igual a 1 Y Edad es igual 0 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1
N: 4 1: 75.0% 0: 25.0%
Si Empleado es igual a 1 Y Otros es igual a 0 Y Deudas es igual a 1 Y Propósito es igual a 0 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1
N: 11 1: 81.8 % 0: 18.2%
Si Empleado es igual a 0 Y Otros es igual a 0 Y Deudas es igual a 1 Y Propósito es igual 0 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1
N: 1 1: 0.0 % 0: 100.0%
181
Anexo2
Resultados del árbol de clasificación CART con impureza de entropía.
Si Familia es igual a 0 Y Libro bancario es igual a 1 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0
N: 10 1: 10.0% 0: 90.0%
Si Familia es igual a 1 Y Libro bancario es igual a 1 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0
N: 4 1: 75.0% 0: 25.0%
Si Efectivos es igual a 0 Y Libro bancario es igual a 1 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 194 1: 24.7% 0: 75.3%
Si Familia es igual a 0 Y Edad es igual a 1 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1
N: 144 1: 2.8% 0: 97.2%
Si Deudas es igual a 0 Y Propósito es igual a 0 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1
N: 9 1: 22.2% 0: 77.8%
Si Edad es igual a 0 Y Propósito es igual a 1 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1
N: 19 1: 0.0% 0: 100%
Si Edad es igual a 1 Y Casa es igual a 0 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0
N: 10 1: 90% 0: 10.0%
Si Concurrente es igual a 0 Y Casa es igual a 1 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0
N: 18 1: 100.0 % 0: 0.0%
182
Y Buena cuenta es igual a 0
Si Deudas es igual a 1 Y Efectivos igual a 1 Y Fecha límite es igual a 1 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 30 1: 26.7% 0: 73.3%
Si Otros es igual a 0 Y Años trabajando es igual a 0 Y Edad es igual a 0 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1
N: 31 1: 22.6% 0: 77.4%
Si Otras es igual a 1 Y Años trabajando es igual a 0 Y Edad es igual a 0 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1
N: 2 1: 100.0% 0: 0.0%
Si Empleado es igual a 1 Y Años trabajando es igual a 1 Y Edad es igual a 0 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1
N: 107 1: 9.3% 0: 90.7%
Si Otros es igual a 0 Y Familia es igual a 1 Y Edad es igual a 1 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1
N: 34 1: 5.9% 0: 94.1%
Si Otros es igual a 1 Y Familia es igual a 1 Y Edad es igual a 1 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1
N: 1 1: 100.0% 0: 0.0%
Si Residencia es igual a 1 Y Deudas es igual a 1 Y Propósito es igual a 0 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1
N: 3 1: 100.0% 0: 0.0%
Si Residencia es igual a 0 Y Edad es igual a 1
N: 3 1: 66.7%
183
Y Propósito es igual a 1 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1
0: 33.3%
Si Residencia es igual a 1 Y Edad es igual a 1 Y Propósito es igual a 1 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1
N: 16 1: 12.5% 0: 87.5%
Si Préstamo es igual a 0 Y Edad es igual a 0 Y Casa es igual a 0 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0
N: 12 1: 33.3% 0: 66.7%
Si Préstamo es igual a 1 Y Edad es igual a 0 Y Casa es igual a 0 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0
N: 8 1: 75.0% 0: 25.0%
Si Años de trabajo es igual a 0 Y Concurrente es igual a 1 Y Casa es igual a 1 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0
N: 2 1: 0.0% 0: 100.0%
Si Años de trabajando es igual a 1 Y Concurrente es igual a 1 Y Casa es igual a 1 Y Libro bancario es igual a 0 Y Representante anterior es igual a 0 Y Buena cuenta es igual a 0
N: 9 1: 88.9% 0: 11.1%
Si Teléfono es igual a 0 Y Mala cuenta es igual a 0 Y Libro bancario es igual a 1 Y Fecha límite es igual a 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 15 1: 60.0% 0: 40.0%
Si Teléfono es igual a 1 N: 10
184
Y Mala cuenta es igual a 0 Y Libro bancario es igual a 1 Y Fecha límite es igual a 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
1: 20.0% 0: 80.0%
Si Otros es igual a 0 Y Mala cuenta es igual a 1 Y Libro bancario es igual a 1 Y Fecha límite es igual 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 26 1: 11.5% 0: 88.5%
Si Otros es igual a 1 Y Mala cuenta es igual a 1 Y Libro bancario es igual a 1 Y Fecha límite es igual 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 1 1: 100.0% 0: 0.0%
Si Interés mensual igual a 0 Y Préstamo es igual a 0 Y Libro bancario es igual a 0 Y Fecha límite es igual 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 82 1: 58.5% 0: 41.5%
Si interés mensual es igual a 1 Y Préstamo es igual a 0 Y Libro bancario es igual a 0 Y Fecha límite es igual 0 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 61 1: 41.0% 0: 59.0%
Si Préstamo es igual a 1 Y Deudas es igual a 0 Y Efectivos es igual a 1 Y Fecha límite es igual 1 Y Representante anterior es igual a 1 Y Buena cuenta es igual a 0
N: 42 1: 52.4% 0:47.6%
Si Préstamo es igual a 0 Y Deudas es igual a 0 Y Efectivos es igual a 1 Y Fecha límite es igual 1 Y Representante anterior es igual a 1
N: 29 1: 31.0% 0: 69.0%
185
Y Buena cuenta es igual a 0
Si Libro bancario es igual a 0 Y Empleado es igual a 0 Y Años trabajando es igual a 1 Y Edad es igual 0 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1
N: 11 1: 18.2% 0: 81.8%
Si Libro bancario es igual a 1 Y Empleado es igual a 0 Y Años trabajando es igual a 1 Y Edad es igual 0 Y Concurrente es igual a 0 Y Buena cuenta es igual a 1
N: 4 1: 75.0% 0: 25.0%
Si Libro bancario es igual a 0 Y Residencia es igual a 0 Y Deudas es igual a 1 Y Propósito es igual a 0 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1
N: 8 1: 75.0% 0: 25.0%
Si Libro bancario es igual a 1 Y Residencia es igual a 0 Y Deudas es igual a 1 Y Propósito es igual 0 Y Concurrente es igual a 1 Y Buena cuenta es igual a 1
N: 2 1: 0.0 % 0: 100.0%
186
Bibliografía
Agresti, A. (1990) Categorical Data Analysis. John Wiley & Sons, Inc., New York.
Berry, M. and Linoff, G. (1997) Data Mining Techniques for Marketing, Sale, and
Customer Support. Jhon Wiley & Sons, Inc., New York.
Bishop, C. (1995) Neuronal Networks for Pattern Recognition. Clarendon Press,
Oxford.
Fahrmeir, L. and Hamerle, A. (1994) Multivariate Statistical Modelling Based on
Generalised Linear Models. Spring- Verlag, Berlin.
Giudici, P. (2003) Applied Data Minig: Statistical Methods for Business and Industry.
Jhon Wiley & Sons, Inc., Italy.
Giudici, P. and Figini, S. (2009) Applied Data Mining for Business and Industry. Jhon
Wiley & Sons, Inc., Italy.
Goodman, L. A. and Kruskal, W. H. (1979) Measures of Association for Cross
Classification. Springer- Verlag, New York.
Hand, D. J. and Henley, W. E. (1997) Statistical clasification method in consumer
scoring: a review. Journal of the Royal Statistical Society, Series A 160, 523-541.
Immon, W. H. (1996) Building the Data Warehouse. Jhon Wiley & Sons, Inc., New
York.
Kolmogorov, A. N. (1933) Sulla determinazioneempirica di una leggi di probabilita.
Guirnale dell’ Instituto Italiano degli Attuari 4, 83-91.
SAS Institute (2001) SAS Enterprise Miner Reference Manual. SAS Institute Inc.,
Cary NC.