Upload
vsuarezf2732
View
10
Download
0
Embed Size (px)
DESCRIPTION
Analisis Preliminar Datos
Citation preview
EL ANLISIS PRELIMINAR
DE LOS DATOS
TEMA II
Modelos Multivariantes 2
Captulo 2: Preparacin del Archivo de datos. En Rial, A. y Varela, J. (2008).
Estadstica Prctica para la Investigacin en Ciencias de la Salud. Corua: Netbiblo.
Pginas 17-28.
Captulo 3: Anlisis de datos para una sola variable. En Rial, A. y Varela, J. (2008).
Estadstica Prctica para la Investigacin en Ciencias de la Salud. Corua: Netbiblo.
Pginas 31-57.
Captulo 4: Inferencia estadstica. Estimacin de parmetros y contrates de hiptesis.
En Rial, A. y Varela, J. (2008). Estadstica Prctica para la Investigacin en Ciencias de
la Salud. Corua: Netbiblo. Pginas 59-96.
LECTURA OBLIGATORIA
Modelos Multivariantes 3
Preparar el archivo de datos: depurar errores e incoherencias
Resolver el problema de la falta de respuesta: tamao de la muestra (potencia de los contrastes) y sesgo de los resultados (no se distribuyen al azar)
Problema I: los datos no son buenos
Tratar los casos anmalos: eleccin de los estadsticos adecuados
Comprobacin de supuestos paramtricos: pruebas paramtricas vs. no paramtricas, eleccin de la tcnica multivariante concreta
Problema II: las herramientas no son las adecuadas
Resumir la informacin que contienen los datos, informar de las tendencias, realciones entre variables, etc.
Razones por las que examinar los datos
Modelos Multivariantes 4
Errores de grabacin e incoherencias
La Depuracin de los Datos
Valores fuera de rango (no admisibles):
Tablas de Frecuencias para todas las variables
Incoherencias entre respuestas (preguntas filtro):
Tablas de Contingencia para pares de variables
Cmo corregir los errores?
Buscar los valores errneos en la matriz de datos (variable por variable) e ir subsanndolos
Modelos Multivariantes 5
Se trata de estimar el Porcentaje de Error (PE) que contiene nuestra matriz de datos. Seleccionamos una submuestra de cuestionarios y comprobamos cuntos errores hay.
Seleccionar una submuestra aleatoria (entre el 10 y el 20%)
Contar el nmero de datos errneos
Hacer una Regla de Tres para estimar cuntos habr en toda la matriz
Aplicar la frmula del PE [Errores / (casos x variables)] x 100
El resultado debe ser inferior al 0.05%
Muestreo de Errores
Modelos Multivariantes 6
Los valores ausentes o casos
MISSING RIESGOS:
1. LA CAPACIDAD DE GENERALIZACIN DE LOS RESULTADOS (lo que en principio era una muestra adecuada se convierte en inadecuada y no
representativa)
2. La reduccin excesiva del tamao de la muestra condiciona las estimaciones (AMPLIANDO LOS INTERVALOS DE CONFIANZA) y las
comparaciones (REDUCIENDO AL SIGNIFICACIN ESTADSTICA)
3. LOS RECHAZOS. Son iguales los que responden a una encuesta que los que no responden?. Los missing siguen algn patrn?, de quin estamos realmente informando?(POSIBLE SESGO EN LOS TRESULTADOS)
LO MAS IMPORTANTE ES PREGUNTARSE POR LAS RAZONES
DE LA NO RESPUESTA
Modelos Multivariantes 7
Varias estrategias: Comprobar si los distintos segmentos presentan un
porcentaje similar de falta de repuesta (Sexo, Provincia,
Grupos de Edad, ...) 2
Estudiar posibles patrones
Identificar variables relacionadas y comprobar que los
que responden y los missing se comportan igual, que no
existen diferencias estadsticamente significativas entre
ambos grupos.
Se distribuyen al azar?
Modelos Multivariantes 8
Media de la serie
Media de los puntos adyacentes
Mediana de los puntos adyacentes
Interpolacin lineal
Tendencia lineal en el punto
Media de Subclases (Kalton)
Fichero Caliente (Hot Deck)
Regresin lineal
Esperanza Maximizacin (EM)
Sustituirlos o imputarlos?
SUSTITUCIN
IMPUTACIN
Modelos Multivariantes 9
Valores que caen fuera del rango normal de los datos
CRITERIO: distancia respecto al cuerpo central de la distribucin
(50% de los casos, los que estn entre el P75 y el P25)
Cuntas veces el valor del IQR (Recorrido Intercuartlico)
OUTLIERS.................... 1.5 IQR 3 IQR
EXTREMOS...................... 3 IQR
Los valores ANMALOS o atpicos
Modelos Multivariantes 10
3 Ejemplos:
A NIVEL UNIVARIADO: Gasto promedio fin de semana
A NIVEL BIVARIADO: Contraste de hiptesis para dos
medias. Ingresos deportistas profesionales
A NIVEL MULTIVARIADO: Empobrecimiento del ajuste en el
anlisis de regresin lineal
Implicaciones de los casos anmalos
Modelos Multivariantes 11
SOLUCIONES:
Acudir a estadsticos distintos de los habituales y
RESISTENTES (Mediana, Media reducida, M-estimadores: Andrews, Huber, Tukey, Hampel)
Utilizar Contrastes no paramtricos: Mann-Withney, Prueba
de la Mediana, Kruskal-Wallis
Detectarlos, eliminarlos de la muestra y repetir el anlisis
(deben ser pocos y poco influyentes), recurrir a un
procedimiento de Remuestreo (Bootstrapping) o a
procedimientos de estimacin robustos.
Implicaciones de los casos anmalos
Modelos Multivariantes 12
A nivel univariante: Numricamente (IQR)
Grficos de Caja (BOXPLOT)
Grficos de Tallo y Hojas
A nivel bivariado: Grficos de Dispersin
A nivel multivariado: Residuos (tipificados, studentizados, etc.)
Distancia de Mahalanobis
Distancia de Cook
Cmo detectarlos?
Modelos Multivariantes 13
20N =
INGRESOS
600000
500000
400000
300000
200000
100000
0
9
10
El BOXPLOT
Modelos Multivariantes 14
MUCHA INFORMACIN:
Extremos y outliers
Percentiles 75 y 25
IQR
Mediana
Asimetra
Comparar la distribucin de 2 o ms variables
Comparar la distribucin de 2 o ms grupos en una misma variable
BOXPLOT
Modelos Multivariantes 15
2020N =
GASTOSINGRESOS
600000
500000
400000
300000
200000
100000
0
-100000
2
19
10
9
10
Comparar la distribucin de dos o ms variables
Modelos Multivariantes 16
1010N =
SEXO
MUJERHOMBRE
ING
RE
SO
S
600000
500000
400000
300000
200000
100000
0
10
Comparar la distribucin de dos o ms grupos
Modelos Multivariantes 17
Para elegir la prueba estadstica adecuada en cada caso
Optar por Pruebas Paramtricas No Paramtricas
Garantizar la Estabilidad del modelo
Ejemplos: t de Student Mann-Withney
Anova Kruskal-Wallis
Discriminante o Regresin Logstica
La comprobacin de supuestos
Modelos Multivariantes 18
NORMALIDAD, que la VD se distribuya normalmente
ALEATORIEDAD o Independencia de las medidas: que los sujetos hayan sido seleccionados al azar (ANOVA)
HOMOCEDASTICIDAD u Homogeneidad de varianzas: que los distintos grupos posean una variabilidad similar
LINEALIDAD: Relacin lineal entre las variables analizadas
OTROS: ausencia colinealidad, normalidad de los residuos
Cules son esos SUPUESTOS?
Modelos Multivariantes 19
NORMALIDAD: Prueba K-S con correccin de Lilliefors
(muestras pequeas: Shapiro-Wilk)
ALEATORIEDAD: Prueba de las Rachas
HOMOCEDASTICIDAD: Prueba de Levene
Se parte siempre de que se cumplen los supuestos salvo que las
pruebas sean significativas (p< 0.05)
LINEALIDAD: Grfico de dispersin y/o correlacin
Cmo se comprueban?
Modelos Multivariantes 20
2 ALTERNATIVAS:
TRANSFORMAR LA VARIABLE
Posibles transformaciones
Asimetra Positiva FUERTE: -1/X3, -1/X
SUAVE: log X X
Asimetra Negativa FUERTE: antilog X
SUAVE: X2 X3
Recurrir a una prueba no paramtrica o a tcnicas multivariantes ms robustas
Y... si no es NORMAL