Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
1
Tema III. Las alternativas no paramétricas
3.1. Características de la estrategia paramétrica:- Asunciones del modelo (depende de cada test):
. Muestreo aleatorio
. Distribución Normal del estadístico en la población (matizable):. Transformación de datos. Robustez de los métodos
. Varianzas iguales, etc.
. Se tiene que conocer la distribución muestral (difícil en nuevos estadísticos)
Población
Transformación de datos
UNIVERSIDAD DE VIGO
2
Tema III. Las alternativas no paramétricas
3.1. Características de la estrategia paramétrica:- Ventajas:
. Máxima potencia (eficacia) estadística si se cumplen las asunciones
. Rapidez y facilidad de aplicación del test
. Disponibilidad en software- Necesidad de alternativas estadísticas
UNIVERSIDAD DE VIGO
3
Tema III. Las alternativas no paramétricas
3.2. Alternativas No paramétricas:- Ausencia de distribución Normal:
. Conversión a rangos y estadística paramétrica
. Uso de test de rangos:. Wilcoxon-Mann-Whitney (U). Para test t. Test de signos, Wilcoxon signed. Otros
- Desconocimiento de distribución muestral:. Métodos Jack-Knife y Monte-Carlo
- Ausencia de muestreo aleatorio:. Aleatorización
UNIVERSIDAD DE VIGO
5
Tema III. Las alternativas no paramétricas
3.4. Los Test de Rangos:- Wilcoxon-Mann-Whitney (U):
. Dos muestras independientes
. Parecido al anterior, pero tablas generadas por aleatorización
. El problema de las repeticiones
. Para tamaños de muestra pequeños
Porcentage de HDL en sangre
Muestra 1: 107 110 111 112 113 114(2) 116 117 120Muestra 2: 105 106 107(2) 108 110(2), 111(3)RANGO: 1 2 3-5 6 7-9 10-13 14 15 16-17 18 19 20Rango: 1 2 4 6 8 11.5 14 15 16.5 18 19 20
Porcentage de HDL en sangre
Muestra1: SUMA1 = 142,5 Muestra2: SUMA2 = 67,5U = Suma1 –Suma2 = 75 (Mann-Whitney)O bien uso de Sumas (Wilcoxon)
N = 20 (10, 10)
p asociada a H0 = 0.0019 (de una cola)p asociada a H0 = 0.0038 (de dos colas)
UNIVERSIDAD DE VIGO
6
Tema III. Las alternativas no paramétricas
3.4. Los Test de Rangos:- Test del signo:
. Muestras emparejadas
. Comparación por pareja (+ si es >; - si es igual o menor)
. Los ceros se excluyen del análisis
Porcentage de HDL en sangre
Muestra 1 (10 enfermos): 120, 107, 110, 116, 114, 111, 113, 117, 114, 112Muestra 2 (los mismos sanos): 110, 111, 107, 108, 110, 105, 107, 106, 111, 111Diferencia: +, -, +, +, +, +, +, +, +, +1 (-) de 10 posibles, evaluar las probabilidad de (0 + 1)
p(1) = 0.011
p(una cola) = 0.011p(dos colas) = 0.022
se rechaza H0
se puede calcular teóricamente:
10 10p(una cola) = 1 + 0 x (½)10 = 0.011
UNIVERSIDAD DE VIGO
7
Tema III. Las alternativas no paramétricas
3.4. Los Test de Rangos:- Test Wilcoxon-signed:
. Muestras emparejadas
. Comparación por pareja (se evalúan los rangos de las diferencias)
. Los ceros también se excluyen del análisis- Otros:
- Kendal Tau (cuando veamos correlación)- Kruskas-Wallis (cuando veamos ANOVA)
Porcentage de HDL en sangre
Muestra 1: 120, 107, 110, 116, 114, 111, 113, 117, 114, 112Muestra 2: 110, 111, 107, 108, 110, 105, 107, 106, 111, 111Diferencia: 10, -4, 3, 8, 4, 6, 6, 11, 3, 1Rango(signo): 9, -4,5, 2,5, 8, 4,5, 6,5, 6,6, 10, 2,5, 1T-
(suma -) = 4,5Total = N x (N+1) / 2 = 55; T+
(suma+) = Total – T- = 50,5
p(T+) = p(una cola) = 0,0098
p(dos colas) = 0,0196
se rechaza H0
UNIVERSIDAD DE VIGO
8
Tema III. Las alternativas no paramétricas
Navaja multiusos
3.5. El método Jacknife:- Cuando no se conoce distribución muestral (poco utilizado)- Es un método mixto entre el remuestreo empírico y el paramétrico- Puede hacerse a mano (con N bajo)- Procedimiento:
. Se estima el estadístico retirando cada vez un dato (Xi)
. Se estiman los valores jacknife X*i = nX – (n-1)Xi
. Se usan los X*i para estimar la varianza muestral
. Se aplica la inferencia paramétrica (test t)
Porcentage de HDL en sangre
Muestra1: 120, 107, 110, 116, 114, 111, 113, 117, 114, 112
X = 113,4 s2 = 13,82
X1(120) = 112,67X2(107) = 114,11X3(110) = 113,78X4(116) = 113,11X5(114) = 113,33X6(111) = 113,67X7(113) = 113,44X8(117) = 113,00X9(114) = 113,33X10(112) = 113,56
Obtención de Xi
X*1(120) = (10 x 113,4) – (9 x 112,67) = 120X*2(107) = 107,1X*3(110) = 110X*4(116) = 116X*5(114) = 114X*6(111) = 111X*7(113) = 113X*8(117) = 117X*9(114) = 114X*10(112) = 112
Obtención de X*i
IC 95%
Media ± tgl x SD/√10
113,4 ± 2,66
X* = 113,4s2* = 13,82sd* = 3,72
Estimadores jacknife
UNIVERSIDAD DE VIGO
9
Tema III. Las alternativas no paramétricas
3.6. El método Monte Carlo:- La llegada de los ordenadores en estadística (70-80):
. Uso de software sofisticado
. Utilización de simulaciones complejas
. Desarrollo de nuevos métodos estadísticos- La necesidad del remuestreo en los juegos de azar:
. Métodos Monte-Carlo (no lo veremos)
. Bootstrapping
UNIVERSIDAD DE VIGO
10
Tema III. Las alternativas no paramétricas
3.6. El método Monte Carlo:- La estimación por Bootstrap:
. Clave para nuevos estimadores (ejemplo sala de hospital):. Hay que obtener las fórmulas para s2 muestral (si es posible). Utilizar métodos bootstrap para obtener s2*
Jefa de planta: se plantea un índice para evaluar el grado de apiñamiento en un servicio
Usa la información: Evalúa uso de planta. Nº de enfermos benignos (B) 1. Nº de enfermos graves (G) 2. Nº crónicos/reincidentes (C) 3. Nº de plazas totales disponibles (T)
(B + 2G + 3C)Índice =
T
UNIVERSIDAD DE VIGO
11
Tema III. Las alternativas no paramétricas
3.6. El método Monte Carlo:- La estimación por Bootstrap:
. Utilizaremos el ejemplo de la muestra 1 de HDL
. El método:. Se asume que la muestra = población. Se remuestrea la población (se obtiene cada vez el estimador). Se usa la distribución muestral bootstrap en inferencia
Porcentage de HDL en sangre
Muestra 2: 110, 111, 107, 108, 110, 105, 107, 106, 111, 111
Distribución de la población:
VALOR Freq. Acum. Interv.
105 1 0,1 0 - 0,099106 1 0,2 0,1 - 0,199107 2 0,4 0,2 - 0,399108 1 0,5 0,4 - 0,499 110 2 0,7 0,5 - 0,699111 3 1 0,7 - 1
En el ordenador:
1.- Se obtiene un nº aleatorio (0-1)2.- Se adjudica a una clase de interv.3.- Se extrae una muestra de ese valor4.- Se repite el proceso hasta completar muestra5.- Se calcula el estimador en la muestra
se repite 1000-100.000 para obtener distribución
X* = 108,61p (<= 0) = 0,0002
s2* = 5,22
UNIVERSIDAD DE VIGO
12
Tema III. Las alternativas no paramétricas
3.6. El método Monte Carlo:- La estimación por Bootstrap:
. La distribución bootstrap se puede utilizar como la t o z:. Pero hace falta calcular los IC ó las probabilidades
. Inconvenientes:. Hace falta programar para obtenerla. Puede requerir cierto tiempo de computación (raro). Tiene menos potencia estadística que el método paramétrico
Muestra = Población Distribución bootstrap del estimador (mediana)
UNIVERSIDAD DE VIGO
13
Tema III. Las alternativas no paramétricas
3.7. El método de aleatorización:- Se utiliza para hacer test estadísticos (nunca para estimación)- En casos en los que otras alternativas no son posibles:
. Ausencia de muestreo aleatorio
. Ausencia de independencia de dos variables (test de mantel)- El método:
. Se plantea H0 (la media de dos grupos es idéntica; D = 0)
. Se aleatorizan los datos para cumplir H0. El proceso se repite miles de veces
. Se obtiene el estadístico de interés y su distribución bajo H0
. Se evalúa la probabilidad del valor observado
Se plantea H0
Diferencia entre grupos
se repite 1000-100.000 veces
UNIVERSIDAD DE VIGO
14
Tema III. Las alternativas no paramétricas
3.7. El método de aleatorización:- Ejemplo de las diferencias en HDl sanos/enfermos:
. Imaginemos datos sucios (mal muestreados)
Porcentage de HDL en sangre
Muestra 1: 120, 107, 110, 116, 114, 111, 113, 117, 114, 112Muestra 2: 110, 111, 107, 108, 110, 105, 107, 106, 111, 111Diferencia: 10, -4, 3, 8, 4, 6, 6, 11, 3, 1
Media (μ) 4,8Varianza (σ2) 19,73Desviación típica (σ) 4,44
M1
M2
4,8
Se obtiene la distribución de la Dbajo H0, de forma que es posible estimarp del valor observado (4,8) = 0.0018
Se rechaza H0
UNIVERSIDAD DE VIGO
15
Referencias Bibliográficas
Sokal,R.R., Rohlf, F.J. 1995. Biometry. Freeman and co., New York
LIBROS:
PÁGINAS WEB:
http://www.resample.com/content/text/index.shtml(un curso sobre los métodos Monte Carlo)
http://www.randomizer.org/form.htm(Programna para aleatorizar series de números on line)
http://www-users.york.ac.uk/~mb55/guide/randsery.htm(Página que informa de software disponible para aleatorizar datos)
Noreen, E.W. 1989. Computer Intensive methods for testinghypothesis: an introduction. Wiley & Sons, Canada.
Siegel, S., Castellan, N.J.1988. Nonparametric Statistics. McGrawHill, New York
UNIVERSIDAD DE VIGO