Upload
antonietta-marcelino
View
216
Download
0
Embed Size (px)
Citation preview
Análisis de Varianza (I)Análisis de Varianza (I)
2
ContenidoContenido
El modelo linear de clasificación y el análisis de El modelo linear de clasificación y el análisis de varianzavarianza
Cuándo se usa el ANDEVA y qué datos debemos Cuándo se usa el ANDEVA y qué datos debemos tener para poder realizarlo.tener para poder realizarlo.
Suposiciones básicas para realizar el ANDEVASuposiciones básicas para realizar el ANDEVA
Cálculos y presentación del ANDEVACálculos y presentación del ANDEVA
Modelos de clasificación y análisis de varianzaModelos de clasificación y análisis de varianza
3
ObjetivosObjetivos
Describir el concepto de modelo lineal de Describir el concepto de modelo lineal de clasificación, sus alcances y limitaciones.clasificación, sus alcances y limitaciones.
Describir las técnicas de partición de la suma de Describir las técnicas de partición de la suma de Cuadrados para el cálculo del análisis de varianza.Cuadrados para el cálculo del análisis de varianza.
Describir los modelos de clasificación que se usan Describir los modelos de clasificación que se usan comúnmente en investigación, y los comúnmente en investigación, y los procedimientos de análisis de varianza.procedimientos de análisis de varianza.
4
IntroducciónIntroducción
El análisis de varianza es un procedimiento El análisis de varianza es un procedimiento para comparar medias de varias poblaciones. Su para comparar medias de varias poblaciones. Su nombre se deriva del hecho de que para comparar nombre se deriva del hecho de que para comparar las medias, se evalúan y analizan las varianzas. las medias, se evalúan y analizan las varianzas.
La varianza total (sLa varianza total (s22) de una muestra que está ) de una muestra que está dividida en diferentes grupos, puede a su vez, dividida en diferentes grupos, puede a su vez, dividirse (particionarse) para estimar la varianza dividirse (particionarse) para estimar la varianza entre grupos y la varianza dentro de grupos.entre grupos y la varianza dentro de grupos.
5
IntroducciónIntroducción
Como en el caso de la regresión lineal simple y Como en el caso de la regresión lineal simple y múltiple, para realizar un análisis de varianza es múltiple, para realizar un análisis de varianza es conveniente plantear el modelo de clasificación que conveniente plantear el modelo de clasificación que se supone cierto en los datos que se van a analizarse supone cierto en los datos que se van a analizar. .
Por ejemplo, si se tiene un experimento Por ejemplo, si se tiene un experimento con un solo tipo de tratamientos, el modelo de con un solo tipo de tratamientos, el modelo de clasificación será: clasificación será:
ijiij ετμY
Más adelante se explicará con detalle que significa cada Más adelante se explicará con detalle que significa cada término del modelo. término del modelo.
6
IntroducciónIntroducción
Los modelos lineales pueden clasificarse en dos Los modelos lineales pueden clasificarse en dos tipos: tipos:
A. Modelos lineales de A. Modelos lineales de regresión regresión
B. Modelos lineales de B. Modelos lineales de clasificaciónclasificación..
El modelo lineal de clasificación es un modelo El modelo lineal de clasificación es un modelo estadístico que sirve para analizar datos procedentes estadístico que sirve para analizar datos procedentes de diferentes poblaciones, o afectados por diferentes de diferentes poblaciones, o afectados por diferentes factores o tratamientosfactores o tratamientos
ii10i εXββY i
3i3
2i2i10i XXXY
ii44i33i22i110i XXXXY
ijiij ετμY ijjiij εbτμY
7
Modelo lineal de clasificaciónModelo lineal de clasificación
El proceso para formular un modelo linear simple de clasificación consiste en extraer muestras de diferentes poblaciones, de las
cuales se quieren comparar las medias (i).
POBLACIONES
POBLACION 1
1
POBLACION 2
POBLACION 3
POBLACION t
t
MUESTRA 1 MUESTRA 2 MUESTRA 3 MUESTRA t
n1 1Y 21s n2 2Y 2
2s n3 3Y 23s nt tY 2
ts
ijijY
MUESTRAS
Estadísticos Muestrales
Modelo de clasificación lineal simple
8
Modelo lineal de clasificaciónModelo lineal de clasificación
Cuando los efectos de los tratamientos y el error experimental son lineales y aditivos, el experimento puede representarse por el modelo estadístico llamado modelo de clasificación lineal aditivo:
Yij= + τi + εij , i=1,2,...,t; j=1,2,....,ni.
donde: Yij representa la variable de interés en el experimento,
siendo el subíndice i el que indica el tratamiento y el subíndice j el que indica la repetición para el i-ésimo tratamiento.
representa la media general (para toda la población) de la
variable Yij; τi representa el efecto del tratamiento i-ésimo, el cual
es: τi = mi-m.
εεijij representa el error o desviación experimental de la
observación hecha en el tratamiento i-ésimo y la repetición j-ésima,
el cual es: εij = Yij - - τi
9
Modelo lineal de Modelo lineal de clasificaciónclasificación
Los datos que generan este modelo se pueden ver en forma manual o de computadora. El siguiente cuadro muestra los datos en forma
manual:Rep. Trat 1 Trat 2 . Trat t Subtotal
1 Y11 Y21 . Yt1 Y.1
2 Y12 Y22 . Yt2. Y.2
. .
. .
r Y1r1 Y2r2 . Ytr3 Y.r
Subtotal Y1. Y2. . Yt. Total = Y..
Nota: ri = n0
10
Modelo lineal de clasificaciónModelo lineal de clasificación
Este cuadro muestra los datos en la computadora para analizar el modelo propuesto
ObservaciónObservación Tratamiento (Tratamiento (ττ)) YYijij
11 AA 2525
22 AA 2727
33 AA 2323
44 AA 2424
55 BB 3232
66 BB 3535
77 BB 3030
88 BB 2929
99 CC 3737
11
Estimación de parámetros del modelo Estimación de parámetros del modelo lineal de clasificaciónlineal de clasificación
Los parámetros del modelo son: , τi y e2
(Varianza del Error).
Estimador de : : Media de todos los datos. _
Estimador de τi: , donde Yi =(j Yij )/ni
es la media del tratamiento i-ésimo.
Estimador de e
2: o
Y
)YY( i
2
IIJ
IJ)YY(
0
i j
2ij
i i
2.i
0
i j
2ijt
i
r
j
2ij
2
n
)y(
r
Y
n
)y(yˆ
Donde es la suma de las repeticiones del tratamiento i elevada al cuadrado. Y n0 denota
el total de observaciones.
2.iY
12
Estimación de parámetros del modelo Estimación de parámetros del modelo lineal de clasificaciónlineal de clasificación
Debido a que los términos del modelo son independientes entre sí, se puede establecer la siguiente relación:
la cual se puede describir como:
Suma de Cuadrados Total= Suma de Cuadrados de Tratamientos + Suma de Cuadrados del Error.
2i
ijIj
2i
ii
2
ijij )Y(Y)YY(r)Y(Y
13
Análisis de varianza de modelo Análisis de varianza de modelo de clasificación simplede clasificación simple
FuenteFuente g. l.g. l. SumaSumaCuadradosCuadrados
CuadradoCuadradoMedioMedio
FFcc
TRATAM.TRATAM. t – 1t – 1 SC Trat / (t-1)SC Trat / (t-1)
ERRORERROR t(r – 1)t(r – 1)SC Error =SC Error =
SC Total –SC TratSC Total –SC Trat..
TOTALTOTAL tr – 1tr – 1
n
Y
r
Y 2..
i
2i.
0
2..
ij
2ij n
YY
tr
ErrorSCs
ii
2ε
CMError
CMTrat
iijiij r,...1j;t,...,1i;Y
Modelo para datos con un solo factor de clasificación:
14
EjemploEjemplo
Se cuenta con una muestra de 6 observaciones, clasificadas Se cuenta con una muestra de 6 observaciones, clasificadas en dos grupos.en dos grupos.
Grupo 1 Grupo 2
Observación 1Observación 2 Observación 3
231
675
MediaSuma de Cuadrados
(SC)
2
2
6
2
Media GeneralSuma de Cuadrados
Total
4
28
15
Ejemplo (cont.)Ejemplo (cont.)
Suma de Cuadrados Total:Suma de Cuadrados Total:
(2(22 2 + 3+ 32 2 + .......+ 5+ .......+ 522) – {(24)) – {(24)22/6} = 28/6} = 28
Suma de Cuadrados de Tratamientos:Suma de Cuadrados de Tratamientos:
SC Trat = (6SC Trat = (622 + 18 + 1822 )/3 - {(24) )/3 - {(24)22/6} = 24/6} = 24
Suma de Cuadrados del Error:Suma de Cuadrados del Error:
SC Error= SC Total – SC Trat = 28-24 = 4SC Error= SC Total – SC Trat = 28-24 = 4
16
Ejemplo (cont)Ejemplo (cont)
La partición de la Suma de Cuadrados de toda la La partición de la Suma de Cuadrados de toda la muestra en: “Entre Grupos” y “Dentro de Grupos” muestra en: “Entre Grupos” y “Dentro de Grupos” produce el siguiente cuadro:produce el siguiente cuadro:
Fuente
Efecto Principal
SC g.l. CM F p
Entre Grupos 24.0 1 24.0 24.0 .008
Dentro de Grupos (Error) 4.0 4 1.0
Total 28 5
17
Ilustración gráfica del Ilustración gráfica del ANDEVAANDEVA
La media del grupo 2 es más grande que la media del grupo La media del grupo 2 es más grande que la media del grupo 1. ¿Es esta diferencia debida al azar?1. ¿Es esta diferencia debida al azar?
0
1
2
3
4
5
6
7
Obs. 1 Obs. 2 Obs. 3
Grupo 1
Grupo 2
Media Grupo 2 Media General
Media Grupo 1
18
Las diferencias entre cada observación y la media general van a Las diferencias entre cada observación y la media general van a contribuir a la varianza de la muestra. contribuir a la varianza de la muestra.
Las diferencias entre las medias de los grupos y la media general Las diferencias entre las medias de los grupos y la media general van a contribuir a la varianza entre grupos. van a contribuir a la varianza entre grupos.
Las diferencias entre cada observación y la media de su grupo Las diferencias entre cada observación y la media de su grupo van a contribuir a la varianza dentro de grupos (llamada Varianza van a contribuir a la varianza dentro de grupos (llamada Varianza del Error).del Error).
0
1
2
3
4
5
6
7
8
Obs. 1 Obs. 2 Obs. 3
Grupo 1 Grupo 2
Media Grupo 2
Media General
Media Grupo 1
)YY( ..1
)Y(Y ..13 )Y(Y 221
Ilustración gráfica del ANDEVAIlustración gráfica del ANDEVA
19
El modelo es lineal en sus parámetros, y es el verdadero. El modelo es lineal en sus parámetros, y es el verdadero. Los errores experimentales son independientes entre sí; Los errores experimentales son independientes entre sí;
esto quiere decir que el error experimental de una esto quiere decir que el error experimental de una observación es independiente del de cualquier otra observación es independiente del de cualquier otra observación. Se supone que esto se logra tomando (o observación. Se supone que esto se logra tomando (o asignando) las observaciones al azar.asignando) las observaciones al azar.
Los errores tienen una distribución aproximadamente Los errores tienen una distribución aproximadamente normal, con media igual a 0 y varianza snormal, con media igual a 0 y varianza s22..
Las varianzas de los grupos o tratamientos son Las varianzas de los grupos o tratamientos son similares.similares.
Suposiciones básicas para realizar el Suposiciones básicas para realizar el ANDEVAANDEVA
Distribución de los errores del modelo
20
El principal objetivo del análisis de varianza es estimar la El principal objetivo del análisis de varianza es estimar la varianza del error del modelo [denominada CME o svarianza del error del modelo [denominada CME o see
22].].
Una vez estimada esta varianza, se pueden probar Una vez estimada esta varianza, se pueden probar hipótesis con respecto a las medias de los tratamientos.hipótesis con respecto a las medias de los tratamientos.
La prueba de hipótesis de mayor interés en este modelo La prueba de hipótesis de mayor interés en este modelo será: será: HH00: : ττ11 = = ττ22 = ... = = ... = ττtt versus versus
HHaa: Algunos efectos de tratamientos son diferentes: Algunos efectos de tratamientos son diferentes
Una prueba para esta hipótesis la proporciona: Una prueba para esta hipótesis la proporciona:
FFcc = [CM (Tratamientos)] / [CM(Error)] = [CM (Tratamientos)] / [CM(Error)]
Si FSi Fcc es mayor que F es mayor que F[[,(t-1)(n,(t-1)(n00-t)]-t)], entonces se rechaza la , entonces se rechaza la
hipótesis nula de que los tratamientos son iguales, y se hipótesis nula de que los tratamientos son iguales, y se concluye con concluye con de probabilidad de error, que existe alguna de probabilidad de error, que existe alguna diferencia significativa entre al menos dos tratamientos.diferencia significativa entre al menos dos tratamientos.
Objetivos del ANDEVAObjetivos del ANDEVA
21
Datos para el Datos para el AndevaAndeva
Estudio con cuatro tipos de Estudio con cuatro tipos de masa para donas. La masa para donas. La
variable respuesta (Y) es el variable respuesta (Y) es el % de absorción de grasa % de absorción de grasa
promedio de 12 donas promedio de 12 donas elaboradas con cada masa.elaboradas con cada masa.
Se tienen 4 tipos de masa; cada Se tienen 4 tipos de masa; cada tipo de masa se elaboró tipo de masa se elaboró separadamente 6 veces separadamente 6 veces
(repeticiones), y se (repeticiones), y se prepararon 12 donas de prepararon 12 donas de cada masa. La unidad cada masa. La unidad
experimental es la masa experimental es la masa (produce 12 donas).(produce 12 donas).
Hay 4 tratamientos, 6 Hay 4 tratamientos, 6 repeticiones por tratamiento, repeticiones por tratamiento,
y un total de 24 y un total de 24 observaciones.observaciones.
TRAT GRASA1 641 721 681 771 561 952 782 912 972 822 852 773 753 933 783 713 633 764 554 664 494 644 70
22
Cálculos para el Cálculos para el AndevaAndeva
S. de Cuadrados Total: (642 + 722 +........+ 682 ) - (1770)2/24 = 3,654.5S. de Cuadrados de Trat.: (4322 +5102 +4562 +3722)/6 - (1770)2/24 = 1,636.5
S. de Cuadrados del Error: S. de C. Total - S. de C. Trat. = 2,018.0
MASA MASA MASA MASAREP 1 2 3 4
1 64.00 78.00 75.00 55.002 72.00 91.00 93.00 66.003 68.00 97.00 78.00 49.004 77.00 82.00 71.00 64.005 56.00 85.00 63.00 70.006 95.00 77.00 76.00 68.00 TOTAL
SUMA 432.00 510.00 456.00 372.00 1770
(SUMA)2/6 31104.00 43350.00 34656.00 23064.00PROMEDIO 72.00 85.00 76.00 62.00 73.75
23
Cálculos para el Cálculos para el AndevaAndeva
S. de Cuadrados Total: S. de Cuadrados Total:
131341924192.00 - (1770).00 - (1770)22/24 = 3654.5/24 = 3654.5
S. de Cuadrados de Trat.:S. de Cuadrados de Trat.:
(31104 + 43350 + 34656 + 23064) - (1770)(31104 + 43350 + 34656 + 23064) - (1770)22/24 = /24 =
1636.5 1636.5
S. de Cuadrados del Error:S. de Cuadrados del Error:
S. de C. Total - S. de C. Trat. =S. de C. Total - S. de C. Trat. =
3654.5 – 1636.5 = 20183654.5 – 1636.5 = 2018
24
Cuadro de Andeva
FuenteFuente g.l. g.l. S.C.S.C. C. M.C. M. FFProb. Prob. de > Fde > F
Trat.Trat. 33 1,636.51,636.5 545.5545.5 5.405.40 0.0060.006
ErrorError 2020 2,018.02,018.0 100.9100.9
TotalTotal 2323 3,654.53,654.5
R2 = 0.45; Se: 10.04; C.V. = 13.62; Media general= 73.75
25
a) Resumen de la información estadística del Andeva
F de Trat. = 5.40; p<0.006 R2 = 0.45; Se = 10.04; C.V. = 13.62; Media general = 73.75
Desviación estándar de una media = 4.0989Diferencia mínima significativa entre dos medias (Tukey) = 16.23
Presentación de resultados del Presentación de resultados del AndevaAndeva
Tip
o d
e m
as
a
% de Grasa% de Grasa
72
85
76
62
0 20 40 60 80 100
1
2
3
4
Dif. Mín. de TukeyDif. Mín. de Tukey
26
PROMEDIOS DE LOS CUATRO TIPOS DE MASA
GRASA
1 72.00000
2 85.00000
3 76.00000
4 62.00000
b) Promedios de tratamientos en cuadros o gráficas
0.00
20.00
40.00
60.00
80.00
100.00
1 2 3 4
Presentación de resultados del Presentación de resultados del AndevaAndeva
27
EjercicioEjercicio
Calcule usando el Excel el ejemplo de donas. Calcule usando el Excel el ejemplo de donas. Presente los resultados e interprételos. Presente los resultados e interprételos.
28
Análisis de Varianza con Análisis de Varianza con JMPJMP
29
Análisis de varianza con Análisis de varianza con JMPJMP
30
Análisis de varianza con InfostatAnálisis de varianza con Infostat
A continuación se muestra la salida de A continuación se muestra la salida de computadora de Infostat para el ejemplo de donas.computadora de Infostat para el ejemplo de donas.
31
Consecuencias cuando no se cumplen las suposiciones del
Andeva
a) Si la distribución de Y no es aproximadamente normal, la prueba de F es inválida.
b) Si los errores no son independientes, el Cuadrado Medio del Error no tiene distribución de 2, y por lo tanto Fc no tendrá distribución de F, haciendo la prueba de F inválida.
c) Si las varianzas dentro de Tratamientos no son homogéneas (aproximadamente iguales), el Cuadrado Medio del Error será grande, y no tendrá distribución de 2, con las mismas consecuencias del caso anterior.
Se recomienda verificar las suposiciones del ANDEVA antes de realizar los cálculos, ya que los resultados no serán confiables si no se asegura que las suposiciones se cumplan.
32
EjercicioEjercicio
Realice los análisis del ejemplo con JMP y con Infostat. Realice los análisis del ejemplo con JMP y con Infostat.
33
Verificación de suposiciones
Para verificar la independencia de los errores, basta con asegurarse que las observaciones para cada tratamiento fueron elegidas al azar, o de acuerdo a algún plan de muestreo aleatorio, o con un diseño experimental planeado previamente al registro de datos. Para verificar que la variable Y tiene una distribución aproximadamente normal, se pueden usar los siguientes criterios:
a) Que la variable sea continua b) Ver artículos en la literatura, donde haya análisis de la
variable en cuestión, y ver si la trataron como normal.c) Recoger suficientes datos de la variable como para
hacer un histograma y diagramas de normalidad. Para verificar si las varianzas dentro de tratamientos son homogéneas, se puede emplear la Prueba de Bartlett (Ver Ostle, Pág.. 161-163).
34
Verificación de suposiciones
Las varianzas de los tratamientos pueden ser desiguales, cuando el número de repeticiones de los tratamientos son muy desiguales (por ejemplo, tenemos un tratamiento con dos repeticiones y el resto con 6 repeticiones), o cuando la variable a analizar tiene distribución exponencial o de Poisson.
Cuando se comprueba que la variable no es normal se pueden hacer dos cosas:
1. Buscar transformaciones que "normalicen" la variable.
2. Usar métodos no-paramétricos para el ANDEVA.
35
Transformaciones para Andeva (I)
Transformación
Ecuación
Aplicación
Logarítmica
Y´ = Log(Y)
Y' = Log10 (Y)
Y' = Log (Y+ 0.5)
a. Los efectos verdaderos
son multiplicativos o proporcionales en el
modelob. La desviación estandar
de los tratamientos es proporcional a la media (Varianzas desiguales
dentro de tratamientos)
Raíz Cuadrada
Y' = (Y)
Y' = (Y+1)
Los datos tienen distribución de Poisson, o provienen de conteos muy disparejos. (Se le agrega 1 cuando hay muchos datos
con ceros)
36
Transformaciones para Andeva (II)
Transformación
Ecuación
Aplicación
Arco Seno o
Angular
Y' = ArcSen (Y) o
Y' = ArcSen (Y/100)
Los datos originales provienen de una
distribución binomial, son proporciones o
porcentajes (mayores a 90%, o menores que
10%)
Recíproca
Y' = 1/Y La desviación estandar
de los tratamientos es proporcional al cuadrado
de su media.
37
EjercicioEjercicio
Verifique las suposiciones del análisis de Verifique las suposiciones del análisis de varianza en el ejemplo de donas.varianza en el ejemplo de donas.
38
Análisis de Varianza No-Análisis de Varianza No-ParamétricoParamétrico
¿¿Cuando se usa?Cuando se usa?
Cuando la variable que se va a analizar no tiene Cuando la variable que se va a analizar no tiene una distribución normal.una distribución normal.
Cuando son pocos datos, y la variable está en Cuando son pocos datos, y la variable está en escala ordinal, o de intervalo, o no se conoce la escala ordinal, o de intervalo, o no se conoce la distribución que tienen los datos.distribución que tienen los datos.
Cuando se observa que la varianza de cada Cuando se observa que la varianza de cada grupo (tratamiento) está asociada con la media grupo (tratamiento) está asociada con la media de ese grupo.de ese grupo.
39
Análisis de Varianza No-ParamétricoAnálisis de Varianza No-Paramétrico
Hay dos formas de realizar ANDEVA no-paramétrico:Hay dos formas de realizar ANDEVA no-paramétrico:
Si se tiene un modelo con un solo término de Si se tiene un modelo con un solo término de clasificación (llamado análisis de un solo factor), clasificación (llamado análisis de un solo factor), puede realizar la prueba de Kruskall- Wallis, la puede realizar la prueba de Kruskall- Wallis, la cual está implementada en la mayoría de los cual está implementada en la mayoría de los paquetes estadísticos .paquetes estadísticos .
Si tiene un modelo de dos factores o de bloques Si tiene un modelo de dos factores o de bloques al azar, puede usar la prueba de Friedman.al azar, puede usar la prueba de Friedman.
Para todos los demás casos, puede realizar lo Para todos los demás casos, puede realizar lo siguiente:siguiente:
40
Análisis de Varianza No-Análisis de Varianza No-ParamétricoParamétrico
o Ordene los datos de menor a mayor.Ordene los datos de menor a mayor.
o Asígnele órdenes (rangos).Asígnele órdenes (rangos).
o Esta es la nueva variable que va a analizar.Esta es la nueva variable que va a analizar.
o Realice el ANDEVA en la forma usual.Realice el ANDEVA en la forma usual.
o La evaluación de resultados del ANDEVA será la La evaluación de resultados del ANDEVA será la misma que la usual.misma que la usual.
o Los promedios estarán en términos de valores Los promedios estarán en términos de valores de orden (medianas de los tratamientos), por lo de orden (medianas de los tratamientos), por lo que deberá volver a sus datos iniciales, para que deberá volver a sus datos iniciales, para saber a qué valor corresponde cada mediana. saber a qué valor corresponde cada mediana.
41
Análisis de Varianza No-ParamétricoAnálisis de Varianza No-ParamétricoUsando JMP
42
Análisis de Varianza No-Análisis de Varianza No-ParamétricoParamétrico
TratamientoTratamiento Mediana de Mediana de ordenorden
Mediana de Mediana de VariableVariable
11 1111 7171
22 2020 8585
33 1414 7676
44 66 6464
Usando JMP
43
Análisis de Varianza No-Análisis de Varianza No-ParamétricoParamétrico
Usando JMP
44
EjercicioEjercicio
Realice el análisis no paramétrico de Realice el análisis no paramétrico de Kruskal-Wallis con el Infostat para el Kruskal-Wallis con el Infostat para el ejemplo de donas, suponiendo que la ejemplo de donas, suponiendo que la
variable “Grasa” no tiene variable “Grasa” no tiene distribución normal.distribución normal.
45
ResumenResumen
El modelo linear de clasificación y el análisis de El modelo linear de clasificación y el análisis de varianzavarianza
Objetivos del ANDEVA Objetivos del ANDEVA
Suposiciones básicas para realizar el ANDEVASuposiciones básicas para realizar el ANDEVA
Cálculos y presentación del ANDEVACálculos y presentación del ANDEVA
Consecuencias cuando no se cumplen las Consecuencias cuando no se cumplen las suposiciones básicas del ANDEVAsuposiciones básicas del ANDEVA
TransformacionesTransformaciones
ANDEVA no-paramétricoANDEVA no-paramétrico