Análisis de Varianza (I). 2 Contenido El modelo linear de clasificación y el análisis de varianza Cuándo se usa el ANDEVA y qué datos debemos tener

Análisis de Varianza (I)Análisis de Varianza (I)

2

ContenidoContenido

El modelo linear de clasificación y el análisis de El modelo linear de clasificación y el análisis de varianzavarianza

Cuándo se usa el ANDEVA y qué datos debemos Cuándo se usa el ANDEVA y qué datos debemos tener para poder realizarlo.tener para poder realizarlo.

Suposiciones básicas para realizar el ANDEVASuposiciones básicas para realizar el ANDEVA

Cálculos y presentación del ANDEVACálculos y presentación del ANDEVA

Modelos de clasificación y análisis de varianzaModelos de clasificación y análisis de varianza

3

ObjetivosObjetivos

Describir el concepto de modelo lineal de Describir el concepto de modelo lineal de clasificación, sus alcances y limitaciones.clasificación, sus alcances y limitaciones.

Describir las técnicas de partición de la suma de Describir las técnicas de partición de la suma de Cuadrados para el cálculo del análisis de varianza.Cuadrados para el cálculo del análisis de varianza.

Describir los modelos de clasificación que se usan Describir los modelos de clasificación que se usan comúnmente en investigación, y los comúnmente en investigación, y los procedimientos de análisis de varianza.procedimientos de análisis de varianza.

4

IntroducciónIntroducción

El análisis de varianza es un procedimiento El análisis de varianza es un procedimiento para comparar medias de varias poblaciones. Su para comparar medias de varias poblaciones. Su nombre se deriva del hecho de que para comparar nombre se deriva del hecho de que para comparar las medias, se evalúan y analizan las varianzas. las medias, se evalúan y analizan las varianzas.

La varianza total (sLa varianza total (s22) de una muestra que está ) de una muestra que está dividida en diferentes grupos, puede a su vez, dividida en diferentes grupos, puede a su vez, dividirse (particionarse) para estimar la varianza dividirse (particionarse) para estimar la varianza entre grupos y la varianza dentro de grupos.entre grupos y la varianza dentro de grupos.

5


Como en el caso de la regresión lineal simple y Como en el caso de la regresión lineal simple y múltiple, para realizar un análisis de varianza es múltiple, para realizar un análisis de varianza es conveniente plantear el modelo de clasificación que conveniente plantear el modelo de clasificación que se supone cierto en los datos que se van a analizarse supone cierto en los datos que se van a analizar. .

Por ejemplo, si se tiene un experimento Por ejemplo, si se tiene un experimento con un solo tipo de tratamientos, el modelo de con un solo tipo de tratamientos, el modelo de clasificación será: clasificación será:

ijiij ετμY

Más adelante se explicará con detalle que significa cada Más adelante se explicará con detalle que significa cada término del modelo. término del modelo.

6


Los modelos lineales pueden clasificarse en dos Los modelos lineales pueden clasificarse en dos tipos: tipos:

A. Modelos lineales de A. Modelos lineales de regresión regresión

B. Modelos lineales de B. Modelos lineales de clasificaciónclasificación..

El modelo lineal de clasificación es un modelo El modelo lineal de clasificación es un modelo estadístico que sirve para analizar datos procedentes estadístico que sirve para analizar datos procedentes de diferentes poblaciones, o afectados por diferentes de diferentes poblaciones, o afectados por diferentes factores o tratamientosfactores o tratamientos

ii10i εXββY i

3i3

2i2i10i XXXY

ii44i33i22i110i XXXXY

ijiij ετμY ijjiij εbτμY

7

Modelo lineal de clasificaciónModelo lineal de clasificación

El proceso para formular un modelo linear simple de clasificación consiste en extraer muestras de diferentes poblaciones, de las

cuales se quieren comparar las medias (i).

POBLACIONES

POBLACION 1

1

POBLACION 2

POBLACION 3

POBLACION t

t

MUESTRA 1 MUESTRA 2 MUESTRA 3 MUESTRA t

n1 1Y 21s n2 2Y 2

2s n3 3Y 23s nt tY 2

ts

ijijY

MUESTRAS

Estadísticos Muestrales

Modelo de clasificación lineal simple

8


Cuando los efectos de los tratamientos y el error experimental son lineales y aditivos, el experimento puede representarse por el modelo estadístico llamado modelo de clasificación lineal aditivo:

Yij= + τi + εij , i=1,2,...,t; j=1,2,....,ni.

donde: Yij representa la variable de interés en el experimento,

siendo el subíndice i el que indica el tratamiento y el subíndice j el que indica la repetición para el i-ésimo tratamiento.

representa la media general (para toda la población) de la

variable Yij; τi representa el efecto del tratamiento i-ésimo, el cual

es: τi = mi-m.

εεijij representa el error o desviación experimental de la

observación hecha en el tratamiento i-ésimo y la repetición j-ésima,

el cual es: εij = Yij - - τi

9

Modelo lineal de Modelo lineal de clasificaciónclasificación

Los datos que generan este modelo se pueden ver en forma manual o de computadora. El siguiente cuadro muestra los datos en forma

manual:Rep. Trat 1 Trat 2 . Trat t Subtotal

1 Y11 Y21 . Yt1 Y.1

2 Y12 Y22 . Yt2. Y.2

. .

. .

r Y1r1 Y2r2 . Ytr3 Y.r

Subtotal Y1. Y2. . Yt. Total = Y..

Nota: ri = n0

10


Este cuadro muestra los datos en la computadora para analizar el modelo propuesto

ObservaciónObservación Tratamiento (Tratamiento (ττ)) YYijij

11 AA 2525

22 AA 2727

33 AA 2323

44 AA 2424

55 BB 3232

66 BB 3535

77 BB 3030

88 BB 2929

99 CC 3737

11

Estimación de parámetros del modelo Estimación de parámetros del modelo lineal de clasificaciónlineal de clasificación

Los parámetros del modelo son: , τi y e2

(Varianza del Error).

Estimador de : : Media de todos los datos. _

Estimador de τi: , donde Yi =(j Yij )/ni

es la media del tratamiento i-ésimo.

Estimador de e

2: o

Y

)YY( i

2

IIJ

IJ)YY(

0

i j

2ij

i i

2.i

0

i j

2ijt

i

r

j

2ij

2

n

)y(

r

Y

n

)y(yˆ

Donde es la suma de las repeticiones del tratamiento i elevada al cuadrado. Y n0 denota

el total de observaciones.

2.iY

12

Estimación de parámetros del modelo Estimación de parámetros del modelo lineal de clasificaciónlineal de clasificación

Debido a que los términos del modelo son independientes entre sí, se puede establecer la siguiente relación:

la cual se puede describir como:

Suma de Cuadrados Total= Suma de Cuadrados de Tratamientos + Suma de Cuadrados del Error.

2i

ijIj

2i

ii

2

ijij )Y(Y)YY(r)Y(Y

13

Análisis de varianza de modelo Análisis de varianza de modelo de clasificación simplede clasificación simple

FuenteFuente g. l.g. l. SumaSumaCuadradosCuadrados

CuadradoCuadradoMedioMedio

FFcc

TRATAM.TRATAM. t – 1t – 1 SC Trat / (t-1)SC Trat / (t-1)

ERRORERROR t(r – 1)t(r – 1)SC Error =SC Error =

SC Total –SC TratSC Total –SC Trat..

TOTALTOTAL tr – 1tr – 1

n

Y

r

Y 2..

i

2i.

0

2..

ij

2ij n

YY

tr

ErrorSCs

ii

2ε

CMError

CMTrat

iijiij r,...1j;t,...,1i;Y

Modelo para datos con un solo factor de clasificación:

14

EjemploEjemplo

Se cuenta con una muestra de 6 observaciones, clasificadas Se cuenta con una muestra de 6 observaciones, clasificadas en dos grupos.en dos grupos.

Grupo 1 Grupo 2

Observación 1Observación 2 Observación 3

231

675

MediaSuma de Cuadrados

(SC)

2

2

6

2

Media GeneralSuma de Cuadrados

Total

4

28

15

Ejemplo (cont.)Ejemplo (cont.)

Suma de Cuadrados Total:Suma de Cuadrados Total:

(2(22 2 + 3+ 32 2 + .......+ 5+ .......+ 522) – {(24)) – {(24)22/6} = 28/6} = 28

Suma de Cuadrados de Tratamientos:Suma de Cuadrados de Tratamientos:

SC Trat = (6SC Trat = (622 + 18 + 1822 )/3 - {(24) )/3 - {(24)22/6} = 24/6} = 24

Suma de Cuadrados del Error:Suma de Cuadrados del Error:

SC Error= SC Total – SC Trat = 28-24 = 4SC Error= SC Total – SC Trat = 28-24 = 4

16

Ejemplo (cont)Ejemplo (cont)

La partición de la Suma de Cuadrados de toda la La partición de la Suma de Cuadrados de toda la muestra en: “Entre Grupos” y “Dentro de Grupos” muestra en: “Entre Grupos” y “Dentro de Grupos” produce el siguiente cuadro:produce el siguiente cuadro:

Fuente

Efecto Principal

SC g.l. CM F p

Entre Grupos 24.0 1 24.0 24.0 .008

Dentro de Grupos (Error) 4.0 4 1.0

Total 28 5

17

Ilustración gráfica del Ilustración gráfica del ANDEVAANDEVA

La media del grupo 2 es más grande que la media del grupo La media del grupo 2 es más grande que la media del grupo 1. ¿Es esta diferencia debida al azar?1. ¿Es esta diferencia debida al azar?

0

1

2

3

4

5

6

7

Obs. 1 Obs. 2 Obs. 3

Grupo 1

Grupo 2

Media Grupo 2 Media General

Media Grupo 1

18

Las diferencias entre cada observación y la media general van a Las diferencias entre cada observación y la media general van a contribuir a la varianza de la muestra. contribuir a la varianza de la muestra.

Las diferencias entre las medias de los grupos y la media general Las diferencias entre las medias de los grupos y la media general van a contribuir a la varianza entre grupos. van a contribuir a la varianza entre grupos.

Las diferencias entre cada observación y la media de su grupo Las diferencias entre cada observación y la media de su grupo van a contribuir a la varianza dentro de grupos (llamada Varianza van a contribuir a la varianza dentro de grupos (llamada Varianza del Error).del Error).

0

1

2

3

4

5

6

7

8

Obs. 1 Obs. 2 Obs. 3

Grupo 1 Grupo 2

Media Grupo 2

Media General

Media Grupo 1

)YY( ..1

)Y(Y ..13 )Y(Y 221

Ilustración gráfica del ANDEVAIlustración gráfica del ANDEVA

19

El modelo es lineal en sus parámetros, y es el verdadero. El modelo es lineal en sus parámetros, y es el verdadero. Los errores experimentales son independientes entre sí; Los errores experimentales son independientes entre sí;

esto quiere decir que el error experimental de una esto quiere decir que el error experimental de una observación es independiente del de cualquier otra observación es independiente del de cualquier otra observación. Se supone que esto se logra tomando (o observación. Se supone que esto se logra tomando (o asignando) las observaciones al azar.asignando) las observaciones al azar.

Los errores tienen una distribución aproximadamente Los errores tienen una distribución aproximadamente normal, con media igual a 0 y varianza snormal, con media igual a 0 y varianza s22..

Las varianzas de los grupos o tratamientos son Las varianzas de los grupos o tratamientos son similares.similares.

Suposiciones básicas para realizar el Suposiciones básicas para realizar el ANDEVAANDEVA

Distribución de los errores del modelo

20

El principal objetivo del análisis de varianza es estimar la El principal objetivo del análisis de varianza es estimar la varianza del error del modelo [denominada CME o svarianza del error del modelo [denominada CME o see

22].].

Una vez estimada esta varianza, se pueden probar Una vez estimada esta varianza, se pueden probar hipótesis con respecto a las medias de los tratamientos.hipótesis con respecto a las medias de los tratamientos.

La prueba de hipótesis de mayor interés en este modelo La prueba de hipótesis de mayor interés en este modelo será: será: HH00: : ττ11 = = ττ22 = ... = = ... = ττtt versus versus

HHaa: Algunos efectos de tratamientos son diferentes: Algunos efectos de tratamientos son diferentes

Una prueba para esta hipótesis la proporciona: Una prueba para esta hipótesis la proporciona:

FFcc = [CM (Tratamientos)] / [CM(Error)] = [CM (Tratamientos)] / [CM(Error)]

Si FSi Fcc es mayor que F es mayor que F[[,(t-1)(n,(t-1)(n00-t)]-t)], entonces se rechaza la , entonces se rechaza la

hipótesis nula de que los tratamientos son iguales, y se hipótesis nula de que los tratamientos son iguales, y se concluye con concluye con de probabilidad de error, que existe alguna de probabilidad de error, que existe alguna diferencia significativa entre al menos dos tratamientos.diferencia significativa entre al menos dos tratamientos.

Objetivos del ANDEVAObjetivos del ANDEVA

21

Datos para el Datos para el AndevaAndeva

Estudio con cuatro tipos de Estudio con cuatro tipos de masa para donas. La masa para donas. La

variable respuesta (Y) es el variable respuesta (Y) es el % de absorción de grasa % de absorción de grasa

promedio de 12 donas promedio de 12 donas elaboradas con cada masa.elaboradas con cada masa.

Se tienen 4 tipos de masa; cada Se tienen 4 tipos de masa; cada tipo de masa se elaboró tipo de masa se elaboró separadamente 6 veces separadamente 6 veces

(repeticiones), y se (repeticiones), y se prepararon 12 donas de prepararon 12 donas de cada masa. La unidad cada masa. La unidad

experimental es la masa experimental es la masa (produce 12 donas).(produce 12 donas).

Hay 4 tratamientos, 6 Hay 4 tratamientos, 6 repeticiones por tratamiento, repeticiones por tratamiento,

y un total de 24 y un total de 24 observaciones.observaciones.

TRAT GRASA1 641 721 681 771 561 952 782 912 972 822 852 773 753 933 783 713 633 764 554 664 494 644 70

22

Cálculos para el Cálculos para el AndevaAndeva

S. de Cuadrados Total: (642 + 722 +........+ 682 ) - (1770)2/24 = 3,654.5S. de Cuadrados de Trat.: (4322 +5102 +4562 +3722)/6 - (1770)2/24 = 1,636.5

S. de Cuadrados del Error: S. de C. Total - S. de C. Trat. = 2,018.0

MASA MASA MASA MASAREP 1 2 3 4

1 64.00 78.00 75.00 55.002 72.00 91.00 93.00 66.003 68.00 97.00 78.00 49.004 77.00 82.00 71.00 64.005 56.00 85.00 63.00 70.006 95.00 77.00 76.00 68.00 TOTAL

SUMA 432.00 510.00 456.00 372.00 1770

(SUMA)2/6 31104.00 43350.00 34656.00 23064.00PROMEDIO 72.00 85.00 76.00 62.00 73.75

23

Cálculos para el Cálculos para el AndevaAndeva

S. de Cuadrados Total: S. de Cuadrados Total:

131341924192.00 - (1770).00 - (1770)22/24 = 3654.5/24 = 3654.5

S. de Cuadrados de Trat.:S. de Cuadrados de Trat.:

(31104 + 43350 + 34656 + 23064) - (1770)(31104 + 43350 + 34656 + 23064) - (1770)22/24 = /24 =

1636.5 1636.5

S. de Cuadrados del Error:S. de Cuadrados del Error:

S. de C. Total - S. de C. Trat. =S. de C. Total - S. de C. Trat. =

3654.5 – 1636.5 = 20183654.5 – 1636.5 = 2018

24

Cuadro de Andeva

FuenteFuente g.l. g.l. S.C.S.C. C. M.C. M. FFProb. Prob. de > Fde > F

Trat.Trat. 33 1,636.51,636.5 545.5545.5 5.405.40 0.0060.006

ErrorError 2020 2,018.02,018.0 100.9100.9

TotalTotal 2323 3,654.53,654.5

R2 = 0.45; Se: 10.04; C.V. = 13.62; Media general= 73.75

25

a) Resumen de la información estadística del Andeva

F de Trat. = 5.40; p<0.006 R2 = 0.45; Se = 10.04; C.V. = 13.62; Media general = 73.75

Desviación estándar de una media = 4.0989Diferencia mínima significativa entre dos medias (Tukey) = 16.23

Presentación de resultados del Presentación de resultados del AndevaAndeva

Tip

o d

e m

as

a

% de Grasa% de Grasa

72

85

76

62

0 20 40 60 80 100

1

2

3

4

Dif. Mín. de TukeyDif. Mín. de Tukey

26

PROMEDIOS DE LOS CUATRO TIPOS DE MASA

GRASA

1 72.00000

2 85.00000

3 76.00000

4 62.00000

b) Promedios de tratamientos en cuadros o gráficas

0.00

20.00

40.00

60.00

80.00

100.00

1 2 3 4

Presentación de resultados del Presentación de resultados del AndevaAndeva

27

EjercicioEjercicio

Calcule usando el Excel el ejemplo de donas. Calcule usando el Excel el ejemplo de donas. Presente los resultados e interprételos. Presente los resultados e interprételos.

28

Análisis de Varianza con Análisis de Varianza con JMPJMP

29

Análisis de varianza con Análisis de varianza con JMPJMP

30

Análisis de varianza con InfostatAnálisis de varianza con Infostat

A continuación se muestra la salida de A continuación se muestra la salida de computadora de Infostat para el ejemplo de donas.computadora de Infostat para el ejemplo de donas.

31

Consecuencias cuando no se cumplen las suposiciones del

Andeva

a) Si la distribución de Y no es aproximadamente normal, la prueba de F es inválida.

b) Si los errores no son independientes, el Cuadrado Medio del Error no tiene distribución de 2, y por lo tanto Fc no tendrá distribución de F, haciendo la prueba de F inválida.

c) Si las varianzas dentro de Tratamientos no son homogéneas (aproximadamente iguales), el Cuadrado Medio del Error será grande, y no tendrá distribución de 2, con las mismas consecuencias del caso anterior.

Se recomienda verificar las suposiciones del ANDEVA antes de realizar los cálculos, ya que los resultados no serán confiables si no se asegura que las suposiciones se cumplan.

32

EjercicioEjercicio

Realice los análisis del ejemplo con JMP y con Infostat. Realice los análisis del ejemplo con JMP y con Infostat.

33

Verificación de suposiciones

Para verificar la independencia de los errores, basta con asegurarse que las observaciones para cada tratamiento fueron elegidas al azar, o de acuerdo a algún plan de muestreo aleatorio, o con un diseño experimental planeado previamente al registro de datos. Para verificar que la variable Y tiene una distribución aproximadamente normal, se pueden usar los siguientes criterios:

a) Que la variable sea continua b) Ver artículos en la literatura, donde haya análisis de la

variable en cuestión, y ver si la trataron como normal.c) Recoger suficientes datos de la variable como para

hacer un histograma y diagramas de normalidad. Para verificar si las varianzas dentro de tratamientos son homogéneas, se puede emplear la Prueba de Bartlett (Ver Ostle, Pág.. 161-163).

34

Verificación de suposiciones

Las varianzas de los tratamientos pueden ser desiguales, cuando el número de repeticiones de los tratamientos son muy desiguales (por ejemplo, tenemos un tratamiento con dos repeticiones y el resto con 6 repeticiones), o cuando la variable a analizar tiene distribución exponencial o de Poisson.

Cuando se comprueba que la variable no es normal se pueden hacer dos cosas:

1. Buscar transformaciones que "normalicen" la variable.

2. Usar métodos no-paramétricos para el ANDEVA.

35

Transformaciones para Andeva (I)

Transformación

Ecuación

Aplicación

Logarítmica

Y´ = Log(Y)

Y' = Log10 (Y)

Y' = Log (Y+ 0.5)

a. Los efectos verdaderos

son multiplicativos o proporcionales en el

modelob. La desviación estandar

de los tratamientos es proporcional a la media (Varianzas desiguales

dentro de tratamientos)

Raíz Cuadrada

Y' = (Y)

Y' = (Y+1)

Los datos tienen distribución de Poisson, o provienen de conteos muy disparejos. (Se le agrega 1 cuando hay muchos datos

con ceros)

36

Transformaciones para Andeva (II)

Transformación

Ecuación

Aplicación

Arco Seno o

Angular

Y' = ArcSen (Y) o

Y' = ArcSen (Y/100)

Los datos originales provienen de una

distribución binomial, son proporciones o

porcentajes (mayores a 90%, o menores que

10%)

Recíproca

Y' = 1/Y La desviación estandar

de los tratamientos es proporcional al cuadrado

de su media.

37

EjercicioEjercicio

Verifique las suposiciones del análisis de Verifique las suposiciones del análisis de varianza en el ejemplo de donas.varianza en el ejemplo de donas.

38

Análisis de Varianza No-Análisis de Varianza No-ParamétricoParamétrico

¿¿Cuando se usa?Cuando se usa?

Cuando la variable que se va a analizar no tiene Cuando la variable que se va a analizar no tiene una distribución normal.una distribución normal.

Cuando son pocos datos, y la variable está en Cuando son pocos datos, y la variable está en escala ordinal, o de intervalo, o no se conoce la escala ordinal, o de intervalo, o no se conoce la distribución que tienen los datos.distribución que tienen los datos.

Cuando se observa que la varianza de cada Cuando se observa que la varianza de cada grupo (tratamiento) está asociada con la media grupo (tratamiento) está asociada con la media de ese grupo.de ese grupo.

39

Análisis de Varianza No-ParamétricoAnálisis de Varianza No-Paramétrico

Hay dos formas de realizar ANDEVA no-paramétrico:Hay dos formas de realizar ANDEVA no-paramétrico:

Si se tiene un modelo con un solo término de Si se tiene un modelo con un solo término de clasificación (llamado análisis de un solo factor), clasificación (llamado análisis de un solo factor), puede realizar la prueba de Kruskall- Wallis, la puede realizar la prueba de Kruskall- Wallis, la cual está implementada en la mayoría de los cual está implementada en la mayoría de los paquetes estadísticos .paquetes estadísticos .

Si tiene un modelo de dos factores o de bloques Si tiene un modelo de dos factores o de bloques al azar, puede usar la prueba de Friedman.al azar, puede usar la prueba de Friedman.

Para todos los demás casos, puede realizar lo Para todos los demás casos, puede realizar lo siguiente:siguiente:

40


o Ordene los datos de menor a mayor.Ordene los datos de menor a mayor.

o Asígnele órdenes (rangos).Asígnele órdenes (rangos).

o Esta es la nueva variable que va a analizar.Esta es la nueva variable que va a analizar.

o Realice el ANDEVA en la forma usual.Realice el ANDEVA en la forma usual.

o La evaluación de resultados del ANDEVA será la La evaluación de resultados del ANDEVA será la misma que la usual.misma que la usual.

o Los promedios estarán en términos de valores Los promedios estarán en términos de valores de orden (medianas de los tratamientos), por lo de orden (medianas de los tratamientos), por lo que deberá volver a sus datos iniciales, para que deberá volver a sus datos iniciales, para saber a qué valor corresponde cada mediana. saber a qué valor corresponde cada mediana.

41

Análisis de Varianza No-ParamétricoAnálisis de Varianza No-ParamétricoUsando JMP

42


TratamientoTratamiento Mediana de Mediana de ordenorden

Mediana de Mediana de VariableVariable

11 1111 7171

22 2020 8585

33 1414 7676

44 66 6464

Usando JMP

43


Usando JMP

44

EjercicioEjercicio

Realice el análisis no paramétrico de Realice el análisis no paramétrico de Kruskal-Wallis con el Infostat para el Kruskal-Wallis con el Infostat para el ejemplo de donas, suponiendo que la ejemplo de donas, suponiendo que la

variable “Grasa” no tiene variable “Grasa” no tiene distribución normal.distribución normal.

45

ResumenResumen

El modelo linear de clasificación y el análisis de El modelo linear de clasificación y el análisis de varianzavarianza

Objetivos del ANDEVA Objetivos del ANDEVA

Suposiciones básicas para realizar el ANDEVASuposiciones básicas para realizar el ANDEVA

Cálculos y presentación del ANDEVACálculos y presentación del ANDEVA

Consecuencias cuando no se cumplen las Consecuencias cuando no se cumplen las suposiciones básicas del ANDEVAsuposiciones básicas del ANDEVA

TransformacionesTransformaciones

ANDEVA no-paramétricoANDEVA no-paramétrico

Documents

Análisis de Varianza (I). 2 Contenido El modelo linear de clasificación y el análisis de varianza Cuándo se usa el ANDEVA y qué datos debemos tener