40
INTRODUCCIÓN AL ANÁLISIS DE LA VARIANZA

ANOVA 1F Introduccio (R)

Embed Size (px)

DESCRIPTION

Análisis de varianza los procedimeintos y tecnicas para desarrlooar este analisis

Citation preview

  • INTRODUCCIN AL

    ANLISIS DE LA VARIANZA

  • Resumen

    Diseo de un factor

    Entrada de datos

    Modelo estadstico

    Anlisis bsico e interpretacin

    Contrastes

    Estimacin del efecto

  • ANOVA DE UNA FACTOR CON k NIVELES

    k

    k

    H

    H

    211

    210

    :

    :

    yyyy

    yyy

    yyy

    yyy

    GGG

    k

    knnn

    k

    k

    k

    k

    21

    21

    22212

    12111

    21

    21

    ijiijy

    Si Ho es cierta, entonces se cumple: kii ,..,10

    ),0( 2 Nij

  • ANOVA DE UNA FACTOR CON k NIVELES

    )()()( yyyyyy iiijij

    y

    iy

    B

    A

    grupo del dentro adVariabilid)( iij yyA

    grupos entre adVariabilid)( yyB i

    En este caso, la variabilidad

    entre grupos es grande

    respecto a la variabilidad

    intra grupos.

  • ANOVA DE UNA FACTOR CON k NIVELES

    )()()( yyyyyy iiijij

    y

    iy

    grupo del dentro adVariabilid)( iij yyA

    grupos entre adVariabilid)( yyB i

    En este caso, la variabilidad

    entre grupos es similar a la

    variabilidad intra grupos.

  • DESCOMPOSICIN DE LA SUMA DE

    CUADRADOS

    )()()( yyyyyy iiijij

    k

    i

    n

    j

    i

    k

    i

    n

    j

    iij

    k

    i

    n

    j

    ij

    iiijiiijiiijij

    iii

    yyyyyy

    yyyyyyyyyyyyyy

    1 1

    2

    1 1

    2

    1 1

    2

    2222

    )()()(

    ))((2)()()()()(

    k

    i

    n

    j

    ij

    i

    yy1 1

    2)(:TotalSC

    k

    i

    n

    j

    iij

    i

    yy1 1

    2:SCDentro

    k

    i

    n

    j

    i

    i

    yy1 1

    2)(:SCEntre

  • ANOVA DE UNA FACTOR CON k NIVELES

    yyyy

    yyy

    yyy

    yyy

    GGG

    k

    knnn

    k

    k

    k

    k

    21

    21

    22212

    12111

    21

    21

    Estimacin de la varianza 2

    Si Ho es cierta, podemos obtener una

    estimacin de la varianza 2 haciendo

    una promedio ponderado de las

    varianzas de cada grupo:

    kn

    yy

    knnn

    snsn

    k

    i

    n

    j

    iij

    k

    kk

    i

    1 1

    2

    21

    22

    112

    Dentro

    )1()1(

    2

    1 1

    :SCDentro

    k

    i

    n

    j

    iij

    i

    yy

  • ANOVA DE UNA FACTOR CON k NIVELES

    yyyy

    yyy

    yyy

    yyy

    GGG

    k

    knnn

    k

    k

    k

    k

    21

    21

    22212

    12111

    21

    21

    Estimacin de la variancia 2 entre grupos

    Podemos estimar la varianza entre los

    grupos como

    11 1

    2

    1 1

    2

    2

    Entre

    k

    yyn

    k

    yyk

    i

    ii

    k

    i

    n

    j

    i

    i

    k

    i

    n

    j

    i

    i

    yy1 1

    2)(:SCEntre

    Si Ho es cierta, la varianza entre

    grupos debera ser similar a la

    varianza dentro del grupo.

  • ANOVA DE UNA FACTOR CON k NIVELES

    SC Entre: variabilidad entre las medias de los grupos. Si los grupos tienen un efecto, esta variabilidad debera ser importante respecto de la variabilidad dentro de los grupos.

    SC Dentro (SC Residual): variabilidad respecto a la media del grupo.

    SCTotal=SCEntre+SCDentro

    k

    i

    n

    j

    ij

    i

    yy1 1

    2)(:TotalSC

    2

    1 1

    :SCDentro

    k

    i

    n

    j

    iij

    i

    yy

    k

    i

    n

    j

    i

    i

    yy1 1

    2)(:SCEntre

    yyyy

    yyy

    yyy

    yyy

    GGG

    k

    knnn

    k

    k

    k

    k

    21

    21

    22212

    12111

    21

    21

  • TABLA DE ANOVA

    k

    i

    n

    j

    ij

    i

    yy1 1

    2)(:TotalSC

    2

    1 1

    :SCDentro

    k

    i

    n

    j

    iij

    i

    yy

    k

    i

    n

    j

    i

    i

    yy1 1

    2)(:SCEntre

    Fuente SC g.d.l. CM F

    Entre SCEntre k-1 SCEntre/(k-1) CMEntre/CMDentro

    Residual SCDentro n-k SCDentro/(n-k)

    Total SCTotal n-1

  • Ejemplo 1

    Queremos evaluar si la dosis de alcohol tiene un

    efecto apreciable en el tiempo (segundos) que se

    tarda en hacer operaciones matemticas sencillas.

    Se escogen 20 voluntarios que cumplen ciertos

    criterios de admisin en el estudio.

    Se dividen aleatoriamente en cuatro grupos,

    recibiendo cada grupo distintas dosis de alcohol.

  • Datos

    Definir una variable para

    los grupo

    El tratamiento es el factor de

    inters

    Hay cuarto niveles (cada una

    de las dosis)

    Es un modelo de efectos fijos.

    Modelo

    ),0(

    N

    y

    ij

    ijiijij

  • Descriptiva

  • Hiptesis y mtodo de anlisis

    La dosis de alcohol incrementa de manera

    significativa el tiempo de respuesta.

    Utilizaremos un ANOVA de un factor, el tratamiento,

    que tiene cuatro niveles, las distintas dosis.

  • ANOVA en R

    4.224:SCDentro2

    1 1

    k

    i

    n

    j

    iij

    i

    yy

    8.1067)(:SCEntre1 1

    2

    k

    i

    n

    j

    i

    i

    yy

    Fuente SC g.d.l. CM F

    Entre 1067.8 4-1=3 355.93 25.378

    Residual 224.4 20-4=16 14.03

    Total 1292.2 20-1=19

  • Interpretacin

    Si es cierta la hiptesis nula, la variancia estimada a partir de la SC entre grupos y la estimada a partir de la SC dentro de grupos deberan ser similares.

    En ambos casos, estamos estimando la varianza comn a todos los grupos (trmino en el modelo lineal).

    La media cuadrtica (SC/g.l.) es un estimador de dicha varianza en cada caso.

    El cociente sigue una F de Fisher con (k-1) y (n-k) g.d.l. si Ho es cierta.

    En este caso, p

  • Estimacin de las medias de los grupos

    IC 95%

    Los IC de las medias

    sugieren que se produce un

    aumento del tiempo de

    respuesta a partir de una

    dosis media de alcohol.

  • Evaluacin de las

    diferencias entre grupos

    Podemos considerar dos grupos. Los que no han tomado alcohol o bien reciben

    dosis bajas tienen una respuesta media ms rpida que el resto.

    Es decir, el resultado del ANOVA es debido a la diferencia de respuesta entre las

    dosis media y alta, que tienen un comportamiento similar entre ellos, y el grupo

    de dosis bajas y el que no ha tomado alcohol.

  • Anlisis va lm

  • Anlisis va lm

  • Anlisis va lm (sin interseccin)

    745.3

  • Anlisis va lm (sin interseccin)

    Estimacin de los IC 95% de los efectos de cada tratamiento

  • Ejemplo 2

    Se quiere evaluar el efecto de cuatro fertilizantes en un determinato tipo de cultivo.

    Se dispone de 10 parcelas, aplicando cada tipo de fertilizante en cada parcela en aos consecutivos.

    Se pide:

    Evaluar si los cuatro fertilizantes tienen el mismo efecto.

    Evaluar si las hiptesis del modelo (homogenidad de varianzas y normalidad) se cumplen.

    Realizar comparaciones mltiples para determinar qu fertilizante es el ms apropiado.

  • Datos

    A B C D

    47 51 37 42

    42 56 39 43

    43 54 41 42

    46 49 38 45

    44 53 39 47

    42 51 37 50

    45 50 42 48

    43 49 36 45

    44 50 40 44

    44 53 40 45

    Fertilizante

  • ANOVA

    El efecto del fertilizante es significativo.

    Estimacin de los efectos

    1.451.144

    9.381.544

    6.516.744

    44

    D

    C

    B

    A

  • ANOVA

    Estimacin de los efectos

    El anlisis va lm permite estimar

    directamente las medias de los

    grupos si restamos el trmino

    constante.

    En este caso, los IC que se

    consiguen con confint sn los que

    corresponden a las medias de

    cada grupo.

  • Grficos de las medias estimadas

    Podemos observar que el

    fertilizante B es el que produce

    ms, mientras que C es el que

    produce menos.

    A y D produce, de media, lo mismo

    y se sitan entre B y C.

    Podemos utilizar el procedimiento

    TukeyHSD para estimar las

    diferencias entre tratamientos.

  • Comparaciones mltiples

    Podemos comprobar que los

    tratamientos A y D son equivalentes (en

    produccin media), mientras que B es

    superior y C inferior.

    El procedimiento TukeyHSD solo puede

    aplicarse a un objeto aov.

  • Contrastes ortogonales

    Por defecto, se compara cada

    tratamiento (nivel del factor) con

    el primer tratamiento.

    Podemos establecer otras

    comparaciones indicando una

    matriz de contraste.

  • Contrastes ortogonales

    Assignamos un contraste entre

    tratamientos y obtenemos el

    mismo resultado que el anterior

    (resultado por defecto).

    En la matriz de contraste se

    indica por un 1 el nivel que se

    compara con el nivel de

    referencia.

    Podemos cambiar estas

    definiciones.

  • Contrastes ortogonales

    Ahora las estimaciones se refieren

    al grupo B como referencia.

    Si vemos los resultados anteriores,

    al grupo B le corresponde una

    media de 51.6=44+7.6

  • Contrastes ortogonales: Comparacin de grupos

    El primer contraste prueba la

    hiptesis de que los tratamientos A

    y D son equivalentes (p>0.05)

    El segundo, prueba si podemos

    admitir que A es equivalente al

    promedio de B y C (p>0.05)

    El tercero compara B y C (p

  • Problema

    Se dispone de 6 abonos, valorndose la productividad en 78 parcelas de similares caractersticas (Abonos.sav)

    Describir el experimento, indicando el factor o factores implicados y sus niveles. Decidir si se trata de un problema de efectos fijos.

    Contrastar si los seis abonos afectan de manera similar a la produccin de las cosechas.

    Determinar las diferencias de produccin entre pares de abonos.

    Comprobar las hiptesis del modelo

    Resolver los siguientes contrastes:

    El promedio de las cosechas obtenidas por los abonos 3 y 4 no difiere del promedio de las cosechas 5 y 6.

    La media de los abonos 1 y 2 coincide con el promedio de las cosechas del resto de abonos.

  • Resultados por abono

  • ANOVA

    Los distintos abonos tienen una produccin media diferente

    (p

  • Medias por grupo

    kN

    SCT

    ntyIC

    NtyIC

    i

    kNii

    kN

    2

    2

    ,2/1.1

    2

    ,2/1..1

    )(

    )(

  • Comparaciones

    mltiples

    Los abonos 2, 4, 6 no presentan diferencias

    significativas.

  • Comparaciones

    mltiples

    Los abonos 2, 4, 6 no presentan diferencias

    significativas.

  • ContrastesANOVA un factor

    02222

    : 654321654321

    0

    H

    022

    : 65436543

    0

    H

  • Resumen

    El diseo de un factor fijo con k niveles es muy

    habitual. Formalmente, se concreta en valorar la

    hiptesis de igualdad de la medias poblacionales

    de cada nivel del factor.

    Las observaciones deben proceder de una distribucin

    normal y la varianza debe ser igual en cada nivel del

    factor.

    El anlisis en R puede hacerse con las funciones aov o

    lm.