23
aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas; 2) fixar a probabilidade do erro tipo I; 3) calcular o tamanho da amostra necessária para detectar uma diferença que se suspeita existente o que é equivalente a fixar a probabilidade do erro tipo II. 4) apresentar a distribuição de probabilidade da estatística do teste; 5) estabelecer a(s) região(ões) de rejeição e aceitação (regiões críticas) do teste; 6) realizar o estudo, ou seja , coletar os dados e calcular a estatística do teste; 7) confrontar a estatística observada com a região crítica; 8) tomar a decisão; 9) elaborar a conclusão. Teste de hipóteses de mais de duas médias – Análise de variância (ANOVA)

Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

Embed Size (px)

Citation preview

Page 1: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

1

Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário

1) formular as hipóteses estatísticas;

2) fixar a probabilidade do erro tipo I;

3) calcular o tamanho da amostra necessária para detectar uma diferença que se suspeita existente o que é equivalente a fixar a probabilidade do erro tipo II.

4) apresentar a distribuição de probabilidade da estatística do teste;

5) estabelecer a(s) região(ões) de rejeição e aceitação (regiões críticas) do teste;

6) realizar o estudo, ou seja , coletar os dados e calcular a estatística do teste;

7) confrontar a estatística observada com a região crítica;

8) tomar a decisão;

9) elaborar a conclusão.

Teste de hipóteses de mais de duas médias – Análise de variância (ANOVA)

Page 2: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

2

Considerar a situação na qual deseja-se saber se o tipo de gordura produz efeitos diferentes, quanto a absorção, em doughnouts fritos. Inicialmente será apresentada a comparação de duas médias e, posteriormente, serão comparadas três médias. Desenho experimental: São sorteados (aleatoriamente) doughnuts que foram fritos em cada um de dois tipos de gordura. Quantifica-se a gordura absorvida em cada tipo. Notação: Tipo de gordura (fator): tipo 1 e tipo 2 (i=1,2) Número de doughnuts sorteados em cada tipo: 6 (j=1,...,6) Dados obtidos: quantidade de gordura (g) absorvida por doughnut, segundo tipo de gordura

doughnut Tipo (i) (j) 1 2 1 78 55 2 91 66 3 97 49 4 82 64 5 85 70 6 77 68

média 85 62 73,5

Page 3: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

3

Fixando-se a probabilidade de erro tipo I: Nível de significância () = 0,05

Hipóteses: 21

210

::

aHH

Para nível de significância pré-fixado, define-se as áreas de aceitação e rejeição de H0 utilizando-se a distrbuição F de Snedecor.

Calcula-se a estatística do teste e compara-se o valor observado com a área de rejeição/aceitação de H0 para tomada de decisão.

Density

0

.5

1

1.5

2

2.5

3

3.5

Rejeição de H0 Aceitação de H0

H0

Page 4: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

4

Estatística do teste Para a definição da estatística do teste, parte-se da idéia que se as médias fossem iguais, a média do tipo 1 seria igual à media do tipo 2 e estas seriam iguais à média total. Se isto acontecesse, não existiria variabilidade. Assim, na análise de variância estuda-se a variabilidade dos dados. A variabilidade total dos dados é decomposta em dois componentes: a variabilidade das observações dentro de cada tipo (em torno de suas médias) e a variabilidade entre tipo (cada média em torno da média total). Estrutura geral dos dados

i Unidade de

observação 1 2

1 X11 X21 2 X12 X22 j j X1j X2j 6 X16 X26 Médias

.1X .2X ..X no exemplo: n1=6 n2=6 N=12

Page 5: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

5

O número total de observações é igual a

2

121

iinnnN ;

A média de cada tipo é igual a

1

11

6

11

161211.1 66

...n

xxxxx

X

in

jj

jj

2

12

6

12

262221.2

2

66...

n

xxxxx

X

n

jj

jj

A média de um tipo genérico i é igual a i

n

jij

jij

iiii n

xxxxx

X

i

1

6

1621. 66

...

A média geral é igual a N

xxxxxxX i

n

jij

i jij

i

2

1 1

2

1

6

126211611.. 1266

......

Page 6: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

6

Variabilidade dos dados Chamando-se os tipos de gordura de k; no exemplo k=2, tem-se que o índice para tipo de gordura (i) varia de 1 a k (i=1,..,k) Considerando-se o número de unidades de observação (doughnuts) ni, tem-se que o índice para unidade (j) varia de 1 a ni. No exemplo, j= 1, 2,...6 para i=1 e j= 1, 2, ...6 para i=2 pois n1 = n2 = n = 6 (modelo balanceado). A variabilidade total dos dados é decomposta em duas: variabilidade dentro e variabilidade dentro:

Variação dentro de tipo de gordura

k

i

n

jiij

i

xx1 1

2. )(

Soma de quadrado dentro (SQD) Sum of squares within (SQW).

SQD também chamada resíduo (SQR)

Page 7: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

7

Variação entre tipo

k

iii xxn

1

2... )(

Soma de quadrado entre (SQE) Sum of squares between (SQB).

Variação total

k

i

n

jij

i

xx1 1

2.. )(

Soma de quadrado total (SQT)

SQT=SQE+SQD

Page 8: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

8

Recapitulando-se X:variável contínua de interesse

Populações P1 P2

Médias 1 2

Variâncias 2

2

Deseja-se comparar as médias mediante o cálculo da variabilidade dos dados. É necessário estimar 2 (variância populacional). Para tanto, divide-se cada soma de quadrados pelo respectivo grau de

liberdade. Graus de liberdade (número de observações necessárias)

Graus de liberdade dentro = N-k=10

Graus de liberdade entre = k-1=1

Graus de liberdade total = N-1

Page 9: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

9

Estimador de 2 : se H0 for verdade,

2̂ knSQD

kNSQD

= Quadrado médio dentro (QMD), também chamado quadrado médio do resíduo (QMR)

outro estimador de 2 : se H0 for verdade, 2ˆ

1

kSQE

1kSQE = Quadrado médio entre (QME), se H0 não for verdade, o valor estimado do quadrado

médio entre será igual a

k

iii xxn

kQME

1

2...

2 )(1

Page 10: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

10

Para a realização do teste confronta-se o QMD e o QME.

Estatística do teste: QMDQME

Se H0 for verdade, 1QMDQME

Se H0 não for verdade, 1QMDQME

Se H0 for verdade, 21 ,~ FQMDQME

onde F é a curva F de Snedecor e 1 e 2 são os graus de

liberdade do numerador e denominador, respectivamente

Page 11: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

11

Tabela da Análise de Variância – ANOVA Fonte de variação

gl SQ QM F

Entre k-1 SQE 1

kSQE

QME QMDQME

Dentro N-k SQD kN

SQDQMD

Total N-1 SQT Fórmulas operacionais:

SQT = NTX

i jij

22 , onde

i jijXT

SQD =

X Tnij

ji

i

ii

22

, onde

jiji XT

SQE = NT

nT

i i

i22

Page 12: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

12

Aplicação: Hipóteses:

21

210

::

aHH

Gramas de gordura absorvida por doughnut, segundo tipo de gordura; k=2; N=12

doughnut Tipo de gordura (i) j 1 2 1 78 55 2 91 66 3 97 49 4 82 64 5 85 70 6 77 68 ni 6 6 N=12

Médias ( .iX ) 85 62 73,5

Ti 510 372 T = 882 X ij

j

2

43652 23402 i j

ijX 670542

i

i

nT 2

43350

65102

1

21 nT

230646

372 2

2

22 nT

6482712

882 22

NT

Page 13: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

13

Soma de quadrado entre: SQE = NT

nT

i i

i22

SQE = 1587648272306443350

Soma de quadrado dentro i i

i

i jij n

TXSQD2

2

SQD = 67054-(43350+23064)=640

Soma de quadrado totalSQT = NTX

i jij

22

SQT = 67054-64827= 2227

Page 14: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

14

ANOVA (N=12; k=2) Fonte de variação

gl SQ QM F

Entre k-1=1 1587 1587/ 1= 1587 1587/ 64 = 24,80 Dentro N-k=10 640 640/ 10 = 64 Total N-1=11 2227

Para nível de significância de 5% e gl = 1 no numerador e 10 no denominador, tem-se a área de rejeição/aceitação de H0, se H0 for verdade: Como o valor de Fobs (24,8) cai na área de rejeição, decide-se por rejeitar H0. Foi encontrada diferença estatisticamente significante entre as médias, para nível de significância de 5%.

Density

0

.5

1

1.5

2

2.5

3

3.5

Rejeição de H0 =0,05

Aceitação de H0

H0

Fcritico, 1, 10 = 4,96 Fobs=24,8

Os doughnuts ficam encharcados diferentemente segundo o tipo de gordura. O tipo 1 encharca mais que o tipo 2.

Page 15: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

15

Abordagem de Fisher Proposição inicial: 21 Cálculo do valor de p A probabilidade de se observar um valor F=24,8 ou um valor mais extremo em uma curva onde as médias são iguais é < 0,5% (p<0,005). Como o valor de p é pequeno, diz-se que existe evidência contrária à proposição inicial de igualdade de médias. O tipo 1 encharca mais os doughnuts que o tipo 2.

Curva F com 1 e 10 graus de liberdade sob a hipótese (H0) de igualdade de médias

Fobs = 24,8

p<0,005

H0

Page 16: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

16

A Análise de variância é equivalente ao teste t de Student para amostras independentes, se o número de tratamentos for igual a 2.

2321 xx ;

6410

5x60,67 5x40,60

60,675

3385

62

40,605

3025

85

2

222

2

212

1

p

j

j

j

j

s

xs

xs

2

21

2121

~;11

nn

p

tt

nns

xxt ; 9796,4)

61

61(8

23

t ;

note que )]2( ,1[2

2 2121 nnnn Ft utilizando-se os dados, 80,249796,4 2

Page 17: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

17

Situação para mais de duas médias Abordagem de Neyman e Pearson Hipóteses:

diferenteémédiaumamenospeloHH

a :: 3210

Gramas de gordura absorvidas por doughnuts, segundo tipo de gordura, k=3; n=17 Tipo doughnuts 1 2 3 1 78 55 75 2 91 66 93 3 97 49 78 4 82 64 71 5 85 70 63 6 77 68 ni n1=6 n2=6 n3=5 n=17 Ti T1=510 T2=372 T3=380 T=1262 X i 85 62 76 74,24 X ij

j

2 43652 23402 29368 96422

T ni i2 43350 23064 28880 93684,94

Page 18: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

18

Soma de quadrado entre

06,160994,9368428880230644335022

nT

nT

SQEi i

i

Soma de quadrado dentro

i i

i

i jij n

TXSQD 1128 28880)23064(43350-964222

2

Soma de quadrdo total

2737,06 93684,94-964222

2 nTXSQT

i jij

ANOVA F. V. g.l. SQ QM F Entre 2 1609,06 SQEntre/2 = 804,53 QME/QMD= 9,99 Dentro 14 1128 SQDentro/14 = 80,57 Total 16 2737,06

Page 19: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

19

Para nível de significância de 5% e gl = 2 no numerador e 14 no denominador, tem-se a área de rejeição/aceitação de H0, se H0 for verdade: Como o valor de Fobs (9,99) cai na área de rejeição, decide-se por rejeitar H0. Foi encontrada diferença estatisticamente significante entre as médias, para nível de significância de 5%.

Os doughnuts ficam encharcados diferentemente segundo o tipo de gordura. Não é possível afirmar qual gordura encharca mais, mas pode-se afirmar que as quantidades médias diferem. Para localizar a diferençca deve-se utilizar algum tipo de contraste, como por exemplo o de Scheffé.

Density

0

.5

1

1.5

2

2.5

3

3.5

Rejeição de H0 =0,05

Aceitação de H0

H0

Fcritico, 2, 14 = 3,74 Fobs=9,99

Page 20: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

20

Abordagem de Fisher Proposição inicial: 321 Cálculo do valor de p: A probabilidade de se observar um valor F=9,99 ou um valor mais extremo em uma curva onde as médias são iguais é < 0,5% (p<0,005). Como o valor de p é pequeno, diz-se que existe evidência contrária à proposição inicial de igualdade de médias. Existe pelo menos uma média diferente.

Curva F com 2 e 14 graus de liberdade sob a hipótese (H0) de igualdade de médias

Fobs = 9,99

p<0,005

H0

Page 21: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

21

COMPARAÇÕES MÚLTIPLAS - TÉCNICA DE SCHEFFÉ Contraste : são valores que multiplicam as médias de modo formam uma combinação algébrica do

tipo 21 . Neste caso, a combinação é 21 )1()1( . Os valores +1 e –1 constituem os

contrastes c1 e c2 que somados resultam no valor zero. Utiliza-se os contrastes para compor combinações (lineares) do tipo

iiic , tal que 0

iic

As comparações podem ser feitas pelos Intervalos de Confiança de 95% (IC95%) para as combinações. Se o IC95% incluir o zero, então as médias são iguais.

Cálculo do IC95%:

)(1

2

i

i

iii n

cQMDentroSXc , onde ),,1()1( kNkFkS

Page 22: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

22

Comparações múltiplas 2 a 2: Média 1 x Média 2

)14,37 86,8( ;14,1423 ; 18,5x73,223

)61

61(5714,8074,3x2)6285(

O intervalo não inclui o valor 0, portanto existe diferença entre as médias.

Média 1 x Média 3

)85,2385,5( ;85,149 ; 44,5x73,29

)51

61(5714,8074,3x2)7685(

O intervalo inclui o valor 0, portanto não existe diferença entre as médias. Média 2 x Média 3

)85,28 85,0 ( 14,85;14 ; 44,5x73,214

)51

61(5714,8074,3x2)6276(

O intervalo inclui o valor 0, portanto não existe diferença entre as médias.

Page 23: Aula 16- Análise de variância (ANOVA) 1 Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário 1) formular as hipóteses estatísticas;

aula 16- Análise de variância (ANOVA)

23

Exemplo 36 pacientes hospitalizados foram submetidos a três dietas especiais. Medidas do ácido ascórbico no plasma foram tomadas. Realize um teste de hipóteses para investigar se os dados sugerem algum efeito de dieta.

Dieta 1 Dieta2 Dieta 3 0,22 1,03 0,75 0,88 0,96 0,98 0,73 1,18 1,07 0,30 0,74 1,48 0,54 1,33 1,30 0,16 1,27 1,39 0,30 1,17 1,17 0,70 1,80 1,60 0,31 0,54 0,77 1,40 1,40 1,12 0,60 0,80 1,16 0,73 0,50 1,17

318,372 i j

ijX ;

603,11252 T

656,332

i i

i

nT