67
UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMÁTICA DEPARTAMENTO DE ESTATÍSTICA NOTAS DE AULA MAT236 – MÉTODOS ESTATÍSTICOS 3ª UNIDADE Elaborada pelas professoras: Giovana Silva, Lia Moraes, Rosana Castro e Rosemeire Fiaccone Revisada em 2013.1 pelas professoras: Gecynalda Gomes e Silvia Regina Revisada em 2014.2 pela professora: Silvia Regina

Apostila 3 MAT236 07Nov

Embed Size (px)

Citation preview

  • UNIVERSIDADE FEDERAL DA BAHIA

    INSTITUTO DE MATEMTICA DEPARTAMENTO DE ESTATSTICA

    NOTAS DE AULA

    MAT236 MTODOS ESTATSTICOS 3 UNIDADE

    Elaborada pelas professoras:

    Giovana Silva, Lia Moraes, Rosana Castro e

    Rosemeire Fiaccone

    Revisada em 2013.1 pelas professoras:

    Gecynalda Gomes e Silvia Regina

    Revisada em 2014.2 pela professora:

    Silvia Regina

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 1

    14. Anlise de Regresso

    Frequentemente, estamos interessados em estudar como duas ou mais variveis esto associadas. Algumas vezes o interesse apenas medir o grau de associao e outras vezes desejam-se obter um modelo matemtico-estatstico que seja capaz de descrever a relao funcional entre as variveis. Para investigar e modelar a relao entre elas, usa-se a Anlise de Regresso.

    Quando estamos estudando o comportamento de apenas duas variveis x e y que supostamente se relacionam atravs de uma funo linear, devemos considerar a seguinte equao: = + + , em que 0 o intercepto e 1 a inclinao. O erro aleatrio pode ser pensado como uma falha da equao linear em se ajustar aos dados exatamente. Este modelo chamado de Modelo de Regresso Linear Simples. Para estimar os parmetros 0 e 1, uma amostra de pares (x; y) deve ser coletada e analisada. A varivel x conhecida como varivel preditora ou independente e y conhecida como varivel resposta ou dependente.

    Obtemos um modelo mais geral quando a varivel resposta pode ser relacionada a k variveis preditoras, x1, x2, ..., xk e, neste caso, o modelo adequado seria: = + + + + + . Este modelo chamado Modelo de Regresso Linear Mltipla.

    Nem sempre um modelo de regresso linear o mais adequado para uma determinada situao. Algumas vezes, devemos modelar a relao entre variveis utilizando funes no lineares ou mesmo fazendo alguma transformao funcional na(s) varivel(s) de modo a obter linearidade.

    Em todos os casos importante destacar que um modelo de regresso no implica numa relao de causa-e-efeito. Para estabelecer causalidade, a relao entre as variveis preditoras e a resposta deve ter uma base alm do conjunto de dados. Por exemplo, o relacionamento entre variveis pode ser sugerido por consideraes tericas. A Anlise de Regresso pode apenas ajudar a confirmar esta relao.

    14.1. Diagrama de Disperso e Coeficiente de Correlao

    Como dissemos anteriormente, para estudar a relao entre duas variveis devemos partir da coleta de uma amostra de pares de observaes. Para isto, necessrio realizar

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 2

    um experimento em que se faz simultaneamente medidas de duas variveis x e y para uma amplitude de diferentes condies experimentais. Sejam (x1 ;y1), (x2 ;y2), ... , (xn; yn) os n pares de observaes.

    Um procedimento para visualizarmos a forma da relao entre as variveis x e y o diagrama de disperso, que nada mais do que a representao dos pares de valores num sistema cartesiano.

    Exemplo 14.1: (Werkema, 1996): Uma indstria fabricante de eletrodomsticos da chamada linha branca, tem como objetivo resolver o problema apresentado pelo elevado ndice de refugo da gaveta de legumes de um modelo de refrigerador produzido pela empresa. A observao do problema indicou que a maior parte das gavetas refugadas era considerada defeituosa por apresentarem corte fora de esquadro. Os tcnicos da empresa suspeitaram que a ocorrncia do corte de gavetas fora de esquadro pudesse estar relacionada variao de tenso na rede eltrica, que poderia prejudicar o desempenho do equipamento de corte. Para a verificao da validade desta hiptese, foram coletados dados sobre a tenso na rede eltrica (x) e a variao no corte (y), os quais esto apresentados na tabela abaixo.

    Tabela 14.1: Medidas da Tenso na Rede Eltrica (Volts) e Variao no Corte das Gavetas (mm). Nmero

    da Medida i

    Tenso na Rede Eltrica (Volts)

    Variao no Corte (mm)

    Nmero da

    Medida i Tenso na Rede Eltrica (Volts)

    Variao no Corte (mm)

    1 222,7 15,7 20 222,2 15,9 2 217,7 17,0 21 213,9 19,1 3 219,4 16,3 22 216,0 18,0 4 220,9 16,1 23 218,1 17,0 5 214,4 18,6 24 222,0 16,0 6 216,5 17,8 25 224,1 15,4 7 213,0 19,5 26 214,9 18,6 8 221,7 16,0 27 214,2 18,7 9 224,7 15,3 28 223,3 15,6 10 215,5 18,3 29 216,7 17,6 11 220,0 16,3 30 215,3 18,5 12 218,6 16,7 31 223,8 15,5 13 223,5 15,7 32 220,6 16,1 14 217,0 17,4 33 215,8 18,2 15 221,5 16,1 34 217,3 17,3 16 218,4 16,8 35 219,2 16,5 17 213,6 19,3 18 221,2 16,2 19 219,9 16,2

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 3

    Figura 14.1. Diagrama de disperso da Tenso da Rede Eltrica e da Variao no Corte

    Pela Figura 14.1 acima, podemos constatar que existe uma tendncia decrescente, j que maiores valores para a tenso na rede eltrica correspondem a menores valores para a variao no corte.

    Porm, observada esta associao, til quantific-la. Neste caso, podemos utilizar o coeficiente de correlao para quantificar esta associao. Em geral, a letra r usada para representar este coeficiente. Valores de r variam de 1,0 a + 1,0. Um r prximo a + 1,0 corresponde a um diagrama de disperso em que os pontos caem em torno de linha reta com inclinao positiva, e um r prximo a 1,0 corresponde a um diagrama em que os pontos caem em torno de uma linha reta com inclinao negativa. Um r prximo a 0 corresponde a um conjunto de pontos que no mostram nenhuma tendncia, nem crescente, nem decrescente. A Figura 14.2, a seguir, mostra cinco diagramas de disperso de Y e X.

    Os diagramas das Figuras 14.2(a) e 14.2(b) mostram duas situaes em que os pontos esto em torno de uma reta imaginria ascendente. Valores pequenos de X esto associados a valores pequenos de Y, o mesmo acontecendo para valores grandes. Estes dois casos indicam o que chamamos de correlao linear positiva de Y e X. Porm, os dados em 14.2(b) apresentam uma correlao linear positiva mais forte que em 14.2(a).

    225220215

    19.5

    19.0

    18.518.0

    17.5

    17.016.5

    16.0

    15.5

    15.0

    (volts)Tenso

    Corte

    (m

    m)

    Varia

    o

    no

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 4

    Figura 14.2. Grficos de Disperso

    2 4 6 8 10 12

    510

    1520

    25

    a) r > 0

    x

    y

    5 10 15

    510

    15

    b) r = 1

    x

    y

    2 4 6 8 10 12

    510

    1520

    25

    c) r < 0

    x

    y

    2 4 6 8 10 12 14

    24

    68

    1012

    1416

    d) r = -1

    x

    y

    1 2 3 4 5 6 7 8

    24

    68

    e)r=0

    x

    y

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 5

    As Figuras 14.2(c) e 14.2(d) mostram que os pontos em X e Y esto em torno de uma reta imaginria descendente, indicando o que chamamos de correlao linear negativa, ou seja, valor de r menor que zero. Observe que em 14.2(d) a correlao igual a -1.

    Os valores de X e Y na Figura 14.2(e) no sugerem uma associao entre duas variveis, pois valores pequenos ou grandes de X esto associados tanto a valores pequenos quanto a valores grandes de Y. Os pontos do diagrama no se posicionam em torno de uma linha imaginria ascendente ou descendente.

    O coeficiente de correlao, tambm chamado de Coeficiente de Correlao de Pearson, calculado por:

    Ou

    em que xi e yi so os valores observados de X e Y, respectivamente; i=1,2,...,n e n o nmero de observaes para cada varivel e so as mdias de X e Y, respectivamente.

    Exemplo 14.2: Calculando o coeficiente de correlao linear para os dados do exemplo 14.1, r = -0,976 , um valor muito prximo de 1, podemos concluir que existe uma forte correlao negativa entre a tenso na rede eltrica e a variao no corte das gavetas de legumes do refrigerador produzido pela indstria.

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 6

    Tabela 14.2: Dados para o Clculo do Coeficiente de Correlao para o Exemplo 14.1

    i x y x2 y2 xy 1 222,70 15,70 49595,29 246,49 3496,39 2 217,70 17,00 47393,29 289,00 3700,90 3 219,40 16,30 48136,36 265,69 3576,22 4 220,90 16,10 48796,81 259,21 3556,49 5 214,40 18,60 45967,36 345,96 3987,84 6 216,50 17,80 46872,25 316,84 3853,70 7 213,00 19,50 45369,00 380,25 4153,50 8 221,70 16,0 49150,89 256,00 3547,20 9 224,70 15,3 50490,09 234,09 3437,91

    10 215,50 18,3 46440,25 334,89 3943,65 11 220,00 16,3 48400,00 265,69 3586,00 12 218,60 16,7 47785,96 278,89 3650,62 13 223,50 15,7 49952,25 246,49 3508,95 14 217,00 17,4 47089,00 302,76 3775,80 15 221,50 16,1 49062,25 259,21 3566,15 16 218,40 16,8 47698,56 282,24 3669,12 17 213,60 19,3 45624,96 372,49 4122,48 18 221,20 16,2 48929,44 262,44 3583,44 19 219,90 16,2 48356,01 262,44 3562,38 20 222,20 15,9 49372,84 252,81 3532,98 21 213,90 19,1 45753,21 364,81 4085,49 22 216,00 18,0 46656,00 324,00 3888,00 23 218,10 17,0 47567,61 289,00 3707,70 24 222,00 16,0 49284,00 256,00 3552,00 25 224,10 15,4 50220,81 237,16 3451,14 26 214,90 18,6 46182,01 345,96 3997,14 27 214,20 18,7 45881,64 349,69 4005,54 28 223,30 15,6 49862,89 243,36 3483,48 29 216,70 17,6 46958,89 309,76 3813,92 30 215,30 18,5 46354,09 342,25 3983,05 31 223,80 15,5 50086,44 240,25 3468,90 32 220,60 16,1 48664,36 259,21 3551,66 33 215,80 18,2 46569,64 331,24 3927,56 34 217,30 17,3 47219,29 299,29 3759,29 35 219,20 16,5 48048,64 272,25 3616,80

    Total 7657,60 595,30 1675792,38

    10178,11 130103,39

    = 130103,39 135 (7657,60595,30)[1675792,38 135 (7657,6)][10178,11 135 (595,30)]= 0,976

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 7

    Cuidados com Correlaes

    Um dos cuidados que devemos ter quando a correlao interpretada saber que correlao no o mesmo que causalidade (relao de causa e efeito). Isto , quando duas variveis so altamente correlacionadas, no significa, necessariamente, que uma causa a outra. Em alguns casos, podem existir relaes causais, mas no se saber isso pelo coeficiente de correlao. Provar uma relao de causa e efeito muito mais difcil do que somente mostrar um coeficiente de correlao alto. Um outro cuidado que deve ser tomado ao se interpretar correlao associar um diagrama de disperso ao conjunto de dados. Veja o exemplo abaixo.

    Exemplo 14.3: Vamos calcular para cada um dos quatro conjuntos de dados abaixo o coeficiente de correlao.

    Para cada um deles, temos: r =0,82 (Verifique!). Porm, estes conjuntos de dados apresentam disposies completamente diferentes no diagrama.

    Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 X Y X Y X Y X Y 10 8,04 10 9,14 10 7,46 8 6,58 8 6,95 8 8,14 8 6,77 8 5,76 13 7,58 13 8,74 13 12,74 8 7,71 9 8,81 9 8,77 9 7,11 8 8,84 11 8,33 11 9,26 11 7,81 8 8,47 14 9,96 14 8,10 14 8,84 8 7,04 6 7,24 6 6,13 6 6,08 8 5,25 4 4,26 4 3,10 4 5,39 19 12,50 12 10,84 12 9,13 12 8,15 8 5,56 7 4,82 7 7,26 7 6,42 8 7,91 5 5,68 5 4,74 5 5,73 8 6,89

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 8

    Figura 14.3. Diagramas de Disperso.

    Avaliando a Figura 14.3 (a) mostra que existe uma relao linear entre as variveis x e y. Os dados em 14.3 (b) sugerem uma relao quadrtica entre as variveis. O diagrama da Figura 14.3 (c) apresentaria um coeficiente de correlao aproximadamente igual a 1, mas devido a um valor atpico apresentou um valor 0,82. Na Figura 14.3 (d) indica que no existe uma relao linear entre as variveis, mas o valor 0,82 do coeficiente de correlao devido observao atpica presente no conjunto de dados.

    4 6 8 10 12 14

    56

    78

    910

    11

    a) Conjunto 1

    x

    y

    4 6 8 10 12 14

    34

    56

    78

    9

    b) Conjunto 2

    x

    y

    4 6 8 10 12 14

    68

    1012

    c) Conjunto 3

    x

    y

    8 10 12 14 16 18

    67

    89

    1011

    12d) Conjunto 4

    x

    y

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 9

    Questes No Respondidas pela Correlao

    Ao estudarmos a relao entre variao no corte (mm) e tenso (volts) surgem algumas questes importantes tais como: 1) Qual a previso de variao no corte (mm) usando uma tenso especificada em volts? 2) Qual a mdia estimada de variao no corte (mm) para uma especificada tenso em

    volts? 3) Quais so os limites de confiana para variao no corte (mm) predita?

    Questes deste tipo podem ser respondidas com uma anlise de regresso dos dados, que o assunto das prximas sees.

    Principais Objetivos da Anlise de Regresso

    De maneira geral, os modelos de regresso podem ser usados para vrios propsitos, dentre os quais possvel destacar: a) Descrio dos dados b) Estimao dos parmetros c) Predio d) Controle

    Descrio dos dados muito comum a utilizao da anlise de regresso para descrever um conjunto de

    dados. Isto , a construo de um modelo que relacione, por exemplo, o efeito do ar condicionado no consumo de energia eltrica uma maneira muito mais efetiva de conhecer o relacionamento entre estas variveis em comparao a uma tabela ou mesmo um grfico.

    Estimao dos parmetros No exemplo sobre o consumo de energia eltrica, podemos utilizar a anlise de

    regresso para conhecermos qual o nmero mdio de kilowatt/hora consumido usando o ar condicionado por uma hora.

    Predio possvel tambm, utilizar regresso para predizer valores para a varivel resposta.

    Voltando ao Exemplo 14.1, o fabricante pode estar interessado em conhecer quanto ser a

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 10

    variao do corte da gaveta (em mm) para uma determinada tenso na rede eltrica (em volts).

    Controle A Anlise de Regresso pode ser usada com o objetivo de controlar a varivel

    resposta. Considere, como exemplo, um engenheiro qumico que est interessado em controlar o rendimento de um processo qumico atravs das variveis temperatura e tempo de reao. Esta equao poder ser utilizada para determinar a natureza dos ajustes a serem realizados nas variveis temperatura e tempo de reao, para que o rendimento possa ser mantido num intervalo pr-estabelecido.

    importante destacar que, quando o modelo de regresso for empregado com o objetivo de controle, a relao existente entre a varivel de interesse e as variveis utilizadas para seu controle sejam do tipo causa-e-efeito.

    14.2. Regresso Linear Simples por Mnimos Quadrados

    Um coeficiente de correlao descreve a associao linear entre variveis porm, para investigar e modelar a relao entre elas, usa-se a Anlise de Regresso.

    Para se ajustar um modelo de regresso por mnimos quadrados a varivel resposta deve ser quantitativa.

    O que se deseja, freqentemente, com base em dados amostrais, estimar o valor da varivel y, correspondente ao conhecimento de uma varivel x. Isto pode ser feito mediante a estimativa da funo linear f(x) = y = 0 + 1x. Observe, porm, que as linhas que vrias pessoas podem traar para este conjunto de pontos seriam, provavelmente, similares, desde que o grfico tenha um padro bem definido. Porm, elas no seriam idnticas, de forma que os valores preditos para varivel resposta poderiam diferir tambm. Para um conjunto de dados sem um padro bvio no grfico; diferentes pessoas poderiam traar diferentes linhas sobre os dados, permitindo grandes diferenas entre os valores preditos. Usando a Anlise de Regresso, qualquer um obter exatamente a mesma linha reta. Este processo chamado de ajuste de uma reta de regresso. O mtodo usado mais freqentemente para ajustar uma reta usa um princpio chamado de Mnimos Quadrados. Este mtodo ser descrito posteriormente..

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 11

    Observe a Figura 14. 4 a seguir. O princpio de mnimos quadrados envolve ajustar uma reta passando por pontos de forma que as diferenas verticais entre todos os pontos e a reta so calculadas. Ento, estas diferenas so elevadas ao quadrado para dar aos pontos acima e abaixo da reta a mesma importncia (as diferenas ao quadrado so todas positivas). As diferenas so ento somadas. A melhor reta aquela que minimiza esta soma das diferenas ao quadrado, sendo chamada, de mnimos quadrados.

    Figura 14.4 Processo de Mnimos Quadrados

    J vimos que uma relao linear entre duas variveis pode ser expressa atravs da equao: = + + , em que, o intercepto, a inclinao e o erro. Esta equao a que se obteria medindo-se a populao inteira de valores de x e y. Na realidade, apenas uma amostra medida e usa-se esta amostra para estimar a reta. A reta estimada por meio da amostra pela regresso de mnimos quadrados ser denotada por: = ! + !, em que !

    e ! so estimativas de e , respectivamente. O valor ! o valor predito de quando x zero e chamado de intercepto da reta desde que ele o local em que a reta intercepta o eixo vertical. O valor ! o incremento em

    resultante do incremento de uma unidade em x e chamado de inclinao da reta.

    O mtodo de Mnimos Quadrados baseado na soma dos quadrados dos resduos, , ou seja:

    AR

    CON

    SUM

    O

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100

    0 2 4 6 8 10 12 14 16

    Reta dos mnimos

    quadrados minimiza os

    valores ao quadrado de

    todas as diferenas

    verticais como estas.

    =

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 12

    fazendo-se tal soma a menor possvel. A soluo deste problema matemtico fornece as seguintes expresses para !

    e !:

    Ou

    e

    em que yi e xi so os valores observados das variveis Y e X e e so as respectivas mdias amostrais destas variveis.

    O modelo de regresso adotado para o Exemplo 14.1 dado por: " = + " + #", $ = 1 , , 35

    Vamos ajustar agora um modelo de regresso linear simples com dados do Exemplo 14.1.

    b = 1675792,38595,3 7657,60130103,39351675792,38 (7657,6) = 94,96 e

    ! = 35130103,39 595,37657,6351675792,38 (7657,6) = 0,3563 0,36

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 13

    portanto, o modelo de regresso ajustado expresso por: () = 94,96 0,36" , $ = 1, 2, , 35. (14.5)

    Esta equao de regresso mostra que para cada aumento de um volt na tenso na rede eltrica a variao no corte das gavetas diminui, em mdia, 0,36 mm. Como o intervalo dos valores observados de x no contempla o valor zero, o valor 94,96 no tem um significado particular como termo separado do modelo de regresso.

    Anlise de Varincia no Modelo de Regresso

    A Analise de Varincia baseada na partio da variao total da varivel dependente Y que pode ser decomposta em duas partes: uma explicada pelo modelo de regresso ajustado e outra no explicada, conforme mostra a equao abaixo.

    +(," ,)-". = +(,(/ ,)

    -

    ". + +(," ,(/)

    -

    ". (14.6). O termo do lado esquerdo de (14.6) a soma dos quadrados das observaes em relao ao seu valor mdio e representa uma medida da variabilidade total dos dados de Y. Esta soma denotada por SQ23456 = (Y9 Y:);9. . O primeiro termo do lado direito de (14.6) a soma dos quadrados explicada pelo modelo de regresso, sendo denotada por ?@A?BB3 = (YC/ Y:);9. enquanto o segundo termo a soma de quadrados residual SQDEF"GHIJ = (Y9 YC/ );9. que no explicada pelo modelo de regresso. O modelo ser melhor ajustado quanto maior for a variao explicada

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 14

    O critrio do teste o seguinte: rejeita-se H0, ao nvel de significncia, se F > F(, 1; n 2), em que F(, 1; n 2) o percentil da distribuio Fisher-Snedecor com 1 e n 2 graus de liberdade, respectivamente. Caso contrrio, a hiptese H0 no deve ser rejeitada.

    Tabela 14.3: Tabela de Anlise de Varincia para o Modelo de Regresso Linear Simples.

    Fonte de variao

    Graus de liberdade (gl)

    Soma de quadrados (SQ)

    Quadrados mdios (MQ) F

    Regresso 1 ?@A?BB3 N=>?@A?BB3 = ?@A?BB31 Q = N=>?@A?BB3N=DEF"GHIJ Residual n-2 SQDEF"GHIJ N=DEF"GHIJ = SQDEF"GHIJR 2

    Total n-1 SQSTUIJ

    Para uma amostra n pares (x, y), a soma de quadrados total associada a variabilidade total de Y tem n-1 graus de liberdade e a soma de quadrados de resduo tem n-2 graus de liberdade. Os quadrados mdios so obtidos dividindo as somas de quadrados pelos correspondentes graus de liberdade.

    Quando as somas de quadrados forem calculadas manualmente, elas podem ser obtidas atravs das seguintes expresses dadas adiante.

    SQSTUIJ = +(" )-". = + "

    -

    ". 1R V+ "

    -". W

    (14.7) ?@A?BB3 = +(,(/ ,)-". = ! X+(" )(" )

    -". Y = ! X+ "

    -". " R Y (14.8)

    e SQDEF"GHIJ = SQSTUIJ ?@A?BB3 (14.9)

    Para o Exemplo 14.1 ser realizado o seguinte teste de hipteses: H : = 0 (No existe relao linear entre a tenso da rede eltrica e o corte da gaveta) H : 0 (Existe relao linear entre a tenso da rede eltrica e o corte da gaveta) A soma de quadrados para compor a Tabela da Anlise de Varincia calculada

    conforme as equaes (14.7) a (14.9),

    SQSTUIJ = + "-". 1R V+ "

    -". W

    = 10178,11 135 (595,3) 52,907

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 15

    ?@A?BB3 = ! X+ "-". " R Y = 0,3563. l130103,39 35 m7657,6035 n m595,3035 no

    50,397 Uma vez calculadas as duas somas de quadrados, obtemos a terceira soma de

    quadrados conforme apresenta adiante:

    SQDEF"GHIJ = SQSTUIJ ?@A?BB3 = 52,91 50,397 = 2,513. Os quadrados mdios (MQ) sos calculados atravs das expresses adiante.

    N=>?@A?BB3 = ?@A?BB31 = 50,397 p N=DEF"GHIJ = SQDEF"GHIJR 2 = 2,51333 = 0,0762.

    O valor da estatstica de teste.

    qcalculado = N=A?@A?BB3N=rps$tuvw = 50,3970,0762 = 661,377.

    Os resultados esto resumidos na Tabela da Anlise de Varincia a seguir.

    Tabela 14.4: A Tabela Anova para o modelo de Regresso Linear Simples

    Fonte de variao

    Graus de liberdade (gl)

    Soma de quadrados (SQ)

    Quadrados mdios (MQ) qcalculado *x-valor

    Regresso 1 50,397 50, 397 661,377 2,071x10-23 Residual 33 2, 513 0, 0762 Total 34 52,907 ---- ----

    *p-valor = P|Q;~~ Q56653 = P|Q;~~ 661,377 2,071 10~.

    Concluso: Com auxlio da Tabela da distribuio Fisher-Snedecor, obtemos F,;;~~= 4,139 (ver Tabela 2 em Anexo). Como Q,;;~~ = 4,139 < Fcalculado = 661,38 rejeitamos a hiptese nula e conclumos que os dados esto indicando a existncia de uma relao linear entre a tenso na rede eltrica (volts) e a variabilidade no corte das gavetas (mm) produzidas pela fabrica, ao nvel de significncia de 5%. Chegamos a mesma concluso ao observarmos o p-valor = 2,071x10-23< =0,05.

    No caso de regresso linear uma forma de medir a proporo da reduo na variao total em Y associada com o uso da varivel explicativa X o coeficiente de determinao expresso por:

    =

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 16

    O valor de r2 varia no intervalo [0; 1]. Desta forma, quanto maior for o coeficiente de determinao, maior ser a reduo na variao total de Y pela introduo da varivel independente X. Entretanto, o coeficiente de determinao dever ser empregado com muita cautela. Por exemplo, quando temos dados envolvendo sries temporais que tendem a se mover na mesma direo, refletindo uma forte tendncia, qualquer modelo que detecte essa tendncia ter um de r2 alto, o que pode ser esprio (no refletir a verdadeira relao linear entre as variveis envolvidas) (Souza, 1998).

    O coeficiente de determinao = ,~, = 0,953 revela que aproximadamente 95,3% da variabilidade no corte das gavetas produzidas pela fabricadas explicada pela tenso na rede eltrica (atravs do modelo proposto) e que 4,7% so atribudas a outras causas.

    Sada do software Excel

    Estatstica de regresso R mltiplo 0,9760 R-Quadrado 0,9525 R-quadrado ajustado 0,9511 Erro padro 0,2760 Observaes 35

    ANOVA

    gl SQ MQ F F de significao Regresso 1,00 50,39 50,39 661,60 2,071x10-23 Resduo 33,00 2,51 0,08

    Total 34,00 52,91

    Coeficientes Erro padro Estatstica t P- valor 95%

    inferiores 95%

    superiores Interseo 94,957 3,031 31,330 0,000 88,791 101,124 Tenso -0,356 0,014 -25,722 0,000 -0,384 -0,328

    Outra maneira de verificar a adequao do modelo de regresso linear simples apresentada adiante. Para tal, necessrio supor que o erro tem distribuio normal

    Estimativa para Estimativa para Intervalos de confiana para e

    Coeficiente de Determinao para Regresso Linear Simples

    A Tabela Anova

    P- valor

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 17

    com mdia 0 e varincia 2. Na Seo adiante ser estudada a anlise de resduo para a verificao desta suposio.

    O intervalo de confiana para com (1-)100% de confiana dado por:

    Exemplo 14.5: Vamos calcular o intervalo de confiana para com 95% para o modelo de regresso linear simples com os dados do Exemplo 14.1.

    Baseado neste intervalo pode-se concluir que existe evidncia que 0, com 95% de confiana e, portanto, h evidncia de que o modelo de regresso linear adequado.

    Predio de Novas Observaes

    Suponha que se queira predizer uma nova observao y correspondendo a um nvel especificado da varivel preditora x. Denotando x= x* como sendo este o valor de interesse, ento,

    y* = b0 + b1 . x*

    uma estimativa pontual para o novo valor da resposta. Considerando que o erro tem distribuio normal com mdia 0 e varincia 2, o intervalo de predio para y* com (1-)% de confiana dado por:

    [! + ! ; -

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 18

    s o desvio padro do erro e ; - o ponto que define uma rea de (/2) na cauda superior da distribuio t com n-2 graus de liberdade.

    Exemplo 14.5: Suponha que se queira predizer a variao no corte (mm) quando a tenso 200 volts. Neste caso, x* = 200 volts, e, portanto, variao predita = 95,03 (0,36 x 200) = 23,03.

    O intervalo de 95% confiana : ( = 0,05 ,; ~~ = 2,035; n = 35 e s = 0,0762 = 0,276)

    Isto significa que voc pode estar confiante com 95% que a variao do corte (mm) quando a tenso de 200 volts varia entre 22,3 e 23,7.

    Observao: Deve-se tomar cuidado quando estender uma reta de regresso ajustada para se fazer predies fora do intervalo de variao dos valores de x, usados para ajustar a reta de regresso. No somente o intervalo de predio comea a se tornar mais largo, tornando as previses de pouca confiana, como o padro da relao entre as variveis pode mudar drasticamente para valores distantes de x. Os dados coletados no do nenhuma indicao sobre a natureza desta mudana.

    Diagnsticos Bsicos em Regresso

    Como determinar se um modelo representa adequadamente os dados? Como saber se mais termos devem ser adicionados ao modelo? Como identificar outliers, isto , observaes que no so tpicas do restante da massa de dados? Estas so questes que podem ser respondidas examinando-se os resduos do modelo ajustado, isto , as diferenas entre os valores observados e preditos pelo modelo.

    Para que um modelo de regresso possa ser empregado como base para outros estudos, necessrio que as suposies feitas durante sua construo sejam vlidas. Se algumas destas suposies no se confirmarem, o modelo poder ser inadequado para fazer as inferncias de interesse. Neste caso, deve ser procurado outro modelo mais adequado ou ser empregada outra abordagem para a anlise do problema.

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 19

    As suposies que devem ter sua validade verificada so:

    O relacionamento entre y e x linear; O erro tem mdia zero; O erro tem varincia constante; Os erros so no correlacionados; O erro tem distribuio normal.

    Diagnsticos bsicos em regresso e ajuste de modelos so interdependentes. Primeiro um modelo ajustado, e ento se examina o modelo usando diagnsticos. Isso pode levar ao ajuste de um segundo modelo, o qual deve ser examinado por meio da anlise dos resduos. O processo continua at que se encontre um modelo que se ajuste bem aos dados. Note que possvel no se encontrar um modelo que represente adequadamente os dados. Nesta seo sero discutidos mtodos teis para o estudo da adequao do modelo de regresso.

    Anlise de Resduos

    Um resduo definido por: p" = " " , $ = 1, 2, 3, , R, em que yi o valor observado e iy o correspondente valor estimado por meio do modelo

    de regresso. conveniente visualizar os resduos como valores observados para o erro que aparecem no modelo. Portanto, razovel esperar que quaisquer desvios das suposies feitas sobre o erro podero ser detectados se for realizada uma anlise de resduos.

    Grficos dos Resduos (ei) contra os Valores Preditos ( iy )

    Se o modelo tem todos os termos que precisa, ento o grfico dos resduos contra os valores preditos ou contra as variveis independentes deveria parecer como uma distribuio aleatria de pontos sem tendncia (numa faixa horizontal). Se o modelo precisa de outros termos, ento o grfico dos resduos tem um padro que sugere que tipo de termo deveria ser adicionado ao modelo. Alguns padres so mostrados na Figura 14.5(a) seguir.

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 20

    O padro da Figura 14.5(a) representa a situao satisfatria. Nela os resduos esto situados, aproximadamente, em uma faixa horizontal centrada em ei = 0. J os padres b, c e d da Figura 14.5, indicam a presena de inadequaes no modelo.

    O padro apresentado na Figura 14.5(b), o qual semelhante forma de um funil, indica que a varincia do erro no constante. Nesta figura a varincia do erro uma funo

    crescente de y . No entanto tambm existem situaes em que a varincia do erro aumenta

    com o decrscimo de y .

    O padro apresentado na Figura 14.5(c) ocorre quando a varincia dos erros maior para valores intermedirios de y e, portanto, tambm indica que erros no tm varincia

    constante.

    A Figura 14.5 (d) indica no linearidade. Este padro pode indicar a necessidade da incluso no modelo de um termo quadrtico em x. Quando detectada que a varincia do erro no constante uma soluo para este problema consiste em realizar transformaes na varincia resposta para estabilizar a varincia.

    Figura 14.5: Grficos de Resduos contra Valores Ajustados.

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 21

    Grficos de Resduos (ei) Contra Valores da Varivel Preditora (x)

    No caso do modelo de regresso linear simples, um grfico dos resduos contra os valores da varivel preditora fornece o mesmo tipo de informao gerada pelo grfico de resduos contra os valores ajustados. A configurao dos grficos ei versus xi poder corresponder a um dos quatro padres gerais j apresentados na Figura 14.5, bastando para isso que, nesta Figura, iy seja substitudo por xi. A interpretao dos padres representados na Figura 14.5, aps a substituio de iy por xi , semelhante j apresentada na seo anterior.

    Grfico de Resduos Contra o Tempo

    A validade da suposio de que os erros no so correlacionados pode ser verificada por meio de um grfico de resduos contra o tempo ou ordem de coleta das observaes. A presena de configuraes especiais neste grfico pode indicar que os erros so correlacionados. As duas configuraes apresentadas na Figura 17.6 a seguir indicam a presena de correlao entre os erros, que representam uma sria violao das suposies associadas ao modelo de regresso.

    Figura 14.6: Grficos de Resduos contra o Tempo Indicando a Presena de Autocorrelao.

    Grfico de Probabilidade Normal para os Resduos

    A validade da suposio de normalidade pode ser verificada por meio do grfico de probabilidade normal para os resduos. A suposio de normalidade ser considerada vlida

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 22

    se os pontos do grfico estiverem localizados, aproximadamente, ao longo de uma linha reta. Como esta avaliao subjetiva, um teste estatstico pode ser utilizado para complementar esta avaliao.

    Tabela 14.5: Valores previstos e os resduos do modelo linear simples ajustado para a variao no corte.

    Previsto Resduo Previsto Resduo Previsto Resduo

    Previsto Resduo 15,62 0,08 16,58 -0,28 18,75 0,35

    15,22 0,28 17,40 -0,40 17,08 -0,38 18,00 0,00

    16,36 -0,26 16,79 -0,49 15,33 0,37 17,25 -0,25

    18,07 0,13 16,26 -0,16 17,65 -0,25 15,86 0,14

    17,54 -0,24 18,57 0,03 16,04 0,06 15,12 0,28

    16,86 -0,36 17,82 -0,02 17,15 -0,35 18,39 0,21

    19,07 0,43 18,86 0,44 18,64 0,06

    15,97 0,03 16,15 0,05 15,40 0,20

    14,90 0,40 16,61 -0,41 17,75 -0,15

    18,18 0,12 15,79 0,11 18,25 0,25

    Exemplo 14.6: Vamos agora examinar os resduos para o modelo linear simples ajustado para a variao no corte.

    Anlise de Resduos

    Figura 14.7: Grfico de Probabilidade Normal

    0.40.30.20.10.0-0.1-0.2-0.3-0.4-0.5

    .999

    .99

    .95

    .80

    .50

    .20

    .05

    .01.001

    Prob

    abilid

    ade

    Resduos

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 23

    Figura 14.8: Histograma dos resduos

    Figura 14.9: Resduos versus valores ajustados

    Figura 14.20: Resduos versus Ordem dos Dados

    O primeiro grfico serve para verificar a suposio de normalidade dos resduos. Este grfico parece indicar que os resduos seguem uma distribuio normal. O segundo grfico o histograma dos resduos tambm serve para verificar normalidade.

    1918171615

    0.50.40.30.2

    0.10.0-0.1-0.2-0.3-0.4-0.5

    AjustadoValor

    Res

    duo

    35302520151050

    0.50.40.30.20.10.0-0.1-0.2-0.3-0.4-0.5

    ObservadaOrdem

    Resd

    uo

    0.500.250.00-0.25-0.50

    10

    5

    0

    Resduos

    Freq

    nc

    ia

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 24

    O terceiro grfico apresenta os valores preditos versus resduos. O padro deste grfico semelhante ao apresentado na Figura 14.5 (d), o que indica a necessidade da incluso no modelo de um termo quadrtico em X.

    O quarto grfico apresenta a ordem em que os valores foram observados versus resduos (foi considerado que as observaes esto listadas no Exemplo 14.1 na ordem em que foram observadas). Pode-se notar que a relao entre os valores preditos e a ordem de observao aleatria.

    Exerccios de fixao:

    1. Uma indstria produz grandes quantidades de alumina (Al2O3 de elevado teor de pureza) para a fabricao de alumnio metlico. A matria prima para a fabricao da alumina a bauxita, um mineral com cerca de 55% de xido de alumnio (Al2O3). No processo de produo da alumina, o teor da Na2O (xido de sdio) ocludo no produto um fator importante do ponto de vista da qualidade da alumina fabricada. O Na2O uma impureza, e, portanto desejvel que o seu teor na alumina seja o mais baixo possvel. Com o objetivo de minimizar o teor da Na2O ocludo no produto durante a etapa de precipitao, um dos estgios do processo de produo da alumina, a indstria iniciou trabalhos para melhoria. Os tcnicos da empresa sabiam que a razo Al2O3 / NaOH era um dos fatores responsveis pelas variaes no teor de Na2O da alumina. Nesta razo, o smbolo Al2O3 est representando a massa de xido de alumnio proveniente da bauxita que entra no processo de produo, e o smbolo NaOH se refere massa de hidrxido de sdio, um dos reagentes do processo, que empregada na fabricao de alumina. Durante a etapa de observao do problema, para se conhecer melhor a relao entre estas duas variveis (varivel resposta: Na2O e varivel preditora: Al2O3 / NaOH), os tcnicos da indstria coletaram os dados apresentados na tabela abaixo. A partir destes dados, avaliar a relao linear entre essas duas variveis.

    Tabela: Teor de Na2O ocludo na Alumina em Funo da Razo Al2O3 / NaOH

    ndice Razo Al2O3 / NaOH (x) Teor Na2O (%)(y) x2 y2 xy 1 0,645 0,46 0,416 0,212 0,297 2 0,643 0,46 0,413 0,212 0,296 3 0,648 0,45 0,420 0,203 0,292 4 0,639 0,44 0,408 0,194 0,281 5 0,641 0,45 0,411 0,203 0,288 6 0,648 0,47 0,420 0,221 0,305 7 0,635 0,42 0,403 0,176 0,267 8 0,646 0,47 0,417 0,221 0,304 9 0,646 0,45 0,417 0,203 0,291

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 25

    10 0,643 0,44 0,413 0,194 0,283 11 0,641 0,40 0,411 0,160 0,256 12 0,643 0,42 0,413 0,176 0,270 13 0,637 0,42 0,406 0,176 0,268 14 0,635 0,42 0,403 0,176 0,267 15 0,64 0,41 0,410 0,168 0,262 16 0,646 0,43 0,417 0,185 0,278 17 0,636 0,41 0,404 0,168 0,261 18 0,639 0,40 0,408 0,160 0,256 19 0,634 0,39 0,402 0,152 0,247 20 0,636 0,38 0,404 0,144 0,242 21 0,643 0,40 0,413 0,160 0,257 22 0,647 0,43 0,419 0,185 0,278 23 0,637 0,42 0,406 0,176 0,268 24 0,631 0,37 0,398 0,137 0,233 25 0,633 0,41 0,401 0,168 0,260

    Total 16,012 10,62 10,256 4,529 6,804 R= Resp.: r = 0,7321; Teor Na2O (%) = - 2.12 + 3.97 Razo Al2O3 / NaOH

    Figura: Diagrama de Disperso: Teor de Na2O ocludo na Alumina em Funo da Razo Al2O3 / NaOH

    5 10 15 20 25

    0.63

    50.

    640

    0.64

    5

    Al2O3

    Na2O

    5 10 15 20 25

    -0.

    03-0.

    02-0.

    010.

    000.

    010.

    02

    Resduos versus ordem das observaes

    Ordem das observaes

    Res

    du

    o

    0.39 0.40 0.41 0.42 0.43 0.44 0.45

    -0.

    03-0.

    02-0.

    010.

    000.

    010.

    02

    Resduos versus valores ajustados

    Valores ajustados

    Res

    du

    o

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 26

    15. Testes de Aderncia (ou Testes de Bondade de Ajustamento)

    No contedo apresentado na apostila da segunda unidade foi admitido que a varivel aleatria de interesse tivesse uma determinada distribuio de probabilidade. O problema era relacionado a ter um ou mais parmetros desconhecidos, associado a uma distribuio de probabilidade conhecida (ou aproximada). Entretanto, pode acontecer de termos observaes de uma varivel aleatria e no se ter a menor idia de sua distribuio de probabilidade. Neste caso, uma das formas iniciais de anlise construir um grfico (colunas, histograma ou boxplot, etc.) com os valores da varivel cuja distribuio na populao desconhecida para tentar entender o comportamento desta varivel. E, em seguida, sugerir um modelo adequado para os dados. O modelo probabilstico proposto pode ser testado atravs do Teste de Aderncia.

    Os Testes de Aderncia ou Testes de Bondade de Ajustamento uma classe de testes que permitem verificar se uma amostra de valores X1, X2,..., Xn so provenientes de uma varivel aleatria com uma determinada distribuio de probabilidade, como por exemplo, Normal, Exponencial, Poisson ou qualquer outra distribuio.

    Na literatura, existem vrias maneiras de realizar os Testes de Aderncia, porm neste texto ser apresentado apenas pelo Teste Qui-Quadrado (2).

    15.1. Teste de Qui-Quadrado (2) de Aderncia

    O teste de Qui-quadrado de Aderncia utilizado para comparar se as freqncias observadas da varivel de interesse obtida na amostra aleatria diferem muito das

    Histograma dos resduos

    Resduo

    Freq

    un

    cia

    -0.04 -0.03 -0.02 -0.01 0.00 0.01 0.02 0.03

    01

    23

    45

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 27

    freqncias esperadas. Estas, geralmente, sendo especificadas por uma distribuio de probabilidade.

    Considere n observaes independentes de uma varivel aleatria X com funo de distribuio no especificada. Cada observao classificada em uma das k categorias, de forma que a seguinte tabela de contingncia pode ser construda.

    Varivel Categorias

    1 2 3 ... k

    Freqncia Observada O1 O2 O3 ... Ok

    Na tabela acima, Oi representa a freqncia observada na clula i, para i= 1, 2, 3,..., k. As hipteses estatsticas a serem testadas so: H0: A varivel X segue o modelo proposto; H1: A varivel X no segue o modelo proposto.

    A estatstica de teste dada por:

    IJ = + (" " )"

    ". ~ em que 2 tem distribuio aproximadamente Qui-Quadrado com graus de liberdade, supondo que a hiptese nula seja verdadeira, e: k: o nmero de categorias; Oi: frequncia observada na i-sima categoria; Ei: frequncia esperada na i-sima categoria, dada por Ei=npi; pi = probabilidade da categoria i, supondo que H0 verdadeira. = k-1 se as frequncias esperadas puderem ser calculadas sem precisar estimar os parmetros da distribuio.

    Para um dado nvel de significncia , rejeitar a hiptese nula se 56 > ; , em que ; uma constante tal que P( > (;) ) = . Ou pelo p-valor, rejeitar a hiptese nula se p-valor < .

    Vale mencionar que a estatstica de teste apresentada acima tem distribuio aproximadamente Qui-Quadrado e esta aproximao torna-se satisfatria quando as frequncias esperadas so grandes. Para assegurar que esta aproximao seja boa necessrio levar em considerao as seguintes observaes adiante:

    i. Quando o nmero de categorias for igual a dois (k=2) as frequncias esperadas dentro de cada categoria devem ser iguais ou superiores a 5.

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 28

    ii. Quando k > 2, no deve ter mais de 20% das categorias com frequncias esperadas menores que 5 e nenhuma frequncia esperada igual a zero.

    iii. Quando as categorias apresentarem pequenas frequncias esperadas elas podem ser combinadas com outras categorias, de tal forma que o sentido do trabalho seja conservado.

    Quando desejamos testar se uma varivel segue um determinado modelo, mas so desconhecidos um ou mais parmetros da distribuio, devemos primeiro estim-los de forma apropriada. Nestes casos, = k-m-1, em que m o nmero de parmetros que precisam ser estimados.

    Exemplo 15.1: (Adaptado de Magalhes & Lima, 2006) Deseja-se verificar a afirmao de que a porcentagem de cinzas contidas em carvo, produzido por uma empresa, segue distribuio Normal. Os dados, apresentados a seguir, representam a quantidade percentual de cinzas encontradas em 250 amostras de carvo analisadas em laboratrio.

    i Cinzas (em %) Nmero de observaes 1 09,5| 10,5 2 2 10,5| 11,5 5 3 11,5| 12,5 16 4 12,5| 13,5 42 5 13,5| 14,5 69 6 14,5| 15,5 51 7 15,5| 16,5 32 8 16,5| 17,5 23 9 17,5| 18,5 9

    10 18,5| 19,5 1

    Qual deciso deve-se tomar ao nvel de significncia de 2,5%? Soluo: A mdia e a varincia, da distribuio Normal que ser testada, so

    desconhecidas, precisamos obter suas estimativas a partir da amostra. Os melhores

    estimadores para os parmetros e 2 so a mdia amostral ( X ) e a varincia amostral (S2), respectivamente. Calculando esses valores temos que

    = x9f99. "". = 102 + 115 + 1216 + + 191250 14,5 e

    s = (" )"".| "". 1 = 2,7

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 29

    Seja a varivel aleatria X: porcentagem de cinzas contidas no carvo produzido pela empresa. As hipteses a serem testadas so: H0: A porcentagem de cinzas contidas no carvo segue distribuio Normal. H1: A porcentagem de cinzas contidas no carvo no segue distribuio Normal. As diversas faixas que constituem as categorias de valores da varivel X sero enumeradas de 1 a 10. De modo a varrer os valores do intervalo (-,), correspondentes ao modelo Normal, acrescentando s categorias 1 e 10 os valores, respectivamente, menores que 9,5 e maiores que 19,5. Dessa forma, para calcular as frequncias esperadas, procedemos da seguinte forma, por exemplo, para categoria 1,

    = 250P(X < 10,5) = 250P mZ < 10,5 14,52,7 n = 250P(Z < 2,43) = 1,875. Para categoria 2,

    = 250P(10,5 < < 11,5) = 250P m10,5 14,52,7 Z < 11,5 14,52,7 n = 250P(2,43 < Z < 1,83) = 6,525. Para as categorias de 3 a 9, so calculados de forma anloga. A ltima categoria,

    = 250P(X > 18,5) = 250P mZ > 18,5 14,52,7 n = 250P(Z > 2,43) = 1,875 As probabilidades calculadas anteriormente supem que H0 verdadeira, assim foi

    usada a tabela da Normal Padro.

    As frequncias esperadas so apresentadas na tabela, a seguir, e devem somar 250, o que no foi possvel devido aos arredondamentos efetuados.

    Categorias Frequncia observada Frequncia esperada 1 2 1,875 2 5 6,525 3 16 19,400 4 42 39,925 5 69 57,275 6 51 57,275 7 32 39,925 8 23 19,400 9 9 6,525 10 1 1,875

    Observamos que exatamente 20% das categorias apresentaram frequncias inferiores a 5, as categorias 1 e 10. Efetuando o clculo da estatstica de teste, temos

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 30

    IJ = + (" " )"

    ". =(2 1,875)1,875 + (5 6,525)6,525 + + (1 1,875)1,875 = 7,74

    Para determinar a regio crtica, utilizamos a distribuio Qui-Quadrado com 10-1-2=7 graus de liberdade, pois perdemos dois graus de liberdade devido estimao dos parmetros e 2 . Com auxlio da tabela da Qui-Quadrado, obtemos ; ,% = 16,01.

    Concluso: Como 56 = 7,74 < ; ,% = 16,01 (valor tabelado, ver Tabela 1 em Anexo), logo no rejeitamos a hiptese nula, ou seja, no existem evidncias para rejeitar a hiptese de que a amostra proveniente de uma varivel aleatria com distribuio normal, ao nvel de significncia de 2,5%.

    Na literatura existem outros procedimentos para realizar o Teste de Aderncia, a saber: o Teste Kolmogorov- Smirnov, o Teste de Shapiro-Wilk para Normalidade e o Teste de Lilliefors para Normalidade. Para maiores detalhes sobre estes testes consultar as seguintes referncias: Siegel & Castellan (2006), Campos (1979), Conover (1999) e Hollander & Wolf (1999).

    Exerccios de fixao 1. O quadro abaixo se refere ao nmero de acidentes sofridos por um grupo de mineiros

    durante um trabalho numa mina de carvo. O interesse investigar se a distribuio do nmero de acidentes segue o modelo Poisson (=1,45). (Use =5%).

    Nmero de acidentes 0 1 2 3 4 5 Nmero de mineiros 35 47 39 20 5 2

    R: Modelo no rejeitado, Regio crtica [ 11,07; ) e 56 =1,0833.

    2. Uma indstria registra, em cada semana, o nmero de dias em que ocorrem acidentes de trabalho. Para uma amostra de 200 semanas, verifique se os dados apresentados a seguir, aderem ao modelo Binomial com parmetros n=5 e p=0,2. (Use =10%).

    Nmero de dias com acidentes 0 1 2 3 4 5 Freqncia 64 56 40 24 8 8

    R: Modelo rejeitado, Regio crtica [7,78; ) e 56 =189,2.

    16. Comparao de Mdias Populacionais

    Na apostila da segunda unidade foi apresentado teste de hipteses para apenas uma nica mdia. No entanto, no raro encontrar situaes em que se deseja verificar se h diferenas significativas entre as mdias de k populaes distintas.

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 31

    A anlise usada para comparao de k mdias populacionais ou de tratamentos comumente realizada por uma Anlise de Varincia (ANOVA). Grande parte da teoria de Anlise de Varincia foi desenvolvida por um grupo de pesquisadores estatsticos que trabalhou na Estao Experimental de Agricultura de Rothamstead, na Inglaterra. As anlises destes experimentos agronmicos desenvolvidos por estes pesquisadores, atualmente, se aplicam na maioria das reas de conhecimento, a saber: engenharia, medicina, educao, psicologia, economia, odontologia, dentre outras. De qualquer forma, a origem agrcola das cincias experimentais que explica o uso de alguns termos tcnicos que sero apresentados adiante.

    Alguns termos tcnicos utilizados em Planejamento de Experimentos e Anlise de Varincia.

    i) Fator e Nvel Fator uma varivel independente obtida quando realizado um estudo de investigao

    e o nvel a forma particular deste fator. Por exemplo, em um estudo sobre os efeitos da presena de trs tipos de diferentes solues de acar (glicose, sacarose e frutose) no crescimento de bactrias, o fator o acar e cada tipo de soluo um nvel em estudo. Neste caso, o fator acar tem trs nveis (glicose, sacarose e frutose). Considere outro exemplo, um fabricante de papel, usado para a confeco de sacolas de mercearia, realiza um experimento para investigar se a concentrao de madeira de lei em polpa (5%, 10%, 15% e 20%) tem efeito sobre a resistncia trao das sacolas fabricadas da polpa. A concentrao de madeira de lei o fator sob estudo e os nveis so as diferentes aplicaes, diz-se que o fator concentrao de madeira de lei tem quatro nveis (5%, 10%, 15% e 20%). No primeiro exemplo, o fator de natureza qualitativa, ou seja, um fator em que os nveis no podem ser arranjados em ordem crescente de magnitude. No segundo exemplo, o fator de natureza quantitativa, ou seja, um fator em que os nveis podem ser associados a pontos na escala aritmtica.

    ii) Tratamento: Um tratamento uma condio imposta ou objeto que se deseja medir ou avaliar em

    um experimento. Em outras palavras, denomina-se de tratamento, o nvel de um fator sob anlise ou uma combinao de fatores e nveis em estudo com dois ou mais fatores. Por exemplo, se o interesse estudar os efeitos de cinco diferentes marcas de gasolina na eficincia operacional (milhas/galo) de motores de automvel, o fator a marca e cada marca constitui um tratamento. Em um estudo para comparar duas diferentes marcas de

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 32

    canetas (A e B) e dois diferentes tipos de lavagem (1 e 2) em relao capacidade de remover manchas em um determinado tipo de tecido, existem 4 combinaes possveis, a saber: marca A e lavagem 1, marca A e lavagem 2, marca B e lavagem 1 e, marca B e lavagem 2. Cada uma destas combinaes chamada de tratamento, de modo que h 4 tratamentos diferentes envolvidos

    iii) Unidade experimental A aplicao do tratamento feita na unidade experimental que fornece os dados para

    serem avaliados. Dependendo do experimento, a unidade experimental pode ser um motor, uma pea do motor, uma poro de algum alimento, um vaso, um animal, um indivduo, etc.

    As unidades experimentais podem ser formadas por grupos ou indivduos, cujo uso depende do fenmeno que se est estudando, da forma como o experimento conduzido e dos recursos disponveis. De modo geral, a escolha da unidade experimental deve ser feita de forma a minimizar o erro experimental e representar satisfatoriamente o processo de estudo.

    iv) Repetio Repetio o nmero de vezes que um tratamento aparece no experimento. O nmero

    de repeties, em um experimento, vai depender tambm dos recursos disponveis, do delineamento do experimento e, tambm, da variabilidade do experimento ou da varivel resposta. Existem vrias metodologias para estimar o nmero satisfatrio de repeties em um experimento. Mas, em funo das possveis limitaes citadas acima, a definio do nmero de repeties, na maioria vezes, depende da experincia do pesquisador sobre o fenmeno em estudo. Alm disso, as metodologias empregadas, para esse clculo, pressupem que uma estimativa do erro experimental seja conhecida. Para calcular o nmero de repeties (ou tamanho da amostra) que deve ser usado no experimento consultar a referncia Dean & Voss (1999).

    16.1. Anlise de Varincia

    Suponha um procedimento experimental com k tratamentos (populaes) ou diferentes nveis de um nico fator. A varivel resposta para cada k tratamento uma varivel aleatria. Na tabela de dados (Tabela 16.1), y9 a observao da j-sima unidade experimental no i-simo tratamento ou fator. Existem n observaes no i-simo tratamento. Inicialmente, a

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 33

    anlise de varincia ser apresentada para o caso em que as amostras em cada tratamento (ou populao) tm o mesmo tamanho, neste caso conhecido como dados balanceados.

    Tabela 16.1: Dados para experimento com um nico fator

    Tratamento(Nvel) Observaes Total Mdia

    1 - . . 2

    - . . k - . .

    .. ..

    Em que ".representa a soma total das observaes do i-simo tratamento, ". representa a mdia das observaes do i-simo tratamento, .. a soma de todas as observaes e .. representa a mdia de todas as observaes, denominada mdia global amostral. Simbolicamente expressos por:

    ". = + " p ". = ".R-

    . , $ = 1,2, , . .. = + + "-.

    ". p .. =

    .. em = R , nmero total de observaes. Observe que o ponto subscrito na notao matemtica representa a soma.

    Assim, suponha k tratamentos (ou populaes) cada um com n repeties e os valores numricos das observaes representados por y9. Um modelo para descrever os dados " = " + #" , $ = 1 , . . . , p = 1 , . . . , R, (16.1) em que:y9 a observao do i-simo tratamento na j-sima unidade experimental; 9 a mdia do i-simo nvel do fator ou tratamento, sendo um valor fixo e desconhecido, 9 o erro aleatrio associado ao i-simo tratamento na j-sima unidade experimental assumido como: 9~N(0; ), independentes e identicamente distribudo. A varincia assumida como constante para todos nos nveis de fator. Isto implica que y9~N(9; ). Assim, 9 a parte sistemtica que representa a mdia da populao i, que fixa, e 9 a parte aleatria, a informao referente a outros fatores que podem influenciar as observaes, mas no so incorporadas em 9.

    A equao (16.1) denominada modelo , porque ele usa as mdias 1, 2,...k como parmetros bsicos na expresso matemtica do modelo. Uma forma alternativa para

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 34

    escrever o modelo (15.1) para os dados " = + ", , $ = 1 , . . . , .

    E a equao (15.1) acima torna-se " = + " + #", $ = 1 , . . . , p = 1 , . . . , R (16.2)

    Nesta forma de modelo, o parmetro mdia comum a todos os tratamentos, chamado de mdia global, e " o parmetro do i-simo tratamento, denominado efeito do tratamento. Os modelos (16.1) e (16.2) so tambm denominados de Anlise de Varincia de fator nico (ANOVA) porque apenas um nico fator investigado. Alm disso, ser necessrio que a alocao do material experimental s diversas condies experimentais seja aleatria e que o meio em que os tratamentos sejam aplicados (chamado de unidades experimentais) seja to uniforme quanto possvel. Assim, o planejamento experimental denominado de completamente aleatorizado. O objetivo ser o de testar hipteses apropriadas sobre as mdias dos tratamentos. A anlise dos efeitos dos tratamentos pode ser feita de duas maneiras. Na primeira, os tratamentos podem ser escolhidos de acordo com o interesse do pesquisador. Nesta situao, as inferncias extradas sero aplicveis e restritas somente aos nveis de fator considerados na anlise, no podendo ser estendidos a outros nveis no investigados. Sob estas condies, o modelo (16.2) denominado de modelo de efeitos fixos. J quando os tratamentos analisados representam uma amostra aleatria de uma populao de nveis de fator ou fatores, podem-se estender as concluses da anlise feitas para essa amostra, para todos os outros tratamentos da populao, nesse caso tem-se anlise de um modelo de efeitos aleatrios. Considere, por exemplo, que foram selecionadas trs maquina de uma populao de 75 mquinas distribudas numa fbrica e suas produes foram medidas por um perodo de 10 dias. As trs mquinas constituem trs nveis do fator em estudo, porm, o interesse nas concluses no se restringe apenas quelas trs nas quais os dados foram mensurados, mas a todas as mquinas da fbrica. A anlise de um modelo de efeitos aleatrios no ser abordado nesta apostila e o leitor interessado poder consultar as seguintes referncias: Montgomery (2005), Neter (1974) e Peter & Wasserman (1970).

    Anlise de um modelo com efeitos fixos

    Considere um experimento completamente aleatorizado e que a anlise de varincia ser para um nico fator com efeitos fixo. O interesse testar a igualdade mdia dos tratamentos.

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 35

    Assim, as hipteses apropriadas so: : = = = : " para algum $ e algum tais que $ . A hiptese nula supe que as observaes amostrais dentro de cada tratamento podem

    ser vistas como provenientes de populaes com mdias iguais. Reescrevendo " = + " ,, $ = 1 , . . . , . A mdia a mdia geral calculada da seguinte forma: = "". .

    Implicando que "". = 0. Consequentemente, possvel reescrever as hipteses acima em termos dos efeitos dos tratamentos, ou seja,

    : = = = = 0 : " 0 para algum $. Ento, podemos testar a igualdade de mdias de tratamentos ou testar se os efeitos dos tratamentos (") so iguais a zero. Ao realizar a anlise de varincia, a idia bsica de que existe uma distribuio de probabilidade para a varivel resposta (dependente (Y9)) em cada nvel do fator. Para efeito de inferncias sobre o modelo (16.2) necessrio assumir que:

    i. Y9 so variveis aleatrias independentes ii. Y9 tem distribuio normal com mdia ", $ = 1 , . . . , p = 1 , . . . , R. iii. V(Y9)., $ = 1 , . . . , p = 1 , . . . , R , ou seja, todas as k populaes devem ter

    varincias homogneas ( P = P

    = = P = P), propriedade conhecida como Homocedasticidade. Em outras palavras, a varincia deve ser constante para todos nos nveis de fator.

    Decomposio da soma total de quadrado

    O termo anlise de varincia pode induzir a um equvoco, uma vez que a finalidade investigar diferenas entre mdias dos tratamentos, e no diferenas significativas entre as varincias dos grupos. O nome anlise de varincia atribudo devido a uma decomposio da variabilidade total das suas componentes.

    A soma total de quadrado dada por:

    + +(" ..)-.

    ".

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 36

    uma medida de variabilidade total dos dados. Esta soma pode ser subdividida em duas partes da seguinte forma:

    + +(" ..) = R +(". ..)".-

    .

    ". + + +(" ".)

    -

    .

    ". . (16.3) O termo do lado esquerdo de (16.3) a soma dos quadrados das observaes em

    relao mdia global e representa uma medida da variabilidade total dos dados, denotada por SS2. O primeiro termo do lado direito de (16.3) a soma dos quadrados das diferenas entre as mdias de cada tratamento e a mdia global (ou seja, aquela decorrente das diferenas entre os grupos de tratamentos), sendo denotada por

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 37

    um estimador de P, se no existe diferena entre as k mdias dos tratamentos. Portanto, a quantidade

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 38

    H0, ou seja, no h evidncias de diferenas significativas entre os tratamentos, ao nvel de significncia escolhido.

    Quando as somas de quadrados forem calculadas manualmente, elas podem ser obtidas atravs das seguintes expresses dadas adiante.

    SST = + + yij2nj.1k

    i.1 y..2N , (16.5)

    SSTratamento = 1n + yi.2k

    i.1 y..2N (16.6)

    e

    SSE = SST SSTratamento (16.7)

    Os quadrados mdios dos resduos e dos tratamentos so obtidos dividindo as somas de quadrados pelos correspondentes graus de liberdade, ou seja,

    MSE = SSE(N k) e

    MSTratamento = SSTratamento(k 1) .

    Dados desbalanceados

    Em alguns experimentos de um nico fator o nmero de observaes obtidas dentro de cada tratamento pode ser diferente. Neste caso, mencionado que os dados so desbalanceados. A anlise de varincia, descrita acima, ainda pode ser usada, mas pequenas modificaes devem ser realizadas nas frmulas das somas de quadrados. Considere que niobservaes so realizadas no tratamento i (i = 1, ..., k) e o nmero total de observaes nos k grupos igual a N = niki.1 . As frmulas (16.5) a (16.7) tornam-se:

    SST = + + yij2nij.1k

    i.1 y..2N

    SSTratamento = + yi.2nik

    i.1 y..2N

    e

    SSE = SST SSTratamento

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 39

    As mdias geral e dos grupos so dados por:

    .. = 1 + + "-

    .

    ". ; ". = 1R" + ", $ = 1,2, , .

    -.

    Nenhuma outra alterao necessria para a anlise de varincia. Segundo Montgomery (2005) h duas desvantagens na escolha de um experimento com dados desbalanceado. Primeira desvantagem, a estatstica de teste relativamente sensvel a pequenos desvios da suposio de homogeneidade varincia quando os tratamentos tm nmeros de observaes diferentes em cada amostra. Caso contrrio ocorre quando os tamanhos das amostras so iguais nos tratamentos. Segunda desvantagem, a potncia do teste diminui se as amostras so de tamanhos desiguais.

    16.2. Teste de Tuckey

    O procedimento seguinte quando se rejeita a hiptese nula na anlise de varincia o de comparar as mdias de tratamentos utilizando algum teste de comparao de mdias ou contrastes para identificar qual(is) tratamento(s) (so) diferente(s). Existem vrios procedimentos para realizar comparaes mltiplas de mdias, e alguns deles podem ser vistos em Montgomery (2005). Aqui ser apresentado apenas um deles.

    O teste de Tukey permite testar qualquer contraste, sempre, entre duas mdias de tratamentos. Nesse caso, as hipteses estatsticas so:

    H0: i = j, H1: i j ,

    para todo i j. O teste proposto por Tukey baseia-se na diferena significante HSD=, denominada de Honestly Significant Difference. Esta diferena, para dados balanceados, dada da seguinte forma:

    = q(k; )MSEn , (16.9) em que, o nmero de graus de liberdades associado a MSE, q a amplitude total studentizada (valor tabelado, ver Tabela 4 em Anexo) e MSE o quadrado mdio dos resduos. O valor de q depende do nmero de tratamentos e do nmero de graus de liberdade associada com a soma de quadrados dos resduos. Tambm, em um teste de

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 40

    comparaes de mdias, deve-se determinar um nvel de significncia para o teste. Normalmente, utiliza-se o nvel de 5% ou 1% de significncia.

    Como o teste de Tukey , de certa forma, independente do teste F , possvel que, mesmo sendo significativo o valor de Fcalculado, no se encontrem diferenas significativas entre as mdias.

    As duas mdias, i e j, (i j), so consideradas significantemente diferentes se yi. yj. > . Quando os dados so desbalanceados, o teste de Tukey descrito acima apresenta a

    seguinte modificao na equao (16.9)

    = q(k; f)2 N

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 41

    realizado. Na Tabela 16.3 nota-se que para a concentrao de 5%, a resistncia do papel foi, em mdia, menor. Conforme mostra a Tabela 16.4, observa-se que a menor e maior disperso relativa ocorreu nas concentraes de 15% e 5% de madeiras, respectivamente. Na Figura 16.1, possvel visualizar que a fora de resistncia da sacola aumenta medida que a concentraes de madeira de lei aumenta, ou seja, suspeita-se de que a mudana na concentrao de madeira de lei tem um efeito na fora de resistncia da sacola. Tambm percebe-se um forte indicativo que a concentrao de 5% difere da concentrao de 20% no que diz respeito resistncia do papel, pois no h sobreposio dos grficos de ambos os tratamentos. Alm disso, h indicativo que os valores das resistncias dos papeis nos quatros tratamentos so provenientes de distribuies assimtricas.

    Tabela 16.4: Medidas descritivas dos dados da fora de resistncia dos papeis para cada concentrao de madeira de lei.

    Medidas Descritivas Concentrao de madeira de lei 5% 10% 15% 20%

    Mediana 9,5 16,0 17,5 21,0 Desvio-padro 2,83 2,80 1,79 2,64 Coeficiente de variao 0,28 0,18 0,11 0,12 Mnimo 7,0 12,0 14,0 18,0 Mximo 15,00 19,00 19,00 25,00

    Figura 16.1: Boxplot dos dados da fora de resistncia dos papeis para cada concentrao de madeira de lei.

    O modelo de anlise de varincia adotado dado por:

    5% 10% 15% 20%

    1015

    2025

    Concentrao da madeira de lei

    For

    a de

    re

    sist

    nci

    a (ps

    i)

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 42

    " = + " + #" , $ = 1 , , 4 p = 1 , . . . ,6 em que " a fora de resistncia do papel observada na j-sima sacola para a i-sima concentrao de madeira de lei, a mdia geral, " o efeito da i-sima concentrao de madeira de lei e #" o efeito do erro experimental suposto normal e independentemente distribudo com mdia 0 e varincia comum 2

    Para comparar se as mdias das foras de resistncias do papel, para fabricao de sacolas, so diferentes quando usado diferentes tipos de concentraes de madeira de lei, ser usado a anlise de varincia. As hipteses estatsticas a serem testadas so:

    H0: 1 = 2 = 3 = 4 (A fora de resistncia mdia do papel so as mesmas nas quatro concentraes de madeira de lei analisadas). H1: Pelos menos uma das mdias, da fora de resistncia do papel, diferente das demais. A soma de quadrados para compor a Tabela da Anlise de Varincia calculada

    conforme as equaes (16.6) a (16.7),

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 43

    Concluso: Como Fcalculado = 19,61 > F0,05;3;20 = 3,03 (valor tabelado, ver Tabela 2 em Anexo), rejeitamos H0 e conclumos que a concentrao da madeira de lei afeta a resistncia do papel, ao nvel de significncia de 5%. Chegamos mesma concluso ao observarmos o p-valor = 0,00000359 < 0,05 = . Portanto, pelo menos uma das mdias de tratamento difere das demais.

    Como o teste acima rejeitou a hiptese nula ser aplicado o teste de Tukey para realizar as comparaes mltiplas de mdias nos quatro tratamentos. Lembrando que k = 4, n = 6, MSE = 6,51 e = 20. As mdias amostrais dos tratamentos so:

    y1. = 10,00 psi, y2. = 15,67 psi, y3. = 17,00 psi e y4. = 21,17 psi.

    Atravs da Tabela da Distribuio de Amplitude Total Studentizada, com = 0,05 encontramos o valor q0,05(4; 20) = 3,96 (ver Tabela 4 em Anexo). Calculando (equao (16.9)), temos

    = q0,05(4; 20)MSEn = 3,966,516 = 4,12 Portanto, conclumos que as duas mdias so significantemente diferentes se

    yi. yj. > 4,12.

    As diferenas nas mdias dos tratamentos so:

    y1. y2. = |10,00 15,67| = 5,67, y1. y3. = |10,00 17,00| = 7,00, y1. y4. = |10,00 21,17| = 11,17, y2. y3. = |15,67 17,00| = 01,33 y2. y4. = |15,67 21,17| = 05,50, y3. y4. = |17,00 21,17| = 4,17.

    Os asteriscos nos valores indicam que os pares de mdias i e j, (i j), so significantes. Portanto, com base no conjunto de dados analisados, h evidncia de diferenas significativas entre todos os pares de mdias, exceto entre os tratamentos 2 e 3, ao nvel de significncia mnimo de 5%.

    16.3. Anlise de diagnstico bsico em ANOVA

    Ao realizar o teste de hipteses para comparao de mdias necessrios que sejam

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 44

    satisfeitas certas suposies. Especificadamente, que as observaes sejam adequadamente descrita pelo modelo proposto " = + " + #", $ = 1 , , p = 1 , . . . , R, em que ij~N(0; 2), independentes e identicamente distribudo. Se estas suposies so violadas, as inferncias realizadas a partir da ANOVA so seriamente afetadas, ou seja, o teste F usado para testar as diferenas nas mdias de tratamento pode no ser vlido.

    As estimativas dos erros recebem o nome de resduos. Define-se o resduo como: p" = " ", , $ = 1 , , p = 1 , . . . , R, em que " o valor ajustado pelo modelo proposto correspondente ao valor observado ", obtido como segue " = + = ".

    De forma geral, violao das suposies bsicas da ANOVA pode ser detectada atravs das seguintes anlises grficas dos resduos apresentadas adiante.

    Grfico de Probabilidade Normal

    A validade da suposio de normalidade pode ser avaliada por meio do grfico de probabilidade normal para os resduos. Os resduos so colocados no eixo das abscissas e os escores de uma distribuio normal no eixo das ordenadas. A suposio de normalidade ser considerada vlida se os pontos do grfico estiverem localizados, aproximadamente, ao longo de uma linha reta que passa pela origem e tem coeficiente angular 1 (uma reta de 45). Outros grficos como histograma e boxplot podem ser usados para verificar a suposio de normalidade. Como a avaliao grfica subjetiva, um teste estatstico pode ser utilizado para complementar esta verificao. Aplicam-se os chamados Testes de Aderncia, nesta apostila apresentado o Teste de Qui-Quadrado de Aderncia.

    Grfico de Resduos Contra Ordem das Observaes Coletadas

    A validade da suposio de que os erros no so correlacionados pode ser verificada por meio de um grfico de resduos contra a ordem das observaes coletadas. Se os resduos estiverem aleatoriamente situados, aproximadamente, em torno de uma faixa horizontal centrada em p" = 0, sem nenhum padro definido, uma indicao da validade da suposio de independncia. Por outro lado, configuraes especiais, tais como a presena de sequncias de resduos positivos e negativos, ou padres de alternncia de sinais, podem indicar que as observaes no so independentes.

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 45

    Grficos dos Resduos () contra os Valores Preditos ())

    A validade da suposio homogeneidade das varincias dos erros em todos os nveis do fator. A suposio de homogeneidade no viola se a disperso dos resduos no depende dos valores preditos y ij (para o modelo de um fator y ij = yi.). Por exemplo, se as varincias dos resduos crescem quando os valores preditos crescem ou se a varincias dos resduos decrescem medida que valores preditos decrescem indicativo de violao de homogeneidade varincias. Adicionalmente, quando o grfico apresenta um padro parecido com um funil ou megafone tambm um indicativo de varincia no constante.

    Exemplo 15.1: Examinar os resduos do modelo ajustado para a fora de resistncia das sacolas.

    Os clculos dos resduos para os dados da Tabela 16.3 esto a seguir: Tabela 16.6: Resduos dos dados apresentados na Tabela 16.3

    Concentrao de madeira de lei 5% 10% 15% 20%

    7-10=-3,0 12-15,67=-3,7 14-17=-3,0 19-21,17=-2,2 8-10=-2,0 17-15,67=1,3 18-17=1,0 25-21,17=3,8 15-10=5,0 13-15,67=-2,7 19-17=2,0 22-21,17=0,8 11-10=1,0 18-15,67=2,3 17-17=0,0 23-21,17=1,8 9-10=-1,0 19-15,67=3,3 16-17=-1,0 18-21,17=-3,2 10-10=0,0 15-15,67=-0,7 18-17=1,0 20-21,17=-1,2

    Figura 16.2: Grfico Q-Q Normal dos Resduos do Exemplo 15.1

    -2 -1 0 1 2

    -4

    -2

    02

    4

    Quantil terico

    Re

    sdu

    o

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 46

    Figura 16.3: Resduos versus valores ajustados do Exemplo 15.1

    O Grfico 16.2 serve para verificar a suposio de normalidade dos resduos. Neste grfico, a hiptese de normalidade para os resduos pode ser aceita, pois o grfico revela-se aproximadamente linear. Para confirmar esta suposio foi realizado o Teste Qui-Quadrado de Aderncia. As hipteses testadas foram: H0: Os dados dos resduos se ajustam a uma distribuio normal. H1: Os dados dos resduos no se ajustam a uma distribuio normal.

    O resultado do teste est na caixa adiante, observe que o p-valor=0,6487>=5%. Portanto, no existem evidncias para rejeitar a suposio de que os resduos se ajustam a uma distribuio normal, ao nvel de significncia de 5%.

    O segundo grfico (Grfico 16.3) apresenta os valores ajustados, atravs do modelo, versus resduos. O padro deste grfico no indica evidncia de violao da suposio de que as varincias dos erros so constantes em todos os nveis do fator, pois a variabilidade dos resduos no parece crescer quando os valores preditos crescem. Para confirmar esta suposio ser realizado o Teste de Homogeneidade de Varincias na Seo 17.

    10 12 14 16 18 20

    -4

    -2

    02

    4

    Valor ajustado

    Re

    sdu

    o

    No software R o teste para normalidade pode ser realizado usando a seguinte sintaxe:

    > library(nortest)

    > pearson.test(Resduo)

    Pearson chi-square normality test

    data: Resduo

    P = 3.3333, p-value = 0.6487

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 47

    17. Homogeneidade das Varincias

    Uma importante pressuposio para aplicao da tcnica de Anlise de Varincia a homogeneidade das varincias da varivel de interesse das populaes envolvidas, ou seja, que a varincia seja homognea em todos os nveis de fator. Para testar a homogeneidade das varincias, utilizam-se das seguintes hipteses estatsticas:

    H0: 12 = 22 = 32 = = k2 = 2 H1: pelo menos uma varincia difere das demais. em que k o nmero de nveis do fator de interesse e i2 a varincia do i-simo nvel, i =1, , k. O procedimento usado para testar as hipteses acima ser o Teste de Bartlett (ver Montegomery, 2005). Considere que S12, S22, , Sk2 so as varincias amostrais de tamanho n1, n2, , nk, respectivamente sendo N = niki.1 . O estimador da varincia combinada das k tratamentos (ou populaes) dado por:

    SP2 = 1N k +(ni 1)Si2k

    i.1 A estatstica de teste dada por:

    IJ. = 2,3026 , em que:

    = ( )logS +(n9 1)logS99. , e

    = 1 + 13( 1) V+ m 1(n9 1)n m 1(N k)n

    ". W. Supondo que a hiptese nula verdadeira, a estatstica de teste possui distribuio

    aproximadamente Qui-Quadrado com (k-1) graus de liberdade. Para um dado nvel de significncia , rejeitar a hiptese nula se IJ. > ;() , em que ;() uma constante tal que ( > (; ) ) = . Ou pelo p-valor, rejeitar a hiptese nula se p-valor < .

    Exemplo 17.1: Use o Exemplo 16.1 para realizar o teste de hipteses, ao nvel de significncia de 1%, de que as varincias populacionais para o conjunto de dados sobre a fora de resistncia de papel usado para a confeco de sacolas, com diferentes concentraes madeira de lei, so iguais. Soluo: As hipteses estatsticas a serem testadas so:

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 48

    H0: 12 = 22 = 32 = 42 = 2. (As varincias das foras de resistncia dos papeis so homogneas nas quatro concentraes de madeira de lei. ) H1: Pelos menos uma das varincias, da fora de resistncia do papel, diferente das demais.

    Tem-se que n1 = n2 = n3 = n4 = 6, k=4. As varincias amostrais so: s1

    2 = 8,00 s32 = 3,20 s2

    2 = 7,87 s12 = 6,97 A varincia combinada

    SP2 = 5(8,00) + 5(7,87) + 5(3,20) + 5(6,97)20 = 130,1720 = 6,5083 Agora, calcule = (20)log(6,5083) 5[log(8) + log(7,87) + log(3,2) + log(6,97)] = 0,5321. = 1 + ~(~) = 1,0833. O valor da estatstica de teste IJ. = 2,3026 ,~,~~ = 1,1310. Concluso: Como IJ. = 1,1310 < %;(~) = 11,34 (valor tabelado, ver Tabela 1 em anexo), no rejeitamos a hiptese nula e conclumos que no existem evidncia de que as varincias populacionais para dos conjunto de dados sobre a fora de resistncia de papel usado para a confeco de sacolas, com diferentes concentraes madeira de lei, so diferentes, ao nvel de significncia de 1%.

    Na literatura existem outros procedimentos para realizar o teste de homogeneidade das varincias, a saber: teste de Cochran e Levene. O teste de Bartlett mais eficiente para testar a homogeneidade de varincias quando as variveis envolvidas no estudo possuem distribuio normal (ou aproximadamente normal). Se a hiptese de normalidade for violada, melhor utilizar o teste proposto por Levene.

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 49

    7a Lista de Exerccios

    1) Abaixo voc encontra uma lista de situaes de pesquisa. Para cada uma indique se o apropriado uma anlise de correlao ou uma de regresso.

    a) A quantidade procurada da carne gado depende do preo da carne de porco? R:Correlao b) O objetivo estimar o tempo necessrio para a realizao de certa tarefa usando para

    tanto o tempo de treinamento do executor. R:Regresso c) O preo de uma reforma depende dos valores dos artigos usados no acabamento?

    R:Correlao

    d) Estime o nmero de milhas que um pneu radial possa rodar antes de ser substitudo. R:Regresso

    e) Deseja-se prever quanto tempo ser necessrio para uma pessoa completar determinada tarefa, com base no nmero de semanas de treinamento. R:Regresso

    f) Decida se o nmero de semanas de treinamento uma varivel importante para avaliar o tempo necessrio para realizar uma tarefa. R:Regresso

    2) Um modelo genrico especifica que os animais de certa populao devam ficar classificados em quatro categorias, com probabilidades p1=0,656, p2=p3=0,093 e p4=0,158. Dentre 197 animais, obtivemos as seguintes freqncias observadas: O1=125, O2=18, O3=20 e O4=34. Teste se esses dados esto de acordo com o modelo genrico postulado. (Use =1%). R: Os dados esto de acordo com o modelo postulado, Regio Crtica [ 11,34; ) e 56 =0,5635.

    3) Uma empresa localizada na cidade de So Paulo, produtora de pneumticos, possui uma rede distribuidora por todo o interior do Estado. Realizou um estudo para determinar qual a funo que ligava o preo do produto e a distncia do mercado consumidor da cidade de So Paulo. Os dados so os seguintes:

    Preo 36 48 50 70 42 58 91 69 Distncia (Km) 50 240 150 350 100 175 485 335

    a) Calcule o coeficiente de correlao e interprete o resultado. R.: r = 0,959 b) Estimar a reta de regresso; Pi = 30,19 + 0,12Di, i=1,..., 8. c) Calcule um intervalo com confiana de 5% para o preo quando a distncia 250Km. R.:

    [57,10; 62,30] d) A empresa tem uma filial no Rio de Janeiro e o preo de venda do pneumtico l

    produzido, na cidade B, de R$160,00. Sabendo-se que a distncia entre So Paulo e a cidade B de 250 km, pergunta-se qual produto deve ser vendido: o produzido no Rio de Janeiro ou o fabricado em So Paulo. R.: So Paulo.

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 50

    4) Aps ser derrotado por um amigo num jogo de dado, voc suspeita que o dado que ele deu a voc seja desonesto. Para verificar, voc lana o dado 60 vezes, registrado o nmero de vezes que cada face aparece. Os resultados esto adiante.

    Face 1 2 3 4 5 6 Frequncia 11 7 9 15 12 6

    a) Se o dado for honesto, quantas vezes voc esperaria que cada face aparecesse? R:10. b) Para verificar se o dado honesto, qual teste voc usaria? R:Teste de Aderncia c) Teste a hiptese de que o dado honesto. (Use =5%). R: No h evidncias de que o dado seja

    desonesto. Regio Crtica [ 11,07; ) e cal2 =0,5635.

    5) Suponhamos que uma cadeia de supermercados tenha financiado um estudo dos gastos com mercadoria para famlias de 4 pessoas. A investigao se limitou a famlias com renda lquida entre R$8.000 e R$20.000. Obteve-se a seguinte equao:

    Yi = -200 + 0,10Xi,

    em que: Y = despesa anual estimada com mercadorias e X = renda lquida anual. Suponha que a equao proporcione um ajustamento razoavelmente bom.

    a) Estime a despesa de uma famlia de quatro com renda de R$15.000. R.: 1.300,00 b) Um dos vice-presidentes da firma ficou intrigado com o fato de a equao

    aparentemente sugerir que uma famlia com R$2.000 de renda no gaste nada em mercadorias. Qual a explicao? R. Observe que o intervalo de x no contempla o valor R$ 2.000, ento no recomendado estender a reta de regresso ajustada para fazer predies fora do intervalo de x.

    6) Trs diferentes bancos possuem agncias de mesmo porte em uma avenida movimentada de Salvador, BA. Para testar se essas agncias tm movimento mdio equivalente, foi escolhida uma semana tpica de trabalho e o desempenho, nesses dias, foi registrado. Os dados obtidos, em milhares de reais, esto apresentados nas tabelas a seguir.

    Banco 1 2 3

    146,4 194,3 173,7 199,2 227,2 246,5 179,5 203,4 289,8 98,4 111,8 127,4 263,7 275 265,6

    a) razovel afirmar que as varincias das trs distribuies so homogneas? (Use =1%). R. Como IJ. = 0,0679 < %;() = 9,21 (Conclumos que no existem evidncias de que as varincias dos movimentos financeiros nos trs bancos sejam diferentes.)

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 51

    b) A partir da anlise de varincia (ANOVA) adiante verifique se as agncias tm movimentos mdios equivalentes. Use =5%. R. No rejeita H0, ao nvel de 5% de significncia.

    7) A fim de testar se o tempo mdio necessrio para misturar um lote de materiais o mesmo para mquinas produzidas por trs diferentes fabricantes, a Jacobs Chemical Company obteve os seguintes dados sobre o tempo (em minutos) necessrio para misturar os materiais. a) razovel afirmar que as varincias das trs distribuies do tempo mdio necessrio

    para misturar um lote de materiais so homogneas? (Use =0,01). R.: Sim. No rejeita Ho, pois 56. = 4,074 < %;() = 9,21 .

    c) Realize um teste para verificar se o tempo mdio para misturar um lote de materiais difere em relao aos trs fabricantes, use =0,05. R: O tempo mdio necessrio para misturar um lote de materiais em cada fbrica diferente, ao nvel de significncia de 5%.

    Fbrica 1 2 3

    21 34 21 14 28 17 25 38 23 32 25 22 31 26 28 35 27 24 8 25 24

    21 27 20

    8) Os dados a seguir do um custo lquido por real de prmio (Y) e o tempo de aplice em meses (X). X 8 29 47 24 57 45 39 14 70 40 66 55 Y 1,26 1,15 0,81 1,14 0,61 0,88 0,99 1,11 0,58 0,74 0,67 0,70

    a) Estimar a reta de regresso. R=Yi=1,35 -0,01Xi, i=1, 2, 3, ..., 12. b) Calcule um intervalo de confiana de 95% de confiana para a inclinao 1. Baseado

    no intervalo, qual a concluso sobre a relao linear entre x e y. R.: [0,01 2,2280,1136

    10 14225,67 ; 0,01 + 2,2280,113610 14225,67 ]

    c) Construir um IC para o valor de um prmio cuja aplice tem 3 anos; = 5%.

    Fonte de variao Soma de quadrados Graus de liberdade

    Quadrados mdios

    calculado

    Entre grupos 4693,705 2 2346,853 0,590894 Dentro dos grupos 47660,38 12 3971,699

    Total 52354,09 14

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 52

    R.:0,99 0,11671 + 112

    + (3641,17)24225,67

    9) Os valores do mdulo de elasticidade (MOE, a razo da fora, isto , fora por rea unitria, para o escoamento, ou seja, deformao por comprimento unitrio, em GPa) e a resistncia reflexo (uma medida da capacidade de resistncia a falhas decorrentes de desdobramento, em MPa) foram determinados para um tipo de amostra de vigas de concreto, gerando os dados a seguir (reproduzidos de um grfico do artigo Effects of Aggregate and Microfilleres on the Flexural Proprties of Concrete, Magazine of Concrete Research, 1997, p.81-98): MOE 29,8 33,2 33,7 35,3 35,5 36,1 36,2 36,3 37,5

    Resistncia 5,9 7,2 7,3 6,3 8,1 6,8 7,0 7,6 6,8

    MOE 37,7 38,8 39,6 41,0 42,8 42,8 43,5 45,6 46,0 Resistncia 6,5 6,3 7,9 9,0 8,2 8,7 7,8 9,7 7,4

    MOE 46,9 48,0 49,3 51,7 62,6 69,8 79,5 80,0 Resistncia 7,7 9,7 7,8 7,7 11,6 11,3 11,8 10,7

    a) O valor da resistncia determinado exclusivamente pelo valor do MOE? R:No, porque h observao com os valores idnticos de MOE com diferentes valores de y.

    b) Use os resultados da sada do software Excel a seguir e apresente a equao ajustada do modelo de regresso. R: y i = 3,34 + 0,107xi, i = 1, 2, 3, , 26

    Estatstica de regresso R mltiplo 0,858 R-quadrado 0,7364 R-quadrado ajustado 0,7253 Erro padro 0,8785 Observaes 26

    Fonte de Variao Graus de Liberdade Soma de Quadrado

    Quadrado Mdio Estatstica F

    Regresso 1 51,7325 51,7325 67,035 Resduo 24 18,5214 0,77172

    Total 25 70,2539

    Coeficientes Erro padro Estatstica t P- valor Interseo 3,3400 0,6163 5,4200 0,00001442 MOE 0,1068 0,0130 8,1875 0,00000002

    c) Calcule o coeficiente de determinao. R: 0,736.

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 53

    10) Nova York, Boston e o Vale do Silcio na Califrnia esto entre as regies que apresentam os maiores salrios no setor de tecnologia nos Estados Unidos (USA Today, 28 de fevereiro de 2002). Os dados amostrais seguintes apresentam os salrios anuais individuais expressos em milhares de dlares. a) Verifique se existe diferena entre a mdia populacional de salrios do setor de

    tecnologia correspondente nas trs localidades. Use =5%.

    Nova York Boston Vale do Silcio 82 85 82 79 80 91 72 74 94 89 78 88 79 75 85 85 80 81 86 79 90

    R: Existe diferena entre as mdias de salrios nas trs localidades, observe a tabela da anova apresentada adiante.

    Grupo Contagem Soma Mdia Varincia Nova York 7 572 81,71 31,90 Boston 7 551 78,71 13,24 Vale do Silcio 7 611 87,29 23,24

    ANOVA

    Fonte da variao Soma de Quadrado Graus de Liberdade

    Quadrado Mdio Estatstica F valor-P F crtico

    Tratamento 264,86 2,00 132,43 5,81 0,01 3,55 Erro 410,29 18,00 22,79

    Total 675,14 20,00 ---- ---- ---- ----

    11) Realiza-se um estudo para se determinar o efeito da velocidade de corte sobre a durao (em horas) de uma mquina particular. Quatro nveis de velocidade de corte so selecionados para o estudo, com os seguintes resultados:

    Durabilidade da ferramenta Velocidade de corte

    Repetio (ou observao) 1 2 3 4 5 6

    1 41 43 33 39 36 40 2 42 36 34 45 40 39 3 34 38 34 34 36 33 4 36 37 36 38 35 35

    Fonte: Hines, Montgomery, Goldman e Borror (2006). Probabilidade e Estatstica na Engenharia. 4 ed.

    a) A velocidade de corte afeta a durabilidade da mquina?. Use = 0,01. R.:A velocidade mdia de corte no afeta a durabilidade da mquina, ao nvel de significncia de 1%.

  • UFBA- Instituto de Matemtica Departamento de Estatstica

    Disciplina: MAT236 - Mtodos Estatsticos Pgina 54

    b) Voc usaria o Teste de Tukey para fazer comparaes entre os pares de mdias dos nveis de velocidade de corte? R: No usaria o teste, pois no h evidncias de que existam diferenas significativas