Apostila_Estatistica_II

Embed Size (px)

DESCRIPTION

Estatística

Citation preview

UNIVERSIDADE DE SO PAULOFaculdade de Zootecnia e Engenharia de Alimentos Departamento de Cincias Bsicas

APOSTILA DE ESTATSTICA IIProf. Dr. Csar Gonalves de LimaE_mail: [email protected]

Pirassununga - SP 2004Av. Duque de Caxias Norte, 225 CEP: 13635-900 Pirassununga, SP Fone: (19) 3565-4117/4143 - Fax: (19) 3561-8606 - E-mail: [email protected]

1

SUMRIOPgina1. Introduo Inferncia Estatstica ............................................................................................................. 1.1. Como selecionar uma amostra ............................................................................................................... 1.2. Outras tcnicas de Amostragem ............................................................................................................. 1.3. Definies iniciais .................................................................................................................................. 1.4. Distribuies amostrais .......................................................................................................................... 1.5. A distribuio amostral da mdia ............................................................................................................ 1.6. A distribuio amostral da proporo ...................................................................................................... 2. Algumas distribuies importantes ........................................................................................................... 2.1. A distribuio de Quiquadrado ............................................................................................................... 2.2. A distribuio t-Student .......................................................................................................................... 2.3. A distribuio F-Snedecor ..................................................................................................................... 3. Estimao ................................................................................................................................................ 3.1. Caractersticas de um bom estimador por ponto ...................................................................................... 3.2. Estimao por intervalo .......................................................................................................................... 3.2.1. Intervalo de confiana para a mdia populacional ................................................................................ 3.2.2. Intervalo de confiana para a proporo ............................................................................................... 4. Testes de hipteses .................................................................................................................................... 4.1. Procedimentos bsicos para a construo de um teste de hipteses .......................................................... 4.2. Teste sobre a mdia de uma distribuio normal quando a varincia conhecida ..................................... 4.3. Nvel descritivo do teste ......................................................................................................................... 4.4. Teste de hipteses para a proporo ........................................................................................................ 5. Outros testes de hipteses .......................................................................................................................... 5.1. Teste sobre a mdia de uma distribuio normal quando a varincia desconhecida ................................ 5.2. Teste para a varincia de uma distribuio normal .................................................................................. 5.3. Comparao das varincias de duas populaes normais ......................................................................... 5.4. Comparaes das mdias de duas populaes normais ............................................................................ 5.4.1. Comparaes das mdias de duas populaes normais quando as varincias so desconhecidas, mas iguais .......................................................................................................................................... 5.4.2. Comparaes das mdias de duas populaes normais quando as varincias so desconhecidas e diferentes ........................................................................................................................................... 5.4.3. Comparaes das mdias de duas populaes normais quando as observaes so pareadas .................. 6. Correlao e regresso linear simples ........................................................................................................ 6.1. Correlao linear de Pearson .................................................................................................................. 6.2. Regresso linear simples ........................................................................................................................ 6.2.1. O modelo para regresso linear simples ............................................................................................... 6.2.2. Inferncia sobre os estimadores dos parmetros da regresso ................................................................ 7. Testes de quiquadrado ............................................................................................................................... 7.1. Teste de aderncia, ajustamento ou adequao de um modelo ................................................................. 7.2. Testes em tabelas de contingncia ........................................................................................................... 7.2.1. Teste de homogeneidade ...................................................................................................................... 7.2.2. Teste de Independncia ....................................................................................................................... Distribuies de probabilidades ..................................................................................................................... Tbua I: Normal padro ................................................................................................................................ Tbua II: Quiquadrado .................................................................................................................................. Tbua III: t de Student .................................................................................................................................. Tbua IV: F-Snedecor ................................................................................................................................... Reviso de somatrios .................................................................................................................................. Exerccios propostos ..................................................................................................................................... Bibliografia recomendada ............................................................................................................................. Resoluo dos exerccios propostos ............................................................................................................... 2 2 2 3 3 4 5 6 6 7 8 9 9 10 10 12 13 16 16 17 17 18 18 19 20 21 22 23 24 25 25 28 29 31 32 32 34 35 35 37 38 39 40 41 43 45 50 51

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

2

1. INTRODUO INFERNCIA ESTATSTICANas aulas anteriores (Estatstica I) aprendemos como resumir descritivamente uma massa de dados (atravs de medidas de tendncia central, disperso, assimetria e curtose), como apresentar esses resultados (atravs de grficos e tabelas) e conhecemos alguns modelos probabilsticos (binomial, Poisson e normal) usados para descrever fenmenos comuns em nossa rea de atuao. A partir de agora, veremos como reunir todas essas informaes com o intuito de estudar um ramo bastante importante da Estatstica, conhecido como Inferncia Estatstica, que estuda como fazer afirmaes sobre certas caractersticas de uma populao, baseando-se em resultados obtidos em uma amostra. Neste contexto, entende-se por populao qualquer conjunto de indivduos ou objetos que tm pelo menos uma varivel comum observvel e por amostra, qualquer subconjunto da populao. Exemplo 1.1. Consideremos uma pesquisa feita para estudar o ganho de peso dos bovinos de corte de um rebanho de 700 animais. Selecionamos uma amostra de 40 animais e anotamos os seus pesos no incio e no final de um determinado ms. A partir desses dados calculamos os ganhos de peso. Neste caso a populao formada pelos 700 animais e a amostra pelos 40 animais selecionados. Na verdade, como estamos interessados no ganho de peso, a populao formada pelos ganhos de peso dos 700 animais e a amostra pelos ganhos de peso dos 40 animais selecionados. Estudando a distribuio dos ganhos de peso da amostra, esperamos que esta reflita a distribuio dos ganhos de peso do plantel. Com os dados em mos, podemos estar interessados, simplesmente, em estimar o ganho de peso mdio dos bovinos de corte ou ento, em testar se o ganho de peso mdio desses bovinos, neste particular ms, foi superior a 10kg. A soluo desses problemas ser tratada com detalhes nas prximas aulas sobre Estimao de Parmetros e Testes de Hipteses, respectivamente.

1.1 COMO SELECIONAR UMA AMOSTRA As observaes colhidas numa amostra so to mais informativas quanto mais conhecemos sobre a populao de onde a amostra foi retirada. Por exemplo, para selecionarmos 40 animais de um lote de 700, devemos conhecer algumas caractersticas desses animais (raa, sexo, idade etc.) que podem influenciar nos resultados da varivel em estudo. A maneira de se obter uma amostra to importante e existem tantas formas de faz-la, que esses procedimentos constituem uma especialidade dentro da Estatstica, conhecida como Tcnicas de Amostragem. Distinguiremos dois tipos de amostragem: a probabilstica e a no-probabilstica. A amostragem ser chamada de probabilstica se todos os elementos da populao tiverem probabilidades conhecidas e diferentes de zero, de fazer parte da amostra; caso contrrio, a amostragem ser chamada de no-probabilstica. A amostragem probabilstica implica um sorteio com regras bem determinadas, cuja realizao somente ser possvel se a populao em estudo for finita e totalmente acessvel. As tcnicas de Inferncia Estatstica pressupem que as amostras utilizadas no estudo sejam probabilsticas, o que muitas vezes no se pode conseguir. Nesses casos, o bom senso dever indicar quando o processo de amostragem, mesmo no sendo probabilstico, pode ser, para efeitos prticos, considerado como tal. O caso mais simples de amostragem probabilstica chamado de Amostragem Casual Simples ou Aleatria, onde se atribui a cada elemento da populao a mesma probabilidade de seleo, ou seja, a mesma chance de fazer parte da amostra. Podemos obter uma amostra casual simples (a.c.s.) escrevendo o nome de cada elemento da populao num carto, misturando-os numa urna e sorteando tantos cartes quantos forem os elementos que desejamos na amostra. O sorteio poder ser feito com reposio (o carto sorteado volta urna antes do prximo sorteio) ou sem reposio (o carto sorteado no volta mais urna). Se a populao for muito numerosa, podemos utilizar uma tabela de nmeros aleatrios para facilitar o sorteio. Se estivermos interessados em sortear uma amostra casual simples de n elementos de uma populao n finita de tamanho N, o nmero de amostras possveis ser igual a (N) se o processo de retirada for com reposi N o, e se o processo de retirada for sem reposio. A relao n/N chamada frao de amostragem. n

1.2.. OUTRAS TCNICAS DE AMOSTRAGEM Amostragem Sistemtica: utilizada quando os elementos da populao apresentam-se ordenados e a retirada dos elementos da amostra feita periodicamente. Por exemplo, de um rebanho de N = 700 bovinos de corte, cujos dados esto registrados em fichas numeradas de 001 a 700, podemos retirar uma amostra de n = 10 animais utilizando o seguinte procedimento:Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

3 i) sorteamos um nmero de 1 a 70 (note que 700/10=70), que corresponder ao nmero da ficha do primeiro animal que far parte da amostra; ii) as demais fichas (animais) sero retiradas, periodicamente, de 70 em 70. Amostragem por Conglomerados: utilizada quando a populao apresenta uma subdiviso natural em pequenos grupos ou conglomerados. Para retirarmos uma amostra, sorteamos um nmero suficiente de conglomerados e os seus elementos constituiro a amostra. Neste caso, as unidades de amostragem so os conglomerados e no os elementos individuais da populao. Este tipo de amostragem adotado por motivos de ordem prtica e econmica. Amostragem Estratificada: utilizada quando a populao pode ser dividida em diferentes subpopulaes ou estratos, sendo razovel supor que a varivel de interesse apresenta um comportamento bastante diverso de estrato para estrato e um comportamento razoavelmente homogneo dentro de cada estrato. Neste caso, se o sorteio dos elementos da amostra no considerar tais estratos, pode ocorrer que os diversos estratos no sejam convenientemente representados na amostra, a qual estaria mais influenciada pelas caractersticas da varivel nos estratos mais favorecidos pelo sorteio. A amostragem estratificada consiste em especificar quantos elementos da amostra sero retirados de cada estrato. Geralmente so considerados trs tipos de amostragem estratificada: uniforme: quando se sorteia igual nmero de elementos em cada estrato; proporcional: quando o nmero de elementos sorteados em cada estrato proporcional ao nmero de elementos existentes no estrato tima: quando retiramos, em cada estrato, um nmero de elementos proporcional ao nmero de elementos e variabilidade da varivel de interesse no estrato, medida por seu desvio padro. Para maiores detalhes sobre estas e outras tcnicas de amostragem consulte, por exemplo: COCHRAN, W.G. Tcnicas de Amostragem, Fundo de Cultura, Rio de Janeiro, 1955.

1.3. DEFINIES INICIAIS Para facilitar a linguagem usada, iremos diferenciar as caractersticas da amostra e da populao. Chamaremos de parmetro qualquer medida usada para descrever uma caracterstica da populao e de estatstica, qualquer medida usada para descrever uma caracterstica da amostra, ou seja, qualquer funo dos elementos da amostra. Geralmente, usamos letras gregas minsculas para simbolizar os parmetros e letras do nosso alfabeto para as estatsticas, como por exemplo: Descrio Nmero de elementos Mdia Varincia Desvio padro Coeficiente de correlao Parmetro (populao) N 2 (X,Y) Estatstica (amostra) n x s s r(X,Y)2

1.4. DISTRIBUIES AMOSTRAIS J sabemos que o problema bsico da Inferncia Estatstica consiste em se fazer uma afirmao sobre parmetros atravs de resultados obtidos na amostra. Suponhamos que o interesse esteja em fazer afirmaes sobre um parmetro (mdia, mediana, varincia ou coeficiente de correlao, por exemplo) de uma certa populao representada pela v.a. X. Desta populao, sorteamos, com reposio, uma a.c.s. de n elementos e a nossa deciso sobre ser baseada na estatstica T = f(X1, X2, ..., Xn) que uma funo dos valores amostrais (X1,X2, ...,Xn). Colhida uma amostra particular (x1, x2, ..., xn) calculamos o valor da estatstica T (t1, por exemplo) e baseado neste valor faremos uma afirmao (ou inferncia) sobre o parmetro . A afirmao sobre o parmetro ser mais bem compreendida se soubermos o que acontece com a estatstica T quando retiramos todas as possveis amostras de tamanho n da populao, de acordo com o plano amostral adotado. A distribuio dos possveis valores da estatstica T chamada de distribuio amostral ou por amostragem da estatstica T e desempenha um papel fundamental na teoria usada na Inferncia Estatstica. O procedimento utilizado para a obteno da distribuio amostral da estatstica T pode ser resumido da seguinte maneira:Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

4 i) Da populao X, estamos interessados no parmetro . ii) De acordo com um certo procedimento de amostragem, retiramos todas as amostras de tamanho n da populao X. iii) Para cada amostra (xi1, xi2, ...,xin) calculamos o valor ti da estatstica T, i = 1, 2, ... iv) Os valores ti formam uma nova populao cuja distribuio de probabilidades recebe o nome de distribuio amostral da estatstica T.

1.5. A DISTRIBUIO AMOSTRAL DA MDIA Para estudarmos a distribuio amostral da mdia, consideremos uma populao identificada pela v.a. 2 X, cuja mdia = E(X) e varincia = Var(X) so conhecidas. Exemplo 1.2. Consideremos, sem perda de generalidade, a populao X = {4, 10, 16} com N = 3 ele2 mentos, mdia = 10 e varincia 2 = 24. Para cada uma das 3 = 9 amostras de tamanho n = 2, retiradas, com reposio, da populao X, vamos calcular a mdia e a varincia amostrais utilizando os seguintes estimadores: n 1 1 n 2 X = Xi e S = (X i X ) 2 (n 1) i =1 n i =1 e obtemos: Amostra (4; 4) (4; 10) (4; 16) (10; 4) (10; 10) (10; 16) (16; 4) (16; 10) (16; 16)x

4 7 10 7 10 13 10 13 16

s 0 18 72 18 0 18 72 18 0

2

Utilizando esses resultados, construmos a distribuio de probabilidades da estatstica X :

xP( X = x )

4 1/9

7 2/9

10 3/9

13 2/9

16 1/9

e baseada nesta distribuio de probabilidades, temos que: E( X ) = 4.(1/9) + ... + 16.(1/9) = 10 E( X ) = 10 E( X 2 ) = 4 .(1/9) + ... + 16 .(1/9) = 112 Var( X ) = 112 - (10) = 12 Var( X ) = 122

ou seja, que E( X ) = = 10 Var( X ) = /n = 24/2 = 122

Observe que as diversas amostras produzem estimativas diferentes da mdia e da varincia populacionais. Esta flutuao das mdias amostrais ( X ) em torno da mdia populacional () pode ser quantificada atravs da varincia da mdia amostral , Var( X ). Esses resultados numricos obtidos independem da distribuio da v.a. X e podem ser generalizados no seguinte teorema: Teorema 1. Seja X uma populao com mdia e varincia e seja (X1, ..., Xn) uma a.c.s. de tamanho n 2 retirada desta populao. Ento, E( X ) = e Var( X ) = /n.2

Precisamos determinar agora qual o modelo probabilstico da curva referente distribuio de X. A obteno dessa informao exige recursos matemticos que esto fora dos objetivos deste curso. Apresentaremos, somente, os resultados mais importantes. 2 Primeiramente, se X uma v.a. com distribuio normal de mdia e varincia , pode-se demonstrar 2 que a distribuio da estatstica X tambm ser normal de mesma mdia, , mas com varincia /n, isto : X ~ N(, ) 2

X ~ N(, /n)2

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

5

No caso mais geral, onde a distribuio da v.a. X no normal ou desconhecida, devemos usar os resultados do importante teorema apresentado a seguir. Teorema 2. Para amostras casuais simples de tamanho n retiradas de qualquer populao com mdia e 2 varincia , a distribuio amostral da mdia aproxima-se de uma distribuio normal com mdia e 2 varincia /n, quando n tende para infinito. (Teorema do Limite Central). A rapidez dessa convergncia depende da distribuio da populao da qual a amostra retirada: se a distribuio for simtrica e unimodal a convergncia bastante rpida. Para amostras com mais de 30 elementos, a aproximao pela distribuio normal pode ser considerada boa. Um outro resultado bastante interessante e que ser utilizado freqentemente nas prximas aulas est apresentado no seguinte corolrio: Corolrio 1: Se (X1, X2, ...,Xn) uma a.c.s. de tamanho n da populao X que tem mdia e varincia , X ento a varivel Z = ~ N(0, 1) quando n tende para infinito.2

2

n

1.6 A DISTRIBUIO AMOSTRAL DA PROPORO Consideremos agora uma populao em que a proporo de elementos portadores de uma certa caracterstica p. Por exemplo: a proporo de funcionrios da lavoura que tem curso colegial completo; a proporo de eleitores de um determinado candidato; a proporo de animais com determinada doena etc.. Em qualquer um dos exemplos, cada elemento da populao pode assumir dois valores: X = 1 se o elemento apresenta a caracterstica e X = 0, se no apresenta a caracterstica, onde apresentar a caracterstica significa ter o curso colegial completo, ou ser eleitor de um determinado candidato, ou mesmo ter uma determinada doena. Assumindo que P(X=1) = p e P(X=0) = 1 p, temos: E(X) = 1.(p) + 0.(1-p) = p E(X) = p E(X2) = 1.(p) + 0.(1-p) = p Var(X) = p - (p) = p(1-p) Var(X) = p(1-p)2

Retirada uma a.c.s., com reposio, de n elementos da populao X, indicamos por Sn o total de indivduos portadores da caracterstica na amostra. J sabemos que Sn ~ B(n; p), isto , Sn tem distribuio binomial de parmetros n e p. Definindo p como sendo a proporo (ou freqncia relativa) de indivduos que tm a caracterstica na amostra, isto , p = Sn /n, a distribuio amostral de p apresenta probabilidades iguais s probabilidades da distribuio de Sn, embora os valores assumidos por p e Sn sejam diferentes. Ento: E( p ) = p e Var( p ) = p(1-p)/n (Note a analogia de p com X ...) Para n grande, usando o Teorema do Limite Central, conclumos que p ~ N(p; p(1-p)/n) e Z = pp p(1 p) n Exemplo 1.3. Foi sorteada uma amostra de 500 coelhos de uma granja e os animais foram inspecionados com respeito presena de sarna de focinho e patas. Para estimar a "proporo de animais com sarna de focinho e patas", usamos a estatstica p = Sn n , onde Sn corresponde ao nmero de animais com sarna de focinho e patas e n ao nmero total de coelhos na amostra. Se Sn = 300 coelhos tm sarna de focinho e patas, uma estimativa da proporo de coelhos portadores de sarna, nessa granja, p = 300/500 = 0,60 e uma estimativa da varincia dessa proporo 0,60*0,40/500 = 0,00048. ~ N(0; 1)

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

6 Enfim, alm da mdia X e da proporo p , podemos estudar a distribuio amostral de qualquer estatstica T = f(X1, X2, ...,Xn), mas quanto mais complexa for esta funo f(.), mais difcil ser a derivao matemtica das propriedades da estatstica T.

2 ALGUMAS DISTRIBUIES IMPORTANTES Agora, conheceremos outras distribuies de probabilidades que sero usadas em alguns testes de hipteses e na construo de alguns intervalos de confiana bastante teis em situaes prticas. De cada distribuio sero conhecidas algumas caractersticas principais, como o grfico, a mdia, a varincia e os procedimentos usados no clculo de probabilidades usando as Tbuas apresentadas no final da apostila. Tambm sero informadas as situaes mais comuns onde essas distribuies so aplicadas. 2.1 DISTRIBUIO DE QUIQUADRADO (2) Definio 2.1 Seja {Z1, ..., Z} uma amostra aleatria de n elementos retirada de uma distribuio2 2 normal padronizada N(0; 1). Ento, a varivel Q = Z1 + ... + Z = Zi2 tem distribuio i =1

quiquadrado com graus de liberdade (g.l.), isto , Q ~ 2 ) . ( Pode-se provar que E(Q) = e Var(Q) = 2. O nmero de graus de liberdade () refere-se ao nmero de variveis normais independentes Zi, ao quadrado, que compem a varivel Q. A Figura 1 apresenta o grfico da distribuio quiquadrado com = 5 g.l. :

Figura 1 - Distribuio quiquadrado com 5 g.l. A distribuio Quiquadrado tem diversas aplicaes em Estatstica e para o clculo de probabilidades usaremos a Tbua II, que fornece os valores crticos qc tais que P(Q > qc) = p, para alguns valores de p e de . Por exemplo, se Q ~ (210 ) e procuramos o valor crtico, qc, tal que 0,05 = P(Q > qc), iremos encontr-lo na interseo da linha correspondente a = 10gl e da coluna correspondente a p = 0,05, ou seja, q = 18,307. De modoc

anlogo, se procuramos qc tal que P(Q > qc) = 0,95, iremos encontrar o valor 3,940. Esses resultados esto representados na Figura 2.

PROBABILIDADE p ... 10 ... ... ... ... ... 0,100 ... 15,987 ... 0,05 18,307 ... 0,04 ... 19,021 ... ... ... ... ...

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

7

2 Figura 2 - Valores crticos bilaterais da distribuio (10) para 1- = 90%

Uma estatstica importante que ser utilizada na construo de intervalos de confiana e nos testes de hipteses sobre a varincia de uma populao normal X X 1 n = 2 Xi X i i =1 i =1 n 2

(

)

2

=

(n 1)S 2 ~ (2n 1) 2

2.2 DISTRIBUIO t DE STUDENT uma das mais importantes distribuies usadas na inferncia estatstica sobre mdias de populaes normais.2 Definio 2.2 Sejam as variveis Z ~ N(0,1) e Q ~ ( ) , independentes. Ento, a varivel

T=

Z Q

tem distribuio t de Student com graus de liberdade.

Pode-se provar que E(T) = 0 e Var(T) = v/(v2). O grfico da distribuio t- Student muito parecido com o da distribuio N(0; 1), sendo o primeiro apenas um pouco mais achatado que o segundo. Quando o nmero de graus de liberdade grande, os grficos das distribuies Normal e t-Student so praticamente iguais. O grfico da distribuio t-Student com = 12 g.l. est apresentado na Figura 3.

Figura 3 - Grfico da distribuio t-Student com = 12 graus de liberdade A Tbua III fornece valores crticos tc tais que P(T > tc) = p, para alguns valores de p e de . Por exemplo, se T ~ t(12) e p = 0,025, o valor tc = 2,179 ser encontrado na interseo da linha correspondente a 12 g.l. e da coluna correspondente probabilidade p = 0,025. ... 12 ... ... ... ... ... PROBABILIDADE p 0,030 0,020 0,025 ... ... 2,076 2,179 2,303 ... ... ... ... ... ... ...

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

8 Quando o nmero de graus de liberdade da distribuio t-Student grande, podemos usar a Tbua I da distribuio N(0,1) para obter os valores crticos tc. Uma estatstica importante que ser usada na construo de X Intervalos de Confiana e nos testes de hipteses sobre mdias de populaes normais : T = ~ t(n-1) , ou S2 n seja, tem distribuio t-Student com = n-1 graus de liberdade.

2.3 DISTRIBUIO F DE SNEDECOR Essa distribuio bastante usada na comparao de varincias de duas populaes com distribuio normal. U Definio 2.3. Sejam as v.a. U ~2 1

eV ~

22

, independentes. Ento a varivel F =

1 2

V

tem dis-

tribuio F de parmetros 1 e 2 onde os parmetros 1 e 2 correspondem, respectivamente, ao nmero de graus de liberdade do numerador e do denominador da varivel F. Pode-se provar que: E(F) = 2 2 2 e Var(F) = 2 2 (1 + 2 2 ) 2 . 2 1 ( 2 2 ) ( 2 4)

A Figura 4 apresenta o grfico da distribuio F(1 = 10; 2 = 12)

Figura 4 - Grfico da distribuio F(10; 12). Os valores crticos fc tais que P(F > fc) = 0,05, para alguns valores de 1 e 2 podem ser encontrados na Tbua IV. Por exemplo, para uma varivel com distribuio F(10,12), o valor 2,75 encontrado na interseo da linha correspondente a 2=12gl (denominador) e 1=10 g.l. (numerador):

1 GRAUS DE LIBERDADE DO NUMERADOR 2 ... 12 ... ... ... ... ... 9 ... 2,80 ... 10 2,75 ... 12 ... 2,69 ... ... ... ... ...

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

9 Com a Tbua IV podemos tambm encontrar os valores crticos tais que P(F < fc) = 0,05 usando a 1 identidade F(1; 2) = . Por exemplo, se F ~ F(10; 12) e estamos interessados no valor crtico inferior, F( 2 ; 1 ) fc, que P(F < fc) = 0,05, devemos primeiramente procurar o valor crtico na interseo da linha correspondente a (2 =) 10 g.l. com a coluna correspondente a (1 =) 12 g.l.. A partir deste valor (2,91), obtemos o valor crtico de interesse fazendo: fc = 1/2,91 = 0,34. Uma estatstica importante que ser utilizada na construo de Intervalos de Confiana para o quociente de duas varincias e nos testes de hipteses envolvendo as varincias de duas populaes normais : F=2 S1

S2 2

~ F(n1-1; n2-1)

ou seja, tem distribuio F-Snedecor com 1 = (n1-1) e 2 = (n2-1) graus de liberdade, onde n1 e n2 so os tamanhos das amostras retiradas das populaes 1 e 2, respectivamente, cujos resultados so utilizados no clculo das 2 estimativas das varincias S1 e S2 . 2

3. ESTIMAO Na produo de generalizaes sobre a populao com base em resultados obtidos de uma amostra, esto envolvidos a estimao e o teste de hipteses sobre parmetros. Basicamente, a estimao de parmetros pode ser feita de duas maneiras: por ponto e por intervalo. Par a obteno de bons estimadores pontuais, existem alguns mtodos como: o Mtodo dos Mnimos Quadrados, o Mtodo da Mxima Verossimilhana, o Mtodo dos Momentos etc. No entanto, estes mtodos no sero apresentados com detalhes nesta apostila, podendo ser encontrados em outros textos bsicos de Inferncia Estatstica (ver a bibliografia sugerida no final da apostila). Exemplo 3.1 A cada eleitor de uma amostra de 500 eleitores feita uma pergunta a respeito da eleio de um determinado candidato. A resposta pergunta poder ser sim (favorvel) ou no (contrrio eleio do candidato). A estimao da proporo (p) de eleitores favorveis eleio do candidato feita utilizando-se o estimador p = (nmero de eleitores favorveis eleio)/(nmero de eleitores na amostra) Deste modo, se 320 eleitores responderam sim pergunta, uma estimativa da proporo de eleitores favorveis eleio do candidato p = 320/500 = 0,64 = 64%. Dvidas: Ser que p um bom estimador de p? Ser que p proporciona boas estimativas de p? Para responder a estas (e outras) perguntas iremos conhecer as caractersticas de um bom estimador por ponto, que sero apresentadas a seguir.

3.1 CARACTERSTICAS DE UM BOM ESTIMADOR POR PONTO Os estimadores por ponto ou pontuais so assim denominados porque especificam um nico valor para o parmetro. Em algumas situaes podemos estar interessados em saber se um estimador tem boas qualidades; j em outras, podemos ter mais de um estimador para o mesmo parmetro e desejamos escolher o melhor deles. Neste caso o julgamento pode ser feito analisando as seguintes propriedades desses estimadores: i) T um estimador justo, no viesado ou no tendencioso do parmetro se E(T) = . ii) T um estimador consistente do parmetro se for justo e se lim Var(T) = 0.n

iii) Se T1 e T2 so dois estimadores justos do parmetro e ainda Var(T1) < Var(T2), ento T1 dito ser mais eficiente que o estimador T2.

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

10 Dos estimadores que j conhecemos, pode-se provar que X e p so estimadores justos e consistentes dos parmetros e p, respectivamente. Um estimador no viesado e consistente para a varincia populacional :22 n Xi n 1 X 2 - i =1 = i (n 1) i =1 n

S =

2

n 1 Xi X (n 1) i =1

(

)

2

(para maiores detalhes, ver FONSECA & MARTINS, 1982, pg.155-157)

3.2 ESTIMAO POR INTERVALO A estimativa por ponto de um parmetro bastante til, embora no d qualquer indicao da preciso a ela associada. desejvel que uma estimativa por ponto esteja acompanhada por alguma medida do erro da estimativa. Por exemplo, uma estimativa pontual pode ser acompanhada de algum intervalo a respeito dessa estimativa, juntamente com alguma medida de segurana ou de confiana de que o verdadeiro valor do parmetro caia neste intervalo. Nesta situao, estamos falando da estimao de parmetros por intervalo. O estimador por intervalo que tem associada uma probabilidade, recebe o nome de Intervalo de Confiana (I.C.). Os limites inferior e superior desse intervalo so chamados de limites (inferior e superior) de confiana. A probabilidade de que o I.C. contenha o verdadeiro valor do parmetro chamada de Coeficiente de Confiana e denotada pela letra grega (gama). A amplitude de um I.C. calculada fazendo-se a diferena entre os dois limites de confiana (superior e inferior). Nosso objetivo encontrar um estimador por intervalo que produza intervalos pequenos, se possvel, e incluam o verdadeiro valor do parmetro com uma confiana () alta. 3.2.1 INTERVALO DE CONFIANA PARA A MDIA POPULACIONAL J sabemos que se uma varivel aleatria X tem distribuio N(; ), a mdia X obtida a partir de uma X 2 amostra de tamanho n tem distribuio N(; /n ) e a varivel Z = ~ N(0, 1). 2 n2

Fixando uma probabilidade , iremos considerar um intervalo simtrico em relao origem, tal que = P(-zc< Z < zc), onde zc (ver Figura 5) pode ser obtido da Tbua I e o seu valor depende exclusivamente da confiana () que desejamos na estimativa. Ento Figura 5 - Distribuio normal padro X = P z c z c = P X z c X + zc n n 2 n e o I.C. para a mdia populacional, , com um coeficiente de confiana , ; X + zc I.C.(; 100%) = X z c n n e dizemos que este intervalo contem o verdadeiro valor da mdia populacional com uma confiana de 100%.

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

11

Note que este I.C. centrado na mdia X e tem uma amplitude igual a 2 z c

. O coeficiente de confiana () n deve ser entendido da seguinte maneira: se a partir de k amostras independentes de tamanho n, calculamos k intervalos de confiana (diferentes) para a mdia , pelo menos k* desses intervalos devero cobrir (incluir) o verdadeiro valor de . Exemplo 3.2. Sabemos que o peso de bovinos Nelore aos 210 dias de idade tem distribuio normal com varincia 400kg2. Baseado numa amostra de 30 animais, com peso mdio de 186kg: (a) construir um I.C. para o peso mdio (populacional) desses bovinos com uma confiana = 0,95; (b) idem, para = 0,99; (c) calcular a confiana em afirmar que o verdadeiro peso mdio desses bovinos [180; 192] kg. Resoluo: (a) Da Tbua I, o valor de zc, tal que 0,95 = P(-zc < Z < zc) zc = 1,96. Com os valores amostrais e a frmula acima definida calcular os limites de confiana: 20 20 I.C.(; =95%) = [ 186 + 1,96 0,95 = P186 1,96 178,84; 193,16] kg, ou seja, este 30 30 intervalo (de amplitude 14,32kg) contem o verdadeiro valor do peso mdio dos bezerros com 95% de confiana. (b) 0,99 = P(-zc < Z < zc) zc = 2,58. Assim, o I.C.(; =99%) = [176,58; 195,42] kg, contem o verdadeiro valor do peso mdio dos bezerros, com uma confiana de 99%. 20 zc = 1,64 = P(-1,64 0 (hiptese unilateral direita), ou H1: < 0 (hiptese unilateral esquerda). Quanto escolha das hipteses, FONSECA & MARTINS (1982) afirmaram que a hiptese H1 geralmente representa a suposio que o pesquisador quer provar, sendo H0 formulada com o expresso propsito de ser rejeitada. Esse procedimento conveniente, pois o equvoco de erroneamente rejeitar H0 considerado mais srio do que o equvoco de erroneamente aceitar H1 ii) Use a teoria estatstica e as informaes disponveis, para decidir qual o estimador de ser usado para julgar H0. Por exemplo, se o parmetro em estudo for , o estimador a ser usado X . iii) Fixe = P(Erro tipo I) e, assumindo que a hiptese H0 verdadeira, construa a regio crtica (R.C.) do teste. iv) Use as informaes fornecidas pela amostra, para encontrar o valor da estatstica que definir a deciso. v) Se o valor da estatstica calculada na amostra pertencer R.C. rejeite a hiptese H0 ao nvel de significncia fixado e aceite a hiptese H1 como verdadeira; se o valor da estatstica no pertencer R.C., aceite a hiptese H0 como verdadeira. 4.2 TESTE SOBRE A MDIA DE UMA POPULAO NORMAL QUANDO A VARINCIA CONHECIDA Usando os procedimentos apresentados na seo 4.1, vamos formalizar o teste sobre a mdia de uma 2 populao normal cuja varincia conhecida (situao que na prtica uma situao pouco comum!!). Exemplo 4.2 O peso ao desmame de bezerros Nelore do Campus tem um desvio padro de 12 kg. Com o objetivo de testar a hiptese de que o peso mdio dos bezerros igual a 220 kg, sorteou-se uma amostra de 80 animais obtendo-se x = 216kg. Ao nvel de significncia de 5%, podemos confirmar a hiptese feita? Resoluo: X = "peso ao desmame de bezerros Nelore", X ~ N(220,144) Obs: como no temos qualquer informao sobre o "sinal" da hiptese alternativa, optamos pela hiptese bilateral. O resultado x = 216kg, que ocasionalmente menor que 220kg, no deve influenciar a escolha da hiptese alternativa. H0: = 220 (o peso mdio ao desmame 220 kg) H1: 220 (o peso mdio ao desmame no 220 kg) estimador: X , que sob H0, tem distribuio N(220; 144/80), ou seja, X ~ N(220; 1,80)

-1,96 =

x c1 220 1,80 x c2 220 1,80

x c1 = 217,37kg

1,96 = Figura 8. Valores crticos da distribuio normal reduzida

x c1 = 222,63 kg

= 0,05 = P X < x c1 ou X > x c2 |X~N(220; 1,80) R.C. = { x R: x < 217,37 ou x > 222,63} como x = 216 kg R.C., rejeitamos a hiptese H0 ao nvel de significncia de 5% e conclumos que o peso mdio ao desmame dos bezerros Nelore no igual a 220kg.

(

)

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

17 Uma maneira alternativa de realizar este teste de hiptese consiste em escrever a regio crtica em funo da v.a. padronizada Z e calcular, com base na mdia amostral e supondo que a hiptese H0 verdadeira, um valor zcalc. Posteriormente, verificamos se este valor pertence ou no R.C. e tiramos a concluso sobre o teste de hiptese. Com os dados do Exemplo 3.2, ficaramos com 216 220 RC = {z R: |z| > 1,96} e zcalc = = 2,98 1,80 concluindo (mais uma vez, claro!) que a hiptese H0 deve ser rejeitada, pois zcalc R.C. ao nvel de 5% de significncia.

4.3. NVEL DESCRITIVO DO TESTE O procedimento usual de teste de hipteses baseado na adoo de um critrio ou regra de deciso, de tal modo que = P(Erro tipo I) no exceda um valor pr-fixado. Porem, na maioria das vezes, a escolha de arbitrria. Um procedimento alternativo consiste em calcular o menor nvel de significncia para o qual a hiptese H0 rejeitada, baseado nos resultados amostrais. Este valor chamado nvel descritivo do teste e ser denotado por (ou p-value). Os passos usados neste procedimento alternativo so bastante parecidos com os do procedimento clssico, sendo que a principal diferena consiste em no construir uma regio crtica para o teste. Ao invs disto, calculamos a probabilidade de ocorrerem valores da estatstica mais favorveis rejeio da hiptese H0 que o valor observado. Agindo dessa maneira, se for um valor pequeno, rejeitamos a hiptese H0 a este nvel de significncia (no mnimo) e assumimos que a hiptese H1 verdadeira; caso contrrio, aceitamos que a hiptese H0 verdadeira. Podemos considerar como pequeno um nvel descritivo de at 5%. Exemplo 4.3. Sabe-se atravs de pesquisas, que o desvio padro da produo leiteira de uma certa raa, no Brasil, 2,3 kg/vaca/dia. Desejando-se testar a afirmao que a produo mdia do rebanho leiteiro de um certo pecuarista superior a 6,0 kg/vaca/dia, foi sorteada uma amostra de 36 vacas, que forneceu uma mdia de 6,7 kg/vaca/dia. Com base neste resultado, pede-se: a) calcular o nvel descritivo do teste e concluir se a afirmao do pecuarista est correta; b) usando o procedimento clssico, testar se a afirmao do pecuarista est correta, para = 5% e 1%. Resoluo: as hipteses envolvidas no teste so: H0: = 6,0 (a afirmao do pecuarista no est confirmada) H1: > 6,0 (a afirmao do pecuarista est confirmada) informaes: x = 6,7, = 2,3 e n = 36 o clculo de envolve o clculo da probabilidade de ocorrerem valores de X favorveis ao pecuarista, ou seja, valores que nos levem a rejeitar H0, baseado na informao da amostra: 6,7 6 = P(Z >1,83) = 0,0336 = P( X > 6,7) = P Z > 2,3 36 e conclumos que a afirmao do pecuarista somente estar correta se assumirmos um nvel de significncia igual ou superior a 3,36%. para = 5%, a RC(5%) = {z R: z > 1,65} e para = 1%, a RC(1%) = {z R: z > 2,33}. Como o valor zcalc = 1,83 pertence RC(5%), mas no pertence RC(1%), a hiptese H0 dever ser rejeitada se assumirmos = 5%, mas dever ser aceita se assumirmos = 1%. 4.4. TESTE DE HIPTESE PARA A PROPORO A seguir, apresentaremos, atravs de um exemplo, a construo de um teste de hiptese para a proporo de sucessos, baseada no roteiro descrito na seo 3.1. Exemplo 4.4. O consumidor de uma certa vacina acusou o laboratrio fabricante, dizendo que "mais de 3% das suas vacinas esto vencidas". Para confirmar (ou no) sua acusao, ele usou uma amostra de n = 80 vacinas, das quais k = 4 estavam vencidas. Com base nestes resultados, pede-se: a) O que podemos concluir sobre a acusao do consumidor, ao nvel = 0,06? b) Calcular o nvel descritivo do teste e concluir sobre a rejeio da hiptese H0.Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

18 Resoluo: (a) H0: p = 0,03 (hiptese do fabricante) H1: p > 0,03 (hiptese do consumidor) 0,03(1 0,03) sob H0, p = k ~ N 0,03; ou p ~ N(0,03; 0,000364) n 80 fixando = 0,06 e assumindo H0 verdadeira, obtemos RC = {z R | z > 1,560} 0,05 0,03 da amostra: p = 4/80 = 0,05 sob H0: zcalc = = 1,05 0,000364 como zcalc RC, no rejeitamos H0 e conclumos que o consumidor no pde confirmar a sua acusao, ao nvel de significncia = 0,06. (b) = P(p > 0,05) = P(Z > zcalc) = P(Z >1,05) = 0,5 - 0,35314 = 0,147 = 14,7%, ou seja, o consumidor somente conseguir confirmar sua acusao, usando os resultados dessa amostra, se assumir um nvel de significncia 14,7% (que um valor muito alto...).

5. OUTROS TESTES DE HIPTESES Baseados nas distribuies de probabilidades Quiquadrado, t-Student e F-Snedecor ns definiremos alguns testes de hipteses envolvendo mdia e varincia de uma ou duas populaes normais.

5.1. TESTE SOBRE A MDIA DE UMA DISTRIBUIO NORMAL QUANDO A VARINCIA POPULACIONAL DESCONHECIDA Quando a varincia 2 de uma populao X ~ N(; 2) desconhecida, podemos estim-la atravs do estimador S2, j definido anteriormente. Porm, quando a estimativa est baseada numa amostra de tamanho x 0 pequeno, a estatstica T = no tem distribuio N(0; 1), mas sim t(n-1). Baseado no roteiro apresentado S2 n na seo 3.1 e nesta estatstica T iremos apresentar o teste para a mdia de uma populao normal, quando a varincia desconhecida, atravs do Exemplo 5.1. Exemplo 5.1. As mudanas observadas no teor de colesterol do sangue de coelhos aps o tratamento com um novo produto, foram medidas em 15 coelhos, cujos resultados foram: 17; 18; 22; 20; 23; 22; 21; 19; 21; 24; 22; 17; 19; 19 e 20 mg/100ml. Podemos afirmar que a mudana mdia no teor de colesterol foi inferior a 21 mg/100ml, ao nvel de significncia = 0,05? Resoluo: X: "mudana no teor de colesterol no sangue de coelhos", X ~ N(; 2). hipteses: H0 : = 21 vs. H1 : < 21 X 21 estatstica do teste: T = , que sob H0, tem distribuio t(14) S2 15 fixado = 0,05 e assumindo H0 como verdadeira, obtemos a regio crtica do teste fazendo: 0,05 = P( X < x c = P (T < t c ) tc = -1,761 (Tbua III) RC = {t R: t < -1,761} Figura 9 - Valor crtico da distribuio t(14) e = 5%Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

(

)

19 com os dados da amostra de n = 15 animais obtemos: 1 15 1 15 2 2 x = x i = 304 / 15 = 20,27 mg/100ml e s = (x i 20,27 ) = 4,4952 15 i=1 14 i=1 calculamos tcalc = 20,27 21 4, 4952 15 = -1,33 e verificamos se este valor pertence ou no RC;

como tcalc = -1,33 RC, no rejeitamos H0 e conclumos, ao nvel = 5%, que a mudana no teor de colesterol do sangue de coelhos no foi inferior a 21 mg/100ml. um intervalo de confiana para a mdia com = 95% de confiana obtido fazendo: 2,1202 2,1202 ; 20,27 + 2,14 I.C.(; 100%) = 20,27 2,14 = [19,10; 21,44] mg/100ml. 15 15

5.2 TESTE PARA A VARINCIA DE UMA DISTRIBUIO NORMAL Agora estamos interessados em testar hipteses sobre a varincia (2) de uma populao normal que, como sabemos, mede a disperso dos dados em relao mdia populacional. O teste baseado na distribuio de quiquadrado. Resumidamente temos: 1) Hipteses: H0 : 2 = 2 0 H1 : 2 2 (ou H1 : 2 < 2 ou H1: 2 > 2 ) 0 0 0 2) Estatstica do teste: Q = (n 1)S 2 , que sob H0, tem distribuio (2n 1) 2 0

3) Fixado um nvel de significncia, , a regio crtica para o teste bilateral : 2 R.C. = Q < 1 ou Q > 2 2 onde e so os valores crticos obtidos da Tbua II, tais que:2 1 2 2 2 1- = P( 1 < Q < 2 ). 2

{

}

Figura 10 - Valores crticos do teste bilateral ao nvel . 4) Com os dados da amostra e assumindo que a hiptese H0 verdadeira, calculamos S2 e o valor da estatstica: (n 1)S 2 Qcalc = . 2 0 5) Se Qcalc R.C. rejeitamos a hiptese H0 e conclumos que a hiptese H1 verdadeira, ao nvel de significncia ; se Qcalc R.C., a hiptese H0 no dever ser rejeitada. 6) Para calcularmos um intervalo de confiana para a varincia populacional de tamanho = 1- usamos a expresso: (n 1)S 2 (n 1)S2 ; I.C.(2; 100%) = 2 2 1 2

Exemplo 5.2. Um fabricante de um tipo de ao especial afirma que seu produto tem um severo controle de qualidade, traduzido pelo desvio padro da resistncia tenso no superior a 5 kg/cm. Um comprador querendo testar essa informao, tomou uma amostra de 11 cabos e submeteu-os a um teste de tenso, obtendo x = 263 e s2 = 30. Esses resultados trazem alguma evidncia contrria afirmao do fabricante, ao nvel de significncia = 0,10?

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

20 Resoluo: hipteses: H0 : 2 = 25 H1 : 2 > 25 estatstica do teste: Q = (hiptese do fabricante) (hiptese do comprador)

(11 1)S 2 , que sob H0 tem distribuio (210 ) . 25 da Tbua II, com = 0,10 e = 10 g.l. obtemos: qc = 15,987 RC= {2 R: 2 > 15,987} (11 1)30 da amostra temos que s2 = 30 e Qcalc = = 12. 25 concluso: como Qcalc = 12 RC, no rejeitamos H0 e conclumos, ao nvel = 0,10, que o desvio padro da resistncia tenso no superior a 5 kg/cm, no trazendo evidncia contrria afirmao do fabricante. (11 1)30 (11 1)30 I.C.(2; = 90%) = ; = [ ,39; 76,14] (kg/cm)2 ou seja, este intervalo contem o verdadei16 18,307 3,940 ro valor da varincia da resistncia tenso, com 90% de confiana.

5.3. COMPARAO DAS VARINCIAS DE DUAS POPULAES NORMAIS2 Agora, o nosso problema envolve duas populaes normais e independentes: X1 ~ N(1; 1 ) e X2 ~

N(2; 2 ), das quais retiramos amostras de tamanhos n1 e n2, respectivamente, com o objetivo de comparar suas 2 varincias. Como o teste baseado na distribuio F-Snedecor, temos uma restrio na escolha do nvel de significncia para o teste: somente encontraremos valores crticos tabelados (Tbua IV) para testes unilaterais com = 0,05 ou bilaterais com = 0,10. O procedimento bsico para a execuo do teste de hipteses comparando varincias de duas populaes normais envolve: 1) Hipteses:2 H0: 1 = 2 = 2 2 2 H1: 1 2 2 2 2) Estatstica do teste: F = S1 2 ou H1: 1 > 2 2 2 ou H1: 1 < 2 2

2 que, sob H0, tem distribuio F(n1-1,n2-1), onde S1 e S 2 so as varincias das 2 S2 2 amostras de tamanho n1 e n2, retiradas das populaes X1 e X2, respectivamente.

3) Para facilitar a construo da regio crtica para o teste bilateral ( = 0,10) ou para o teste unilateral ( = 0,05) tomaremos o cuidado de colocar no numerador da estatstica F a maior das duas varincias amostrais. Na Tbua IV obtemos o valor crtico fc, com 1 = (n1 -1) e 2 = (n2 -1) graus de liberdade, tal que 0,05 = P(F > fc) e ento escrevemos R.C. = {F R: F > fc}, mesmo se a hiptese alternativa for bilateral.2 4) Com as varincias amostrais, s1 e s 2 , calculamos Fcalc = 2 2 maior das varincias amostrais, ou seja, s1 > s 2 ). 2 2 s1

s2 2

(por convenincia, colocamos no numerador a

5) Concluso: se Fcalc RC rejeitamos H0 (ao nvel de significncia ) e aceitamos H1 como verdadeira; se Fcalc RC, aceitamos H0 como verdadeira. Realizado o teste e no rejeitada a hiptese de igualdade das varincias, podemos calcular uma estimativa para a varincia comum s duas populaes, combinando as duas estimativas atravs da frmula: S2 comum =2 (n 1 1)S1 + (n 2 1)S 2 2 (n 1 + n 2 2)

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

21 Exemplo 5.3. Num experimento com frangos de corte alojados em boxes com 10 aves foram comparadas duas raes (A e B). Avaliou-se o peso mdio (em kg) das aves aos 49 dias de idade. Os resultados encontrados foram os seguintes: Rao A Rao B 2,10 1,89 2,34 1,92 2,24 1,85 2,07 1,82 2,10 1,96 2,03 1,94 2,20

Baseado nesses dados podemos afirmar, ao nvel de significncia = 10%, que os pesos dos dois grupos de aves so igualmente homogneos? Ou seja, que tm varincias iguais ?Resoluo: 2 2 hipteses: H0: 1 = 2 = 2 vs. H1: 1 2 2 2 S2 estatstica do teste: F = 1 S2 2 , que sob H0, tem distribuio F(6; 5).

fixando = 0,10, da Tbua IV temos fc = 4,95 RC = {F R: F > 4,95} 2 s1 = 0,0121 e s 2 = 0,0029 Fcalc = 0,0121/0,0029 = 4,17 e como Fcalc = 4,17 RC, no rejeitamos H0 e 2

conclumos, ao nvel = 10%, que as varincias dos pesos dos dois grupos de frangos de corte so iguais. uma estimativa da varincia (comum) dos pesos dos dois grupos de frangos de corte : (7 1) 0,0121 + (6 1) 0,0029 s2 = 0,0079 kg2 comum = (7 + 6 2)

5.4 COMPARAES DAS MDIAS DE DUAS POPULAES NORMAIS2 Desejamos comparar as mdias de duas populaes: X1 ~ N(1; 1 ) e X2 ~ N(2; 2 ), cujas varincias 2 podem ser conhecidas ou no. As hipteses envolvidas nas comparaes entre as mdias podem ser escritas:

H0: 1 = 2 (ou H0: 1 - 2 = 0) H1: 1 2 (ou H0: 1 - 2 0) (hiptese bilateral) ou H1: 1 > 2 (ou H0: 1 - 2 > 0) (hiptese unilateral direita) ou H1: 1 < 2 (ou H0: 1 - 2 < 0) (hiptese unilateral esquerda) A partir de amostras independentes de n1 elementos da populao X1 e de n2 elementos da populao X2 podemos estimar a mdia e a varincia (se esta for desconhecida) de cada populao usando os estimadores X e

S 2 , j conhecidos. De estudos anteriores, tambm j sabemos que:a) E(X1 X 2 ) = E (X1 ) - E (X 2 ) = 1 - 2 b) Var (X1 X 2 ) = Var (X1 ) + Var (X 2 ) - 2Cov (X1 ; X 2 ) =2 1 2 + 2 - 2Cov (X1 ; X 2 ) n1 n2

2 Quando as populaes X1 e X2 so independentes (Cov ( X1 ; X 2 ) = 0 ) e as varincias 1 e 2 so conhecidas, a 2 estatstica definida por

Z =

(X

1

X 2 ) (1 2 )2 1 2 + 2 n1 n 2

tem distribuio N(0; 1) e deve ser utilizada nas comparaes envolvendo as mdias de duas populaes normais. Um intervalo de confiana para a diferena entre as mdias pode ser obtido atravs da expresso:2 2 1 2 1 2 I.C.( 1 - 2; 100%) = (X1 X 2 ) z c + 2 ; (X1 X 2 )+ z c + 2 n1 n 2 n1 n 2

onde zc o valor crtico obtido na Tbua I, tal que = P(-zc < Z < zc).Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

22 Porm, mais comum desconhecermos tanto as mdias quanto as varincias populacionais e antes de compararmos as mdias, precisamos saber se as varincias das duas populaes podem ser consideradas iguais ou no. Se ainda no temos esta informao, podemos obt-la atravs do teste apresentado na seo 5.3. Em uma outra situao bastante comum, precisaremos comparar as mdias de duas populaes que no so independentes, caso em que so feitas observaes de uma varivel resposta nos mesmos indivduos ou em pares deles, em duas situaes diferentes.

5.4.1 COMPARAES ENTRE AS MDIAS DE DUAS POPULAES NORMAIS QUANDO AS VARINCIAS SO DESCONHECIDAS, MAS IGUAIS Caso a hiptese de igualdade das varincias seja aceita, a estatstica do teste usado para comparar as mdias de duas populaes normais : T =

(X

1

X 2 (1 2 )

)

1 1 + S2 comum n1 n 2

onde S2 comum a estimativa da varincia comum das duas populaes. Sob H0: 1 = 2, a estatstica T tem distribuio t-Student com (n1 + n2 - 2) graus de liberdade. Um intervalo de confiana para a diferena entre as mdias, 1 e 2, pode ser obtido por: 1 1 1 1 2 2 I.C.( 1 - 2; 100%) = (X1 X 2 ) t c Scomum + ; (X1 X 2 )+ t c Scomum + n n 1 n2 1 n2 onde tc o valor crtico obtido na Tbua I, tal que = P(-tc < T < tc).

Exemplo 5.4 Duas solues qumicas, Q1 e Q2, vo ser avaliadas quanto ao valor do pH. A anlise de 21 amostras da soluo Q1 acusou um pH mdio de 7,68 e desvio padro 0,016, enquanto que a anlise de 31 amostras de Q2 acusou pH mdio de 7,23 e desvio padro 0,022. Ao nvel = 1% de significncia, podemos afirmar que as duas solues tm pH mdios iguais? Resoluo: (a) comparao das varincias:2 2 hipteses: H0: 1 = 2 = 2 vs. H1: 1 2 2 2 2 estatstica do teste: F = S2

2 S1

, que sob H0, tem distribuio F com 1 = 31-1 = 30 e 2 = 21-1 = 20 g.l.

fixando alfa = 0,10, da Tbua IV, fc = 2,04 RC = {F R: F > 2,04} das amostras: Fcalc = (0,022)2/(0,016)2 = 1,89 e como Fcalc = 1,89 RC, no rejeitamos H0 e conclumos, = 10%, que as varincias dos pHs das duas solues podem ser considerados iguais. uma estimativa da varincia comum do pH das duas solues : s2 comum = (31 1)(0,022) + (21 1)(0,016) = 0,00039 (31 + 21 2)2 2

(b) comparao das mdias: hipteses: H0: 1 = 2 vs. H1: 1 2 estatstica T =

(X

1

X 2 ) 0

1 1 2 S comum + 21 31

, que sob H0, tem distribuio t(50).

fixando = 0,01, da Tbua III, obtemos tc = 2,678 R.C. = {t R: t < -2,678 ou t > 2,678}Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

23 das amostras: Tcalc =

(7,68 7,23) 01 1 0,00039 + 21 31

=

0,45 = 80,645 0,00558

como Tcalc = 80,645 R.C., rejeitamos a hiptese de igualdade dos pHs mdios e conclumos, ao nvel = 1%, que os pHs mdios das duas solues so diferentes. 1 1 o intervalo: I.C.(1-2; 99%) = (7,68 - 7,23) 2,678 0,00039 + = [0,435; 0,465] , contem a real 21 31 diferena entre os pH' s mdios das duas solues, com uma confiana de 99%.

5.4.2 COMPARAES ENTRE AS MDIAS DE DUAS POPULAES NORMAIS QUANDO AS VARINCIAS SO DESCONHECIDAS E DIFERENTES Caso a hiptese de igualdade das varincias seja rejeitada, no existe um teste exato para comparar as mdias das populaes normais, mas de varincias diferentes e desconhecidas. Este problema pode ser contornado utilizando-se a estatstica T* =

(X

1

X 2 (1 2 )2 S1 S 2 + 2 n 1 n2

)

que tem distribuio aproximada t-Student com graus de liberdade, onde calculado por:2

2 s1 s 2 + 2 n n2 1 = 2 2 2 s1 s2 2 n 1 + n2 n1 1 n 2 1

(Frmula de Sattertweit)

Um intervalo de confiana aproximado para a diferena entre as mdias, 1 e 2, pode ser obtido atravs da expresso: S2 S2 S2 S 2 I.C.*( 1 -2; 100%) = (X1 X 2 ) t 1 + 2 ; (X1 X 2 )+ t 1 + 2 c c n1 n 2 n1 n 2 onde t o valor crtico obtido na Tbua III, tal que = P(- t < T*< t ), com T* ~ t() e calculado usandoc c c se a Frmula de Sattertweit.

Exemplo 5.5. Queremos testar se os dois tipos de vigas de ao, A e B, tm a mesma resistncia mdia (em t/cm2), ao nvel = 5% de significncia. Avaliando-se 15 vigas do tipo A e 20 vigas do tipo B, os resultados foram: Viga A B Resoluo:2 2 (a) comparao das varincias: H0: 1 = 2 = 2 vs. H1: 1 2 2 2 2 F = SB

amostra 15 20

mdia 70,5 84,3

varincia 81,6 246,3

, que sob H0, tem distribuio F(19; 14) fixando alfa = 0,10, da Tbua IV, fc = 2,40 RC = S2 A {F R: F > 2,40}

das amostras: Fcalc = 246,3/81,6 = 3,02 RC, rejeitamos H0 e conclumos, ao nvel = 10%, que as varincias das resistncias dos dois tipos de vigas so diferentes.Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

24 (b) comparao das mdias: H0: 1 = 2 vs. H1: 1 2 como as varincias populacionais foram consideradas diferentes, a estatstica do teste (aproximado) T* = (X1 X 2 ) 0 , que sob H0 tem distribuio t(), onde = 315,240025 31 g.l da Tbua III t = 2,042 c 2 10,095893 S1 S 2 2 + 15 20 RC = { T* R: T* > 2,042} 81,6 246,3 + 20 15 e conclumos, = 5% que as resistncias mdias das vigas A e B so diferentes. Tcalc =

(70,5 84,3) 0

=

13,8 = -3,28 RC rejeitamos a hiptese de igualdade resistncias mdias 4,2137

81,6 246,3 I.C.(1-2; 95%) = (70,5 - 84,3) 2,042 + = -13,8 8,60 = [ 22,4; 5,2]t/cm2. 20 15

5.4.3 COMPARAES ENTRE AS MDIAS DE DUAS POPULAES NORMAIS QUANDO AS OBSERVAES SO PAREADAS Muitas vezes a comparao de mdias de duas populaes normais pode ser prejudicada pela ao de fatores externos que no podem ser controlados. Por exemplo, um tratamento com suplementao de alfafa (Trat-A) usado na alimentao de coelhos pode ser considerado melhor que um tratamento sem suplementao (Trat-B), somente porque os animais escolhidos para receber o Trat-A tm maior facilidade em ganhar peso que os animais escolhidos para receber o Trat-B e no porque a suplementao melhora o desempenho. Este problema pode ser contornado utilizando-se um artifcio que consiste em coletar as observaes da varivel resposta em pares de indivduos que sejam bastante homogneos em todos os sentidos, exceto no que diz respeito quele fator (ou tratamento) que desejamos comparar. No exemplo da suplementao de alfafa em coelhos, ns podemos utilizar pares de coelhos semelhantes quanto raa, filiao, peso inicial, sexo e idade. Um dos coelhos de cada par recebe o Trat-A e o outro recebe o Trat-B. Com isso, conseguimos um maior controle de fatores secundrios que podem influenciar os resultados da comparao das mdias. Um outro artifcio utilizado nessas situaes consiste em fazer observaes da varivel antes e depois da aplicao do tratamento, nos mesmos indivduos. Para a comparao das mdias das duas populaes X ~ N(X; 2 ) e Y ~ N(Y; 2 ), sero utilizados n X Y pares de valores (Xi; Yi), para i = 1, 2, 3, ..., n. Definimos uma nova varivel D = X Y e, conseqentemente, teremos uma amostra de n diferenas D1, D2 , ..., Dn que sero utilizadas na comparao das mdias das duas populaes. Supondo que a varivel D = X Y tenha distribuio N(D; 2 ), segue que D ~ N D ; 2 n , D D 2 1 onde 2 pode ser estimada utilizando-se o estimador justo S2 = (D i D ) . D D n 1 Como D = E(X Y) = E(X) E(Y) = X Y, qualquer hiptese feita sobre o parmetro D corresponde a uma hiptese feita sobre as mdias das populaes X e Y. Por exemplo, as hipteses Ho: X = Y e H1: X > Y correspondem s hipteses H0: D = 0 e H1: D > 0, respectivamente. Deste modo, as hipteses a serem testadas podem ser escritas como H0: D = * (onde * um valor qualquer)

(

)

H1: D * ou H1: D > * ou H1: D < * e a estatstica do teste T = D D S2 D n , que sob Ho: D = *, tem distribuio t(n-1).

Um intervalo de confiana para a diferena de mdias D = X Y, com uma confiana pode ser obtido atravs de:2 2 I.C.(d; 100%) = D t c S D ; D + t c SD n n

onde tc o valor crtico obtido da Tabela III, tal que P(-tc < T < tc) = , com T ~ t(n-1).Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

25 Exemplo 5.6. Com o objetivo de testar ( = 5%) se a suplementao de alfafa aumenta o ganho mdio de peso de coelhos em mais de 0,10kg, foram utilizados 8 pares de coelhos, cujos resultados foram: Par no X (com) Y (sem) D=XY 1 0,72 0,32 0,40 2 0,90 0,49 0,41 3 0,67 0,51 0,16 4 0,83 0,45 0,38 5 0,67 0,70 -0,03 6 0,93 0,52 0,41 7 0,80 0,35 0,45 8 0,75 0,60 0,15

Resoluo: hipteses: H0: D = 0,10 vs. H1: D > 0,10, com D = X Y. estatstica: T = D 0,10 S2 D 8 0,29 0,10 0,0305 , que sob H0, tem distribuio t(7).

da Tbua III, para = 5% = P(T > tc), tc = 1,895 R.C. = {t R: t > 1,895}. das amostras: d = 0,29 e s 2 = 0,0305 tcalc = D = 3,08 R.C. rejeitamos a hiptese H0 e con-

8 clumos, ao nvel de 5% de significncia, que a suplementao de alfafa aumenta o ganho mdio de peso de coelhos em mais de 0,10kg. I.C.(D; 90%) = 0,19 1,895 0,0305 ; 0,19 + 1,895 0,0305 = [0,073; 0,307] kg, ou seja, este intervalo 8 8 contem o verdadeiro aumento de ganho mdio de peso de coelhos resultante da suplementao com alfafa, com uma confiana de 90%.

6 CORRELAO E REGRESSO LINEAR SIMPLESUm problema freqentemente encontrado na prtica o da determinao do valor de uma grandeza, partindo do conhecimento do valor de outras, ou porque estas ltimas so de mais fcil medida, ou porque estas antecedem no tempo primeira. Em qualquer dos casos, so utilizadas frmulas (ou modelos) para relacionar os valores desconhecidos e conhecidos das diversas grandezas. Algumas destas frmulas resultam do emprego do mtodo dedutivo a uma srie de postulados e definies, como por exemplo, as de geometria ou da mecnica racional. Outras resultam apenas da observao. Por exemplo: a partir de vrios valores simultneos da altura pluviomtrica de um rio e sua vazo, estabelecemos uma expresso (um modelo), relacionando as duas grandezas. As frmulas obtidas dedutivamente so ditas tericas e as que resultam indutivamente das observaes so ditas empricas. A Anlise de Regresso um metodo para o estabelecimento de frmulas empricas. Um outro problema bastante freqente simplesmente verificarmos se duas grandezas se relacionam entre si. Ao invs de procurarmos estabelecer modelos, buscamos quantificar o grau de relacionamento entre as grandezas. Na soluo dos dois problemas expostos acima podemos utilizar uma ferramenta preciosa que deve nos auxiliar a entender melhor "o que est acontecendo": o Grfico de Disperso. Neste tipo de grfico plotamos os valores das variveis envolvidas no estudo e procuramos visualizar uma relao funcional entre elas.

6.1 CORRELAO LINEAR Um problema de correlao surge quando queremos saber se existe alguma relao (de dependncia) entre um par de variveis quantitativas e ao invs de procurarmos um modelo que as relacionam, buscamos quantificar o possvel relacionamento entre elas. Por exemplo, quantificar a relao entre o consumo de fumo e incidncia de doenas do corao, ou entre o peso do animal ao nascer e o seu peso ao abate. Uma medida do grau de relacionamento entre duas variveis quantitativas X e Y obtida atravs do Coeficiente de Correlao Linear de Pearson, que definido por: (X,Y) = cov( X, Y) Var(X) Var(Y)

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

26 e pode assumir valores entre -1 e 1, isto -1 (X,Y) 1. O sinal de (X,Y) indica o sentido da dependncia entre as variveis X e Y: o sinal positivo indica que os valores de X e Y crescem no mesmo sentido, enquanto que o sinal negativo indica que os valores de Y decrescem com o crescimento de X (ou vice-versa). Um valor de (X,Y) prximo a zero indica que no existe qualquer relao linear entre estas variveis. Nos grficos de disperso apresentados a seguir (Figura 11), idealizamos essas situaes extremas e relativamente freqentes: (X,Y) +1 (X,Y) -1 (X,Y) 0

Figura 11. Grficos de disperso e coeficientes de correlao. Como geralmente no temos acesso a todos os resultados possveis das duas variveis X e Y, podemos sortear uma amostra de n pares de valores (x, y) e estimar o coeficiente de correlao linear de Pearson atravs da frmula:

(X i X )(Yi Y )n

r(X,Y) =

i =1

(Xn i =1

i

X ) (Yi Y )2 n i =1

=

2

n n X i Yi i =1 i=1 X i Yi n i =1 2 2 n n Xi n Yi n X 2 i=1 Y 2 i=1 i i i=1 i=1 n n n

Nos testes de hipteses sobre o parmetro (X,Y) usamos o valor de r(X,Y), como sua melhor estimativa. Os testes mais comuns so: Teste de independncia das variveis X e Y: hipteses: H0: (X,Y) = 0 vs. H1: (X,Y) 0 estatstica: t = r(X, Y ) (n 2)

(1 r

2

( X, Y)

)

, que sob H0, tem distribuio t(n-2).

Teste H0: (X,Y) = 0 (onde -1< 0 < 1 e 0 0, um nmero real): hipteses: H0: (X,Y) = 0 vs. H1: (X,Y) 0 (H1: (X,Y) > 0, ou H1: (X,Y) < 0) estatstica: Z = z= z z (transformada Z de Fisher), que sob H0, tem distribuio N(0; 1) e z e = Z 1 (n 3)

1 1 + 0 1 1 + r (X, y) Ln 1 r(X, Y) , Z = 2 Ln 1 2 0

Exemplo 6.1 Com o objetivo de estudar a relao entre o peso mdio de coelhos ao abate (Y), em quilogramas, e o tamanho de ninhada (X), foram coletados na granja do Campus os dados apresentados a seguir. X Y 4 2,125 8 1,980 6 2,270 1 2,300 7 1,880 3 2,320 7 1,860 5 2,050

Com base nesses dados, pede-se: (a) calcular o coeficiente de correlao; (b) testar a independncia entre as variveis X e Y, ao nvel de significncia de 5%.Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

27 Resoluo: (a)2,40

2,30 Peso mdio ao abate (kg)

2,20

2,10

2,00

1,90

1,80 0 1 2 3 4 5 6 7 8 9 Tamanho da ninhada

Figura 12 Grfico de disperso do peso mdio de coelhos ao abate e tamanho de ninhada. Uma dependncia linear negativa entre o tamanho da ninhada e o peso mdio de coelhos ao abate pode ser visualizado na Figura 12. Para estimar o coeficiente de correlao, usaremos2 2 X i = 41; X i = 249; Yi = 16,785; Yi = 35,458 e X i Yi = 83,650 i =1 i =1 i =1 i =1 i =1 8 8 8 8 8

r(X,Y) =

83,650 2

(41)(16,785) 82

(41) (16,785) 249 35,458 8 8

=

2,373 = -0,775 3,061

confirmando a existncia da dependncia linear negativa e relativamente alta entre o peso mdio de coelhos ao abate e o tamanho de ninhada, significando que quanto maior ninhada, menor o peso mdio ao abate. (b) hiptese: H0: (X,Y) = 0 (independncia) H1: (X,Y) 0 r ( X, Y) 8 2 sob H0, a estatstica t = tem distribuio t(6). [1 r 2 (X, Y)] da Tbua III, tc = 2,45 R.C. = {t R: t > 2,45} com os dados amostrais, calculamos tcalc = = -3,00 RC rejeitamos a hiptese H0 e con1 (0,775) 2 clumos, ao nvel de significncia de 5%, que as variveis X e Y no so independentes, ou ainda, que existe uma dependncia linear negativa entre o peso mdio de coelhos ao abate e o tamanho da ninhada. 0,775 6

Exemplo 6.2 Com o intuito de testar a hiptese de que a correlao entre o ganho de peso e a quantidade de matria seca ingerida por bovinos da raa Nelore superior a 0,70, foram utilizados os dados de um experimento com 18 desses animais, resultando em r(X,Y) = 0,81. O que podemos concluir ao nvel de significncia de = 1%? Resoluo: hipteses: H0: (X,Y) = 0,70 vs. H1: (X,Y) > 0,70 z z 1 1 + 0,70 sob H0, a estatstica Z = = 0,8673 e Z = ~ N(0; 1), com Z = Ln z 2 1 0,70 da Tbua I, para = 1%, zt = 2,33 R.C. = {Z R: Z > 2,33} 1 (18 3)

= 0,2582.

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

28 da amostra: z = 1 1 + 0,81 1,1270 0,8673 Ln = 1,01 RC no rejeitamos H0 e con 1 0,81 = 1,1270 e Zcalc = 2 0,2582

clumos (=1%) que a correlao entre o ganho de peso e a quantidade de matria seca ingerida por bovinos da raa Nelore no superior a 0,70.

6.2 REGRESSO LINEAR SIMPLES Existem situaes em que desejamos estudar o comportamento conjunto de duas ou mais variveis, como por exemplo: relacionar o peso do animal com sua idade, a quantidade de adubo com a produo de matria seca, etc. Quando o interesse est em procurar expressar essa relao sob a forma de uma equao matemtica, estamos fazendo uma Anlise de Regresso. Essa equao de regresso pode ser um polinmio (uma reta, parbola ou um polinmio de grau mais elevado), uma funo do tipo exponencial (curva logstica, de Gompertz ou von Bertalanfy) etc. Nesta aula estudaremos o ajuste de uma reta em problemas envolvendo somente duas variveis: Y, denominada varivel dependente e X, denominada varivel independente ou covariada. Para visualizar a relao funcional entre essas variveis construmos um Grfico de Disperso. A distribuio dos pontos no grfico pode sugerir qual funo explica bem o comportamento dos dados.

Exemplo 6.3 Determinar a reta que relaciona a Absorbncia (Y) com a concentrao de nitrito (X, em mg/100ml) em amostras de mortadela. Os dados experimentais so: X: nitrito Y: Absorbncia 0,5 0,040 1,0 0,078 2,0 0,145 3,0 0,215. 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0 1 2 3 4 5 6 7 8 9 10 Quantidade de nitrito (mg/100ml)

4,0 0,300

5,0 0,340

6,0 0,395

7,0 0,460

8,0 0,560

9,0 0,715

Figura 13 Grfico de disperso dos dados de Absorbncia e quantidade de nitrito. Analisando a Figura 13, podemos concluir que a relao entre X e Y pode ser explicada por uma reta (funo linear), cuja equao Y = a + bX. Teoricamente, esta reta deve passar pela origem significando que para uma quantidade de nitrito na soluo nula, a absorbncia tambm ser nula. Tendo decidido que uma reta explica bem a relao funcional entre X e Y precisamos calcular os valores dos seus coeficientes linear e angular. Isso pode ser feito, por exemplo, mo livre, traando-se uma reta que "passe pelo meio dos pontos", e a partir desta reta obter um valor para o coeficiente "a", que o intercepto do eixo das ordenadas (que esperamos, seja nulo) e outro valor para o coeficiente "b" = y/x, que o coeficiente angular da reta. Porem, este mtodo tem o inconveniente de observadores diferentes obterem valores diferentes para os coeficientes... A seguir, definiremos um mtodo de estimao que independe do usurio e sempre fornece as melhores estimativas dos coeficientes de uma reta de regresso.

Absorbncia

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

29 6.2.1 O MODELO PARA REGRESSO LINEAR SIMPLES Dados n pares de valores: (X1, Y1), (X2, Y2), ...,(Xn, Yn) podemos estabelecer uma regresso linear simples atravs do modelo: Yi = a + bXi + ei onde a e b so os parmetros da reta e ei o erro associado Yi. Ao estabelecer este modelo, pressupomos que: (a) a relao entre X e Y linear; (b) os valores da varivel X no so sujeitos a erros (so fixos); (c) a mdia dos erros nula, isto , E(ei) = 0; (d) para um dado valor Xi, a varincia do erro constante e igual a 2, denominada varincia residual, isto , Var(ei) = 2; (e) a correlao entre os erros de duas observaes nula, isto , Corr(ei,ej) = 0, para i j; (f) os erros tm distribuio normal, isto , ei ~ N(0, 2). As estimativas dos parmetros da reta so obtidas atravs do Mtodo dos Mnimos Quadrados (MMQ), que consiste em "obter estimativas de a e de b, que minimizam a soma dos quadrados dos erros", ou seja, que minimizam a funo SQE = (Yi a bX i )n i =1 2

Para obtermos o mnimo desta funo derivamos parcialmente SQE em relao aos parmetros a e b: n SQE = (Yi a bX i )(2) a i =1 n SQE = (Yi a bX i )(2X i ) b i =1 Igualando essas derivadas a zero (para calcular os pontos crticos!), vamos procurar os estimadores de a e b que satisfazem o seguinte Sistema de Equaes Normais:n n Yi = na + b X i i 1 i =1 n = n n X i Yi = a X i + b X i2 i =1 i =1 i=1

Resolvendo o sistema (duas equaes e duas incgnitas), obtemos os seguintes estimadores de mnimos quadrados dos parmetros do modelo:

b =

(X i X )(Yi Y )i =1

n

X i Yi =i =1

n

X i Yii =1 i =1

n

n

n2

(X i X )i =1

n

2

n Xi n i =1 X2 i n i =1

a = Y bX Com os valores de a e b , a observao Yi pode ser estimada por: Yi = a + bX i e o resduo de regresso pode ser calculado por: e = Yi Y = Yi ( a + bX ).i i i

Do Exemplo 6.3, temos: X i = 45,5; X 2 = 285,25; Yi = 3,240; Yi2 = 1,473 e X i Yi = ii =1 i =1 i =1 i =1 i =1

10

10

10

10

10

20,438. Com esses valores calculamos as estimativas dos parmetros da reta de regresso: (45,5 3,248) 20,438 5,6596 3,248 10 = b = = 0,07235 e a = - (0,0724)(4,55) = 0,0044 78,2250 10 (45,5) 2 285,25 10Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

30 a reta que melhor se ajusta aos dados : Yi = 0,0046 + 0,07235Xi. O coeficiente angular da reta (0,07235) pode ser entendido como o nmero de unidades que ser acrescido a Y, quando X sofrer um acrscimo de 1 mg/100ml; j o intercepto (-0,0044) pode ser entendido como a absorbncia de uma concentrao nula de nitrito. A qualidade do ajuste de uma regresso pode ser avaliada atravs de grficos de resduos e do coeficiente de determinao. O Coeficiente de Determinao pode ser calculado atravs da frmula: R = b2

()

2

( X i X)i =1 n

n

2

(Yi Y )i =1

,2

com 0 R2 1

e quanto mais prximo de 1 (um) estiver o valor de R2, melhor a qualidade do ajuste. Pelas pressuposies do modelo, esperamos que os pontos (Xi; e i ) estejam distribudos aleatoriamente em relao reta X = 0, sem apresentar qualquer tendncia. Porm, se os resduos apresentarem alguma tendncia, quadrtica, por exemplo, deveremos propor um novo modelo que inclua um componente quadrtico, do tipo c X 2 , ajustar este novo modelo e estudar a qualidade do ajuste deste novo modelo. i O grfico de disperso dos resduos tambm serve para evidenciar a presena de pontos discrepantes (resultantes de grandes erros de medidas, de digitao etc.) que, aps um estudo mais detalhado, podero at ser excludos do conjunto de dados originais. 78,2250 = 0,97 (verifique!) indica que a relao entre a 0,42324 concentrao de nitrito e a absorbncia est muito bem explicada pela reta. Para construir o grfico de disperso (Xi; e i ), calculamos os valores ajustados Yi = 0,0044 + 0,07235 X i e os resduos do ajuste, e i = Yi Yi : No Exemplo 6.3, o valor de R2 = (0,07235) 2

Xi Yi Yi ei

0,5 0,0400 0,0318 0,0082

1,0 0,0780 0,0680 0,01000,08 0,06 0,04 0,02 Resduo 0,00 -0,02 -0,04 -0,06 -0,08 0 1

2,0 0,1450 0,1403 0,0047

3,0 0,2150 0,2127 0,0023

4,0 0,3000 0,2850 0,0150

5,0 0,3400 0,3574 -0,0174

6,0 0,3950 0,4297 -0,0347

7,0 0,4600 0,5021 -0,0421

8,0 0,5600 0,5744 -0,0144

9,0 0,7150 0,6468 0,0682

ponto discrepante (?)

2

3

4

5

6

7

8

9

10

Quantidade de nitrito (mg/100ml)

Figura 14 - Grfico dos resduos vs. quantidade de nitrito.

Atravs do grfico de disperso dos resduos (Figura 14) podemos perceber que o comportamento dos resduos no bem aleatrio e que ponto (9,0; 0,715) tem um resduo grande, sendo um candidato a ponto discrepante. Como alternativas para continuar a anlise podemos: (i) excluir o ponto (9,0; 0,715) e ajusta novamente uma reta aos dados (fica como exerccio), ou (ii) manter este ponto e incluir algum termo quadrtico no modelo (o que mais trabalhoso!).

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

31

6.2.2. INFERNCIA SOBRE OS ESTIMADORES DOS PARMETROS DA RETA DE REGRESSOQuanto aos estimadores dos parmetros da regresso, pode-se provar que: (i) a e b so estimadores justos ou no viesados dos parmetros a e b, respectivamente, o que quer dizer: E( a ) = a e E( b )= b. (ii) as varincias e covarincias dos estimadores so: 1 X2 Var( a ) = + n n (X i X ) 2 i =1 2

2 X , Var( b ) = e Cov( a , b ) = 2 2 (X i X ) (X i X ) n 1 que podem ser estimadas, substituindo-se 2 por S2 = (Yi Yi ) 2 (n 2) i=1 (iii) Intervalos de Confiana para os parmetros da reta: 1 X2 S + n n (X i X ) 2 i =1 2

I.C.(a; 100%) = a tc

I.C.(b; 100%) = b tc

S2

(X i X )i =1

n

,2

onde tc o valor crtico obtido da Tbua III, tal que = P(-tc T tc) e T ~ t(n-2). (iv) Intervalo de Predio: Para um valor Xp, que pertence ao domnio da varivel X mas no foi usado na esti mao de a e b podemos calcular Y = a + b Xp e um intervalo de confiana para Yp, chamado Intervalo dep

Predio, utilizando: 2 Xp X 1 S + n n (X i X ) 2 i =1 2

I.C.( Yp; 100%) = Yp tc

(

)

(v) Teste de hiptese para os parmetros da reta de regresso. Intercepto: H0: a = a0 vs. H1: a a0 (ou H1: a < a0 ou H1: a > a0) a a0 Estatstica do teste: T = , que sob H0, tem distribuio t(n-2). 1 X2 S2 + n n 2 (X i X ) i =1 Coeficiente angular: H0: b = b0 vs. H1: b b0 (ou H1: b < b0 ou H1: b > b0) b b0 Estatstica do teste: T = , que sob H0, tem distribuio t(n-2). S2

( X i X) 2i =1

n

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

32 Aproveitando os dados do Exemplo 6.3, vamos estimar a varincia, calcular um intervalo de confiana para a inclinao da reta ( = 95%) , um intervalo de predio para Xp = 9,5 mg/100ml e testar a hiptese de que o intercepto da reta nulo, ao nvel de 5% de significncia. Resoluo: s2 = 1 0,00856 = 0,0011 10 2

I.C.(b; 95%) = 0,07235 2,306

0,0011 = 0,07235 0,00865 = [0,0637; 0,0810] , ou seja, este intervalo 78,2250 contem o verdadeiro valor da inclinao da reta, com uma confiana de 95%.

1 (9,5 4,55) 2 Para Xp = 9,5, I.C.(Yp; 95%) = 0,6832 2,306 + 0,0011 = 0,6834 0,0492 78,2250 10 I.C.(Yp; 95%) = [0,6342; 0,7326] Hipteses: H0: a = 0 vs. H1: a 0 Estatstica do teste: T = a 0 X2 1 + n 10 2 (X i X ) i =1 S2 , que sob H0, tem distribuio t(8).

Para = 5%, tc = 2,306 R.C. = {T R: T > 2,306} 0,0044 0 0,0044 Da amostra: Tcalc = = = -0,22 R.C. no rejeitamos H0 ao nvel 0,0200 1 (4,55) 2 + 10 78,2250 0,0011 = 5% e conclumos que o intercepto da reta pode ser considerado nulo.

7. TESTES DE QUI-QUADRADOAt a aula anterior, vimos como testar hipteses sobre um parmetro (populacional) ou mesmo sobre a comparao de parmetros de duas populaes normais. Vamos agora, estudar alguns testes que no dependem dos parmetros nem de suas respectivas estimativas.

7.1 TESTE DE ADERNCIA, AJUSTAMENTO OU ADEQUAO DE UM MODELO Como j foi evidenciado anteriormente, os resultados amostrais nem sempre concordam exatamente com os resultados tericos esperados, o que parcialmente justificado pelas leis probabilsticas. Suponhamos uma amostra de n elementos de uma determinada populao. Seja E1, E2, ..., Ek um conjunto de eventos e Fo1, Fo2, ..., Fok suas respectivas freqncias observadas na amostra. Podemos estabelecer algumas hipteses sobre as freqncias observadas e as freqncias esperadas ou tericas Fe1, Fe2, ..., Fek e verificar se essas freqncias (observadas e esperadas) diferem significativamente entre si atravs de um teste de hiptese. Neste caso, iremos efetuar um teste de aderncia, adequao ou ajustamento de um modelo terico. As hipteses a serem testadas podem ser escritas como: H0: o modelo terico se adeqa bem aos dados. H1: o modelo terico no se adeqa bem aos dados. Uma medida de discrepncia entre as freqncias Foi e Fi proporcionada pela estatstica Q= i =1 k

(Foi Fei )2Fei

=

(Fo1 Fe1 )2Fe1

+

(Fe 2 Fe 2 )2Fe 2

+ ... +

(Fok Fek )2Fek

que, sob H0, tem distribuio quiquadrado com graus de liberdade, ondeMaterial elaborado pelo Prof. Dr. Csar Gonalves de Lima

33 i) = k 1, se as freqncias esperadas puderem ser calculadas sem que sejam feitas estimativas de parmetros. ii) = (k 1) m, se para a determinao das freqncias esperadas for necessrio estimar m parmetros a partir das distribuies amostrais. Note que valores pequenos da estatstica Q ocorrero sempre que as discrepncias entre Foi e Fei forem pequenas, indicando uma boa adequao do modelo proposto. O teste de hipteses feito de maneira tradicional e a deciso ser tomada com base no valor da estatstica Q, calculada a partir dos valores observados. Assim, a rejeio da hiptese H0 ocorrer quando o valor Qcalc > Qc, onde Qc um valor crtico encontrado na Tbua II. As limitaes impostas ao uso dos testes de Quiquadrado so: i) S deve ser usado quando o tamanho da amostra n > 20; ii) A menor das freqncias esperadas Fei no pode ser inferior a 1 (um); iii) Se alguma classe apresentar Fei < 5, esta deve ser agrupada classe mais prxima.

Exemplo 7.1 Na descendncia obtida de cruzamentos entre plantas com sementes amarelas lisas e outras sementes verdes rugosas, obtemos na primeira gerao (F1) ervilhas amarelas lisas. Estas ervilhas cruzadas entre si, do uma gerao F2 com ervilhas de 4 tipos. Pela teoria mendeliana, esses tipos de ervilhas devero aparecer nas propores 9:3:3:1, respectivamente. Ao nvel de 5% de significncia, podemos afirmar que as freqncias observadas apresentadas na tabela a seguir esto de acordo com essa teoria? lisa 315 Resoluo: Hipteses: H0: os tipos de ervilhas aparecem na proporo 9:3:3:1, H1: os tipos de ervilhas no aparecem na proporo 9:3:3:1 Amarela rugosa 101 Verde lisa 108 rugosa 32

com base no modelo terico calculamos as freqncias esperadas: 9 3 1 Fe1 = 556 = 312,75; Fe2 = Fe3 = 556 = 104,25 e Fe4 = 556 = 34,75 16 16 16 Qcalc = (315 312,75) 2 (101 104,25) 2 (108 104,25) 2 (32 34,75) 2 + + + = 0,48 312,75 104,25 104,25 34,75

para = 5% e = 4-1 = 3 g.l. R.C. = {Q R: Q > 7,82} como Qcalc < 7,82, no rejeitamos H0 ao nvel = 5% e conclumos que os dados concordam com a hiptese de que os tipos de ervilhas ocorrem na proporo 9:3:3:1.

Exemplo 7.2 Verificar se podemos assumir que a altura dos alunos do curso de Zootecnia (varivel X) tem distribuio normal (com = 5%), a partir dos dados amostrais apresentados na tabela a seguir: Altura (cm) 150 156 156 162 162 168 168 174 174 180 180 186 Total Resoluo: Hipteses: H0: X ~ N(; 2) H1: X no tem distribuio N(; 2)

Foi 4 12 22 40 20 2 100

Como no conhecemos os valores dos parmetros da distribuio normal, devemos estim-los a partir dos dados amostrais: x = 168,96 e s2 = 44,5236 (verifique!).

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

34 Para obtermos o valor das freqncias esperadas, Fei, primeiramente, calculamos a probabilidade de ocorrncia de um aluno com altura (X) em cada uma das 6 classes de freqncia. Para tanto, padronizamos os limites inferior e superior das k = 6 classes e usamos a Tbua I para calcular as probabilidades. Por exemplo, para a primeira classe: P(X 180) e que, apesar de Fe5 5, os dados desta classe no foram agrupados com os da classe anterior. Qcalc = (16 14,8) 2 (22 29,4) 2 (2 4,9) 2 + + ... + = 5,40 29,4 4,9 14,8

para = 5% e = (5 - 1) - 2 = 2 g.l. R.C. = {Q R: Q > 5,99} como Qcalc R.C., no rejeitamos a hiptese H0 ao nvel de significncia de 5% e podemos concluir que a altura dos alunos de Zootecnia tem distribuio normal.

7.2. TESTES EM TABELAS DE CONTINGNCIA Uma importante aplicao do teste de Quiquadrado ocorre quando queremos estudar a relao entre duas ou mais variveis de classificao. Neste caso, a representao das freqncias observadas pode ser feita utilizando-se uma tabela de contingncia. Considerando-se dois critrios de classificao teremos tabelas de dupla entrada e, genericamente, tabelas de classificao LxC, onde L = nmero de linhas e C = nmero de colunas. A cada freqncia observada em uma tabela de contingncia teremos uma freqncia esperada, que ser calculada com base na hiptese H0 e de acordo com as regras das distribuies conjuntas de probabilidades. Para investigar a concordncia entre as freqncias observadas (Foij) e as esperadas (Feij) utilizamos a estatstica, Q = L C

(F

oij

Feij Feij

)

2

i =1 j=1

2 que sob a hiptese H0, Q ~ , isto , tem distribuio quiquadrado com graus de liberdade, onde

i) = (L1)(C1) se as freqncias esperadas forem calculadas sem a necessidade de estimar qualquer parmetro; ii) = (L1)(C1) m se as freqncias esperadas s puderem ser calculadas estimando-se m parmetros. Vale observar que os testes de hipteses associados s tabelas de contingncias esto sujeitos s mesmas limitaes de aplicao de um teste de aderncia, j definido anteriormente.

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

35 7.2.1 TESTE DE HOMOGENEIDADE O teste de homogeneidade usado quando pretendemos saber se os dados associados aos atributos de uma das variveis se comporta de modo homogneo ou similar nas diversas classes ou subpopulaes definidas pelos atributos da outra varivel classificatria. Exemplo 7.3 Testar se a proporo de vacas fecundas igual nos quatro grupos raciais, ao nvel de significncia de 5%, utilizando os dados apresentados a seguir. Natureza das vacas Charolesa Indubrasil Nelore 1/2Charoles-Zeb Totais Resoluo: Hipteses: Acasalamentos fecundos infecundos 515 1287 506 665 58 70 205 93 1284 2115 Totais 1802 1171 128 298 3399

H0: existe homogeneidade de fecundidade entre os grupos H1: no existe homogeneidade de fecundidade entre os grupos

Assumindo que o nmero de vacas fecundas igual nos quatro grupos raciais, esperamos obter 1284/3399 = 37,78% de acasalamentos fecundos. Neste caso, 37,78% do total dos acasalamentos (1802 com vacas Charoles, 1171 com vacas Indubrasil, 128 com vacas Nelore e 298 com vacas 1/2Charoles-Zeb) devem ser fecundos. Conseqentemente, esperamos tambm obter 62,22% de acasalamentos infecundos. A freqncia esperada referente a i-sima linha (Natureza das vacas) e j-sima coluna (Tipo de Acasalamento) pode ser calculada de uma maneira mais simples, atravs de: , para i = 1, 2, 3, 4 e j = 1, 2 Fo onde Foi o total das freqncias observadas na i-sima linha; Foj o total das freqncias observadas na jsima coluna e Fo o total das freqncias observadas. A partir dessa frmula, calculamos as Feij que esto (1284,1)(1802) apresentadas na tabela a seguir. Note, por exemplo, que 680,8 = = (0,3778)(1802) e que 3398,9 (2114,8)(1802) 1121,2 = = (0,6222)(1802) 3398,9 Acasalamentos fecundos infecundos 680,8 1121,2 442,4 728,6 48,3 79,6 112,6 185,4 1284,1 2114,8 Feij = (Foi )(Fo j )

Natureza das vacas Charolesa Indubrasil Nelore 1/2Charoles-Zeb Totais

Totais 1802,0 1171,0 128,9 298,0 3398,9

Q calc =

(515 680,8) 2 (1287 1121,2) 2 (93 185,4) 2 + + ... + = 204,57 680,8 1121,2 185,4

2 como = 5% e sob H0, Q ~ onde = (4-1)(2-1) = 3 g.l., R.C. = {Q R: Q > 7,82}

como Q calc > 7,82, rejeitamos a hiptese H0 ( = 5%) e conclumos que a fecundidade no homognea nos grupos raciais estudados. Ou ainda, que as propores de acasalamentos fecundos e infecundos so diferentes entre estes grupos raciais.

7.2.2 TESTE DE INDEPENDNCIA O teste de independncia usado quando o pesquisador est interessado em testar o grau de dependncia ou de associao entre as variveis classificatrias, cujos atributos, neste caso, no identificam, necessriaMaterial elaborado pelo Prof. Dr. Csar Gonalves de Lima

36 mente diferentes classes ou subpopulaes. Uma medida do grau de associao ou de dependncia entre as variveis classificatrias em uma tabela de contingncia dada pelo Coeficiente de Contingncia, calculado atravs da frmula: e quanto mais prximo de 1 (um) estiver o valor de C, maior ser o grau de associao entre as variveis. Exemplo 7.4 Baseado nos conceitos finais obtidos por 435 alunos nas disciplinas de Estatstica e Clculo Diferencial e Integral, apresentados na tabela a seguir, testar a hiptese de que os resultados obtidos em Estatstica independem dos resultados obtidos em Clculo, ao nvel de significncia de 2,5%. Estatstica B 35 (63,6) 120 (93,6) 70 (67,8) 225 C= Q calc , com 0 C 1 Q calc + n

Clculo A B C Total Resoluo: Hipteses:

A 75 (33,7) 29 (49,5) 15 (35,8) 119

C 13 (25,7) 32 (37,9) 46 (27,4) 91

Total 123 181 131 435

H0: os conceitos finais em Estatstica independem dos conceitos em Clculo H1: existe dependncia entre os dois conceitos

Assumindo independncia entre os conceitos, a freqncia esperada referente a i-sima linha (conceito em Clculo) e j-sima coluna (conceito em Estatstica) calculada por: Feij = (Foi )(Fo j ) Fo , para i = 1, 2, 3 e j = 1, 2, 3

onde Foi o total das freqncias observadas na i-sima linha; Foj o total das freqncias observadas na jsima coluna e Fo o total das freqncias observadas. A partir dessa frmula, calculamos as Feij que esto apresentadas entre parntesis na Tabela n3. Q calc = (75 33,7) 2 (35 63,6) 2 46 27,4) 2 + + ... + = 111,39 33,7 63,6 27,4

2 como = 2,5% e sob H0, Q ~ onde = (3-1)(3-1) = 4 g.l. R.C. = {Q R: Q > 11,144}

como Q calc > 11,144, rejeitamos H0 ( = 2,5%) e conclumos que existe uma dependncia entre os conceitos finais de Clculo e de Estatstica. uma medida do grau de dependncia entre os dois conceitos estimada por: C = no um valor numericamente muito alto. 111,39 = 0,50, que 111,39 + 435

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

37

DISTRIBUIES DE PROBABILIDADES

TBUA I. NORMAL PADRO

TBUA II. QUI-QUADRADO

TBUA III. t DE STUDENT

TBUA IV. F-SNEDECOR

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

38

TBUA I: DISTRIBUIO NORMAL REDUZIDA- N(0; 1)

Probabilidades p tais que p = P(0 < Z < Zc)

SEGUNDA DECIMAL DE Zc Zc 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 0 0,0000 0,0398 0,0793 0,1179 0,1554 0,1915 0,2257 0,2580 0,2881 0,3159 0,3413 0,3643 0,3849 0,4032 0,4192 0,4332 0,4452 0,4554 0,4641 0,4713 0,4773 0,4821 0,4861 0,4893 0,4918 0,4938 0,4953 0,4965 0,4974 0,4981 0,4987 0,4990 0,4993 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,5000 0,5000 1 0,0040 0,0438 0,0832 0,1217 0,1591 0,1950 0,2291 0,2611 0,2910 0,3186 0,3438 0,3665 0,3869 0,4049 0,4207 0,4345 0,4463 0,4564 0,4649 0,4719 0,4778 0,4826 0,4864 0,4896 0,4920 0,4940 0,4955 0,4966 0,4975 0,4982 0,4987 0,4991 0,4993 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,5000 0,5000 2 0,0080 0,0478 0,0871 0,1255 0,1628 0,1985 0,2324 0,2642 0,2939 0,3212 0,3461 0,3686 0,3888 0,4066 0,4222 0,4357 0,4474 0,4573 0,4656 0,4726 0,4783 0,4830 0,4868 0,4898 0,4922 0,4941 0,4956 0,4967 0,4976 0,4983 0,4987 0,4991 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,5000 3 0,0120 0,0517 0,0910 0,1293 0,1664 0,2019 0,2357 0,2673 0,2967 0,3238 0,3485 0,3708 0,3907 0,4082 0,4236 0,4370 0,4484 0,4582 0,4664 0,4732 0,4788 0,4834 0,4871 0,4901 0,4925 0,4943 0,4957 0,4968 0,4977 0,4983 0,4988 0,4991 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,5000 4 0,0160 0,0557 0,0948 0,1331 0,1700 0,2054 0,2389 0,2704 0,2995 0,3264 0,3508 0,3729 0,3925 0,4099 0,4251 0,4382 0,4495 0,4591 0,4671 0,4738 0,4793 0,4838 0,4875 0,4904 0,4927 0,4945 0,4959 0,4969 0,4977 0,4984 0,4988 0,4992 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,5000 5 0,0199 0,0596 0,0987 0,1368 0,1736 0,2088 0,2422 0,2734 0,3023 0,3289 0,3531 0,3749 0,3944 0,4115 0,4265 0,4394 0,4505 0,4599 0,4678 0,4744 0,4798 0,4842 0,4878 0,4906 0,4929 0,4946 0,4960 0,4970 0,4978 0,4984 0,4989 0,4992 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,5000 6 0,0239 0,0636 0,1026 0,1406 0,1772 0,2123 0,2454 0,2764 0,3051 0,3315 0,3554 0,3770 0,3962 0,4131 0,4279 0,4406 0,4515 0,4608 0,4686 0,4750 0,4803 0,4846 0,4881 0,4909 0,4931 0,4948 0,4961 0,4971 0,4979 0,4985 0,4989 0,4992 0,499