esalq.pdf

Embed Size (px)

Citation preview

  • 8/17/2019 esalq.pdf

    1/92

    Universidade de São PauloEscola Superior de Agricultura “Luiz de Queiroz”

    Apostila para os cursos de Estatística(Versão 1)

    Cristian Villegas

    2014Piracicaba

  • 8/17/2019 esalq.pdf

    2/92

    Sumário

    1 Estatística Descritiva 61.1 Tabela de frequências e grácos . . . . . . . . . . . . . . . . . . . . . . . 6

    1.1.1 Tabela de frequências . . . . . . . . . . . . . . . . . . . . . . . . 61.1.2 Tabela de frequências para uma variável qualitativa nominal . . . 71.2 Grácos associados a uma variável qualitativa nominal . . . . . . . . . . 7

    1.2.1 Gráco de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.2.2 Gráco de setores ou de pizza . . . . . . . . . . . . . . . . . . . . 8

    1.3 Tabela de frequências para uma variável qualitativa ordinal . . . . . . . 91.4 Grácos associados a uma variável qualitativa ordinal . . . . . . . . . . . 10

    1.4.1 Gráco de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.4.2 Gráco de setores ou de pizza . . . . . . . . . . . . . . . . . . . . 11

    1.5 Tabela de frequências para uma variável quantitativa discreta . . . . . . 121.6 Grácos associados a uma variável quantitativa discreta . . . . . . . . . 13

    1.6.1 Gráco de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.6.2 Gráco de frequências acumuladas (escada) . . . . . . . . . . . . 14

    1.7 Tabela de frequências para uma variável quantitativa contínua . . . . . . 141.8 Grácos associados a uma variável quantitativa contínua . . . . . . . . . 17

    1.8.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.8.2 Polígono de frequências . . . . . . . . . . . . . . . . . . . . . . . 181.8.3 Ogiva (Curva de frequências acumuladas) . . . . . . . . . . . . . 18

    1.9 Medidas de tendência central . . . . . . . . . . . . . . . . . . . . . . . . 191.9.1 Conceitos básicos de somatório . . . . . . . . . . . . . . . . . . . 20

    1.10 Dados não agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.10.1 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.10.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.10.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    1.11 Dados agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.11.1 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.11.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241.11.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    1.12 Medidas de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271.12.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271.12.2 Gráco para estudar dispersão . . . . . . . . . . . . . . . . . . . 27

    2

  • 8/17/2019 esalq.pdf

    3/92

    1.13 Medidas de dispersão para dados não agrupados . . . . . . . . . . . . . 281.13.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    1.13.2 Variância e desvío padrão . . . . . . . . . . . . . . . . . . . . . . 281.14 Medidas de dispersão para dados agrupados . . . . . . . . . . . . . . . . 291.14.1 Variáveis discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 291.14.2 Variáveis continuas . . . . . . . . . . . . . . . . . . . . . . . . . . 291.14.3 Coeciente de variação . . . . . . . . . . . . . . . . . . . . . . . 30

    1.15 Medidas de posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311.15.1 Quartis, Decis e Percentis . . . . . . . . . . . . . . . . . . . . . . 31

    1.16 Percentis para dados não agrupados . . . . . . . . . . . . . . . . . . . . 311.16.1 Percentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    1.17 Percentis para dados agrupados . . . . . . . . . . . . . . . . . . . . . . . 321.17.1 Percentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321.17.2 Gráco de caixas-e-bigodes (boxplot) . . . . . . . . . . . . . . . . 331.17.3 Medidas de simetria . . . . . . . . . . . . . . . . . . . . . . . . . 34

    2 Regressão e correlação 362.1 Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    2.1.1 Conjunto A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362.1.2 Conjunto B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362.1.3 Código R para calcular correlação . . . . . . . . . . . . . . . . . . 36

    2.2 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402.2.1 Equação da reta . . . . . . . . . . . . . . . . . . . . . . . . . . . 402.2.2 Código R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    3 Probabilidades 423.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.2 Conceitos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    3.2.1 Experimento aleatório . . . . . . . . . . . . . . . . . . . . . . . . 433.2.2 Espaço amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.2.3 Evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    3.3 Teoria de conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.4 Conceitos de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . 44

    3.4.1 Denição clássica de Probabilidade ou a priori . . . . . . . . . . . 443.4.2 Denição frequentista de Probabilidade ou a posteriori . . . . . . 453.4.3 Denição axiomática de Probabilidade . . . . . . . . . . . . . . . 45

    3.5 Probabilidade condicional e independência . . . . . . . . . . . . . . . . . 463.6 Teorema da multiplicação (Regra do Produto) . . . . . . . . . . . . . . . 473.7 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    3.7.1 Independência de mais de dois eventos . . . . . . . . . . . . . . . 483.8 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    3.8.1 Regra da Probabilidade Total . . . . . . . . . . . . . . . . . . . . 493.8.2 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    3

  • 8/17/2019 esalq.pdf

    4/92

    4 Variáveis Aleatórias 514.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    4.2 Denição de variável aleatória . . . . . . . . . . . . . . . . . . . . . . . . 514.2.1 Variável aleatória discreta . . . . . . . . . . . . . . . . . . . . . . 514.2.2 Variável aleatória continua . . . . . . . . . . . . . . . . . . . . . . 52

    4.3 Função de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . 534.4 Função densidade de probabilidades . . . . . . . . . . . . . . . . . . . . 534.5 Função de distribuição acumulada . . . . . . . . . . . . . . . . . . . . . 54

    4.5.1 Para uma variável aleatória discreta . . . . . . . . . . . . . . . . 544.5.2 Para uma variável aleatória continua . . . . . . . . . . . . . . . . 54

    4.6 Esperança de uma variável aleatória . . . . . . . . . . . . . . . . . . . . 554.6.1 variável aleatória discreta . . . . . . . . . . . . . . . . . . . . . . 554.6.2 variável aleatória continua . . . . . . . . . . . . . . . . . . . . . . 554.6.3 Propriedades da esperança . . . . . . . . . . . . . . . . . . . . . 56

    4.7 Variância para uma variável aleatória . . . . . . . . . . . . . . . . . . . . 564.7.1 Variância para uma variável aleatória discreta . . . . . . . . . . . 574.7.2 Variância para uma variável aleatória continua . . . . . . . . . . 574.7.3 Propriedades da variância . . . . . . . . . . . . . . . . . . . . . . 58

    5 Variáveis aleatórias discretas 595.1 Distribuição Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595.2 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595.3 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

    6 Distribuição Normal 626.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626.2 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    6.2.1 Cálculos de probabilidades . . . . . . . . . . . . . . . . . . . . . 646.2.2 A distribuição normal padrão . . . . . . . . . . . . . . . . . . . . 646.2.3 O uso da tabela da distribuição normal padrão . . . . . . . . . . 65

    7 Introdução à inferência estatística 677.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 677.2 Conceitos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    7.2.1 População . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 677.2.2 Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 677.2.3 Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 687.2.4 Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 687.2.5 Estimativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 687.2.6 Precisão e conança . . . . . . . . . . . . . . . . . . . . . . . . . 69

    7.3 Ideia de intervalo de conança . . . . . . . . . . . . . . . . . . . . . . . 697.4 Ideia sobre teste de hipóteses . . . . . . . . . . . . . . . . . . . . . . . . 707.5 Amostra aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717.6 Distribuições Amostrais (Tarefa) . . . . . . . . . . . . . . . . . . . . . . . 71

    4

  • 8/17/2019 esalq.pdf

    5/92

    8 Intervalo de conança para uma amostra 728.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    8.2 Estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 728.3 Métodos para encontrar estimadores . . . . . . . . . . . . . . . . . . . . 738.4 Estimativas Pontuais e Intervalares . . . . . . . . . . . . . . . . . . . . . 738.5 Intervalos de Conança baseados numa amostra . . . . . . . . . . . . . . 74

    8.5.1 IC para µ quando σ2 é conhecido . . . . . . . . . . . . . . . . . . 748.5.2 IC para µ quando σ2 é desconhecido . . . . . . . . . . . . . . . . 748.5.3 IC para a proporção . . . . . . . . . . . . . . . . . . . . . . . . . 75

    8.6 Erro de Estimação ou de Amostragem . . . . . . . . . . . . . . . . . . . . 768.7 Determinação do tamanho da amostra para µ . . . . . . . . . . . . . . . 76

    8.7.1 σ conhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 768.7.2 σ desconhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    8.8 Determinação do tamanho da amostra para π . . . . . . . . . . . . . . . 77

    9 Intervalos de conança duas amostras 799.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 799.2 Problema de duas amostras . . . . . . . . . . . . . . . . . . . . . . . . . 799.3 O calouro 15 é real, ou é um mito? . . . . . . . . . . . . . . . . . . . . . 799.4 IC para a diferença de médias (amostras independentes) . . . . . . . . . . 809.5 IC para a diferença entre proporções . . . . . . . . . . . . . . . . . . . . 81

    9.5.1 Os airbags salvam vidas? . . . . . . . . . . . . . . . . . . . . . . . 819.6 IC para a diferença de médias (amostras dependentes) . . . . . . . . . . 82

    10 Teste de Hipóteses 8410.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8410.2 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

    10.2.1 Erros Tipo I e Tipo II . . . . . . . . . . . . . . . . . . . . . . . . . 8510.2.2 Teste de hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . 8610.2.3 Região Crítica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8610.2.4 Nível de Signicância . . . . . . . . . . . . . . . . . . . . . . . . 86

    10.3 Testes de Médias Populacionais . . . . . . . . . . . . . . . . . . . . . . . 8610.3.1 Teste para µ quando σ2 é desconhecida (1 amostra) . . . . . . . . 8710.3.2 Teste para diferença de médias (caso independente) . . . . . . . 8710.3.3 Teste para diferença de médias (caso dependente) . . . . . . . . 8810.3.4 Teste para proporção populacional . . . . . . . . . . . . . . . . . 8810.3.5 Teste para diferença de proporções populacionais . . . . . . . . . 89

    10.4 Nível descritivo: p (ou p-valor ou p- value) . . . . . . . . . . . . . . . . . 9110.4.1 Quão pequeno deve ser p para rejeitarmos H 0 ? . . . . . . . . . . 91

    5

  • 8/17/2019 esalq.pdf

    6/92

    Capítulo 1

    Estatística Descritiva

    1.1 Tabela de frequências e grácos

    1.1.1 Tabela de frequências

    Variável ni f i N i F iC 1 n1 f 1 N 1 F 1C 2 n2 f 2 N 2 F 2... ... ... ... ...

    C k nk f k N k = n F k = 1Total n 1

    em que,

    • ni é a frequência absoluta,• f i = n i /n é a frequência relativa,• N i = n1 + n2 + ... + n i é a frequência absoluta acumulada e

    • F i = f 1 + f 2 + ... + f i é a frequência relativa acumulada.

    6

  • 8/17/2019 esalq.pdf

    7/92

    1.1.2 Tabela de frequências para uma variável qualitativa nominal

    Variável ni f i

    C 1 n1 f 1 =n1n

    C 2 n2 f 2 =n2n... ... ...

    C k nk f k =nkn

    Total n 1

    Exemplo 1. Foram entrevistados 250 brasileiros, com 18 anos ou mais, para saber aopinião deles sobre determinadas marcas de cervejas. Com base nos dados apresentados na seguinte tabela, calcule as frequências relativas

    Marcas de Cervejas niItaipava 12Skol 63Bohemia 130 Antártica 45

    Total 250Tabela 1.1: Opinião dos brasileiros sobre determinadas marcas de cervejas

    Resultado do exercício anterior

    Marcas de Cervejas ni f iItaipava 12 0.048Skol 63 0.252Bohemia 130 0.520 Antartica 45 0.180Total 250 1

    Interpretação?

    1.2 Grácos associados a uma variável qualitativa nom-inal

    • Gráco de barras e7

  • 8/17/2019 esalq.pdf

    8/92

    • Gráco de setores ou de pizza.

    Usando software livre (grátis) R para gerar os grácosSite para fazer download do software www.r-project.org .

    1 #----------------------------------------------------------------2 # "Opinião dos brasileiros sobre marcas de cervejas"3 #----------------------------------------------------------------4 rm(list=ls(all=TRUE))5 respostas

  • 8/17/2019 esalq.pdf

    9/92

    Itaipava (4.8%)

    Skol(25.2%)

    Bohemia(52%)

    Antartica(18 %)

    Figura 1.2: Opinião dos brasileiros sobre determinadas marcas de cervejas

    1.3 Tabela de frequências para uma variável qualitativaordinal

    Variável ni f i N i F iC 1 n1 f 1 N 1 F 1C 2 n2 f 2 N 2 F 2... ... ... ... ...

    C k nk f k N k = n F k = 1Total n 1

    Exemplo 2. Foram entrevistados 2500 brasileiros, com 16 anos ou mais, para saber aopinião deles sobre determinado técnico de futebol. Com base nos dados da pesquisa apre- sentados na seguinte tabela, calcule as frequências relativas

    Opinião niBom 1300Regular 450Ruim 125Não sabe 625Total 2500

    Tabela 1.2: Opinião dos brasileiros sobre determinado técnico de futebol

    9

  • 8/17/2019 esalq.pdf

    10/92

    Respostas ni f iBom 1300 0.52

    Regular 450 0.18Ruim 125 0.05Não sabe 625 0.25Total 2500 1.00

    Referência: Vieira (2008).

    Resultado do exercício anteriorInterpretação?

    1.4 Grácos associados a uma variável qualitativa ordi-nal

    • Gráco de barras e• Gráco de setores ou de pizza.

    Usando software livre R para gerar os grácos

    1 #----------------------------------------------------------------2 # "Opinião dos brasileiros sobre determinado técnico de futebol"3 # Fonte Viera(2008) Introdução à Bioestatística, página 294 #----------------------------------------------------------------5 rm(list=ls(all=TRUE))6 respostas

  • 8/17/2019 esalq.pdf

    11/92

    BomRegular RuimNão Sabe

    0

    2 0 0

    4 0 0

    6 0 0

    8 0 0

    1 0 0 0

    1 2 0 0

    Figura 1.3: Opinião dos brasileiros sobre determinado técnico de futebol

    1.4.2 Gráco de setores ou de pizza

    1 pie(dados$fi, col = c("blue", "red", "yellow","green"),2 labels=c("Bom (52%)", "Regular(18%)", "Ruim(5%)", "Não sabe(25%)"))

    Bom (52%)

    Regular(18%)

    Ruim(5%)

    Não sabe(25%)

    Figura 1.4: Opinião dos brasileiros sobre determinado técnico de futebol

    11

  • 8/17/2019 esalq.pdf

    12/92

    1.5 Tabela de frequências para uma variável quantita-tiva discreta

    Variável ni f i N i F iC 1 n1 f 1 N 1 F 1C 2 n2 f 2 N 2 F 2... ... ... ... ...

    C k nk f k N k = n F k = 1Total n 1

    Exemplo 3. As faltas ao trabalho de 30 empregados de uma clínica em determinado semestre estão na tabela a seguir. A partir dela, faça uma tabela de distribuição de fre-quências (absolutas, relativas e acumuladas).

    1 3 1 1 0 1 0 1 1 02 2 0 0 0 1 2 1 2 00 1 6 4 3 3 1 2 4 0

    Tabela 1.3: Número de faltas dadas por 30 empregados de uma clínica no semestre

    Referência: Vieira (2008).

    Resultado do exercício anterior

    Número de faltas ni f i N i F i0 9 0.300 9 0.3001 10 0.333 19 0.6332 5 0.167 24 0.8003 3 0.100 27 0.9004 2 0.067 29 0.9676 1 0.033 30 1.000

    Total 30 1

    Interpretação?

    12

  • 8/17/2019 esalq.pdf

    13/92

    1.6 Grácos associados a uma variável quantitativa disc-reta

    • Gráco de barras e• Gráco de frequências acumuladas (escada).

    Usando software livre R para gerar os grácos

    1 #-------------------------------------------------------------------2 #Núm. de faltas dadas por 30 empregados de uma clínica no semestre3 #-------------------------------------------------------------------4 faltas

  • 8/17/2019 esalq.pdf

    14/92

    1.6.2 Gráco de frequências acumuladas (escada)

    1 plot(c(0,1,2,3,4,6), final$Ni, xlab="Número de faltas",2 ylab="Frequência absoluta acumulada",type="s", col="red")

    0 1 2 3 4 5 6

    1 0

    1 5

    2 0

    2 5

    3 0

    Número de faltas

    F r e q u ê n c i a a b s o l u t a a c u m u l a d a

    Figura 1.6: Número de faltas dadas por 30 empregados de uma clínica no semestre

    1.7 Tabela de frequências para uma variável quantita-tiva contínua

    Intervalos X i ni f i N i F i[x11 , x12) (x11 + x12)/ 2 n1 f 1 N 1 F 1[x21 , x22) (x21 + x22)/ 2 n2 f 2 N 2 F 2

    ... ... ... ... ... ...[xk1, xk2) (xk1 + xk2)/ 2 nk f k N k = n F k = 1

    Total n 1

    em que X i representa a marca de classe.

    Exemplo 4. Os dados da tabela a seguir referem-se aos rendimentos médios, em kg/ha, de32 híbridos de milho recomendados para a Região Oeste Catarinense.

    3973 4660 4770 4980 5117 5540 6166 45004680 4778 4993 5166 5513 6388 4550 46854849 5056 5172 5823 4552 4760 4960 50635202 5889 4614 4769 4975 5110 5230 6047

    Tabela 1.4: Rendimentos médios, em kg/ha, de 32 híbridos de milho, região Oeste,1987/1988

    14

  • 8/17/2019 esalq.pdf

    15/92

    Referência: Andrade e Ogliari (2007).

    Quantas classes devemos considerar?5 classes

    rendimentos

    F r e q u e n c

    i a s a

    b s o

    l u t a s

    3 50 0 45 00 5 50 0 6 500

    0

    5

    1 0

    1 5

    10 classes

    rendimentos

    F r e q u e n c

    i a s a

    b s o

    l u t a s

    4000 5000 6000

    0

    2

    4

    6

    8

    50 classes

    rendimentos

    F r e q u e n c

    i a s a

    b s o

    l u t a s

    4000 5000 6000

    0

    1

    2

    3

    4

    100 classes

    rendimentos

    F r e q u e n c

    i a s a

    b s o

    l u t a s

    4000 5000 6000

    0

    1

    2

    3

    4

    Figura 1.7: Histograma de Rendimentos médios considerando diferentes números declasses

    Código R

    1 par(mfrow=c(2,2))2 hist(rendimentos, col="red",right=F, breaks=5, main="5 classes",3 ylab="Frequencias absolutas")4

    5 hist(rendimentos, col="red",right=F, breaks=10, main="10 classes",6 ylab="Frequencias absolutas")7

    8 hist(rendimentos, col="red",right=F, breaks=50, main="50 classes",9 ylab="Frequencias absolutas")

    10

    11 hist(rendimentos, col="red",right=F, breaks=100, main="100 classes",12 ylab="Frequencias absolutas")

    Passos para construir uma tabela de frequências

    • Determine o valor máximo e mínimo do conjunto de dados.• Calcule a amplitude, que é a diferença entre o valor máximo e o valor mínimo.

    15

  • 8/17/2019 esalq.pdf

    16/92

    • Determine o número de classes usando a regra de Sturges (1926), isto é, k =1 + 3 .222log(n) em que n é o tamanho da amostra.• Divida a amplitude dos dados pelo número de classes.• O resultado da divisão é o intervalo de classe. É sempre melhor arredondar essenúmero para um valor mais alto, o que facilita o trabalho.• Organize as classes,de maneira que a primeira contenha o menor valor observado.

    Passos para construir uma tabela de frequências(dados exemplo 4)

    • Determine o valor máximo e mínimo do conjunto de dados.> min(rendimentos)[1] 3973

    > max(rendimentos)[1] 6388

    • Calcule a amplitude, que é a diferença entre o valor máximo e o valor mínimo.

    > (amplitude (k amplitude/k[1] 412.8492

    • O resultado da divisão é o intervalo de classe. É sempre melhor arredondar essenúmero para um valor mais alto, o que facilita o trabalho.Vamos aproximar para 500

    • Organize as classes, de maneira que a primeira contenha o menor valor observado.

    16

  • 8/17/2019 esalq.pdf

    17/92

    Rendimentos Médios X i ni f i N i F i[3900−4400) 4150 1 0.031 1 0.031[4400−4900) 4650 12 0.375 13 0.406[4900−5400) 5150 12 0.375 25 0.781[5400−5900) 5650 4 0.125 29 0.906[5900−6400) 6150 3 0.094 32 1.000Total 32 1

    Resultado do exercício anteriorInterpretação?

    1.8 Grácos associados a uma variável quantitativa con-tínua

    • Histograma.• Polígono de Frequências.Gráco de (X i , n i), i = 1,...,k .• Ogiva ou curva de frequências acumuladas.

    Gráco de (Limite Superiori , N i) ou (Limite Superiori , F i), i = 1,...,k .

    1.8.1 Histograma

    rendimentos

    F r e q u e n c

    i a s

    3500 4000 4500 5000 5500 6000 6500

    0

    2

    4

    6

    8

    1 0

    1 2

    Figura 1.8: Histograma de Rendimentos médios

    17

  • 8/17/2019 esalq.pdf

    18/92

    1.8.2 Polígono de frequências

    Rendimento médio

    F r e q u ê n c i a

    4000 5000 6000

    0

    2

    4

    6

    8

    1 0

    1 2

    4000 5000 6000

    0

    2

    4

    6

    8

    1 0

    1 2

    Rendimento médio

    F r e q u ê n c i a

    Figura 1.9: Polígono de Frequências dos Rendimentos médios

    1.8.3 Ogiva (Curva de frequências acumuladas)

    0

    1 0

    2 0

    3 0

    Rendimento médio

    F r e q u ê n c i a a b s o l u t a a c u m u l a d a

    3900 4400 4900 5400 5900 6400

    Figura 1.10: Ogiva dos Rendimentos médios

    Código R: dados e histograma usando a regra de SturgesRendimentos médios, em kg/ha, de 32 híbridos de milho recomendados para a RegiãoOeste Catarinense.

    1 rendimentos

  • 8/17/2019 esalq.pdf

    19/92

    3 5823 ,4552 ,4760 ,4960,5063,5202 ,5889 ,4614 ,4769 ,4975 ,5110 ,4 5230,6047)

    56 hist(rendimentos, breaks=c(3900 ,4400 ,4900 ,5400 ,5900 ,6400),7 ylab="Frequencias absolutas", main="", xlim=c(3300,6500),8 col="gray")

    Código R: histograma e polígono de frequências

    1 par(mfrow=c(1,2))2 h=hist(rendimentos,breaks=c(3900 ,4400 ,4900 ,5400 ,5900 ,6400),3 main="",col="gray",xlab="Rendimento médio",ylab="Frequência")4 lines(c(min(h$breaks), h$mids, max(h$breaks)), c(0,h$counts, 0),5 type = "l")6

    7 plot(c(min(h$breaks), h$mids, max(h$breaks)), c(0,h$counts, 0),8 type = "n",main="",xlab="Rendimento médio",ylab="Frequência")9 polygon(c(min(h$breaks), h$mids, max(h$breaks)), c(0,h$counts, 0),

    10 col="gray", border="black")

    Código R: ogiva

    1 library(fdth)2 aux100=fdt(rendimentos, start=3900,h=500,end=6400)3 plot(aux100,type=’cfp’, xlab="Rendimento médio",4 ylab="Frequência absoluta acumulada")

    1.9 Medidas de tendência central• Média• Moda• Mediana

    19

  • 8/17/2019 esalq.pdf

    20/92

    1.9.1 Conceitos básicos de somatório

    Denição 1. O somatório de x1,...,x n variáveis é denido porn

    i=1

    xi = x1 + x2 + ... + xn .

    PropriedadesSejam k, a e b constantes

    1.n

    i=1

    k = nk

    2.n

    i=1

    kx i = kn

    i=1

    x i

    3.n

    i=1

    (xi ±k) =n

    i=1

    xi ±nk

    4.n

    i=1

    (a ±bxi) = na ±bn

    i=1

    xi

    5.n

    i=1

    x2i = (n

    i=1

    xi)2

    6.n

    i=1

    (xi −x̄) = 0 , em que x̄ = 1n

    n

    i=1

    xi

    7.n

    i=1

    (xi −x̄)2 =n

    i=1

    x2i −nx̄2

    Denição 2. O somatório que depende de x1,...,x n e y1,...,yn variáveis é denido porn

    i=1

    xiyi = x1y1 + x2y2 + ... + xn yn .

    Propriedades para duas variáveisSejam k, a e b constantes

    1.n

    i=1

    kx iyi = kn

    i=1

    x iyi

    20

  • 8/17/2019 esalq.pdf

    21/92

    2.n

    i=1

    (xiyi ±k) =n

    i=1

    xiyi ±nk

    3.n

    i=1

    (ax i ±byi) = an

    i=1

    x i ±bn

    i=1

    yi

    1.10 Dados não agrupados

    1.10.1 Média A medida de tendência central mais conhecida e mais utilizada é a média aritmética, ousimplesmente média. Como se calcula a média?

    Denição 3. A média aritmética de um conjunto de dados numéricos é obtida somandotodos os dados e dividindo o resultado pelo número deles. A média, que denotamos por x̄(lê-se x-barra), é denida por

    x̄ =

    n

    i=1

    xi

    n =

    x1 + ... + xnn

    .

    Exemplo 5. Um professor de Educação Física mediu a circunferência abdominal de 10

    homens que se apresentaram em uma academia. Obteve os valores , em centímetros: 88,83, 79, 76, 78, 70, 80, 82, 86 e 105. Calcule a média

    Soluçãox̄ =

    88 + 83 + ... + 10510

    = 827

    10 = 82.7cm

    Interpretação?: Os homens mediram, em média 82.7 cm de circunferência abdominal.

    1.10.2 Mediana

    Denição 4. A mediana ( M e ) é o valor que ocupa a posição central do conjunto dos dadosordenados.

    • A mediana divide a amostra em duas partes: uma com números menores ou iguaisà mediana, outra com números maiores ou iguais à mediana.• Quando o número de dados é ímpar, existe um único valor na posição central.• Quando o número de dados é par, existem dois valores na posição central. A mediana é a média desses dois valores. Em resumo,

    21

  • 8/17/2019 esalq.pdf

    22/92

    M e =

    x[ n +12 ] n ímpar

    x[n

    2 ] + x[n

    2 +1]2

    n par

    Exemplo 6. Calcule a mediana do peso, em quilogramas, de cinco bebês nascidos em umhospital: 3.500, 2.850, 3.370, 2.250 e 3.970.

    • Coloque os dados em ordem crescente como segue 2.250, 2.850, 3.370, 3.500,3.970. A mediana é o valor que está na posição central, ou seja, 3.370 kg. A mediana usando a fórmula anterior ca dada por

    M e = x[ 5+12 ] = x[3] = 3.370kg.

    • Se no exemplo 6 os dados tivessem sido 3.500, 2.850, 3.370, 2.250, então a me-diana seria

    M e =x[ 42 ] + x[ 42 +1]

    2 =

    x[2] + x[3]2

    =2.850 + 3.370

    2 = 3.110kg.

    1.10.3 Moda

    Denição 5. A moda é o valor que ocorre com maior frequência.

    Exemplo 7. Determine a moda dos dados: 0, 0, 2, 5, 3, 7, 4, 7, 8, 7, 9, 6. A moda é 7, porque é o valor que ocorre com o maior número de vezes.

    • Un conjunto de dados pode não ter moda porque nenhum valor se repete maiornúmero de vezes, ou ter duas ou mais modas.• O conjunto de dados 0, 2, 4, 6, 8, 10

    não tem moda.

    • O conjunto de dados 1, 2, 2, 3, 4, 4, 5, 6, 7tem duas modas: 2 e 4.

    22

  • 8/17/2019 esalq.pdf

    23/92

    1.11 Dados agrupados

    1.11.1 Média Variável quantitativa discreta

    Denição 6. A média aritmética de dados agrupados em uma tabela de distribuição de frequências, isto é, de x1,...x k que se repetem n1,...,n k vezes na amostra, é

    x̄ =

    k

    i=1

    xin i

    n ,

    em que n =k

    i=1

    n i .

    Exemplo 8. Para calcular a média do número de lhos em idade escolar que têm os fun-cionários de uma empresa, a psicóloga que trabalha em Recursos Humanos obteve umaamostra de 20 funcionários. Os dados estão apresentados em seguida. Como se calcula amédia?.

    1 0 1 0 2 1 2 1 2 21 5 0 1 1 1 3 0 0 0

    Tabela 1.5: Número de lhos em idade escolar de 20 funcionários

    Referência: Vieira (2008)

    Número de lhos em idade escolar ni xin i0 6 01 8 82 4 8

    3 1 34 0 05 1 5

    Total 20 24

    x̄ =0 ×6 + ... + 5 ×1

    20 =

    2420

    = 1.2 lhos.

    Comentário: O número médio de lhos em idade escolar é 1 .

    23

  • 8/17/2019 esalq.pdf

    24/92

    Variável quantitativa contínua

    Denição 7. A média aritmética de dados agrupados em uma tabela de distribuição de frequências é dada por

    x̄ =1n

    k

    i=1

    n i X i =n1X 1 + ... + nkX k

    n

    em que k é o número de classes e X i é a marca de classe.

    Exemplo 9. Calcule a média para os dados do exemplo 4.

    Rendimentos Médios X i ni f i N i F i[3900−4400) 4150 1 0.031 1 0.031[4400−4900) 4650 12 0.375 13 0.406[4900−5400) 5150 12 0.375 25 0.781[5400−5900) 5650 4 0.125 29 0.906[5900−6400) 6150 3 0.094 32 1.000Total 32 1

    x̄ = (4150×1 + ... + 6150 ×3)

    32 = 5087.5kg/ha.

    1.11.2 Mediana

    Denição 8. A mediana para dados agrupados é calculada da seguinte forma

    M e = LI M e +n2 −N M e −1

    nM e ×aM eem que

    • LI Me : Limite inferior da classe mediana.

    • n: Tamanho da amostra.• N M e −1: Frequência absoluta acumulada anterior à classe M e.• nM e : Frequência absoluta da classe M e.• aM e : Amplitude da classe M e.

    Exemplo 10. Calcule a mediana para os dados do exemplo 4.

    Exemplo 11. Calcule a mediana para os dados do exemplo 4.

    24

  • 8/17/2019 esalq.pdf

    25/92

    Rendimentos Médios X i ni f i N i F i[3900−4400) 4150 1 0.031 1 0.031[4400−4900) 4650 12 0.375 13 0.406[4900−5400) 5150 12 0.375 25 0.781[5400−5900) 5650 4 0.125 29 0.906[5900−6400) 6150 3 0.094 32 1.000Total 32 1

    M e = LI M e +n2 −N M e −1

    nM e ×aM e =???????? .

    Rendimentos Médios X i ni f i N i F i[3900−4400) 4150 1 0.031 1 0.031[4400−4900) 4650 12 0.375 13 0.406[4900−5400) 5150 12 0.375 25 0.781[5400−5900) 5650 4 0.125 29 0.906[5900

    −6400) 6150 3 0.094 32 1.000

    Total 32 1

    M e = LI M e +n2 −N M e −1

    nM e ×aM e = 4900 +32/ 2 −13

    12 ×500 = 5025 kg/ha.

    25

  • 8/17/2019 esalq.pdf

    26/92

    1.11.3 Moda

    Denição 9. A moda para dados agrupados é calculada da seguinte forma.

    M o = LI M o + ∆ 1

    ∆ 1 + ∆ 2 ×aM oem que,

    • LI Mo : Limite inferior da classe modal.• ∆ 1 = n (Mo ) −n (Mo−1) e ∆ 2 = n (Mo ) −n (Mo +1) .

    • n(M o ): Frequência absoluta da classe modal.

    • n(Mo−1) : Frequência absoluta anterior à classe modal.• n(Mo +1) : Frequência absoluta posterior à classe modal.• aM o : Amplitude da classe M o.

    Exemplo 12. Calcule a moda para os dados, apresentados a seguir, de produção de resina(kg)de 40 arvores de Pinus elliotti.

    Produção de resina (kg) X i ni f i N i F i[0.61;1.31) 0.96 3 0.075 3 0.075[1.31;2.01) 1.66 6 0.150 9 0.225[2.01;2.71) 2.36 12 0.350 21 0.525[2.71;3.41) 3.06 9 0.225 30 0.750[3.41;4.11) 3.76 9 0.225 39 0.975[4.11;4.81) 4.46 0 0.000 39 0.975[4.81;5.51) 5.16 1 0.025 40 1.000

    Tabela 1.6: Produção de resina (kg) de 40 arvores de Pinus elliotti

    M o = LI M o + ∆ 1

    ∆ 1 + ∆ 2 ×aM o =??????????????????????Resposta do exercício anterior

    M o = LI M o + ∆ 1

    ∆ 1 + ∆ 2 ×aM o = 2.01 + 12−6

    12 −6 + 12 −9 ×0.70 = 2.477kg.

    26

  • 8/17/2019 esalq.pdf

    27/92

    Produção de resina (kg) X i ni f i N i F i[0.61;1.31) 0.96 3 0.075 3 0.075

    [1.31;2.01) 1.66 6 0.150 9 0.225[2.01;2.71) 2.36 12 0.350 21 0.525[2.71;3.41) 3.06 9 0.225 30 0.750[3.41;4.11) 3.76 9 0.225 39 0.975[4.11;4.81) 4.46 0 0.000 39 0.975[4.81;5.51) 5.16 1 0.025 40 1.000

    Tabela 1.7: Produção de resina (kg) de 40 arvores de Pinus elliotti

    1.12 Medidas de dispersão

    1.12.1 Introdução

    Exemplo 13. Considere as notas de uma prova de estatística aplicada a três turmas

    • Grupo 1: 3, 4, 5, 6, 7.• Grupo 2: 1, 3, 5, 7, 9.• Grupo 3: 5, 5, 5, 5, 5. Calcule a média e a mediana de cada grupo.Comentários? Precisamos de uma medida de variabilidade.

    1.12.2 Gráco para estudar dispersão

    0 2 4 6 8 10

    Grupo 1

    0 2 4 6 8 10

    Grupo 2

    0 2 4 6 8 10

    Grupo 3

    Figura 1.11: Notas de uma prova de estatística aplicada a três turmas

    27

  • 8/17/2019 esalq.pdf

    28/92

    1.13 Medidas de dispersão para dados não agrupados

    1.13.1 AmplitudeDenição 10. Uma medida da variabilidade é a amplitude, que é obtida subtraindo o valor mais baixo de um conjunto de observações do valor mais alto, isto é,

    Amplitude= máximo - mínimo

    Alguns comentários da amplitude

    • é fácil de ser calculada e suas unidades são as mesmas que as da variável,• não utiliza todas as observações (só duas delas) e• pode ser muito afetada por alguma observação extrema.

    1.13.2 Variância e desvío padrão

    Denição 11. A variância s2 é denida como a média das diferenças quadráticas de n valores em relação à sua média aritmética, ou seja,

    s2 =1

    n −1 n

    i=1

    (xi −x̄)2 =1

    n −1 n

    i=1

    x2i −nx̄2

    Essa medida é sempre uma quantidade positiva. Como suas unidades são as do quadradoda variável, é mais fácil usar sua raiz quadrada.

    Denição 12. O desvio padrão ou desvio típico é denido como a raiz quadrada de s2 , istoé,

    s = √ s2 = 1n −1 n

    i=1

    (xi −x̄)2 = 1n −1 n

    i=1

    x2i −nx̄2

    O desvio padrão é uma medida de variabilidade ou dispersão e é medida na mesma dimen- são que as das obervações.

    Exemplo 14. Calcule a amplitude, variância e desvio padrão das seguintes quantidadesmedidas em metros: 3, 3, 4, 4, 5.

    Solução

    • A amplitude dessas obervações é 5-3=2 metros.• x̄ = (3 + 3 + 4 + 4 + 5) / 5 = 3.8 metros.• s2 = 0 .70 metros2.

    • s =√

    0.70metros2

    = 0 .84 metros.

    28

  • 8/17/2019 esalq.pdf

    29/92

    1.14 Medidas de dispersão para dados agrupados

    1.14.1 Variáveis discretasSeja s2 e s = √ s2, a variância e o desvio padrão respectivamente, então para dadosagrupados temos que

    s2 =1

    n −1 k

    i=1

    n i (xi −x̄)2 =1

    n −1 k

    i=1

    n i x2i −n x̄2

    Exemplo 15. Calcular a variância, o desvio padrão para o conjunto de dados amostraisapresentados na tabela abaixo.

    xi ni1 23 45 2

    Tabela 1.8: Distribuição do número de irmãos dos professores do LES

    Resposta do exercício anterior

    x̄ =1 ×2 + 3 ×4 + 5 ×2

    8 = 3 irmãos

    s2 =(1 −3)2 ×2 + (3 −3)2 ×4 + (5 −3)2 ×2

    8 −1 = 2.29 irmãos2

    s = 2.29 irmãos2 = 1 .51 irmãos1.14.2 Variáveis continuas

    s2 =1

    n −1 k

    i=1

    n i (X i−

    x̄)2 =1

    n −1 k

    i=1

    n i X 2i −

    n x̄2

    Exemplo 16. Veja exemplo 12.

    Resposta do exercício anterior Temos que

    s2 =1

    40 −1 7

    i=1

    n i X 2i −40 ×x̄2

    em que,

    x̄ =1

    40(0.96

    ×3 + ... + 5 .16

    ×1) = 2 .6925 kg.

    29

  • 8/17/2019 esalq.pdf

    30/92

    Produção de resina (kg) X i ni f i N i F i[0.61;1.31) 0.96 3 0.075 3 0.075

    [1.31;2.01) 1.66 6 0.150 9 0.225[2.01;2.71) 2.36 12 0.350 21 0.525[2.71;3.41) 3.06 9 0.225 30 0.750[3.41;4.11) 3.76 9 0.225 39 0.975[4.11;4.81) 4.46 0 0.000 39 0.975[4.81;5.51) 5.16 1 0.025 40 1.000

    Tabela 1.9: Produção de resina (kg) de 40 arvores de Pinus elliotti

    Logo,

    s2 = 139

    3 ×0.962 + ... + 1 ×5.162 −40 ×2.69252 = 0 .8791kg2. Assim, s = 0.9376kg.

    1.14.3 Coeciente de variação

    Denição 13. O coeciente de variação se dene por

    CV = sx̄ ×100%

    em que s é o desvio padrão e x̄ é a média.

    O coeciente de variação

    • é uma medida de dispersão relativa• elimina o efeito da magnitude dos dados• exprime a variabilidade em relação à média

    Exemplo 17. Os dados estudados neste exemplo correspondem às idades e alturas daturma de Cálculo Conclusão: Os alunos são, mais dispersos quanto a idade do que quanto

    Variáveis Média Desvio Padrão CV Altura 171.33 11.10 6.4 %Idade 19 1.62 8.5 %

    Tabela 1.10: Altura e Idade dos alunos.

    à altura.

    30

  • 8/17/2019 esalq.pdf

    31/92

    1.15 Medidas de posição

    • Quartis• Decis• Percentis

    1.15.1 Quartis, Decis e Percentis

    Denição 14. Os quartis dividem os dados em 4 conjuntos iguais ( Q1, Q2, Q3 ). Q2 repre- senta a mediana.Denição 15. Os decis dividem os dados em 10 conjuntos iguais ( D1,...,D 9 ). D5 repre- senta a mediana.Denição 16. Os percentis dividem os dados em 100 conjuntos iguais ( P 1,...,P 99 ). P 50representa a mediana.

    • Podemos observar que a mediana coincide com o quartil 2 (Q2), decil 5 (D5) epercentil 50 (P 50).

    1.16 Percentis para dados não agrupados

    1.16.1 PercentisDenição 17. O percentil P j para dados não agrupados é denido como

    P j =x[i+1] f > 0x[i] + x[i+1]

    2 f = 0

    j = 1, ..., 99. A forma de calcular percentil é a seguinte n × p = i + f , em que i parterepresenta a parte inteira e f parte decimal do produto n × p , 0 < p < 1.Exemplo 18. Veja exemplo 12 e calcule o percentil 25, 33, 50, 63 e 75.

    • 40×0.25 = 10 + 0, logo P 25 =x

    [10] + x

    [11]2 = 2.05kg.

    • 40×0.33 = 13 + 0.2, logo P 33 = x[14] = 2.16kg.

    • 40×0.50 = 20 + 0, logo P 50 =x[20] + x[21]

    2 = 2.65kg.

    • 40×0.63 = 25+ 0.2, logo P 63 = x[26] = 3.09kg.

    • 40×0.75 = 30 + 0, logo P 75 =x[30] + x[31]

    2 = 3.46kg.

    Interpretação?31

  • 8/17/2019 esalq.pdf

    32/92

    1.17 Percentis para dados agrupados

    1.17.1 PercentisDenição 18. O percentil P j para dados agrupados é denido como

    P j = LI k +n × j100 −N k−1

    nk ×ak j = 1, ..., 99.

    Observação 1. A seguir alguns casos particulares de percentis

    P 25 = LI k +n × 25100 −N k−1

    nk ×ak = Q1

    P 50 = LI k +n × 50100 −N k−1

    nk ×ak = Q2

    P 75 = LI k +n × 75100 −N k−1

    nk ×ak = Q3

    Exemplo 19. Veja o exemplo 12 (produção de resina(kg) de 40 arvores de Pinus elliotti) ecalcule o percentil 25, 50 e 75.

    Classes X i ni f i N i F i[0.61;1.31) 0.96 3 0.075 3 0.075[1.31;2.01) 1.66 6 0.150 9 0.225[2.01;2.71) 2.36 12 0.350 21 0.525[2.71;3.41) 3.06 9 0.225 30 0.750[3.41;4.11) 3.76 9 0.225 39 0.975[4.11;4.81) 4.46 0 0.000 39 0.975[4.81;5.51) 5.16 1 0.025 40 1.000

    Tabela 1.11: Produção de resina(kg) de 40 arvores de Pinus elliotti.

    Resultado do exercício anterior A seguir calculamos o percentil 25, 50 e 75, respec-tivamente

    P 25 = LI k +n × 25100 −N k−1

    nk ×ak = 2.01 +40 ×1/ 4 −9

    12 ×0.70 = 2.068

    P 50 = LI k +n × 50100 −N k−1

    nk ×ak = 2.01 +40 ×1/ 2 −9

    12 ×0.70 = 2.652

    P 75 = LI k +n × 75100 −N k−1

    nk ×ak = 2.71 +40 ×3/ 4 −21

    9 ×0.70 = 3.410

    32

  • 8/17/2019 esalq.pdf

    33/92

    1.17.2 Gráco de caixas-e-bigodes (boxplot)

    • Determinar valor mínimo dos dados.

    • Determinar valor máximo dos dados.• Determinar Q1, Q2 e Q3.• Determinar se há pontos atípicos Q1 −1.5IQR ou Q3 + 1.5IQR , em que IQR =Q3 −Q1 é a amplitude interquatilica.Código R: Quartis (dados brutos)

    > Quartis Quartis.novo rownames(Quartis.novo) Quartis.novo

    Quartis.statsMinimo 0.71Quar. 1 2.05Quar. 2 2.65Quar. 3 3.46Maximo 5.41

    Exemplo 20. Com base no exemplo 12 (produção de resina(kg) de 40 arvores de Pinuselliotti) construir boxplot.

    1 2 3 4 5

    Produção de Resina(Kg)

    Figura 1.12: Gráco Caixas-e-bigodes para dados de resina (Kg)

    Exemplo 21. Estatura de alunos da turma de Bioestatística por sexo.

    33

  • 8/17/2019 esalq.pdf

    34/92

    F M

    1 8

    2 0

    2 2

    2 4

    2 6

    sexo

    i d a

    d e

    Figura 1.13: Gráco Caixas-e-bigodes para dados de resina (Kg)

    1.17.3 Medidas de simetriaTem por objetivo básico medir o quanto a distribuição de freqüências do conjunto de valores observados se afasta da condição de simetria.

    Distribuição simétrica

    • x̄ = M e = M o.

    Figura 1.14: Distribuição simétrica

    Distribuição assimétrica negativa ou assimétrica à esquerda

    • x̄ < M e < M o

    34

  • 8/17/2019 esalq.pdf

    35/92

    Figura 1.15: Distribuição assimétrica à esquerda

    Distribuição assimétrica positiva ou assimétrica à direita

    • M o < M e < x̄

    Figura 1.16: Distribuição assimétrica à direita

    Referências Andrade, Dalton F e Ogliari, Paulo J (2010). Estatística para as ciências agrárias ebiológicas com noções de experimentação. Editora da UFSC.

    Vieira, Sônia (2008). Introdução à Bioestatística. 4a edição: Elsevier.

    35

  • 8/17/2019 esalq.pdf

    36/92

    Capítulo 2

    Regressão e correlação

    2.1 CorrelaçãoSeja r o coeciente de correlação linear

    r = Sxy√ SxxSyy em que,

    Sxy =n

    i=1

    xiyi −nx̄ȳ, Sxx =n

    i=1

    x2i −nx̄2, Syy =n

    i=1

    y2i −nȳ2

    2.1.1 Conjunto A Para o conjunto A, temos que Sxy = 84,Sxx = 82.5,Syy = 133.6, x̄ = 5.5, x̄ = 6.2, n =10. Logo, r = 0.80 correlação positiva

    2.1.2 Conjunto BPara o conjunto B, temos que Sxy = −82.5,Sxx = 82.5,Syy = 133, x̄ = 5.5, x̄ = 6.2, n =10. Logo, r = −0.78 correlação negativa

    2.1.3 Código R para calcular correlação

    > (conjuntoA

  • 8/17/2019 esalq.pdf

    37/92

    7 7 108 8 8

    9 9 1210 10 8

    > (conjuntoB correlacao

  • 8/17/2019 esalq.pdf

    38/92

    [1] 133.6

    $mediaX[1] 5.5

    $mediaY[1] 6.2

    $n[1] 10

    $r[1] 0.8001089

    > correlacao(xA, yB)$Sxy[1] -82

    $Sxx[1] 82.5

    $Syy[1] 133.6

    $mediaX[1] 5.5

    $mediaY[1] 6.2

    $n[1] 10

    $r[1] -0.7810587

    > cor(conjuntoA)xA yA

    xA 1.0000000 0.8001089yA 0.8001089 1.0000000

    > cor(conjuntoB)xB yB

    xB 1.0000000 -0.7810587

    38

  • 8/17/2019 esalq.pdf

    39/92

    yB -0.7810587 1.0000000

    > data.frame(conjuntoA, conjuntoB)xA yA xB yB1 1 0 1 82 2 2 2 123 3 6 3 84 4 3 4 105 5 9 5 46 6 4 6 97 7 10 7 38 8 8 8 69 9 12 9 010 10 8 10 2

    > par(mfrow=c(1,2))> plot(conjuntoA, pch=20, lwd=3, main="ConjuntoA")> plot(conjuntoB, pch=20, lwd=3, main="ConjuntoB")

    2 4 6 8 10

    0

    2

    4

    6

    8

    1 0

    1 2

    ConjuntoA

    xA

    y A

    2 4 6 8 10

    0

    2

    4

    6

    8

    1 0

    1 2

    ConjuntoB

    xB

    y B

    Figura 2.1: Gráco de dispersão

    39

  • 8/17/2019 esalq.pdf

    40/92

    2.2 Regressão

    2.2.1 Equação da reta

    yi = a + b∗xiEquação da reta estimada (com base nos dados (x,y))

    ŷi = â + b̂∗x i , em que

    â = ȳ −b̂x̄ b̂ = SxySxx

    Sxy =n

    i=1x iyi −nx̄ȳ, Sxx =

    n

    i=1x2i −nx̄2

    A equação da reta estimada, ca dada por Sxy = 371.35,Sxx = 171.875, x̄ =8.625, ȳ = 17.65, n = 8, a = −0.985, b = 2.161

    ŷi = −0.985 + 2.161∗x i

    2.2.2 Código R

    #funcao que calcula regressao

    rm(list=ls(all=TRUE))regressao

  • 8/17/2019 esalq.pdf

    41/92

    > regressao(tempo,quantidade)

    $Sxy[1] 371.35

    $Sxx[1] 171.875

    $mediaX[1] 8.625

    $mediaY[1] 17.65

    $n[1] 8

    $a[1] -0.9850182

    $b[1] 2.160582

    > X11()> plot(tempo, quantidade, pch=20, lwd=3, main="")> abline(lm(quantidade~tempo)$coef, col="red",lwd=2)

    2 4 6 8 10 12 14

    5

    1 0

    1 5

    2 0

    2 5

    3 0

    tempo

    q u a n

    t i d

    a d

    e

    Figura 2.2: Gráco de dispersão

    41

  • 8/17/2019 esalq.pdf

    42/92

    Capítulo 3

    Probabilidades

    3.1 IntroduçãoFoi no século XVII, com os chamados jogos de azar que surgiram os primeiros estudos deprobabilidades. Grandes nomes da história da matemática são responsáveis pelo corpode conhecimentos que constitui hoje a teoria das probabilidades:

    1. Pascal (1623-1662),

    2. Pierre de Fermat (1601-1665),

    3. Huygens (1629-1695),

    4. Isaac Newton (1642-1727),

    5. Jacob Bernoulli (1654-1705),

    6. Laplace (1749-1827),

    7. Bayes (1702-1761),

    8. Kolmogorov (1903-1987) entre outros.Comecemos examinando as seguintes armações

    1. É provável que João vá ao teatro amanhã2. É provável que Adão e Eva tenham existidoEm ambas estão presentes as ideias de

    1. Incerteza

    2. Grau de conança que depositamos naquilo que armamosNote que a palavra provável também dá a ideia de futuro, mas na armação 2 esta-

    mos falando de algo que deve ter ocorrido no passado, se é que ocorreu. Isto porque naarmação 2 a probabilidade não está ligada ao tempo, mas sim à eventual veracidade

    da própria armação.42

  • 8/17/2019 esalq.pdf

    43/92

    3.2 Conceitos básicos

    Antes de denirmos probabilidades vamos introduzir alguns conceitos básicos

    3.2.1 Experimento aleatório

    Denição 19. É aquele que pode ser repetido nas mesmas condições indenidamente semque saibamos um resultado, de um evento de interesse, a priori, isto é, antes de sua real-ização, mas conhecemos todos os possíveis resultados.

    Notação ε

    Exemplo 22. A seguir alguns exemplos

    • Lançamento de um dado.• Tempo de duração de uma lâmpada.• Número de veículos que passam por uma praça de pedágio durante um certo inter- valo.

    3.2.2 Espaço amostral

    Denição 20. Conjunto de todos os possíveis resultados de um experimento aleatório.Notação Ω.

    Exemplo 23. A seguir alguns exemplos

    • Lançamento de um dado Ω = {1, ..., 6}• Tempo de duração de uma lâmpada Ω = (0, ∞)• Número de veículos que passam por uma praça de pedágio durante um certo intervaloΩ = {0, 1, 2,...}

    3.2.3 Evento

    Denição 21. Subconjunto do espaço amostralNotação A, B, C, ...

    Exemplo 24. Lançamento de um dado Ω = {1, ..., 6}.• Evento A: Resultado é par A = {2, 4, 6}(evento composto).• Evento B: Resultado é maior do que 6 B = φ (evento impossível).• Evento C: Resultado menor do que 7 C = Ω (evento certo).

    • Evento D: Resultado igual a 1 D =

    {1

    }(evento simples).

    43

  • 8/17/2019 esalq.pdf

    44/92

    3.3 Teoria de conjuntos

    • UniãoA∪B é quando A ou B ou ambos ocorrem.• Intersecção A ∩B é quando ocorrem A e B.• Eventos disjuntos ou mutuamente exclusivos Quando dois eventos A e B não po-dem ocorrer simultaneamente, isto é, A ∩B = φ• Evento complementar Ac ou Ā é quando não ocorre A.

    Exemplo 25. Sejaε lançamento de um dado e Ω = {1, ..., 6}. SejaA = {2, 4, 6}e B = {1}. Determine A∪B , A ∩B e Ac.

    3.4 Conceitos de Probabilidade

    • Denição clássica,• Denição frequentista e• Denição axiomática.

    3.4.1 Denição clássica de Probabilidade ou a priori

    Seja ε um experimento aleatorio e Ω um espaço amostral associado formado por n resul-tados igualmente prováveis. Seja A⊂Ω um evento com m elementos. A probabilidadede A, denotada por P (A), lê-se pe de A, é denida como sendo

    P (A) = mn

    .

    Isto é, a probabilidade do evento A é o quociente entre o número de m casos fa- voráveis e o número n de casos possíveis.

    Exemplo 26. Calcular a probabilidade de no lançamento de um dado equilibrado obter-se

    • Um resultado igual a 4.• Um resultado ímpar.

    44

  • 8/17/2019 esalq.pdf

    45/92

    3.4.2 Denição frequentista de Probabilidade ou a posteriori

    Denição 22. Seja ε um experimento e A um evento de um espaço amostral associado aoexperimento ε. Suponha-se que ε seja repetido n vezes e seja m o número de vezes que Aocorre nas n repetições de ε. Então, a frequência relativa do evento A , denotada por f r , é oquociente

    f r = mn

    = número de vezes que A ocorrenúmero de vezes que ε é repetido

    Exemplo 27. A seguir dois exemplos,

    • Uma moeda foi lançada 200 vezes e forneceu 102 caras. Então, a frequência relativade caras é f r = 102/ 200 = 0, 51.

    • Um dado foi lançado 100 vezes e a face 6 apareceu 18 vezes. Então, a frequênciarelativa do evento A = face 6 é f r = 18/ 100 = 0, 18.

    Denição 23. Seja ε um experimento e A um evento de um espaço amostral associado Ω.Suponhamos que ε é repetido n vezes e seja f r (A) a frequência relativa do evento. Então,a probabilidade de A é denida como sendo o limite de f r (A) quando n tende ao innito.

    Ou sejaP (A) = lim

    n→∞f r (A).

    Deve-se notar que a frequência relativa do evento A é uma aproximação da probabili-dade de A. As duas se igualam apenas no limite de innitos experimentos. Em geral, paraum valor de n , razoavelmente grande f r (A) é uma boa aproximação de P (A).

    3.4.3 Denição axiomática de Probabilidade

    Denição 24. Seja ε um experimento aleatório com um espaço amostral associado Ω. A cada evento A ⊂ Ω associa-se um número real, representado por P (A) e denominado probabilidade de A , que satisfaz as seguintes propriedades (axiomas)

    1. 0 ≤P (A) ≤1 2. P (Ω) = 1

    3. Se A1, A2,...,A n forem, dois a dois, eventos disjuntos, então

    P (n

    i=1

    Ai) =n

    i=1

    P (Ai)

    45

  • 8/17/2019 esalq.pdf

    46/92

    Propriedades Como consequência dos axiomas estabelecidos acima, podemos ainda vericar outras propriedades das probabilidades de um evento

    1. P (φ) = 0 .2. Se A e Ac são eventos complementares, então

    P (Ac) = 1 −P (A).3. Se A e B são dois eventos quaisquer, então

    P (A∪B) = P (A) + P (B) −P (A ∩B).4. Se A e B são eventos disjuntos, então

    P (A

    B) = P (A) + P (B).

    Observação 2. Quando estamos resolvendo um problema de probabilidade toda vez que for ou implica em soma e quando for e em produto.

    3.5 Probabilidade condicional e independência

    Denição 25. Sejam A e B dois eventos de um espaço amostral Ω , associado a um exper-imento ε , em que P (A) > 0. A probabilidade de B ocorrer condicionada a A ter ocorrido, será representada por P (B\A) , e lida como probabilidade de B dado A ou probabilidadede B condicionada a A , e calculada por

    P (B\A) =P (A ∩B)

    P (A) .

    Note que,

    P (A\B) =P (A ∩B)

    P (B) .

    Exemplo 28. Suponha que se quer extrair duas peças ao acaso sem reposição de um loteque contém 100 peças das quais 80 peças são boas e 20 defeituosas. Dena-se os seguinteseventos

    • A = { A primeira peça é defeituosa}e• B = { A segunda peça é defeituosa}. Determine P (B\A).Tarefa

    Exemplo 29. Seleccionamos dois itens, ao acaso, um a um e sem reposição, de um lote quecontém 10 intens do tipo A e 5 do tipo B. Qual é a probabilidade de que

    • o primeiro item seja do tipo A?

    • o segundo item seja do tipo B se o primeiro item foi do tipo A?

    46

  • 8/17/2019 esalq.pdf

    47/92

    3.6 Teorema da multiplicação (Regra do Produto)

    Com o conceito de probabilidade condicional é possível apresentar uma maneira de secalcular a probabilidade da interseção de dois eventos A e B em função destes eventos.Esta expressão é denominada de teorema da multiplicação

    P (AB ) = P (A ∩B) = P (B\A)P (A) = P (A\B)P (B). (3.1)Exemplo 30. Considere uma urna com 3 bolas brancas e 7 bolas verdes. Duas bolas sãoretiradas da urna, uma depois da outra sem reposição. Determine Ω e as probabilidadesassociadas com cada elemento do espaço amostral.

    Observação 3. A regra do produto geralmente é util para encontrar probabilidades, quando

    a amostragem é sem reposição. A equação (3.1) pode ser generalizada à intersecção de "neventos"A1, . . . , A n por medio das probabilidades condicionais sucessivas.

    Lema 1. Sejam A1, . . . , A n eventos do espaço amostral Ω , então:

    P (A1, . . . , A n ) = P (A1) ×P (A2\A1) × P (A3\A1A2) ×. . . ×P (An\A1A2 . . . An−1)Tarefa

    Exemplo 31. Com base no exemplo anterior, calculemos a probabilidade do seguinte re- sultado B1B2V 3V 4B5 em 5 retiradas de bolas de uma urna sem reposição.

    3.7 Eventos Independentes

    Denição 26. Dois eventos A e B são independentes se

    P (B\A) = P (B). Alguns comentários da denição anterior

    • Se a probabilidade condicional é igual à probabilidade não condicional, entãoconhecer a ocorrência de A não muda a ocorrência de B.• Essencialmente é equivalente a P (A∩B) = P (A)P (B), a regra multiplicativa paraa probabilidade de uma intersecção se e somente se os eventos são independentes.• Finalmente, tem uma relação com a falta de inuência física dos eventos em cadaum dos outros se não há inuência na situação modelada, então assumimos inde-

    pendência no modelo.

    Denição 27. Dois eventos A e B são independentes se

    P (A

    ∩B) = P (A)P (B). (3.2)

    47

  • 8/17/2019 esalq.pdf

    48/92

    Alguns comentários da denição anterior

    1. Essa denição tem vantajas sobre P (B\A) = P (B). Por um lado é simétrica

    e não atribui valores desiguais para A e B. Além disso, P (B\A) = P (B) nãoexiste quando P (A) é zero, enquanto que P (A ∩B) = P (A)P (B) faz sentido paraqualquer evento.2. Pode ser verdadeiro ou falso, dependendo dos eventos, mas pode ser vericado,

    ainda se as probabilidades são zero ou não. Eventos independentes não é o mesmoque eventos disjuntos.

    3. Se A e B são disjuntos, então A ∩ B é o conjunto vazío, cuja probabilidade ézero, enquanto que se são independentes então A ∩B tem probabilidade igual aoproduto P (A) e P (B).Exemplo 32. Lançam-se três moedas. Vericar se são independentes os eventos:

    1. A: saída de cara na primeira moeda e

    2. B: saída de coroa na segunda e terceira moedas.

    Tarefa

    Exemplo 33. Uma urna contem 6 bolas azuis e 4 bolas brancas. 2 bolas são extraídas,uma depois a outra. São os eventos A1 :a primeira bola é azul e B2: a segunda bola é

    branca independentes?.

    3.7.1 Independência de mais de dois eventos

    Denição 28. 3 eventos A, B e C são independentes se satisfazem o seguinte:

    • P (A ∩B) = P (A) P (B)• P (A ∩C ) = P (A) P (C )• P (B ∩C ) = P (B) P (C )• P (A ∩B ∩C ) = P (A) P (B) P (C )

    Assim n eventos A1, . . . , A n são independentes se:

    P (Ai ∩A j ) = P (Ai) P (A j ) ∀i = jP (Ai ∩A j ∩Ak) = P (Ai) P (A j ) P (Ak) ∀i = j = k...

    P (A1 ∩A2 ∩. . . ∩An ) =n

    i=1

    P (Ai)

    48

  • 8/17/2019 esalq.pdf

    49/92

    Exemplo 34. Jogamos um dado duas vezes. Se denimos os seguintes eventos: A={o primeiro dado mostra um numero par}, B={o segundo dado mostra um numero ímpar},

    C ={Ambos os dados mostram um numero par ou ímpar}. Os eventos A, B e C são inde- pendentes?

    Observação 4. O teorema de Bayes proporciona uma regra para calcular a probabilidadecondicional de cada evento A i dado B a partir das probabilidades condicionais de B dadocada um dos eventos Ai e a probabilidade não condicional de cada A i .

    Resposta do exercício anterior

    • A∪B = {1, 2, 4, 6},

    • A

    ∩B = φ e

    • Ac = {1, 3, 5}.Resposta do exercício anterior Ω = {1, 2, 3, 4, 5, 6}• Um resultado igual a 4, A = {4}, então P (A) = 1 / 6.• Um resultado ímpar, B = {1, 3, 5}, então P (B) = 3 / 6 = 1/ 2.

    3.8 Teorema de Bayes As duas formulas desta seção, a lei de probabilidade total e o teorema de Bayes, seaplicam quando Ω pode ser particionado em n eventos A1, A2, A3, . . . A n , disjuntos cujaunião é Ω.

    3.8.1 Regra da Probabilidade TotalSe uma coleção den eventosA1, A2, A3, . . . , A n formam uma partição de Ω, e seP (Ai) >0, i = 1, . . . , n , então para um evento B,

    P (B) =

    n

    i=1P (B ∩Ai) , Regra do Produto

    =n

    i=1

    P (B\Ai) P (Ai).

    Exemplo 35. 3 urnas contêm bolas azuis e bolas brancas. A urna um contem 1 bola azul e3 brancas, a urna dois contem 3 bolas azuis e 7 brancas, e a urna 3 contem 80 bolas azulese 20 brancas. Uma urna é escolhida ao acaso (cada elecção tem a mesma probabilidadede ser seleccionada) e uma bola é escolhida desde a urna com igual probabilidade. Qual a probabilidade de que a bola seja azul?

    49

  • 8/17/2019 esalq.pdf

    50/92

    3.8.2 Teorema de BayesSe uma coleção nita de eventos A1, A2, A3, . . . , A n forma uma partição de Ω, e seP (Ai) > 0∀i = 1, . . . , n , então para algum evento B e alguma partição Ai , então:

    P (Ai\B) =P (B\Ai)P (Ai)ni=1 P (B\Ai)P (Ai)

    (3.3)

    em que,

    • P (Ai), é uma probabilidade a priori, isto é, antes realizar o experimento.• P (B\Ai), é uma probabilidade condicional.

    • P (Ai\B), é uma probabilidade a posteriori, isto é, quando o experimento já foirealizado.Exemplo 36. Suponha que um frabricante de sorvetes recebe 20% de todo o leite queutiliza de uma fazenda F 1 , 30% de uma fazenda F 2 e 50% de uma fazenda F 3. Um órgãode scalização inspecionou as fazendas e observou que 20% do leite produzido por F 1estava adulterado por adição de água, enquanto que para F 2 e F 3 essa proporção era de5% e 2% , respectivamente. Na indústria de sorvetes os galões de leite são armazenados emum refrigerador sem identicação das fazendas. Para um galão escolhido ao acaso, qualé a probabilidade de que a amostra adulterada tenha sido obtida do leito fornecido pela fazenda F 1?

    50

  • 8/17/2019 esalq.pdf

    51/92

    Capítulo 4

    Variáveis Aleatórias

    4.1 IntroduçãoNa prática é, muitas vezes, mais interessante associarmos um número a um eventoaleatório e calcularmos a probabilidade da ocorrência desse número do que a probabil-idade do evento. Introduziremos a seguir o conceito de variáveis aleatórias.

    4.2 Denição de variável aleatória

    Denição 29. Seja ε um experimento aleatório e Ω o espaço amostral associado com ε.Uma função X que associa a cada um dos elementos de ω ∈Ω , um número real X (ω) , sedenomina variável aleatória. Isto, pode ser representado da seguinte forma

    X : Ω→Rω X (ω)

    Exemplo 37. Se lança uma moeda duas vezes e se dene a variável aleatória X como onúmero de caras obtido nos dois lançamentos. Dena ε , Ω e os possíveis valores da variávelaleatória X .

    Observação 5. Uma variável aleatória pode ser classicada em

    1. variável aleatória discreta ou

    2. variável aleatória continua.

    4.2.1 Variável aleatória discreta

    Denição 30. Uma variável aleatória é discreta quando os possíveis valores da variávelaleatória assumem valores em um conjunto enumerável.

    Exemplo 38. A seguir alguns exemplos,

    51

  • 8/17/2019 esalq.pdf

    52/92

    • número de sementes que germinam.

    • número de chamadas telefônicas numa central da TIM em 30 minutos.

    • número de acidentes na rua XV de novembro.• número de mulheres na ESALQ.

    4.2.2 Variável aleatória continua

    Denição 31. Uma variável aleatória é continua quando os possíveis valores da variávelaleatória não assumem valores em um conjunto enumerável.

    Exemplo 39. A seguir alguns exemplos,

    • rendimento de milho (kg/ha),• diâmetro de uma árvore,• ângulo entre o norte e a direção tomada por um pássaro no sentido horário,• altura de plantas.

    Teorema 1. O caso mais simples de variável aleatória é a função indicadora que denimosa seguir. Seja A⊂Ω. Então, a função indicadora de A , I A é denida por

    I A(ω) = 1 se ω ∈A ;0 se ω ∈Ac.

    Exemplo 40. A seguir alguns exemplos,

    • para uma variável aleatória discreta

    I {0,1,2,3}(x) = 1 se x∈ {0, 1, 2, 3} ;0 se x /∈ {0, 1, 2, 3}.

    • para uma variável aleatória continua

    I R + (x) = 1 se x∈

    R + ;0 se x /∈

    R + .

    52

  • 8/17/2019 esalq.pdf

    53/92

    4.3 Função de probabilidades

    Denição 32. Uma função P (X = x) de uma variável aleatória discreta se denomina função de probabilidades se satisfaz as seguintes duas condições

    P (X = x) ≥ 0 x∈Rx e

    x∈R x

    P (X = x) = 1 ,

    em que, Rx denota os possíveis valores da variável aleatória X . A distribuição de proba-bilidades de X é o conjunto de pares ordenados (x i , P (X = xi)) , em que xi representa osdiferentes valores da variável aleatória X e P (X = xi) a probabilidade de ocorrência dexi .

    Exemplo 41. Seja X uma variável aleatória com função de probabilidades

    P (X = x) =16

    para x = 1, 2, 3, 4, 5, 6

    Determine se P (X = x) é uma função de probabilidades.

    4.4 Função densidade de probabilidades

    Denição 33. Uma função f (x) de uma variável aleatória continua se denomina funçãodensidade de probabilidades se satisfaz as seguintes duas condições:

    f (x) ≥ 0 x∈Rx

    x∈R x f (x) x . = 1,em que, Rx denota os possíveis valores da variável aleatória X .

    Exemplo 42. Se X é uma variável aleatória continua com função

    f (x) = 1 parax∈[0, 1].f (x) é uma função densidade de probabilidades?

    Tarefa

    Exemplo 43. Seja X uma variável aleatória continua

    f (x) = 1b−a

    parax∈[a, b].

    f (x) é uma função densidade de probabilidades?

    53

  • 8/17/2019 esalq.pdf

    54/92

    Exemplo 44. Seja X uma variável aleatória continuaf (x) = λe−λ x parax

    (0,

    ∞), λ > 0

    f (x) é uma função densidade de probabilidades?Exemplo 45. Seja X uma variável aleatória continua

    f (x) = 1λ

    e−1λ x parax∈(0, ∞), λ > 0

    f (x) é uma função densidade de probabilidades?

    4.5 Função de distribuição acumulada

    Denição 34. Dada a variável aleatória X, chamaremos de função de distribuição acumu-lada a função F (x) denida por:

    F : R →[0, 1]x F (x) = P (X ≤x)

    4.5.1 Para uma variável aleatória discreta

    Denição 35. Seja uma variável aleatória discreta X, então a função de distribuição acu-mulada se deno como

    F (x) = P (X ≤x) =x i ≤x

    P (X ≤xi).

    Exemplo 46. Seja X uma variável aleatória discreta com função de probabilidades dada por

    P (X = x) = 3!

    (3 −x)!x!12

    x 12

    3−xI {0,1,2,3}(x)

    Determine e faça o gráco de F (x).

    4.5.2 Para uma variável aleatória continuaDenição 36. Seja uma variável aleatória continua X, então a função de distribuiçãoacumulada se deno como

    F (x) = P (X ≤x) = x

    −∞f (t)t..

    Exemplo 47. Seja X uma variável aleatória continua com função densidade de probabili-dades dada por

    f (x) = e−x parax∈(0, ∞). Determine F (x).

    54

  • 8/17/2019 esalq.pdf

    55/92

    Relação entre f (x) e F (x) para uma variável aleatória continuaSeja f (x) uma função densidade de probabilidades, isto é, uma função não negativaque integra 1. Qual é a relação entre F (x) e f (x)?

    F (x) = P (X ≤x) = x

    −∞f (t) d t. (4.1)

    Note da equação (4.1) que com base no teorema teorema fundamental do cálculo inte-gral

    f (x) =d F (x)

    d x .

    Observação 6. Para uma variável aleatória continua

    P (X = x) = 0 x ∈RP (a < X < b ) = P (a < X ≤b) = P (a ≤X < b) = P (a ≤X ≤b)

    = b

    af (x) d x = F (b) −F (a).

    4.6 Esperança de uma variável aleatória

    4.6.1 variável aleatória discreta

    Denição 37. A esperança de uma variável aleatória discreta X , é denida por

    E (X ) =x∈R x

    x P (X = x).

    Exemplo 48. Determine E (X ) para a seguinte variável aleatória discreta

    P (X = x) = px (1 − p)1−x parax∈ {0, 1}.

    4.6.2 variável aleatória continua

    Denição 38. A esperança de uma variável aleatória continua X , é denida por

    E (X ) = + ∞

    −∞x f (x) d x.

    Exemplo 49. Determine E (X ) para a seguinte variável aleatória continua

    f (x) = 1b−a

    parax∈[a, b],

    55

  • 8/17/2019 esalq.pdf

    56/92

    Tarefa

    Exemplo 50. Determine E (I A(x)) , em queI A(x) =

    1, se x ∈ A;0, se x /∈ A.

    Exemplo 51. Determine E (X ) para a seguinte variável aleatória continua

    f (x) =1λ

    e−x/λ parax∈(0, ∞).Exemplo 52. Determine E (X ) para a seguinte variável aleatória continua

    f (x) = λe−λx parax∈

    (0,

    ∞).

    4.6.3 Propriedades da esperançaSejam X e Y duas variáveis aleatórias, a, b∈

    R (constantes), então1. E (a) = a.

    2. E (aX ±bY ) = aE (X ) ±bE (Y ).3. E (aX ) = aE (X ).

    4. E (aX ±b) = aE (X ) ±b.5. E [(X −a)2] = E (X 2) −2aE (X ) + a2.6. E (XY ) = E (X )E (Y ), se X e Y são variáveis aleatórias independentes.

    Exemplo 53. Seja X uma variável aleatória discreta com

    P (X = x) = px (1 − p)1−x parax∈ {0, 1}. Determine E (2X + 1) .

    4.7 Variância para uma variável aleatóriaDenição 39. Seja X uma variável aleatória e µ = E (X ). A variância de X é denida por

    V (X ) = E (X −µ)2= E (X 2 −2Xµ + µ2)= E (X 2) −2µE (X ) + µ2, usando propriedades de esperança= E (X 2) −2µµ + µ2, µ = E (X )= E (X 2) −µ2, µ = E (X )= E (X

    2

    ) −E (X )2

    .56

  • 8/17/2019 esalq.pdf

    57/92

    Geralmente usamos a seguinte denição de variância

    V (X ) = E (X 2

    ) −E (X )2

    . Note que V (X ) = E (X −µ)2 ≥0.

    4.7.1 Variância para uma variável aleatória discreta

    Denição 40. A variância para uma variável aleatória discreta é dada por

    V (X ) =x∈R x

    x2 P (X = x) −x∈R x

    x P (X = x)2

    .

    Exemplo 54. Sejam X 1 e X 2 duas variáveis aleatórias. Com base na seguinte tabelacalcule V (X 1) e V (X 2) e faça alguns comentários.

    x 1 2 3 4 5P (X 1 = x1) 0.1 0.2 0.4 0.2 0.1P (X 2 = x2) 0.3 0.1 0.2 0.1 0.3

    4.7.2 Variância para uma variável aleatória continua

    Denição 41. A variância para uma variável aleatória continua é dada por

    V (X ) = x∈R x x2 f (x) d x − x∈R x x f (x) d x2

    .

    Exemplo 55. Determine V (X ) , com base em

    f (x) = 1 parax∈[0, 1].

    Tarefa

    Exemplo 56. Determine V (X ) , com base em

    f (x) = 1b−a

    parax∈[a, b].

    Exemplo 57. Determine V (X ) , com base em

    f (x) = λ e−λ x parax∈(0, ∞) λ > 0.

    57

  • 8/17/2019 esalq.pdf

    58/92

    4.7.3 Propriedades da variânciaSejam X e Y variáveis aleatórias, a e b constantes, então

    1. V (aX + b)

    2. V (a) = 0

    3. V (aX ) = a2V (X )

    4. V (−X ) = V (X )5. V (X ±Y ) = V (X ) ±V (Y ), se X e Y são variáveis aleatórias independentes.

    TarefaExemplo 58. Seja X uma variável aleatória discreta com

    P (X = x) = px (1 − p)1−x parax∈ {0, 1}. Determine V (2X + 1) .

    58

  • 8/17/2019 esalq.pdf

    59/92

    Capítulo 5

    Variáveis aleatórias discretas

    5.1 Distribuição BernoulliSe um experimento possui dois possíveis resultados, sucesso e fracasso. Seja p a prob-abilidade de sucesso e 1 − p a probabilidade de fracasso. A variável aleatória Bernoullidenota o número de sucessos em uma única tentativa do experimento aleatório, assimRx = {0, 1}. A função de probabilidades está dada por

    P (X = x) = px (1 − p)1−x para x∈ {0, 1}, p∈(0, 1). (5.1)Notação X

    ∼Ber ( p).

    Tarefa

    Observação 7. A esperança e variância de uma variável aleatória X ∼ Ber ( p) são, re- spectivamenteE (X ) = p e V (X ) = p (1 − p).

    5.2 Distribuição Binomial

    Uma variável aleatória X que conta o número total de sucessos em n ensaios (tentati- vas) independentes de Bernoulli de um mesmo experimento aleatório é uma variávelaleatória Binomial com parâmetros n e p, em que p denota a probabilidade constante desucesso em cada ensaio Bernoulli, assim Rx = {0, 1, . . . , n }. A função de probabilidadesde X é dada por

    P (X = x) = n!

    (n −x)!x! px (1 − p)n−x para x∈ {0, 1, 2, . . . , n }. p∈(0, 1) (5.2)

    Notação X ∼Bin (n, p).

    59

  • 8/17/2019 esalq.pdf

    60/92

    Observação 8. A esperança e variância de uma variável aleatória X ∼ Bin (n, p) são,respectivamenteE (X ) = n p e V (X ) = n p (1 − p)

    Exemplos de distribuição Binomial

    Exemplo 59. A probabilidade de que um paciente se recupere de uma doença rara do sangue é 0.4. Sabemos que 15 pessoas tem a doença.a) Qual é a probabilidade de que pelo menos 10 pessoas sobrevivam?

    b) Qual é a probabilidade de que sobrevivam entre 3 e 8 pessoas?

    c) Qual é a probabilidade de que sobrevivam exatamente 5 pessoas?d) Calcular E (X ).

    e) Calcular V (X ).Exemplo 60. Numa criação de coelhos, 40% são machos. Qual a probabilidade de quenasçam pelo menos 2 coelhos machos num dia em que nasceram 20 coelhos?

    5.3 Distribuição de Poisson

    Consideremos a probabilidade de ocorrência de sucessos em um determinado intervaloou uma região especíca, assim Rx = {0, 1, 2,...}. A função de probabilidades de X édada por

    P (X = x) = e−λ λx

    x! para

    ∈Rx = {0, 1, 2 . . .} λ > 0. (5.3)Notação X ∼P (λ).Observação 9. Podemos provar que se X ∼P (λ) , então

    E (X ) = λ e V (X ) = λ

    Exemplos de distribuição Poisson1. Número de carros que passam por um cruzamento por minuto, durante uma certa

    hora do dia

    2. número de erros tipográcos por página, em um material impresso.

    3. número de colônias de bactérias numa dada cultura por 0,01mm 2, numa plaquetade microscópio.

    4. número de mortes por ataque de coração por ano, numa cidade.

    60

  • 8/17/2019 esalq.pdf

    61/92

    Exemplos de distribuição Poisson

    Exemplo 61. O número médio de partículas radioativas que pasam por um contadordurante um milisegundo num experimento de laboratório é 4. Qual a probabilidade de queentrem 6 partículas ao contador num milisegundo determinado?Exemplo 62. Num livro de 800 páginas há 800 erros de impressão. Qual a probabilidadede que uma página contenha pelo menos 3 erros?Exemplo 63. Numa central telefônica chegam 300 telefonemas por hora. Qual a proba-bilidade de que

    1. num minuto não haja nenhum chamado?

    2. em 2 minutos haja 2 chamados?

    3. em t minutos não haja chamados?Teorema 2. Se X ∼ B(n, p) e supondo n grande (n → ∞) e p pequeno (p → 0), entãoλ = np , isto é,

    P (X = x) =nx

    px (1 − p)n−x ≈ e−λ λx

    x! isto é, (5.4)

    lim p→0 n→∞

    P (X = x) = e−λ λx

    x! (5.5)

    Este teorema essencialmente diz que podemos aproximar a distribuição Binomial pela dis-tribuição Poisson sempre que n seja grande e p pequeno.Exemplo 64. Uma companhia de seguros arma que 0.1% da população tem certo tipode acidentes cada ano. Se os 10000 segurados da companhia foram selecionados aleato-riamente desde a população. Qual será a probabilidade de que no máximo de 5 de estosclientes, tenham um acidente o proximo ano?

    Solução do exercício anterior

    A : Pessoa segurada pela companhia sofre um acidente.X ∼B(10000, 0.001), logo

    P (X ≤5) =5

    x=0

    10000x

    (0.001)x (0.999)(10000 −x)

    Como n é grande e p é pequeno, calcularemos esta probabilidade usando a aproximaçãoda distribuição Binomial pela distribuição Poisson, isto é, λ = 10000 ×0.001 = 10. Portanto,

    P (X ≤5) =5

    x=0

    e−λ λxx!

    = 0.0671 Conferir!!!!.

    61

  • 8/17/2019 esalq.pdf

    62/92

    Capítulo 6

    Distribuição Normal

    6.1 IntroduçãoO modelo normal ocupa uma posição de grande destaque tanto a nível teórico comoprático, isso porque o modelo normal representa com boa aproximação muitos fenô-menos da natureza como, por exemplo, a característica altura de plantas de Amaran-thus, cuja distribuição de frequência é dada na gura 1. Observe que existe uma tendên-cia das observações se concentrarem próximo do valor central, ou seja, da média dadistribuição, e esta concentração vai diminuindo a medida que os valores de altura vãoaumentando e diminuindo, ou seja, existe baixa concentração de plantas baixas, assimcomo de plantas altas. A distribuição é aproximadamente simétrica, isto é, tomando amédia como ponto central, a lado esquerdo é aproximadamente igual ao lado direito.

    Altura de plantas

    N

    ú m e r o

    d e o

    b s e r v a ç õ e s

    24 26 28 30 32 34

    0

    2

    4

    6

    8

    Figura 6.1: Distribuição de frequência da altura de plantas de Amaranthus (cm)

    62

  • 8/17/2019 esalq.pdf

    63/92

    6.2 Distribuição Normal

    Denição 42. Dizemos que uma variável aleatória contínua X tem distribuição normal,com parâmetros µ e σ2 , em que µ ∈ (−∞, + ∞) e σ2 ∈ (0, + ∞) , representam a média ea variância da população X , respectivamente, se a sua função densidade de probabilidade for dada por:

    f (x) = 1√ 2πσ 2 exp −

    (x −µ)22σ2

    x∈(−∞, + ∞)em que exp representa a base dos logaritmos naturais e vale aproximadamente 2, 7182 ,

    π = 3, 1416 e σ é o desvio padrão. Notação X ∼N (µ, σ2). Pode-se demonstrar que:

    • E (X ) = µ• V (X ) = σ2

    • f (x) é simetrica ao redor de x = µ ,

    Grácos da distribuição normal

    •6 •4 •2 0 2 4 6

    0 . 0

    0 . 1

    0 . 2

    0 . 3

    0 . 4

    Gráfico de X~N(mu, sigma2=1) para diferentes valores de mu

    x

    f ( x

    )

    •6 •4 •2 0 2 4 6

    0 . 0

    0 . 1

    0 . 2

    0 . 3

    0 . 4

    Gráfico de X~N(mu=0, sigma2) para diferentes valores de sigma2

    x

    f ( x

    )

    Figura 6.2: Grácos da distribuição N(µ, σ2)

    Código R

    #Média diferente igual variância

    par(mfrow=c(1,2))

    63

  • 8/17/2019 esalq.pdf

    64/92

    curve(dnorm(x,0,1),-6,6,lwd=2,col="blue",ylab="f(x)", main="Gráfico de X~N(mu, sigma2=1)\n para diferentes valores de mu")

    curve(dnorm(x,1,1),-6,6,lwd=2,col="red", add=T)curve(dnorm(x,-1,1),-6,6,lwd=2,col="black", add=T)

    #média igual diferente variânciacurve(dnorm(x,0,1),-6,6,lwd=2,col="blue",ylab="f(x)", main="Gráfico de X~N(mu=0, sigma2)\n para diferentes valores de sigma2")curve(dnorm(x,0,3),-6,6,lwd=2,col="red", add=T)curve(dnorm(x,0,2),-6,6,lwd=2,col="black", add=T)

    6.2.1 Cálculos de probabilidades A probabilidade de uma variável aleatória com distribuição normal tomar um valorentre dois pontos quaisquer, por exemplo, entre os pontos a e b é igual a área sob acurva normal compreendida entre aqueles dois pontos. Veja a gura 5.11. Suponha,então, que X ∼ N (µ, σ2) e queiramos determinar a probabilidade de X estar entre a eb, portanto, como estamos interessados em obter uma área, devemos realizar o seguintecálculo:

    P (a ≤X ≤b) = b

    a

    1√ 2πσ 2 exp −

    (x −µ)22σ2

    x.

    Acontece que essa integral não pode ser calculada exatamente, consequentemente, aprobabilidade só pode ser obtida aproximadamente, e por métodos numéricos. Podemosobter estas probabilidades com o uso de programas computacionais estatísticos, entreos quais podemos citar o Statistica, Minitab, SAS e R.

    Exemplo: Cálculos de probabilidadesSe X ∼N (0, 1), calcule P (−3 ≤X ≤ −1). Temos que,Exemplo 65.

    P (−3 ≤X ≤ −1) = −1

    −31

    √ 2π exp −x2

    2 x .

    6.2.2 A distribuição normal padrão

    Denição 43. Se X ∼N (µ, σ2) , então a variável aleatória Z denida por:Z =

    X −µσ

    tem uma distribuição N (0, 1) , isto é, tem distribuição normal com média µ = 0 e variância

    σ2

    = 1 , cuja função densidade de probabilidade é dada por:64

  • 8/17/2019 esalq.pdf

    65/92

    •3 •2 •1 0 1 2 3

    0 . 0

    0 . 1

    0 . 2

    0 . 3

    0 . 4

    x

    f ( x

    )

    Figura 6.3: Cálculo de P (−3 ≤X ≤ −1), X ∼N (0, 1)

    f (z ) = 1√ 2π exp −z 2

    2.

    6.2.3 O uso da tabela da distribuição normal padrão Arquivo no site da disciplinahttp://www.lce.esalq.usp.br/arquivos/aulas/2014/LCE0216/tabela_distribuicao_normal_padrao.pdf

    Exemplo 66. Calcule as seguintes probabilidades, supondo que Z ∼N (0, 1)

    • P (Z ≤2, 10)• P (Z ≥2, 10)• P (Z ≥ −2, 10)• P (Z ≤ −2, 10)• P (−2, 10 ≤Z ≤2, 10)

    Exemplo 67. Calcule as seguintes probabilidades, supondo que X ∼N (3, 16)

    • P (X ≤2)• P (X ≥5)• P (X ≥ −5)• P (X ≤ −2)• P (2 ≤X ≤5)

    65

  • 8/17/2019 esalq.pdf

    66/92

    Aplicação

    Estudos meteorológicos indicam que a precipitação pluviométrica mensal em períodosde seca numa certa região pode ser considerada como seguindo a distribuição normalde média 30mm e variância 16mm 2.

    • Em um mês de seca qual a probabilidade de que chova mais de 34mm?• Em um mês de seca qual a probabilidade de que chova menos de 42mm?• Em um mês de seca qual a probabilidade de que chova entre 34mm e 42mm?

    66

  • 8/17/2019 esalq.pdf

    67/92

    Capítulo 7

    Introdução à inferência estatística

    7.1 Introdução Agora, vamos ver como reunir a Análise Exploratória de Dados, Modelos Probabilísti-cos e Amostragem, para podermos desenvolver um estudo importantíssimo dentro daestatística, conhecido pelo nome de Inferência Estatística, isto é, como tirar conclusõessobre parâmetros da população (por exemplo, sobre médias (µ), proporções ( p), variân-cias (σ2)) com base no estudo de somente uma parte da população, ou seja, com baseem uma amostra.

    7.2 Conceitos básicos7.2.1 População

    Denição 44. Uma população, em estatística, é formada por todos os valores possíveisde uma característica desejável. Esses valores não precisam ser todos diferentes, nem umnúmero nito.

    Exemplo 68. Exemplos de populações

    1. todos os valores possíveis da produção de milho em quilogramas por hectare (kg/ha);

    2. todos os pesos ao nascer de coelhos da raça gigante, em gramas;

    3. todos os valores de diâmetros de Biomphalarias do Poção do Córrego Grande;

    4. todos os valores de micronúcleos de roedores de uma região poluída.

    7.2.2 Amostra

    Denição 45. Uma amostra, é uma parte (subconjunto) da população

    Exemplo 69. Exemplos de amostras67

  • 8/17/2019 esalq.pdf

    68/92

    1. os rendimentos de milho, em kg/ha, de uma amostra de 5 unidades experimentais(canteiros);

    2. os pesos ao nascer de uma ninhada de coelhos da raça gigante;3. os diâmetros de uma amostra de 30 Biomphalarias do Poção do Córrego Grande;

    4. os valores de micronúcleos de uma amostra de 25 roedores.

    7.2.3 Estatística

    Denição 46. Uma estatística é uma medida usada para descrever uma característica daamostra.

    Exemplo 70. Exemplos de estatísticas são1. X̄ a média da amostra;

    2. S o desvio padrão da amostra e

    3. P a proporção da amostra.

    7.2.4 Parâmetros

    Denição 47. Um parâmetro é uma medida usada para descrever uma característica da população.

    Geralmente são representados por letras gregas, assim, por exemplo, µ representaa média populacional; π representa a proporção populacional e σ representa o desviopadrão populacional.

    7.2.5 Estimativa

    Denição 48. Quando uma estatística assume um determinado valor, temos o que denomina- se de estimativa. Temos os dados de uma particular amostra, calculamos o valor da estatís-tica de interesse, este valor é a nossa estimativa.

    Exemplo 71. Alguns exemplos de estimtiva são1. a estimativa da produção média por planta da cultivar Gala é de x̄ = 84 kg/planta.

    2. a estimativa da proporção de peixes com comprimento total menor do que 50 mm é p = 46%.

    Observação 10. Os dois problemas básicos da inferência estatística são:1. Estimação e

    2. Testes de Hipóteses.Vamos, através de um exemplo, ilustrar estas duas situações.

    68

  • 8/17/2019 esalq.pdf

    69/92

    Exemplo de problema de estimação

    Exemplo 72. Um pesquisador está interessado em avaliar a produção média por planta,µ , da cultivar de maçã denominada Gala, para as seguintes condições: plantas com idadede aproximadamente 5 anos, em bom estado tossanitário, cultivadas com alta tecnologiae para a região I do zoneamento agroclimático de Santa Catarina. A população é formada por todas as plantas da cultivar Gala nas condições citadas. Mais especicamente, a pop-ulação é constituída por todos os valores de produção por planta. Para essa nalidade, o pesquisador vai coletar uma amostra aleatória de, por exemplo, 10 plantas, da referidacultivar nas condições descritas. Uma amostra de valores de produções por planta, em kg, foi:

    Plantas 1 2 3 4 5 6 7 8 9 10 x̄ sProdução 84 82 90 86 80 91 85 79 81 82 84 4,0552

    Com os 10 valores de produção/planta podemos calcular uma estimativa da pro-dução média verdadeira por planta, x̄ = 84 kg. Portanto, estamos usando a médiada amostra, X̄ , como estimador da média verdadeira, µ. Essa estimativa é chamadade estimativa pontual, pois origina um único valor. Esse é um raciocínio tipicamenteindutivo, onde se parte do particular (amostra) para o geral (população).

    Observação