Upload
vitor-vieira-vasconcelos
View
104
Download
1
Embed Size (px)
Citation preview
Inferência Estatística: Conceitos Básicos IIntrodução, Medidas de Tendência Central, Medidas de Variabilidade, Distribuições de Frequência e Probabilidade
Vitor Vieira Vasconcelos
BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento
Junho de 2016
O Que Estudaremos na Aula de Hoje
• Populações e Amostras
• Medidas de Tendência Central: Média, Moda, Mediana
• Medidas de Variabilidade: Variância e Desvio Padrão
• Curva Normal
• Distribuições de Frequência e Probabilidade
• Escores padrão
• Cálculo da probabilidade sob a curva normal
Como pesquisadores, estamos interessados eminvestigar questões que se apliquem a toda uma
população de pessoas ou coisas.
A população pode ser geral (todos os sereshumanos) ou pequena (todos os edifícios de São Caetano com mais de 15 andares)
Raramente temos acesso aos dados de toda a população, mas apenas de um subconjunto uma
amostra, que utilizamos para inferir coisas sobre
toda a população
Populações & Amostras
Quanto maior a amostra maior a probabilidade de ela refletir a população inteira
Amostras aleatórias da mesma população podemfornecer resultados ligeiramente diferentes
Em media, resultados de grandes amostras deverãoser bastantes similares
Populações & Amostras
Método científico para tirar conclusões sobre osparâmetros da população a partir da coleta,
tratamento e análise dos dados de uma amostrarecolhida dessa população.
Inferência Estatística
Média como um modelo estatístico
Média do número de habitantes por domicílio
Nos ajuda a representar simplificadamente (modelar) esteaspecto particular da realidade
Digamos que eu tenha uma amostra de 5 domicílios, cadaqual com os seguintes números de habitantes:
Em média temos 2,6 habitantes por domicílio
1 2 3 3 4
Média como um modelo estatístico
Média do número de habitantes por domicílio
Em média temos 2,6 habitantes por domicílio(considerando nossa amostra)
Mas é impossível ter 2,6 habitantes em um domicílio!!!
A média é um valor hipotético, um MODELOcriado para resumir nossos dados
Média como um modelo estatístico
Uma maneira útil de descrever um grupo comoum todo:
• Qual é a renda média das famílias residentes naMooca?
• Qual é a altura média dos edifícios em São Caetano?
• Qual é o PIB médio dos municípios localizadosno arco do desmatamento?
Inferência Estatística se resumindo a uma equação…
Saídai = (Modeloi) + erroi
Ou seja, os dados que observamos podem serprevistos pelo modelo que escolhemos para
ajustar os dados mais um erro
Este modelo é preciso? O quão diferente nossos dados reais são do
modelo criado?
Média (2,6)
Desvios(erro do modelo)
Nr.
de
hab
itan
tes
Domicílio
Erro total = soma dos desvios
Nr.
de
hab
itan
tes
Domicílio
Zero???
Para evitar o problema do errodirecionado (ou seja, positivoou negativo), elevamos cada
erro ao quadrado
Usando os desvios para estimar a precisão do modelo
Usando os desvios para estimar a precisão do modelo
Soma dos erros ao quadrado(SS)
Nr.
de
hab
itan
tes
Domicílio
Boa medida de acurácia do nosso modelo!
Só que… quanto mais dados, maior a SS.
VariânciaUma opção: Dividir SS pelo número de observações (N) médiado quadrado do erro para a amostra
Essa medida é conhecida como VARIÂNCIA – “média do quadradodos desvios”
No entanto, como geralmentequeremos usar o erro na amostra paraestimar o erro na população, dividiremos o SS pelo nr. de observações menos 1 (graus de liberdade).
Assim, aumentamos ligeramente a variância amostral para produzirestimativas não tendenciosas (maisprecisas) da variância populacional
Estimativa da variância da população usando n amostrasaleatórias xi onde i = 1, 2, ..., n.
Um problema com o uso da variância como medida de erro: Ela éexpressa em unidades quadradas (colocamos cada erro aoquadrado no cálculo)
No caso do exemplo, diríamosque o quadrado da média do erro do nosso modelo foi de 1,3 habitantes.
[Alteramos nossa unidade de medida!]
Estimativa da variância da população usando n amostrasaleatórias xi onde i = 1, 2, ..., n.
Variância
Uma alternativa:
Tirar a raiz quadrada da variância
DESVIO PADRÃO
É simplesmente a raiz quadrada da variância!
O desvio padrão (s) é uma medida de quão bem a médiarepresenta os dados! Média dos desvios a contar da média
Desvio Padrão
Que todos os escores são os mesmos!
Revela a dispersão dos dados emrelação à média.
s pequeno: observações estão próximasda média
s grande: observações estão distantes da média
s = 0 : O que significa?
Média com boa aderência aos dados
Médias iguais, mas desvios padrão diferentes
Média com pobre aderência aos dados
Nr.
de
hab
itan
tes
Domicílio
Nr.
de
hab
itan
tes
Domicílio
Distribuições de Frequências
HISTOGRAMA: Gráfico com os valores observados no eixohorizontal, com barras mostrando quantas vezes cada valorocorreu no conjunto de dados
Útil para avaliar as propriedades de um conjunto de valores
ModaEscore que ocorre maisfrequentemente no conjunto de dados
Curva NormalMaioria dos escores está em torno do centro da distribuição. A medida que nos distanciamos do centro (média), a frequênciados escores diminui.
Propriedades das Distribuições de Frequências
Uma distribuição pode se desviar de uma normal de 2 maneiras principais:
(1) Falta de simetria
ASSIMETRIA
(2) Achatamento
CURTOSE
Leptocúrtica Platicúrtica
Positivamente Assimétrica Negativamente Assimétrica
DESVIO PADRÃO MAIOR
DESVIO PADRÃO MENOR
Medidas de Tendência Central
MODA (Mo): Valor mais frequente em uma distribuição
MEDIANA (Me): Medida que separa a distribuição em duas partesiguais
MÉDIA (X): Soma de um conjunto de escores dividida pelo númerototal de escores no conjunto
Medidas utilizadas para representar um conjunto de valores
Curva NormalSimétrica. Média, mediana e moda coincidem!
Nem leptocúrtica, nem platicúrticaMesocúrtica
Do pico central, a curva cai gradualmente em ambas as extremidades, chegando cada vez mais perto da reta básica, sem nunca tocá-la
É um modelo teórico ou ideal que foi obtido por meio de umaequação matemática e não de pesquisa e coleta de dados
Entretanto, é útil para situaçãoreais de pesquisa pois a distribuição de muitosfenômenos de interesse de pesquisa assume a forma da curva normal
Distribuições de ProbabilidadeDistribuições de frequência podem ser usadas para obter umaideia aproximada da probabilidade de um escore ocorrer (ou
intervalo).
Exemplo da Aula Anterior: Considerando que a distribuição do número de residentes por domicílio possui a forma de uma
distribuição normal, qual seria a probabilidade de termos, nosdados, um domicílio com 4 habitantes ou menos?
PROBABILIDADE: NOÇÃO IMPORTANTE PARA A TOMADA DE DECISÃO!!!
Distribuições de ProbabilidadeDistribuições de frequência podem ser usadas para obter umaideia aproximada da probabilidade de um escore ocorrer (ou
intervalo).
Exemplo da Aula Anterior: Considerando que a distribuição do número de residentes por domicílio possui a forma de uma
distribuição normal, qual seria a probabilidade de termos, nosdados, um domicílio com 4 habitantes ou menos?
Para facilitar nosso trabalho, estatísticos elaboraram umaforma matemática que especifica versões idealizadas das distribuições: DISTRIBUIÇÕES DE PROBABILIDADE
Distribuições de Probabilidade
A distribuição de probabilidades associa umaprobabilidade a cada resultado numérico de um
experimento, ou seja, dá a probabilidade de cadavalor (ou de intervalo de valores) de uma variável
aleatória.
É análoga a uma distribuição de frequência, exceto por serbaseada em teoria ao invés de dados empíricos(observações do mundo real)
As probabilidades representam a chance de cada escoreocorrer, diretamente análoga às porcentagens em umadistribuição de frequência.
A curva normal como uma distribuição de probabilidade
A curva normal é um ideal teórico.
No entanto, existem muitas distribuições de dados reais quese aproximam da forma da curva normal
É sempre importante checar!!!!
Construir um histograma é um bom começo!
Algumas variáveis nas ciências sociais, não se enquadram (renda e distribuiçãoetária, por exemplo)
A curva normal como uma distribuição de probabilidade
A curva normal como uma distribuição de probabilidade
Exemplo Aula Anterior:Residentes por Domicílio
Média = 2,6; s = 1,14
1,46 3,742,6
Voltando a nossa pergunta:
Considerando que a distribuição do número de residentes pordomicílio possui a forma de uma distribuição normal, qual seria a
probabilidade de termos, nos dados, um domicílio com 4 habitantes ou menos?
1,46 3,742,6
4
Residentes por DomicílioMédia = 2,6; s = 1,14
Distribuição Normal Padrão
Já calcularam a probabilidade de certos escores ocorreremnuma distribuição normal com Média = 0 & Desvio padrão = 1
DISTRIBUIÇÃO NORMAL PADRÃO
Distribuição Normal PadrãoMAS… a distribuição dos meus dados não apresenta
média = zero e desvio padrão = 1!
E aí????
QUALQUER CONJUNTO DE DADOS PODE SER CONVERTIDO EM UM CONJUNTO QUE TENHA MÉDIA
ZERO E DESVIO PADRÃO 1 !
OBA!!!!
Como fazer:
(1) Para centrar dados em zero, pegamos cada escore e subtraímos dele a média de todos os escores.
(2) Dividimos o escore resultante pelo desvio padrãopara assegurar os os resultados terão DP = 1
escores-z
Distribuição Normal PadrãoVoltando a nossa pergunta:
Considerando que a distribuição do número de residentes pordomicílio possui a forma de uma distribuição normal, qual seria a
probabilidade de termos, nos dados, um domicílio com 4 habitantes ou menos?
Considerando que a distribuição dos dados possa ser descrita como umadistribuição normal, com média = 2,6 e desvio padrão = 1,14
escores-z Primeiro Passo: Converter o valor 4 em
um escore-z (4 - 2,6)/1,14 = 1,23
Distribuição Normal Padrão
1,23
Distribuição Normal PadrãoVoltando a nossa pergunta:
Considerando que a distribuição do número de residentes pordomicílio possui a forma de uma distribuição normal, qual seria a
probabilidade de termos, nos dados, um domicílio com 4 habitantes ou menos?
Considerando que a distribuição dos dados possa ser descrita como umadistribuição normal, com média = 2,6 e desvio padrão = 1,14
escores-z Primeiro Passo: Converter o valor 4 em
um escore-z (4 - 2,6)/1,14 = 1,23
Segundo Passo: Verificar tabela
z = 1,23
A probabilidadede termos um domicílio com até 4 habitantesé de 0,8907 (89,07%)
Complementarmente, a probabilidade de termos um domicíliocom mais de 4 habitantes é de 0,1093
z = 1,96
z = -1,96
Separa os 2,5% do topo/cauda inferior da distribuição.
Ou seja, 95% dos escores estão entre -1,96 e 1,96
Alguns z-escoressão pontos de corte quedestacam pontosimportantes da distribuição.
z = 1,96
z = -1,96
Separa os 2,5% do topo/cauda inferior da distribuição.
Ou seja, 95% dos escores estão entre -1,96 e 1,96
Alguns z-escoressão pontos de corte quedestacam pontosimportantes da distribuição.
z = -2,58
z = +2,58
99% dos escores estãoentre -2,58 e 2,58
z = -3,29
z = +3,29
99,9% dos escores estãoentre -3,29 e 3,29
Alguns z-escoressão pontos de corte quedestacam pontosimportantes da distribuição.
PráticaO Ambiente SPSS