Estatística: Aplicação ao Sensoriamento RemotoEstatística: Aplicação ao Sensoriamento Remoto
SER 203 - ANO 2014SER 203 - ANO 2014
Teoria da amostragemTeoria da amostragem
Camilo Daleles Rennó[email protected]
http://www.dpi.inpe.br/~camilo/estatistica/
Algumas Considerações...Algumas Considerações...
É importante ter consciência de que dominar as técnicas estatísticas não é
suficiente para garantir o sucesso de uma análise, ou seja, conseguir
chegar a conclusões “interessantes”.
De forma geral, para que as análises estatísticas sejam válidas, as
amostras devem representar a população, ou seja, a menos que
discrepâncias ocorram devido ao acaso, as amostras devem reproduzir
as mesmas características da população considerando a variável
estudada.
É fundamental que as amostras sejam obtidas por processos adequados
de modo a evitar que erros grosseiros possam comprometer a análise
dos dados.
Algumas Considerações...Algumas Considerações...
Em muitos casos, é bastante tentador que as observações mais
convenientes sejam as selecionadas para compor uma amostra ou então
aplicar algum tipo de critério (ou julgamento) no momento dessa
seleção.
Nesses casos, pode-se introduzir algum tipo de tendência que poderá
causar uma super ou subestimativa dos parâmetros de interesse. A
identificação (e descrição) desta tendência é quase sempre difícil (ou
impossível) de ser feita após a coleta dessas amostras.
Assim, para se evitar esse tipo de problema, o ideal é que a seleção das
amostras seja feito através de algum processo aleatório, de modo que
qualquer elemento da população tenha igual chance de ser escolhido
para compor a amostra.
Censo ou Amostragem?Censo ou Amostragem?
Por que fazer Censo?
a população é pequena ou amostragem indicada é quase tão grande quanto a
população
necessita-se de uma precisão completa (não é permitido nenhum erro)
os dados de toda população já se encontram disponíveis
Por que fazer Amostragem?
a população é infinita (ou muito grande)
os custos de obtenção das medidas são elevados (análises muito caras)
o tempo para caracterização da população é muito longo
deseja-se aumentar a representatividade, amostrando-se diferentes
subgrupos
necessita-se melhorar a precisão das medidas (mais cuidado na obtenção dos
dados)
a obtenção das medidas requer a destruição das amostras (p. ex: biomassa)
AmostragemAmostragem
Toda amostragem requer planejamento
a) O que quero caracterizar neste estudo?algum parâmetro específico (média, variância, etc),distribuição espacial, variação temporal?
b) Qual é a unidade amostral apropriada para o estudo?quem é o elemento da população?
c) Quantas amostras são necessárias?qual é a precisão exigida?quanto tempo e recurso disponho?
d) Como estas amostras devem ser coletadas?qual é a variabilidade espacial e temporal?quais fatores podem influenciar nos resultados?
Unidade AmostralUnidade AmostralA unidade amostral representa a menor entidade identificada na população e
é considerada o objeto de estudo.Em um mapa, por exemplo, a unidade amostral pode ser:
• pontos simples (ou pixels numa imagem)sorteio aleatório é facilitadomesmo com GPS, a localização precisa pode ser difícil de ser alcançadapode induzir a erros em regiões heterogêneas
• grupos de pontos ou pixelsconsidera a informação contextualminimiza problemas de georreferenciamentodeve representar áreas homogêneas (deve-se evitar áreas de transição)deve ser contabilizado como apenas uma observação e portanto deve-se adotar uma medida representativa para o grupo (média, mediana, etc)
• polígonos (ou objetos)mesmos benefícios encontrados em grupos de pontosdificilmente há correspondência espacial perfeita com a realidade
• grupos de polígonosútil quando os polígonos são muito pequenos
Tamanho de AmostraTamanho de Amostra
Quanto amostrar?
depende:
da variabilidade original dos dados (maior variância maior n)
da precisão requerida no trabalho (maior precisão maior n)
do tempo disponível (menor o tempo menor n)
do custo da amostragem (maior o custo menor n)
Em geral, é calculado com base no parâmetro que se deseja estimar e leva
em consideração as incertezas inerentes a esta estimação:
a) variação “natural” dos dados (variância populacional)
b) erros do tipo I e II
Tamanho da AmostraTamanho da Amostra
/2 /2 1P z X zn n
2
~ 0,X Nn
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 5 10 15 20- +
2
~ 0,X Nn
2
2
1
erro máximode estimativa
/2 /2ˆ 1pq pq
P z p p zn n
ˆ ~ 0,pq
p p Nn
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 5 10 15 20- +
ˆ ~ 0,pq
p p Nn
2
2
1
erro máximode estimativa
Média
Proporção
2 2/2
2
zn
e
/2e zn
2
/22
z pqn
e
/2
pqe z
n
Tamanho da AmostraTamanho da Amostra
Correção para populações finitas(quando a amostra representa mais que 5% da população)
Nnn
n1
1'
2
2/22
22/
2
1'
zeN
zNn
2
2/2
22/
1'
zpqeN
zNpqn
Para média:
Para proporção:
n = tamanho de amostra sem correção
N = tamanho da populaçãon' = tamanho de amostra corrigido
Tamanho da AmostraTamanho da Amostra
Exemplo: Deseja-se estimar a exatidão de um mapa de modo que o valor estimado não ultrapasse em 8% a exatidão verdadeira (para mais ou para menos), utilizando-se um nível de confiança de 95%. Suponha que a exatidão verdadeira é de 80%.
2
/ 22
z pqn
e
2
2
1,96 0,80 0,2096,04 96
0,08n n
2
2
1,96 0,50 0,50150,06 150
0,08n n
No pior caso (maior variância), a exatidão verdadeira seria de 50%.
Tamanho da AmostraTamanho da Amostra
Pode também considerar também o erro (tipo II)
Exemplo para proporção
Hipóteses
H0 : p = p0
H1: p < p0
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 5 10 15 20
p0
1
H0
p1
H1
0 00ˆ 1
p qP p p z
n
Considerando H1verdadeira (p = p1)
0 00 1
1
1 1 1 1
ˆp q
p z pp p nPp q p q
n n
z
0 01 10 1
p qp qP z z p p
n n
2
1 1 0 0
2
0 1
z p q z p qn
p p
Tamanho da AmostraTamanho da Amostra
Exemplo: Deseja-se testar se a exatidão de um mapa é no mínimo de 85%, adotando-se 5% de nível de significância. Deseja-se, ainda, fixar a probabilidade em 6% de se aceitar um mapa com 81% de exatidão (erro tipo II).
2
2
1,555 0,81 0,19 1,645 0,85 0,15
0,85 0,81
896n
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 5 10 15 20
0,85
1
H0
0,81
H1
H0 : p = 0,85
H1: p = 0,81
2
1 1 0 0
2
0 1
z p q z p qn
p p
Tipos de AmostragemTipos de Amostragem
Amostragem probabilística:
cada elemento da população tem uma probabilidade (não nula) de ser
escolhidoAmostragem não probabilística:
amostragem restrita aos elementos que se tem acesso (ex: estudo sobre
ocorrência de focos de dengue em casas de veraneio)
escolha a esmo (ex: estudo sobre a variabilidade no DAP em talhões de
reflorestamento de eucalipto)
impossibilidade de sorteio (ex: estudo sobre qualidade de água num rio)
amostragem intencional ou por julgamento (ex: estudo sobre o comportamento
social de machos adultos de muriquis)
voluntários (ex: estudo sobre a eficácia de uma nova vacina contra febre
amarela)
Como amostrar?
amostragem probabilística X não probabilística
Amostragem Aleatória SimplesAmostragem Aleatória Simples
Escolhe-se n elementos de uma população de tamanho Namostra = {X1, X2, ..., Xn}
Exemplo: escolher 10 pixels de uma imagem 13x17etapas: rotular cada pixel com um código
únicosortear aleatoriamente 10 códigos
(tabelas ou geradores de números aleatórios)
identificar os pixels selecionadosOBS: método mais simplesrotulação dos elementos pode ser
dispendiosapressupõe população homogêneanão garante representatividade pois alguns
grupos (mais raros) podem não ser sorteados
OBS: garante menor variabilidadegarante melhor representatividadepressupõe estratos homogêneosrequer conhecimento prévio sobre os
estratos
Amostragem Aleatória EstratificadaAmostragem Aleatória EstratificadaPrimeiramente a população (N) é dividida em L sub-populações
(estratos) com N1, N2, ..., NL elementos. Para cada estrato, escolhe-se ni elementos aleatoriamente, totalizando n elementos.
ii
Nn n
N
proporcionais a Ni
i
nn
L
todos iguais 1
i ii L
i ii
N sn n
N s
tamanho ótimo
(considera a variabilidade)
Exemplo: escolher 10 pixels de uma imagem 13x17etapas: selecionar um estrato
rotular cada pixel com um código únicosortear aleatoriamente ni códigos
(tabelas ou geradores de números aleatórios)identificar os pixels selecionadosrepetir o processo para todos os
estratos
Amostragem SistemáticaAmostragem SistemáticaSe os elementos da população já se encontram ordenados segundo
algum critério, pode-se selecionar um elemento qualquer e escolher um “passo” que definirá qual será o próximo elemento escolhido.
1 10 20
passo = 5
Exemplo: escolher pixels de uma imagem 13x17 com passos 5 em x e 4 em yetapas: escolher aleatoriamente um pixel na
célula 5x4 superior esquerda
com base nesse pixel, definir uma grade com
espaçamento de 5x4 elementosidentificar os pixels selecionados
OBS: amostra-se uniformemente todo o espaçogarante-se 1 amostra por célula (5x4 no exemplo
acima)pode-se não conseguir o valor exato de amostras
pretendidasdesaconselhado para ordenações periódicas
Amostragem Sistemática Não AlinhadaAmostragem Sistemática Não Alinhada
Exemplo: escolher pixels de uma imagem 13x17 com passos máximos de 5 em x e 4 em yetapas: a cada célula 5x4 da primeira linha,
definir um passo em ya cada célula da primeira coluna, definir
um passo em x
identificar os pixels selecionados
A ideia é semelhante da amostragem sistemática mas, nesse caso, tenta-se aleatorizar os passos de modo a desalinhar as amostras sorteadas.
Ainda assim, garante-se apenas uma amostra para cada célula
Outras AmostragensOutras Amostragens
Amostragem em múltiplos estágios
talhões
amostragem sistemáticadentro do talhão
Amostragem por conglomerados
conglomerados
amostra-se todos (ou alguns)elementos do conglomerado