35
CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA 25 DE AGOSTO DE 2015 TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 Humberto José Bortolossi http://www.professores.uff.br/hjbortol/ Universidade Federal Fluminense

TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

Embed Size (px)

Citation preview

Page 1: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICAINSTITUTO DE MATEMÁTICA E ESTATÍSTICA

25 DE AGOSTO DE 2015

TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS

AULA 04

Humberto José Bortolossihttp://www.professores.uff.br/hjbortol/

Universidade Federal Fluminense

Page 2: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

PESQUISAS DE OPINIÃO PÚBLICA

Uma pesquisa de opinião pública é uma pesquisa em que os membros da amostrafornecem informações, respondendo perguntas específicas feitas por um“entrevistador”. A interação pergunta-e-resposta pode ser feita através de umquestionário, uma entrevista por telefone ou uma entrevista direta face a face.

Nos dias de hoje, pesquisas de opinião pública são usadas regularmente para medir“o pulso da nação”. Elas nos dão informações estatísticas indo das preferências devoto antes de uma eleição até assuntos como ambiente, aborto e a economia.

No Brasil, vários institutos realizam pesquisas de opinião pública: Ibope, Datafolha,Vox Populi, Sensus.

Devido à influência que exercem, é importante questionar o quanto podemos confiarnas informações que recebemos de pesquisas de opinião pública. Esta é uma questãocomplexa que está no coração da estatística matemática. Vamos ver algunsexemplos históricos.

Page 3: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

ESTUDO DE CASO 2: A PESQUISA DE OPINÃO PÚBLICA DE 1936 DA LITERARY DIGEST

Contexto: Alfred Landon (partido republicano) e Franklin D. Roosevelt (partidodemocrata) disputaram a presidência dos Estados Unidos em 1936. A LiteraryDigest, uma conceituada revista na época, conduziu uma pesquisa de opiniãopública algumas semanas antes da realização da eleição.

A base de amostragem usada pela Literary Digest consistiu de uma lista enorme denomes que incluía (1) toda pessoa com nome em alguma lista telefônica nos EstadosUnidos, (2) toda pessoa que assinava alguma revista na época e (3) toda pessoainscrita em algum clube ou associação profissional.

A partir desta base de amostragem, uma lista de cerca de 10 milhões de nomes foicriada e, para cada nome nesta lista, foi enviada uma cédula de votação fictícia juntocom um pedido para que a pessoa marcasse sua preferência na cédula e a enviassede volta para a revista.

Page 4: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

ESTUDO DE CASO 2: A PESQUISA DE OPINÃO PÚBLICA DE 1936 DA LITERARY DIGEST

Com base nos resultados da pesquisa, a Literary Digest previu uma vitóriaesmagadora para Landon com 57% dos votos, contra 43% de Roosevelt.

Surpreendentemente, a eleição acabou com uma vitória esmagadora de Rooseveltcom 62% dos votos, contra 38% para Landon. A diferença entre a previsão davotação e os resultados eleitorais reais foi de 19%, o maior erro em uma pesquisa deopinião pública. Isso acabou com a credibilidade da revista que, após a eleição, viusuas vendas diminuírem drasticamente. A revista teve, portanto, que fechar seusnegócios: uma vítima de um grande erro estatístico.

Page 5: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

ESTUDO DE CASO 2: A PESQUISA DE OPINÃO PÚBLICA DE 1936 DA LITERARY DIGEST

Para a mesma eleição, um jovem pesquisador chamado George Gallup foi capaz deprever com precisão uma vitória para Roosevelt usando uma amostra de “apenas”50.000 pessoas.

De fato, Gallup também conseguiu obter, com diferença de 1%, os resultadosincorretos da Literary Digest usando uma amostra de apenas 3.000 pessoas retiradasda mesma base de amostragem que a revista estava usando.

O que deu errado com a enquete Literary Digest e por que Gallup conseguiu fazermuito melhor?

Page 6: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

ESTUDO DE CASO 2: A PESQUISA DE OPINÃO PÚBLICA DE 1936 DA LITERARY DIGEST

O primeiro grande erro da Literary Digest foi a escolha da base de amostragem:pessoas com telefone, assinantes de revistas, membros de clubes e associações.Em 1936, telefones eram artigos de luxo. Assinaturas de revistas e associações emclubes eram ainda mais, num momento em que 9 milhões de pessoas estavamdesempregadas (grande depressão de 1930). Em termos da situação econômica,a base de amostragem escolhida pela Literary Digest estava longe de serrepresentativa. Este foi um ponto crucial, pois muitas vezes os eleitores votamconsiderando questões econômicas e, dadas as condições econômicas da época, issoera especialmente verdadeiro em 1936.

Quando a escolha da amostra tem uma tendência embutida (intencional ou não) paraexcluir um determinado grupo ou característica na população, dizemos quea pesquisa sofre de um viés de seleção (selection bias em inglês).

É claro que vieses de seleção devem ser evitados, mas nem sempre é fácil detectá-los antecipadamente. Mesmo as tentativas mais cuidadosas para eliminar vieses deseleção podem falhar (como veremos em nosso próximo estudo de caso).

Page 7: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

ESTUDO DE CASO 2: A PESQUISA DE OPINÃO PÚBLICA DE 1936 DA LITERARY DIGEST

O segundo problema sério com a enquete da Literary Digest foi a questão doviés de não-resposta (nonresponse bias, em inglês). Em uma pesquisa típica, deve-se entender que nem todo indivíduo está disposto a participar (e em umademocracia, não podemos forçá-los a fazê-lo).

Aqueles indivíduos que não querem participar da pesquisa são chamados de não-respondentes (nonrespondents, em inglês) e aqueles que participam são chamadosde respondentes (respondents, em inglês). A percentagem de respondentes naamostra total é chamada de taxa de resposta (response rate, em inglês).

Para a enquete da Literary Digest, da amostra de 10 milhões de pessoas paraas quais foram enviadas uma cédula de votação fictícia, apenas cerca de 2,4 milhõesdevolveram a cédula preenchida para a revista, resultando em uma taxa de respostade 24%. Quando a taxa de resposta de uma pesquisa é baixa, dizemos a pesquisasofre de um viés de não-resposta. Exatamente em que ponto a taxa de resposta deveser considerada baixa depende das circunstâncias e da natureza da pesquisa, masuma taxa de resposta de 24% é geralmente considerada muito baixa.

Page 8: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

ESTUDO DE CASO 2: A PESQUISA DE OPINÃO PÚBLICA DE 1936 DA LITERARY DIGEST

Um dos problemas significativos com a enquete da Literary Digest foi a de quea pesquisa foi realizada por carta. Esta abordagem é muito propensa a ter um viés denão-resposta, porque muitas vezes as pessoas consideram um questionário enviadopelo correio apenas como uma outra forma de lixo postal. É claro que, dadoo tamanho da amostra (10 milhões de nomes), a Literary Digest quase não tinhauma escolha. Isto ilustra outro ponto importante: maior não é melhor. Uma amostragrande pode ser mais um problema do que uma vantagem.

A estória da Literary Digest tem duas morais: (1) é melhor usar uma amostrapequena bem escolhida do que uma amostra grande mal escolhida, e (2) fique atentopara vieses de seleção e vieses de não-resposta.

Page 9: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

AMOSTRAGEM POR CONVENIÊNCIA

Existe sempre um custo (esforço, tempo, dinheiro) associado com a coleta de dados,e é um fato que esse custo é proporcional à qualidade dos dados coletados: paraobter dados melhores, mais esforço se faz necessário para recolhê-los.

Uma técnica comumente usada em amostragem é conhecida como amostragem porconveniência (convenience sampling, em inglês). Na amostragem por conveniência,a seleção de quais indivíduos estarão na amostra é feita seguindo o que é mais fácilou barato para o coletor de dados, sem a preocupação de se obter uma amostrarepresentativa.

Um exemplo clássico de amostragem por conveniência é aquela ondeentrevistadores escolhem um local fixo, como um shopping ou um supermercado, epedem para os transeuntes participarem de uma pesquisa de opinião pública.

Page 10: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

AMOSTRAGEM POR CONVENIÊNCIA

Um tipo diferente de amostragem por conveniência ocorre quando a amostra ébaseada na autosseleção (self-selection, em inglês), isto é, a amostra é constituídapor indivíduos que se oferecem para estar nela.

Autosseleção é a razão pela qual as enquetes feitas em programas de televisão nãosão confiáveis. Ainda mais quando o participante tem que pagar para participar.Uma amostra composta inteiramente de indivíduos que pagaram para estar neladificilmente será uma amostra representativa da opinião pública geral.

Amostragem por conveniência não é sempre ruim: às vezes, não há outra escolha ouas alternativas são tão caras que elas têm que ser descartadas. Devemos ter emmente, contudo, que os dados coletados por meio da amostragem por conveniênciasão naturalmente tendenciosos e devem ser sempre questionadas (sempre devemosconhecer os detalhes de como os dados foram coletados). Mais frequentementedo que não, amostragem por conveniência fornece dados que são muito poucoconfiáveis para serem de qualquer valor científico. Com dados, como acontece comtantas outras coisas, você recebe o que você paga.

Page 11: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

AMOSTRAGEM POR COTAS

A amostragem por cotas (quota sampling, em inglês) é um esforço sistemáticopara forçar que a amostra seja representativa de uma determinada população atravésdo uso de cotas: a amostra deve ter tantas mulheres, tantos homens, tantos negros,tantos brancos, tantas pessoas que vivem em áreas urbanas, tantas pessoas quevivem em áreas rurais, e assim por diante. As proporções de cada categoria naamostra devem ser as mesmas que na população original.

Supostamente, se assumirmos que cada característica importante da população élevada em conta quando as cotas forem criadas, é razoável esperar que a amostraseja representativa da população e que os dados obtidos sejam confiáveis.

Nosso próximo estudo de caso ilustra algumas das dificuldades com os pressupostospor de trás da amostragem por cotas.

Page 12: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

ESTUDO DE CASO 3: A ELEIÇÃO PRESIDENCIAL DOS ESTADOS UNIDOS EM 1948

George Gallup introduziu amostragem por cotas já em 1935 e a usou com sucessopara prever o vencedor das eleições presidenciais nos Estados Unidos em 1936,1940 e 1944.

A amostra por cotas, portanto, adquiriu a reputação de ser um método deamostragem “cientificamente confiável” e, com a eleição presidencial de 1948,todas as três principais pesquisas nacionais – a pesquisa do Gallup, a pesquisaRoper e a pesquisa Crossley – usaram amostragem por cotas para fazer suasprevisões.

Page 13: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

ESTUDO DE CASO 3: A ELEIÇÃO PRESIDENCIAL DOS ESTADOS UNIDOS EM 1948

Para a eleição de 1948 entre Thomas Dewey e Harry Truman, Gallup conduziu umapesquisa com uma amostra de cerca de 3.250 pessoas.

Cada indivíduo na amostra foi entrevistado pessoalmente por um entrevistadorprofissional para minimizar o viés de não-resposta, e a cada entrevistador foi dadoum conjunto muito detalhado de cotas para atender, por exemplo, sete homensbrancos com menos de 40 que vivem em uma área rural, 5 homens negros com maisde 40 que vivem em uma área rural, 6 mulheres brancas com menos de 40 quevivem em uma área urbana, e assim por diante. No momento em que todosos entrevistadores atingissem suas cotas, esperava-se que a amostra representassefielmente toda a população em todos os aspectos: gênero, raça, idade e assim pordiante.

Com base em sua amostra, Gallup previu que Dewey, o candidato republicano,venceria a eleição com 49,5% dos votos, contra 44,5% de Truman (com candidatosde outros partidos contabilizando os 6% restantes).

Page 14: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

ESTUDO DE CASO 3: A ELEIÇÃO PRESIDENCIAL DOS ESTADOS UNIDOS EM 1948

As pesquisas Roper e Crossley também previram uma vitória fácil para Dewey.De fato, depois que uma pesquisa no início de setembro mostrou Truman perdendopara Dewey por 13 pontos percentuais, Roper anunciou que iria descontinuarpesquisas futuras, uma vez que o resultado já era tão óbvio.

O jornal Chicago Daily Tribune estava tão convencido da vitória de Dewey, que suaprimeira edição para o dia 4 de novembro de 1948 estampava a seguinte manchete:"Dewey derrota Truman".

Mas o resultado final da eleição foi 49,9% dos votos para Truman e 44,5% paraDewey.

Page 15: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

ESTUDO DE CASO 3: A ELEIÇÃO PRESIDENCIAL DOS ESTADOS UNIDOS EM 1948

A imagem de Truman erguendo uma cópia do Tribune e sua fala de então"Não foi assim que eu ouvi" tornaram-se parte do folclore norte-americano.

Page 16: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

ESTUDO DE CASO 3: A ELEIÇÃO PRESIDENCIAL DOS ESTADOS UNIDOS EM 1948

Para pesquisadores e estatísticos, as previsões erradas da eleição de 1948 deramduas lições: (1) faça pesquisas até o dia da eleição e (2) amostragem por cotas éintrinsecamente falha.

O que há de errado com a amostragem por cotas? Afinal, a ideia básica parece sermuito boa: forçar que a amostra tenha cada característica importante da populaçãorepresentada proporcionalmente. Desde que renda é um fator importante nadeterminação de como as pessoas votam, a amostra deve ter todos os grupos derenda representados na mesma proporção que a população em geral. O mesmo deveacontecer para sexo, raça, idade e assim por diante. Assim, podemos ver umproblema potencial: onde é que vamos parar? Não importa o quão cuidadosossejamos, sempre podemos deixar passar algum critério que afeta a maneira comoas pessoas votam e a amostra será então deficiente a este aspecto.

Page 17: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

ESTUDO DE CASO 3: A ELEIÇÃO PRESIDENCIAL DOS ESTADOS UNIDOS EM 1948

Uma falha ainda mais grave na amostragem por cotas é que, além de satisfazeras cotas, os entrevistadores estão livres para escolher quem eles querem entrevistar.Isso abre a porta para um viés de seleção. Olhando para trás ao longo da história daamostragem por cotas nos Estados Unidos, podemos ver uma clara tendênciaa superestimar o voto republicano.

Gallup foi capaz de prever corretamente o vencedor em cada uma das eleiçõesanteriores (1936, 1940 e 1944) usando amostragem por cotas, principalmenteporque a diferença entre os candidatos era grande o suficiente para cobrir o erro.Em 1948, Gallup (e todos os outros pesquisadores) ficaram sem sorte. Era hora deabandonar a amostragem por cotas.

Page 18: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

UM EXEMPLO NO BRASIL

Pesquisa feita em 13 de junho de 2013

< http://www.youtube.com/watch?v=6dk0sdyYcdY >

Page 19: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

SEÇÃO 13.3: AMOSTRAGEM ALEATÓRIA

Page 20: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

AMOSTRAGEM ALEATÓRIA

A melhor alternativa para substituir a seleção de uma amostra por um humano édeixar que as leis do acaso o façam. Métodos de amostragem que usama aleatoriedade como parte de sua concepção são conhecidos como métodos deamostragem aleatória (random sampling em inglês) e qualquer amostra obtidaatravés de uma amostragem aleatória é denominada uma amostra aleatória(random sample, em inglês) (ou uma amostra probabilística).

No início, a ideia de deixar o acaso escolher a amostra parece ser um poucocontraditória. Como pode um processo com base na seleção aleatória garantir umaamostra não enviesada? Por azar, este esquema não poderia produzir uma amostraenviesada? Em teoria, esse resultado é possível mas, na prática, quando a amostra égrande o suficiente, as chances de isso acontecer são tão baixas que podemospraticamente descartá-lo.

A maioria dos métodos atuais de controle de qualidade na indústria, auditoriasempresariais em negócios e pesquisas de opinião pública é baseada em amostragemaleatória. A confiabilidade dos dados coletados por meio de métodos deamostragem aleatória é suportada pela experiência prática e pela teoria matemática.

Page 21: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

AMOSTRAGEM ALEATÓRIA SIMPLES

A forma mais básica de amostragem aleatória é chamada de amostragem aleatóriasimples (simple random sampling, em inglês). Ela se baseia no mesmo princípio deuma lotaria: qualquer conjunto de elementos de tamanho n tem uma oportunidadeigual de ser escolhido como qualquer outro conjunto de mesmo tamanho (n).

Page 22: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

AMOSTRAGEM ALEATÓRIA SIMPLES

Em teoria, a amostragem aleatória simples é fácil de implementar. Colocamoso nome de cada indivíduo da população em “um chapéu”, misturamos bemos nomes e, depois, tiramos tantos nomes quantos forem necessários para a nossaamostra.

É claro que "um chapéu" é apenas uma metáfora. Se nossa população é de 100milhões de eleitores e queremos escolher uma amostra aleatória simples de 2000,não vamos colocar todos os 100 milhões de nomes em um chapéu real e, emseguida, retirar 2000 nomes um a um. Nos dias de hoje, o "chapéu" é uma base dedados computacional que contém uma lista dos membros da população. Umprograma de computador seleciona então aleatoriamente os nomes.

Page 23: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

AMOSTRAGEM ALEATÓRIA SIMPLES

A amostragem aleatória simples é uma boa ideia para populações pequenas ecompactas, mas não é adequada quando se trata de pesquisas nacionais e sondagensde opinião pública.

A implementação de amostragem aleatória simples em pesquisas de opinião públicanacional levanta problemas de conveniência e custo. Entrevistar centenas de pessoasescolhidas por amostragem aleatória simples significa visitar as pessoas em todoo país, uma tarefa que exige uma enorme quantidade de tempo e dinheiro. Paraa maioria das pesquisas de opinião pública, especialmente aquelas feitasregularmente, o tempo e o dinheiro necessários para fazer isso simplesmente nãoestão disponíveis.

Page 24: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

AMOSTRAGEM ESTRATIFICADA

A alternativa à amostragem aleatória simples usada hoje em dia para sondagensnacionais e pesquisas de opinião pública é um método de amostragem conhecidacomo amostragem estratificada (stratified sampling, em inglês).

A ideia básica da amostragem estratificada é quebrar a base de amostragem emcategorias, denominadas estratos (strata, em inglês) e, em seguida, (ao contráriode amostragem por cotas) escolher aleatoriamente uma amostra desses estratos.Os estratos escolhidos são, então, divididos em categorias, denominadas substratos,e uma amostra aleatória é tomada destes substratos. Os substratos selecionados sãoainda subdivididos, uma amostra aleatória é tomada a partir deles e assim pordiante. O processo continua por um número pré-determinado de passos (geralmentequatro ou cinco).

Nosso próximo estudo de caso ilustrará como a amostragem estratificada funcionano caso de uma pesquisa de opinião pública nacional. Variações básicas da mesmaideia podem ser usadas em nível estadual, municipal ou local. Os detalhesespecíficos, é claro, serão diferentes.

Page 25: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

ESTUDO DE CASO 4: PESQUISAS NACIONAIS DE OPINIÃO PÚBLICA

Em pesquisas de opinião pública nacional os estratos e substratos são definidos poruma combinação de critérios geográficos e demográficos. Por exemplo, a nação éprimeiro dividida em estratos por "tamanho da comunidade" (cidades grandes,cidades médias, cidades pequenas, vilas, áreas rurais, etc.) .

Os estratos são, então, subdivididos por região geográfica (Nova Inglaterra,Atlântico Médio, Estados Montanhosos, etc.). Esta é a primeira camada desubstrato. Dentro de cada região geográfica e dentro de cada estrato por tamanho dacomunidade, algumas comunidades (chamadas locais de amostragem) sãoselecionadas por amostragem aleatória simples. Os locais de amostragemselecionados são os únicos lugares onde as entrevistas irão ocorrer.

Page 26: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

ESTUDO DE CASO 4: PESQUISAS NACIONAIS DE OPINIÃO PÚBLICA

Em seguida, cada um dos pontos de amostragem selecionados é ainda subdivididoem unidades geográficas denominados distritos (wards). Esta é a segunda camadade substrato.

Dentro de cada local de amostragem, alguns dos distritos são selecionados por meiode amostragem aleatória simples. Os distritos selecionados são, então, divididos emunidades menores, chamadas zonas (precincts), a terceira camada, e dentro de cadadistrito selecionado, algumas zonas são selecionadas por amostragem aleatóriasimples.

Na última fase, famílias (quarta camada) são selecionadas dentro de cada zona poramostragem aleatória simples. Aos entrevistadores são dadas instruções específicasquanto a quais famílias eles devem realizar entrevistas e a ordem que eles devemseguir.

Page 27: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

ESTUDO DE CASO 4: PESQUISAS NACIONAIS DE OPINIÃO PÚBLICA

Page 28: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

ESTUDO DE CASO 4: PESQUISAS NACIONAIS DE OPINIÃO PÚBLICA

A eficiência da amostragem estratificada em comparação com a amostragemaleatória simples em termos de custo e tempo é clara. Os membros da amostra estãoagrupados em áreas bem definidas e facilmente controláveis, reduzindosignificativamente o custo da realização de entrevistas, bem como o tempo deresposta necessário para recolher os dados. Para uma nação grande e heterogêneacomo os Estados Unidos, a amostragem estratificada tem provado ser uma maneiraconfiável de coleta de dados nacionais.

E sobre o tamanho da amostra? Surpreendentemente, a amostra não precisa sermuito grande. Tipicamente, uma pesquisa Gallup é baseada em amostras queconsistem em cerca de 1500 indivíduos e aproximadamente o mesmo tamanho deamostra pode ser utilizada para pesquisar tanto a população de uma pequena cidadequanto a população dos Estados Unidos. O tamanho da amostra não tem de serproporcional ao tamanho da população.

Page 29: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

SEÇÃO 13.4: TERMINOLOGIA E CONCEITOS CHAVES EM AMOSTRAGEM

Page 30: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

TERMINOLOGIA E CONCEITOS CHAVES EM AMOSTRAGEM

Como vimos, com exceção de um censo, a maneira comum de se recolherinformação estatística sobre uma população é por meio de uma pesquisa. Em umapesquisa, usamos um subconjunto da população, chamado de amostra, como a fontede nossa informação e, a partir dessa amostra, tentamos generalizar e tirarconclusões sobre toda a população.

Estatísticos usam o termo estatística (statistics, em inglês) para descrever qualquertipo de informação numérica obtida a partir de uma amostra. Uma estatística ésempre uma estimativa para alguma medida desconhecida, chamada um parâmetro(parameter, em inglês) da população.

Vamos colocar desta forma: um parâmetro é a informação numérica quegostaríamos de ter – o pote de ouro no final do arco-íris estatístico, por assim dizer.O cálculo de um parâmetro é difícil e muitas vezes impossível, já que a únicamaneira de se obter o valor exato para um parâmetro é a utilização de um censo. Seusarmos uma amostra, então podemos obter apenas uma estimativa parao parâmetro e esta estimativa é chamada de estatística.

Page 31: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

TERMINOLOGIA E CONCEITOS CHAVES EM AMOSTRAGEM

Usaremos o termo erro de amostragem (sampling error, em inglês) (erro amostral)para descrever a diferença entre um parâmetro e uma estatística utilizada paraestimar o parâmetro.

Em outras palavras, o erro de amostragem mede o quanto os dados obtidos a partirde um levantamento é diferente dos dados que seriam obtidos se um censo tivessesido usado. É claro, o objetivo da amostragem é evitar o uso de um censo e, sendoassim, erros de amostragem só podem ser estimados. Normalmente, as estimativaspara os erros de amostragem são dadas em termos de uma margem de erro, tal comoem "A margem de erro da pesquisa foi de mais ou menos 3%.“. Veremos com maisdetalhes o significado de frases como esta no Capítulo 16.

Page 32: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

TERMINOLOGIA E CONCEITOS CHAVES EM AMOSTRAGEM

O erro de amostragem pode ser atribuído a dois fatores: erros aleatórios e vieses deamostragem. Erros aleatórios (chance error, em inglês) são o resultado do fatobásico de que uma amostra, sendo apenas uma amostra, só pode nos dar umainformação aproximada sobre a população. Na verdade, diferentes amostras sãosuscetíveis de produzir estatísticas diferentes para uma mesma população, mesmoquando as amostras são escolhidas exatamente da mesma maneira, um fenômenoconhecido como variabilidade de amostragem (sampling variability, em inglês)(variabilidade amostral). Enquanto que a variabilidade de amostragem e, então,os erros de amostragem, são inevitáveis, uma seleção cuidadosa da amostra e dotamanho da amostra podem minimizar esses valores.

Viés de amostragem (sample bias, em inglês) é o resultado da escolha de umaamostra ruim e é um problema muito mais grave do que um erro aleatório. Mesmocom as melhores intenções, obter uma amostra representativa de toda a populaçãopode ser muito difícil e o processo pode ser afetado por muitos fatores sutis. Viés deamostragem é o resultado. Ao contrário de erros aleatórios, vieses de amostragempodem ser eliminados através de métodos adequados de seleção da amostra.

Page 33: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

TERMINOLOGIA E CONCEITOS CHAVES EM AMOSTRAGEM

Por último, faremos alguns comentários sobre o tamanho da amostra, tipicamenterepresentado pela letra n (em contraste com N, o tamanho da população).

A relação n/N é chamada proporção de amostragem. Uma proporção deamostragem de x% nos diz que o tamanho da amostra é igual a x% da população.Em geral, é muito difícil determinar exatamente a proporção de amostragem(teríamos que saber os valores exatos de N e n).

Em qualquer caso, não é a proporção de amostragem que é importante, mas simo tamanho absoluto da amostra e sua qualidade. Normalmente, as modernaspesquisas de opinião pública utilizam amostras com n entre 1000 e 1500 para obterestatísticas que têm uma margem de erro de menos de 5%, seja paraa população de uma cidade, uma região, ou todo um país. Veremos mais detalhessobre essa ideia no Capítulo 16.

Page 34: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

PERGUNTA: O QUE É ALEATORIEDADE?

Page 35: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 04 · INSTITUTO DE MATEMÁTICA E ESTATÍSTICA. 25 DE AGOSTO DE 2015. TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS. AULA 04. Humberto

AGORA: EXERCÍCIOS EM SALA DE AULA