36
ANÁLISE ESTATÍSTICA DE DADOS ANÁLISE DOS DADOS Prof. M. e Josney Freitas Silva Sistemas de Informação - UEMG

Aula 01 AED Análise de Dados

Embed Size (px)

DESCRIPTION

análise de dados

Citation preview

ANÁLISE ESTATÍSTICA DE DADOS

ANÁLISE DOS DADOS

Prof. M.e Josney Freitas Silva

Sistemas de Informação - UEMG

Referência

VIEIRA, S. Análise de Variância (ANOVA). São Paulo: Atlas, 2006.

ANÁLISE DE DADOS

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 3

• Toda análise de dados quantitativos deve se iniciar com o cálculo de estatísticas descritivas como médias e desvios padrões e com desenho de gráficos, que permitem ao analista ter noção do que a análise irá revelar.

ANÁLISE DE DADOS

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 4

Exemplo: Para comparar dois métodos de ensino em informática, A e B, um professor dividiu um conjunto de alunos similares (em relação à capacidade de aprender) em dois grupos. Depois, ensinou informática aos alunos de um grupo com o método A e os do outro grupo com o método B. Ao fim do treinamento, submeteu os dois grupos à mesma prova.

ANÁLISE DE DADOS

MÉTODO

A B

6 7

5 9

7 6

3 7

5 6

2 6

4 9

8 6

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 5

Tabela 1.1 – Notas dos alunos segundo o método de ensino em informática.

40 56

Estatística Descritiva - Médias

MÉTODO MÉDIAS

A 5

B 7

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 6

0

1

2

3

4

5

6

7

8

A B

MÉD

IAS

MÉTODOS

Médias das notas dos alunos segundo método de ensino

Tabela 1.2 – Média das notas dos alunos segundo o método de ensino em informática.

Figura 1.1 – Média das notas dos alunos segundo o método de ensino em informática.

As médias das notas da Tabela 1.1 estão apresentadas na Tabela 1.2 e no Figura 1.1. É fácil perceber que os alunos do método b obtiveram médias melhores que os alunos do método A.

Estatística Descritiva - Médias

• A apresentação das médias - em tabelas e gráficos – permite comparar os métodos.

• No entanto, a comparação fica, em geral, mais clara, se a diferença for dada em percentual.

• Para isso: – Calcule a diferença das médias; – Divida a diferença das médias pela média do

tratamento escolhido como base de comparação; – Multiplique por 100, para obter o resultado em

porcentagem.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 7

Estatística Descritiva - Médias

A base de comparação é a média do grupo controle, se houver, ou a média menor. Por exemplo:

a) Calcule a diferença das médias: 7,0 − 5,0 = 2,0

b) Divida a diferença das médias pela média do tratamento A (menor média):

2,0

5,0= 0,40

c) Multiplique o resultado por 100: 2,0

5,0× 100 = 40%

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 8

A interpretação é direta: a média das notas dos alunos do método B foi 40% maior que a média das notas dos alunos no método A.

Estatística Descritiva – Desvio Padrão

Pode-se querer estudar a variabilidade das notas. É usual calcular então a variância e o desvio padrão.

a) Variância:

𝑆2 = 𝑦2 −

𝑦 2

𝑛𝑛 − 1

b) Desvio Padrão:

𝑆 = 𝑆2

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 9

Estatística Descritiva – Desvio Padrão

MÉTODO

A B

y1 y12 y2 y2

2

6 36 7 49

5 25 9 81

7 49 6 36

3 9 7 49

5 25 6 36

2 4 6 36

4 16 9 81

8 64 6 36

40 228 56 404

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 10

Tabela 1.3 – Cálculos para obtenção das variâncias dos dados da Tabela 1.1.

𝑆12 =

228 −40 2

87

= 4,00

𝑆22 =

404 −56 2

87

= 1,7143

a) Variância do método A:

b) Variância do método B:

c) Desvio Padrão do método A:

d) Desvio Padrão do método B:

𝑆1 = 4,00 = 2,00

𝑆2 = 1,7143 = 1,31

Estatística Descritiva – Desvio Padrão

MÉTODO

A 5,00 ± 2,00

B 7,00 ± 1,31

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 11

𝒚 ± 𝑺

Tabela 1.4 – Médias e desvios padrões das notas dos alunos segundo o método de ensino.

0

1

2

3

4

5

6

7

8

A B

MÉD

IAS

MÉTODOS

Figura 1.2 – Médias e desvios padrões das notas dos alunos segundo o método de ensino.

A Figura 1.2 mostra os resultados da Tabela 1.4 em gráfico. As barras representam as médias. No alto de cada barra está desenhado um segmento que representa o desvio padrão (um desvio padrão acima da barra e outro dentro simbolizando 𝑦 ± 𝑆).

Observando-a Tabela 1.4 e Figura 1.2, podemos concluir que as notas dos alunos do método A tem maior variabilidade do que as notas dos alunos do método B.

É usual apresentar a média e o desvio padrão com a indicação 𝑦 ± 𝑆).

Inferência Estatística

A média e o desvio padrão descrevem a amostra. São, portanto, estatísticas descritivas.

Mas, para quem busca conhecimento científico, pouco importa a informação que alguns indivíduos, submetidos a determinado tratamento (no exemplo, o método B de ensino de informática) obtiveram melhores resultados que outros indivíduos submetidos a outro tratamento (método A).

O que interessa saber é se determinado tratamento dá resultado melhor.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 12

Inferência Estatística

É fato dizer que os alunos submetidos ao método B obtiveram melhores resultados que os alunos submetidos ao método A.

O que é verdade para uma amostra pode ser estendido para todos que precisam do treinamento em informática?

Ou seja, o que é válido para uma amostra também é válido para a população?

Isto é fazer inferência!

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 13

Inferência Estatística

Inferência Estatística é o processo que consiste em utilizar as observações de uma amostra para estimar as propriedades da população.

Para isso, é necessário que o pesquisador adote um critério, utilizando um teste estatístico.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 14

Inferência Estatística

Voltando ao exemplo:

O professor ensinou informática para um grupo de alunos pelo o método A e outro pelo método B.

A diferença de médias foi de 2,00 pontos em favor do método B.

O professor deve, então, se perguntar: será que a diferença de médias que ocorreu na amostra é suficientemente grande para inferir que, na população, as médias são diferentes?

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 15

Inferência Estatística

As notas dos alunos submetidos ao método A e ao método B variaram.

As causas da variação das notas dos alunos submetidos ao mesmo método não foram controladas (ajuda familiar, saúde, capacidade individual de aprender, ansiedade, etc.).

As notas dos alunos submetidos ao mesmo teste variaram, portanto, ao acaso.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 16

Inferência Estatística

Mas o que explica a diferença das médias dos dois grupos? Será que essa diferença ocorreu por acaso ou porquê o método B é, mesmo, melhor do que o método A? Para responder a esta pergunta, o estatístico sugere comparar a variação entre métodos (comparar A e B) com a variação dentro de métodos (variação das notas no grupo A somada à variação das notas no grupo B) e estabelecer se a variação entre métodos é a maior. Em outras palavras, o estatística sugere submeter os dados a um teste.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 17

Inferência Estatística

Quando um pesquisador tem em mãos dados obtidos de um experimento, precisa de um teste estatístico porque o teste associa à inferência determinado nível de significância ou um p-valor.

Nível de significância de um teste é a probabilidade de erro em considerar uma amostra que não corresponde à população.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 18

Inferência Estatística

Os testes estatísticos testam hipóteses. H0: as médias são iguais (hipótese nula). H1: as médias são diferentes (hipótese alternativa). O nível de significância do teste é representado pela letra grega α (alfa) e corresponde a probabilidade de rejeitar H0 quando H0 é verdadeira. A escolha do valor de α é arbitrária, mas é tradicional usar valores: α=0,05 (5%, resultado significante) ou α=0,01 (1%, resultado altamente significante).

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 19

Comparação de dois grupos

Em seus primórdios, as ciências experimentais propunham comparar duas situações.

- Resposta obtida depois de uma intervenção com a resposta obtida antes dessa intervenção;

- Resposta do grupo tratado versus a resposta do controle.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 20

Comparação de dois grupos

Um teste estatístico proposto no início do século passado para a comparação de duas médias – o teste t de Student – é muito conhecido e usado até hoje em todas as ciências experimentais. Este teste pode ser aplicado: - Quando os grupos são independentes (ou seja,

quando foi feito um experimento inteiramente ao acaso); - Quando os dados são pareados (ou seja, quando foi

feito um experimento em blocos, cada unidade tomada como um bloco).

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 21

O teste t na comparação de dois grupos independentes

Muitos ensaios comparam dois grupos, por exemplo:

1 – o novo tratamento contra o controle negativo;

2 – o novo tratamento contra o controle positivo;

3 – dois tratamentos conhecidos.

Se os dois tratamentos são sorteados às unidades experimentais, os ensaios são randômicos, mas também são referidos na literatura como estudos comparativos de dois grupos independentes.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 22

O teste t na comparação de dois grupos independentes

O teste t de Student é indicado para testar a igualdade de duas médias quando os grupos são independentes. Os passos para realizar o teste t de Student são: a) Calcule a média de cada grupo; b) Calcule a variância de cada grupo; c) Calcule a variância ponderada, dada pela fórmula:

𝑆2 =𝑛1 − 1 𝑆1

2 + 𝑛2 − 1 𝑆22

𝑛1 + 𝑛2 − 2

d) Calcule o valor de t, que está associado a 𝑛1 + 𝑛2 − 2 graus de liberdade, pela fórmula:

𝑡 =𝑦 1 − 𝑦 2

1𝑛1

+1𝑛2

𝑆2

e) Compare o valor calculado de t (em valor absoluto) com o valor crítico de t, ao nível de significância e com os mesmos graus de liberdade.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 23

Se o valor calculado de t (em valor absoluto) for igual ou maior que o valor da tabela, rejeite a hipótese de que as médias em comparação são iguais, ao nível estabelecido de significância.

O teste t na comparação de dois grupos independentes

Para realizar o teste t de Student com os dados do exemplo, temos: a) A média de cada grupo: 𝑦 1 = 5,00 e 𝑦 2 = 7,00 b) A variância de cada grupo: 𝑆1

2 = 4,00 e 𝑆22 = 1,7143

c) A variância ponderada:

𝑆2 =8 − 1 × 4,00 + 8 − 1 × 1,7143

8 + 8 − 2= 2,857

d) O valor de t, com a 𝑛1 + 𝑛2 − 2 = 8 + 8 − 2 = 14 graus de liberdade é:

𝑡 =5,00 − 7,00

18+18

× 2,857

= 2,366

e) Para comparar o valor calculado de t (em valor absoluto) com o valor crítico de t, ao nível de significância e com os mesmos graus de liberdade é preciso encontrar o valor crítico de t que é tabelado.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 24

O teste t na comparação de dois grupos independentes

A tabela 1.5 reproduz parte da Tabela de t.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 25

Graus de liberdade

Nível de significância

0,01 0,05 0,10

11 3,106 2,201 1,796

12 3,055 2,179 1,782

13 3,012 2,160 1,771

14 2,977 2,145 1,761

15 2,947 2,131 1,753

16 2,921 2,120 1,746

Tabela 1.5 – Valores de t para o nível de significância de 0,l05 e para 14 graus de liberdade.

O teste t na comparação de dois grupos independentes

Interpretando o teste t de Student:

- Como o valor calculado de t (em valor absoluto) é maior que o valor crítico de t (2,366>2,154) ao nível de 5% de significância, rejeita-se a hipótese de que as médias das notas dos alunos são iguais, nesse nível de significância.

- Em termos práticos, o professor pode concluir que as notas obtidas por alunos submetidos ao método B são, em média, significativamente maiores que as médias obtidas por alunos submetidos ao método A (α=0,05).

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 26

O teste t na comparação de dois grupos independentes

• Muitos programas de computador fornecem a probabilidade de o valor de t ser, na distribuição teórica, maior que o valor obtido.

• Essa probabilidade é conhecida como p-valor e não é o nível de significância do teste.

• Rejeita-se a hipótese de que as médias são iguais toda vez que o p-valor for menor do que o nível de significância considerado.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 27

O teste t na comparação de dois grupos independentes

• No caso do exemplo dado, o p-valor, calculado em computador, é 0,0329.

• Como esse valor é menor que α=0,05, rejeita-se a hipótese de que as médias são iguais, nesse nível de significância.

• Da mesma forma que anteriormente, o professor pode concluir que, em média, as notas obtidas por alunos submetidos ao método b são significativamente maiores que as médias obtidas por alunos submetidos ao método A, ao nível de 0,05.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 28

O teste t nos estudos com dados pareados

Alguns ensaios utilizam as um unidades como blocos.

Se cada unidade for utilizada duas vezes, você pode dizer que foi feito um experimento em blocos, mas a literatura, classicamente, se refere a este tipo de delineamento como ensaio com dados pareados.

Por exemplo, um professor que saber se determinado método de ensino é realmente eficaz.

Para isso, ensina esse grupo de alunos por esse método, mas submete seus alunos a uma prova, tanto no início como no final do curso. 04/08/2015 08:04 Prof. M.e Josney Freitas Silva 29

O teste t nos estudos com dados pareados

São dois grupos de dados (antes e depois) dependentes ou parados (porque cada par de dados é tomado do mesmo indivíduo).

Trata-se, portanto, de uma comparação de dois grupos dependentes.

No caso, o professor quer saber é se as diferenças de notas obtidas antes e depois do curso são, em média, diferentes de zero.

Neste caso, pode-se aplicar o teste t.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 30

O teste t nos estudos com dados pareados

O teste t nos estudos com dados parados deve seguir os seguintes passos: a) Calcule as diferenças entre todas as observações pareadas: 𝑑 = 𝑦1 − 𝑦2

b) Calcule a média dessas diferenças: 𝒅 = 𝑑

𝑛

c) Calcule a variância dessas diferenças: 𝑆2 = 𝑑2−

𝑑 2

𝑛

𝑛−1

d) Calcule o valor de t, que está associado a 𝑛 − 1graus de liberdade, pela fórmula: 𝑡 =

𝑑

𝑆2

𝑛

e) Compare o valor absoluto do t calculado com o valor crítico dado em tabela, ao nível de significância e com os mesmos graus de liberdade.

Toda vez que o valor absoluto do t calculado for igual ou maior que o valor crítico dado na tabela, rejeite a hipótese de que as médias em comparação são iguais ao nível considerado de significância.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 31

O teste t nos estudos com dados pareados

Voltando ao exemplo em que o professor aplicou uma prova no início e no final de um curso.

As notas estão apresentadas na Tabela 1.6.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 32

Início Final

2 7

3 6

5 8

1 6

4 8

2 7

7 10

6 9

0 5

Tabela 1.6 – Notas no início e no final do curso.

O teste t nos estudos com dados pareados

Para fazer o teste:

a) Calcule as diferenças entre antes de depois, conforme está apresentado na Tabela 1.7:

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 33

Início Final Diferença

2 7 5

3 6 3

5 8 3

1 6 5

4 8 4

2 7 5

7 10 3

6 9 3

0 5 5

Tabela 1.7 – Notas no início e no final do curso e as diferenças.

d2

25

9

9

25

16

25

9

9

25

152 36

O teste t nos estudos com dados pareados

b) Calcule a média das diferenças: 𝑑 = 4 c) Calcule a variância das diferenças:

𝑆2 = 𝑑2 −

𝑑 2

𝑛𝑛 − 1

=152 −

36 2

99 − 1

= 1

d) Calcule o valor de t, dado pela fórmula: 𝑡 =𝑑

𝑆2

𝑛

=4

1

9

= 12

com 𝑛 − 1 = 9 − 1 = 8 graus de liberdade. e) Compare o valor absoluto do t calculado com o valor crítico dado em tabela, ao nível estabelecido de significância e com os mesmos graus de liberdade.

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 34

O teste t nos estudos com dados pareados

Interpretando o teste t Student para dados pareados:

- ao nível de significância de 0,05 e com 8 graus de liberdade, o valor de t, na tabela, é de 2,306.

- Como o valor absoluto do t calculado é 12, maior que o valor crítico, rejeita-se a hipótese de que em média, as notas dos alunos antes e depois do curso são iguais, nesse nível de significância.

- Em termos práticos, o professor pode concluir que, em média, as notas obtidas por alunos depois do curso são significativamente maiores que as médias obtidas por alunos antes do curso (α=0,05).

- Neste caso, o p-valor, calculado em computador, é 0,0000. como esse valor é menor que α=0,05, rejeita-se a hipótese de que as médias são iguais, nesse nível de significância. 04/08/2015 08:04 Prof. M.e Josney Freitas Silva 35

Exercícios

04/08/2015 08:04 Prof. M.e Josney Freitas Silva 36