Análise de dados quantitativos [modo de compatibilidade]

Noções Básicas sobre

Análise de Dados Quantitativos

Prof. Dra. Hilma KhouryProf. Dra. Hilma KhouryUniversidade Federal do Pará

Instituto de Filosofia e Ciências HumanasFaculdade de Psicologia

E-mail: [email protected]: 98112-4808/ 98800-5762/ 3201-8057

�Quem faz pesquisa quantitativa quer a noção do conjunto.

�Quer traçar uniformidades.

�Quer encontrar regularidades nos fenômenos sociais e no comportamento humano.

�Professores universitários percebem a aposentadoria de forma positiva ou negativa?

�Necessidade de técnicas para ver o conjunto.

�Professores satisfeitos com o seu trabalho teriam uma visão mais negativa da aposentadoria do que os insatisfeitos?

APOSENTADORIAAPOSENTADORIA

�Necessidade de técnicas para comparar grupos diferentes.

DESCRITIVAS

MEDIDAS DETENDENCIA

MEDIDAS DE

TESTES PARA COMPARAR

MÉDIAS

INFERENCIAIS

TENDENCIA CENTRAL

DEDISPERSÃO

MÉDIAS

TESTES PARA COMPARAR

FREQUENCIAS

TESTES PARA VERIFICAR

CORRELAÇÃO

ESTATÍSTICAS DESCRITIVAS

Ver o conjuntoVer o conjunto

DESCRITIVAS

MEDIDAS DE MEDIDAS DE TENDÊNCIA CENTRAL DISPERSÃO

MÉDIA

MEDIANA

MODA

DESVIO PADRÃO

VARIÂNCIA

ESTATÍSTICAS DESCRITIVASMedidas de Tendência CentralMedidas de Tendência Central

N Idade1 60 602 75 603 65 644 90 645 73 656 75 657 64 658 65 659 78 679 78 6710 65 7211 67 7312 60 7513 65 7514 72 7815 64 90Média 1038/15 69,2Mediana 65Moda 65

ESTATÍSTICAS DESCRITIVASMedidas de DispersãoMedidas de Dispersão

N Idade Média Desvio Desvio2

1 60 69,2 - 9,2 84,642 60 69,2 - 9,2 84,643 64 69,2 - 5,2 27,044 64 69,2 - 5,2 27,045 65 69,2 - 4,2 17,646 65 69,2 - 4,2 17,647 65 69,2 - 4,2 17,648 65 69,2 - 4,2 17,649 67 69,2 - 2,2 4,849 67 69,2 - 2,2 4,8410 72 69,2 2,8 7,8411 73 69,2 3,8 14,4412 75 69,2 5,8 33,6413 75 69,2 5,8 33,6414 78 69,2 8,8 77,4415 90 69,2 20,8 432,64

Soma dos Quadrados dos Desvios 898,4Variância V = 898,40/15 59,89

Desvio Padrão DP = √59,89 7,74

ESTATÍSTICAS INFERENCIAIS

Testam hipóteses e modelosTestam hipóteses e modelos

Trabalham com testes de significância

TESTES DE SIGNIFICÂNCIA

� Queremos saber se existe um efeito na população, por meio da amostra estudada:

Existe diferença entre satisfeitos e insatisfeitos no trabalho quanto à percepção de aposentadoria?

� Podemos cometer 2 tipos de Erros:� Podemos cometer 2 tipos de Erros:

Erro do Tipo I – Ocorre quando acreditamos que há um efeito na população e, de fato, não há.

Erro do Tipo II – Ocorre quando acreditamos que não há um efeito na população, mas, na realidade, ele existe.

�Testa-se a hipótese nula (Ho):

Não existe diferença entre satisfeitos e insatisfeitos na população de professores prestes a se aposentar (t=0).

Seleciona-se um nível de significância igual a 0,05 ou menor (critério de Fisher):

p≤ 0,05 - 5% de chance de Ho ser verdadeirap≤ 0,05 - 5% de chance de Ho ser verdadeira

p≤ 0,01 - 1% de chance de Ho ser verdadeira

p≤ 0,001 - 1 chance em 1000 de Ho ser verdadeira

�Isto quer dizer que a probabilidade de erro é de 5% ou menor, assumindo-se a hipótese alternativa (Há)

�Mas, Uma estatística de teste significativa (p

valor) não quer dizer que o efeito que ela mede é

importante.

�Esta medida é dada pelo tamanho do efeito.

� O tamanho de efeito é uma medida de magnitudepadronizada do efeito observado.

Ex: Coeficiente de Correlação: r = 0 / r = 1

Tamanho do Efeito

Ex: Qui-quadrado: X2 <1 / X2 >1

� Em resultados de pesquisa, nunca informar somente o p-valor.

� Informar sempre o tamanho do efeitoe a significância.

�Veja estes dois exemplos:

r=0,2; p=0,05

r=0,8; p=0,05

�Em ambos os casos, a correlação é significativa.

�Porém, no primeiro caso, a correlação é fraca; �Porém, no primeiro caso, a correlação é fraca; enquanto que no segundo, é forte.

�Se informar apenas o valor de p, o leitor não saberá nada sobre a magnitude da correlação.

�Em uma correlação fraca a variável explicativa jamais poderá ser considerada preditora.

�Assim, informe sempre desta forma:

Houve diferença entre satisfeitos e insatisfeitos (t=4,250; p≤0,001)

Houve correlação positiva entre x e y (r=0,80; p≤0,05)p≤0,05)

Houve associação entre a e b (X2=17,3; gl=2; p≤0,05)

INFERENCIAIS

PARAMÉTRICAS

Exigem Normalidade na distribuição amostral

NÃO PARAMÉTRICAS

Não exigem Normalidade na distribuição amostral

PARA AMOSTRAS INDEPENDENTESOs participantes de um grupo não estão no outro

E

PARA AMOSTRAS REPETIDASOs mesmos participantes estão em ambos os grupos

AMOSTRAS INDEPENDENTES

�Os participantes de um grupo ou condição não podem estar em outro grupo ou condição.

�São usados quando queremos estudar diferenças significativas entre dois conjuntos de dados de grupos diferentes (p.ex. homens e mulheres).diferentes (p.ex. homens e mulheres).

AMOSTRAS REPETIDAS

�Os mesmos participantes estão em ambos os grupos .

�São usados quando queremos estudar diferenças significativas entre dois conjuntos de dados do mesmo grupo de sujeitos.

ESTATÍSTICAS PARAMÉTRICAS

ESTATÍSTICAS NÃO PARAMÉTRICAS

ESTATÍSTICAS PARAMÉTRICAS

Exigem:

�Distribuição normal dos valores na população.

�Os dados na amostra se encontram agrupados em torno da média ou de medidas de tendência central (homogeneidade);

� Os tamanhos da amostras são grandes e aproximadamente � Os tamanhos da amostras são grandes e aproximadamente iguais.

�Os dados têm um verdadeiro valor numérico;

�Variáveis Quantitativas, medidas no nível intervalar, pelo menos.

� Os testes incidem sobre um ou vários parâmetros de uma ou mais populações (por exemplo, média ou variância)

Distribuição Normal ou Curva de Gauss

A área em azul escuro está a menos de um desvio padrão(σ) da média. Em uma distribuição normal, isto representa cerca de 68% do conjunto, enquanto dois desvios padrões desde a média (azul médio e escuro) representam cerca de 95%, e três desvios padrões (azul claro, médio e escuro) cobrem cerca de 99.7%. Este fato é conhecido como regra 68-95-99.7, ou a regra empírica, ou a regra dos 3-sigmas

ESTATÍSTICAS NÃO PARAMÉTRICAS

�Não exigem distribuição normal.

�Distribuição não-normal ocorre freqüentemente com pequenas amostras e com grupos desiguais em tamanho.

�A dispersão dos dados indica uma grande variabilidade;

�Os dados não têm um verdadeiro valor numérico.

�As variáveis podem ser categóricas, medidas no nível nominal ou ordinal.

�Muitas vezes não envolvem parâmetros.

COMO TESTAR SE UMA DISTRIBUIÇÃO É NORMAL?

�Histogramas

�Assimetria e Curtose�Assimetria e Curtose

�Testes de Kolmogorov-Smirnov e de Shapiro-Wilk: são mais precisos.

Histogramas

Assimetria

• + Concentração de valores à esquerda

• - Concentração de valores à direita

Curtose

• + Distribuição Pontiaguda

• - Distribuição Achatada

Testes de Kolmogorov-Smirnov e de Shapiro-Wilk

�Comparam os escores de uma amostra com uma distribuição normal modelo de mesma média e variância dos valores encontrados na amostra.

�Se o teste não for significativo (p≥0,05), os dados da �Se o teste não for significativo (p≥0,05), os dados da amostra não diferem de uma distribuição normal; portanto, podem ser normais.

�Se o teste for significativo (p≤0,05), a distribuição em questão é significativamente diferente de uma distribuição normal; portanto, não é normal.

�Testes paramétricos, são mais poderosos.

�No entanto, só devem ser usados quando as distribuições são normais e os desvios-padrão das amostras são mais ou menos semelhantes.das amostras são mais ou menos semelhantes.

�Caso contrário, é mais seguro utilizar testes não paramétricos.

TESTES DE HIPÓTESESTESTES DE HIPÓTESES

TESTES UNILATERAIS

TESTES BILATERAISTESTES BILATERAIS

TESTES UNILATERAIS (uni-caudal)

�Quando a hipótese é direcionada.

Os professores satisfeitos com o seu trabalho terão uma percepção mais negativa da aposentadoria que os insatisfeitos.

TESTES BILATERAIS (bicaudal)

�Quando se sabe que vai dar uma diferença, mas não se sabe para que lado .

Haverá diferença entre professores insatisfeitos e satisfeitos no trabalho com relação à aposentadoria.

ANÁLISES BIVARIADAS

ANÁLISES MULTIVARIADASANÁLISES MULTIVARIADAS

ANÁLISE BIVARIADA

�Inclui métodos de análise de duas variáveis,

uma dependente e outra independente, podendo

ser ou não estabelecida uma relação de

causa/efeito entre elas.

ANÁLISE MULTIVARIADAANÁLISE MULTIVARIADA

�Inclui os métodos de análise das relações de

múltiplas variáveis dependentes e/ou múltiplas

variáveis independentes, quer se estabeleçam ou

não relações de causa/efeito entre estes dois

grupos.

ANÁLISES BIVARIADAS PARA AMOSTRAS INDEPENDENTES

PARAMÉTRICAS NÃO PARAMÉTRICAS

CORRELAÇÃOPearson

DIFERENÇA ENTRE

MÉDIAS

CORRELAÇÃOSpearman

DIFERENÇA ENTRE

MÉDIAS Pearson

Teste t (2)

ANOVA (3+)

DIFERENÇA ENTRE FREQÜÊNCIAS

MÉDIAS SpearmanMÉDIAS

Mann Whitney (2)

Kruskal Wallis (3+)

Qui Quadrado

ANÁLISES MULTIVARIADAS PARA AMOSTRAS INDEPENDENTESINDEPENDENTES

�Regressão Logística

�Análise Fatorial

�Análise de Covariância – ANCOVA�Análise de Covariância – ANCOVA

�Análise de Variância Multivariada -MANOVA

ANÁLISES BIVARIADAS PARA AMOSTRAS INDEPENDENTES

Alguns Exemplos

CORRELAÇÃO

Estatística

Paramétrica

Estatística

Não-Paramétrica

Coeficiente de Pearson Coeficiente de Spearman

PERGUNTA DE PESQUISA

Posso prever a independência para Posso prever a independência para atividades de vida diária em idosos com base na crença de auto eficácia?

�Para medir crença de auto eficácia utilizei um instrumento composto por 10 itens, avaliados em uma escala do tipo Likert com 5 pontos (0 = Nada a ver comigo; 4 = Tudo a ver comigo).

�Quanto mais pontos o sujeito fizesse, maior a crença na sua capacidade física e cognitiva (auto eficácia).

�Para medir independência utilizei um instrumento composto por 12 itens, avaliados em uma escala de 3 pontos (1 = Não consigo realizar; 3 = Realizo sem ajuda).

�Quanto mais pontos o sujeito fizesse, maior o nível de independência.

�Constrói-se dois índices por meio da soma dos escores obtidos pelos sujeitos nas duas escalas

�OU calcula-se a média aritmética dos escores obtidos pelos sujeitos nas duas variáveis.pelos sujeitos nas duas variáveis.

�Verifica-se se a distribuição é normal.

�Se sim, a correlação é verificada por meio do Coeficiente de Correlação de Pearson (r).

�Se não, a correlação é verificada por meio do Coeficiente de Correlação de Spearman (ρ).Coeficiente de Correlação de Spearman (ρ).

�Ambos são utilizados para testar se as duas variáveis não compartilham nada ou se estão correlacionadas.

�Interpreta-se a correlação no que diz respeito à sua direção, força, significância e variância explicada.

COMPARAR FREQÜÊNCIAS

Estatística

Não-Paramétrica

Qui-Quadrado


Existe diferença com relação a crença de auto eficácia (baixa, moderada e alta) entre grupos de eficácia (baixa, moderada e alta) entre grupos de idosos mais novos e mais velhos?

�Para medir percepção de auto-eficácia utilizei um instrumento composto por 10 itens, avaliados em uma escala tipo Likert com 5 pontos (0 = Nada a ver comigo; 4 = Tudo a ver comigo).

�Foi calculado o escore médio para auto-eficácia.

�Divide-se a amostra em 3 grupos iguais, conforme �Divide-se a amostra em 3 grupos iguais, conforme os escores na escala de auto eficácia, a fim de gerar a seguinte classificação: baixa, moderada e alta.

�Faz-se uma tabela cruzada, colocando-se na coluna aquela variável que supomos afeta a outra, ou seja, a VI - idade. Na linha coloca-se a VD (auto-eficácia).

�Realizamos os teste de Qui-Quadrado no SPSS.

� O Qui-Quadrado é um teste não paramétrico destinado a comparar freqüências, seja em tabelas 2 x 2; 2 x 3; 3 x 3 ou outras combinações.

� O qui-quadrado compara as freqüências observadas (aquelas obtidas) com as freqüências esperadas (Fe) no caso de Ho ser verdadeira.

� Fe = (total da linha x total da coluna)/N.� Fe = (total da linha x total da coluna)/N.

� Se o valor do qui-quadrado (X2) for igual a zero, então, Ho é verdadeira, mas é preciso realizar um teste de significância.

� Em tabelas 2 x 2 o qui-quadrado pode servir para se fazer associação entre variáveis categóricas (correlação de atributos ou tetracórica).

COMPARAR DUAS MÉDIAS

Estatística

Paramétrica

Estatística

Não-Paramétrica

Teste t de Student Teste Mann-Whitney


Os idosos mais jovens (60 a 79 anos) diferem dos idosos mais velhos (80+) no que diz respeito dos idosos mais velhos (80+) no que diz respeito à crença de auto eficácia?

�Crença de auto-eficácia foi medida utilizado-se um instrumento com10 itens, avaliados em uma escala do tipo Likert com 5 pontos (0 = Nada a ver comigo; 4 = Tudo a ver comigo).

�Constrói-se um índice de auto-eficácia (soma dos pontos obtidos pelos sujeitos nos itens da escala de auto-eficácia) OU calcula-se a média aritmética dos escores obtidos (escore médio).obtidos (escore médio).


�Se sim, realiza-se o Teste t no SPSS.

�Se não, realiza-se o Teste Mann-Whitney

�Ambos são utilizados para testar se duas amostras independentes provêm de populações com médias iguais ou significativamente diferentes.

TESTE MANN -WHITNEY

�Não exige que as populações tenham a mesma variância.

�É quase tão forte quanto o teste t.

�É baseado na soma de posições (postos).

�As médias reais são ordenadas (transformadas em postos).postos).

�A fila é composta como se todas as observações fizessem parte de uma única amostra.

�Calcula-se a média dos postos.

N Mais Novos - Médias Postos Mais Velhos - Médias Postos

1 3,08 17,5 0,17 1

2 2,33 13 2,08 10

3 1,58 4,5 2,17 11,5

4 3,08 17,5 1,92 7

5 2,83 16 1,83 6

6 2,00 8,5 2,75 15,5

7 3,83 22 2,17 11,5

8 3,33 19 1,58 4,5

9 4,00 23,5 0,42 3

10 4,00 23,5 0,25 2

11 3,50 21

12 2,00 8,5

13 2,75 15,5

14 3,17 20

15 2,42 14

Soma dos Postos 244 Soma dos Postos 72

Média dos Postos 16,23 Média dos Postos 7,2

�Ho é verdadeira se os postos baixos, médios e altos se distribuírem equilibradamente entre as duas amostras.

�Se Ha é verdadeira, uma amostra tenderá a ter mais postos baixos (e, assim, uma soma de postos menor) enquanto que a outra tenderá a ter maior soma de postos.

�Quanto menor for U, mais significativas serão as diferenças entre as ordens das duas situações

COMPARAR TRÊS MÉDIAS OU MAIS

Estatística

Paramétrica

Estatística

Não-Paramétrica

ANOVA Kruskal-Wallis


Os idosos institucionalizados diferem com relação a percepção de bem-estar, conforme a relação a percepção de bem-estar, conforme a freqüência de visitas recebidas (não recebem, recebem freqüentemente, recebem esporadicamente)?

�Para medir percepção de bem-estar utilizei um instrumento composto por 15 itens, avaliados em uma escala do tipo Likert com 5 pontos (1 = Discordo totalmente; 5 = Concordo totalmente).

�Quanto mais pontos o sujeito fizesse, maior a sua percepção de bem-estar.

�Tenho 150 sujeitos, 40 recebem visitas com �Tenho 150 sujeitos, 40 recebem visitas com freqüência diária a quinzenal; 60, uma vez ao mês ou em datas comemorativas e 50 não recebem visitas.

�Constrói-se um índice de bem-estar subjetivo (soma dos pontos obtidos pelos sujeitos nos itens da escala de BES) OU calcula-se a média aritmética dos escores obtidos.


�Se sim, realiza-se a ANOVA (F).

�Se não, realiza-se o Teste Kruskal-Wallis (resultado expresso em X2).

�Ambos são utilizados para testar se três ou mais �Ambos são utilizados para testar se três ou mais amostras independentes provêm de populações com médias iguais ou significativamente diferentes.

�A ANOVA permite testes Post Hoc que nos ajudam a saber não apenas se a diferença entre as médias é significativa, mas também a descobrir onde está essa diferença.

ANÁLISES BIVARIADAS PARA AMOSTRAS REPETIDAS

Alguns Exemplos

O TESTE DOS POSTOS COM SINAIS DE WILCOXON


O treino de habilidades pessoais em grupo afeta o desenvolvimento destas?o desenvolvimento destas?

�Para medir habilidades pessoais utilizei um instrumento composto por 12 itens, avaliados em uma escala do tipo Likert com 3 pontos (1 = Nunca; 2 = Às Vezes; 3 = Sempre).

�Quanto mais pontos o sujeito fizesse, maior a sua habilidade pessoal.

�Os sujeitos foram avaliados antes e depois do treino de �Os sujeitos foram avaliados antes e depois do treino de habilidades pessoais.

�Calcula-se a média aritmética dos escores obtidos nas duas avaliações.

�Subtrai-se os escores do pós-teste dos escores do pré-teste e verifica-se se a diferença é positiva ou negativa.

N Antes Depois Dif. Negativos Positivos1 2,07 2,57 0,5 16

2 2,29 2,64 0,36 13,5

3 2,36 2,5 0,14 6

4 2,57 2,64 0,07 2,5

5 2,57 2,64 0,07 2,5

6 2,71 2,43 -0,29 6

7 2,5 2,64 0,14 6

8 2,5 2,5 08 2,5 2,5 0

9 2,36 2,29 -0,07 1,5

10 2,29 2,71 0,43 15

11 2,64 2,64 0

12 2,57 2,71 0,14 6

13 2,64 2,5 -0,14 4

14 2,5 2,36 -0,14 4

15 2,64 2,21 -0,43 8

Soma dos Postos 23,5 67,5

Média dos Postos 4,7 8,44

�Atribui-se postos às diferenças positivas, em uma coluna, e às diferenças negativas, em outra coluna.

�Feito isto, somam-se os postos de cada coluna e calcula-se a média aritmética para os postos positivos e para os postos negativos.

�Se a média dos postos positivos for maior, isto significa que os escores do pós-teste foram maiores que os escores que os escores do pós-teste foram maiores que os escores do pré-teste e, portanto, pode ser significativa a diferença.

�Realiza-se o teste no SPSS.

�A interpretação é realizada pelo escore Z, que deve ser maior que 1,96 (ignorando-se o sinal), indicando significância ao nível de p≤0,05

Bibliografia Consultada e Recomendada

Dancey, C. P., & Reidy, J. (2013). Estatística sem matemática para psicologia, 5ª Ed. Porto Alegre/RS: Penso, 606pp.

Field, A. (2009). Descobrindo a estatística usando o SPSS. Porto Alegre/RS: Artmed.Porto Alegre/RS: Artmed.

Levin,J. & Fox, J. A. (2004). Estatística para ciências humanas. Prentice Hall Brasil.

Moore, D. S. (2011). A estatística básica e sua prática, 5a Ed. : LTC.

Siegel, S. & Castellan Jr., N. J. (2006). Estatística Não-Paramétrica para ciências do comportamento. Porto Alegre: Artmed.

Science

Análise de dados quantitativos [modo de compatibilidade]