1
Testes de hipótesesSua aplicações e limites
Seminários de métodos e análise de dados
Luís FaíscaDoutoramento em PsicologiaFevereiro 2010
Testes de hipótesesSua aplicações e limites
Enquadramento dos Testes de Hipóteses na Estatística
A importância da Estatística…
Representação matemática do real
MUNDO REAL
(objecto de estudo)
NÚMEROS
(representação matemática)
Análise estatística
Divisão clássica da Estatística
Estatística descritiva
Estatística indutiva (ou inferencial)
Estatística
POPULAÇÃO
(estudantes da UALG)
amostra
amostragem
Inferência
100 alunos inquiridos
A importância da Estatística…
Aquilo quese pretendeconhecer…
Aquilo que se conhece atravésda EstatísticaDescritiva…
Generalizar com segurança para a população a descrição obtida na amostra
Estatística descritiva
Conjunto de procedimentos para
organizar e sumariar a informação de
uma forma tão breve e precisa quanto
possível.
2
Aplicações da estatística descritiva
AnAnáálise descritiva (uni e lise descritiva (uni e bivariadabivariada))
Descrever e resumir conjuntos volumosos de dados
Gráficos / Tabelas / Estatísticas descritivas
AnAnáálise descritiva (lise descritiva (multivaridamultivarida))
Representações gráficas multidimensionais
Redução da dimensionalidade dos dados
Descrição univariada
255044283832364531343927201737
272143354837354037403521282524
412939254046384434393745384138
362547423633493327554726463424
454125404237412336484243424039
392741484431415253434326383837
204244412229394122212242423029
243521224138242532353423433223
543923513336353535201930242618
363919333339234250284634313439
Aptidão Numérica em estudantes do 9º anoN = 150 alunos; aptidão numérica medida pela GATB
Média = 35,19Desvio-padrão = 9,00
Mediana = 37Mínimo = 17Máximo = 55
Estatística descritiva univariada
Descrição univariada Descrição bivariada
Existe relação entre a nota de ingresso do aluno num curso de licenciatura eresultado que ele obtém no primeiro teste efectuado na Universidade?
Teste 1 = - 8,72 + 1,24 * Nota ingR2 = 28,6 %
Estatística descritiva
bivariada
Descrição bivariada Descrição multivariada
Caracterizar relaCaracterizar relaçção entre diversas varião entre diversas variááveisveis
Será possível distinguir tipos de dificuldades de aprendizagem a partir de uma bateria de doze testes de avaliação?
N = 10 estudantes com problemas de aprendizagemTécnica de análise Q
3
Estatística descritiva multivariada
(análise de clusters)
Descrição multivariada
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7 8
S07
S02
S04
S08
S10
S03S06
S01
S05
S09
Estatística descritiva multivariada
(escalonamento multidimensional)
Descrição multivariada
Estatística indutiva
Conjunto de procedimentos usados
para fazer inferências a partir de
informação parcial, avaliando o grau de
incerteza envolvido da generalização.
Erros envolvidos no estudo de amostras e de populações
Aplicações da estatística indutiva
AnAnáálise inferenciallise inferencial
Estimação intervalar
Testes de hipóteses
Modelação
Estimação de parâmetros (valores desconhecidos da população)
Qual a percentagem de estudantes universitários dispostos a experimentar drogas duras?
Amostra representativa da população, controlando variáveis consideradas importantes (amostra estratificada, e.g.)
Questionário adequado a este tema sensível e contabilização das respostas
Dos 350 estudantes inquiridos, 24 disseram que “Sim”
4
Estatística indutiva - estimação
Há 95% de confiançade que a
percentagem de estudantes dispostos a
experimentar drogas duras se situa entre
4,21% e 9,51%
População Amostra6,86% de respostas “Sim”
(N = 350)
Estimação de parâmetros Testes de hipóteses
Avaliar se as diferenAvaliar se as diferençças observadas na amostra as observadas na amostra
reflectem diferenreflectem diferençças reais na populaas reais na populaçção ou se, pelo ão ou se, pelo
contrcontráário, se devem ou não ao acaso.rio, se devem ou não ao acaso.
Teste de hipóteses
a) Formular uma hipóteseb) Recolher dados amostrais para verificar se
apoiam ou não a hipótesec) Avaliar o grau em que esse apoio se pode
dever ao acaso
Estatística indutiva – testes de hipóteses
Significância da diferença
Não há diferenças significativas no tempo
de resposta entre as duas condições
experimentais (p > 0,2).
A presença de ruído ambiental afecta a memorização de um texto?
Hipótese (nula): a memorização de um texto é tão boa em silêncio como em condições de ruído
505560657075808590
Silêncio Ruído
Condição experimental
Iten
s c
orr
etam
en
te
evo
cad
os
(%
)
Testes de hipóteses
Modelação por “path analysis”
Modelação
Explicitar as relações que se estabelecem num conjunto alargado de variáveis.
Estatística…
A Estatística Descritiva permite descrever a
amostra e a Estatística Indutiva permite
generalizar com confiança essa descrição
para a população de onde a amostra foi
retirada, recorrendo para isso à Teoria das
Probabilidades.
Testes de hipótesesSua aplicações e limites
Testes de hipóteses
5
Teste de hipóteses
O teste de hipóteses é a técnica da Estatística Indutiva mais utilizada na investigação em Psicologia.
Consiste em averiguar se a hipótese formulada sobre aspectos desconhecidos de uma população é ou não apoiada pela informação contida na amostra retirada dessa população.
Tipos de teste estatísticos
1) Testes unilaterais e bilaterais
Testes unilaterais menos exigentes, pois as suas hipóteses implicam fundamentação a priori.
2) Testes paramétricos e não paramétricos (distribution
free)
Testes não paramétricos menos exigentes em termos das condições de aplicação mas, eventualmente, menos potentes para detectar diferenças.
Passos num teste de hipóteses
Passo 1. A questão em investigação deverá permitir formular uma hipótese sobre um ou mais parâmetros desconhecidos da população.
A formulação de hipóteses é um formalismo deste procedimento; na maior parte das vezes, a hipótese de investigação é contrária à hipótese nula em que se baseia o teste estatístico.
Passos num teste de hipóteses
Pergunta teoricamente relevante:
Durante a adolescência, serão os rapazes mais ansiosos do que asraparigas?
Hipótese nula: O nível médio de ansiedade na população de rapazes é igual ao da população de raparigas
H0: µM = µF
Passos num teste de hipóteses
Passo 2. Extrair uma amostra da população, aplicar uma medida de ansiedade e calcular as estatísticas descritivas relevantes.
µM = ?
µF = ?
População
Amostra
100 rapazes
100 raparigas
XM = 28
XF = 32
Passos num teste de hipóteses
As medidas de ansiedade que usamos não são totalmente fiáveis, envolvendo margem de erro.
Não havendo possibilidade de avaliar a ansiedade de todos os adolescentes (rapazes e raparigas) da população sobre a qual se pretende tirar conclusões, limitámo-nos a estudar a uma amostra (por exemplo, duas ou três escolas de Faro).
6
Passos num teste de hipóteses
Pelo menos, duas fontes de erro:
erro de medição erro de amostragem
Informação amostralsobre nível de ansiedade
não é 100% segura
Passos num teste de hipóteses
A diferença de 4 pontos observada entre rapazes e raparigas reflecte uma diferença real ou é apenas aparente (devida aos erros envolvidos na obtenção destas médias)?
AmostraXM = 28
XF = 32
Passos num teste de hipóteses
Passo 3. Maquinaria dos testes de significância
Recorrendo à Teoria das Probabilidades e assumindo algumas condições, é possível saber em que medida duas médias amostrais contaminadas de erro podem diferir entre si quando a amostra provém de uma população semelhante à estipulada na hipótese (ou seja, em que não há diferença entre rapazes e raparigas).
Passos num teste de hipóteses
Distribuição de amostragem
Como se comportam todas as médias que se podem extrair de uma população com as característica especificadas na hipótese nula?
Passos num teste de hipóteses
Conhecimento a priori das distribuições de amostragem –Estatística Clássica
Passos num teste de hipóteses
Pergunta a que responde um teste de significância:
“Se não existir diferença entre os níveis médios de ansiedade de rapazes e raparigas (hipótese nula), qual éa probabilidade de, devido ao acaso, encontrarmos uma diferença igual (ou mais extrema) do que observada na amostra?”.
7
Passos num teste de hipóteses
Amostra
XM = 28
XF = 32
SM = 12
SF = 14
NM = 100
NF = 100
t = 2,45
df = 98p = 0,015
Teste t de Student
Significância
A probabilidade de a diferença entre
rapazes e raparigas observada na amostra se dever ao acaso é 0,015.
Passos num teste de hipóteses
Passo 4. Decisão
Como é pouco provável que os dados observados provenham de uma população com as características especificas em H0, devemos abandoná-la e concluir que existem diferenças entre rapazes e raparigas.
Será uma decisão correcta?
Erros envolvidos numa decisão estatística
Decisão correcta(rejeitar H0
quando ela éfalsa)
Decisão erradaErro de tipo I(rejeitar H0
quando éverdadeira)
Rejeitar H0
Decisão erradaErro de tipo II(aceitar H0
quando ela éfalsa)
Decisão correcta(aceitar H0
quando ela éverdadeira)
Aceitar H0
H0 é falsaH0 é verdadeira
Caracterização da população(desconhecida)
Decisãodo teste
estatístico ������ �������������� ������� ������ ������ ���������� �������������� ���������������� !"#$%�&'!(&(�Erros envolvidos numa decisão
Erros envolvidos numa decisão estatística
Na tomada de decisão estatística é importante considerar o risco (probabilidade) de cometer os dois tipos de erro:
Probabilidade de cometer erro de tipo I = αααα
nível de significância do teste
Probabilidade de cometer erro de tipo II = 1 – ββββ
complementar da potência do teste
Nível de significância do teste
O nível de significância do teste αααα corresponde àprobabilidade de nos estamos a enganar ao rejeitar H0
(rejeitar a hipótese quando ela é verdadeira - erro de tipo I). Deve ser definido antes da realização do teste.
Por exemplo, se o teste indicar a rejeição de H0 (sugerindo-nos haver diferença de ansiedade entre rapazes e raparigas) isso pode ser um erro pois podemos estar perante uma situação rara em que a diferença observada se deve realmente ao acaso (e não haver diferença verdadeira na população entre rapazes e
raparigas).
8
Nível de significância do teste
Em geral, define-se em 5% o nível de significância
do teste αααα.
Este valor resulta de uma convenção e não tem nada de especial; por vezes utilizam-se níveis de significância mais exigentes (por exemplo, 1%), outras vezes níveis menos exigentes (10%), mas o valor de 5% é o tradicionalmente mais utilizado. Porquê?
Nível de significância
De uma maneira geral, pretende-se que a probabilidade de cometer o erro de tipo I seja mínima. No entanto, esta probabilidade não pode ser reduzida a 0 pois diminui-la em excesso faz aumentar a probabilidade de cometer o
erro de tipo II. Por isso, pode não ser adequado usar níveis de significância muito baixos.
Potência do teste
A potência do teste 1-ββββ corresponde à probabilidade de não nos estamos a enganar ao aceitar H0 (aceitar a hipótese quando ela é falsa - erro de tipo II).
Um teste potente permite-nos decidir com um baixo risco de nos enganarmos quando aceitamos H0, ou seja, dá-nos segurança que não há diferenças reais entre rapazes e raparigas quando o teste sugere que não se rejeite H0.
Potência do teste
A determinação da potência do teste é complexa e, entre outros factores, depende da dimensão da amostra: amostras de maiores dimensões garantem testes mais potentes.
Pode-se estabelecer à partida a potência do teste, bastando para isso definir a dimensão da amostra necessária para garantir que uma diferença de determinada magnitude na população tenha probabilidade elevada de ser realmente
detectada (por exemplo, potência do teste 1 - β = 0,80).
Potência do teste
Apesar de ter vindo a ser secundarizado face ao nível de significância, a questão da potência do teste é fulcral: de nada serve realizar um teste estatístico que não tenha potência para detectar a diferença teoricamente especificada – ficamos sempre na dúvida se H0 érealmente verdadeira ou se, pelo contrário, é falsa mas o teste não teve suficiente potência para detectar essa falsidade .
Nível de significância e potência do teste
Relação entre α e β (quando se assume que a distribuição de
amostragem das médias amostrais é normal).
9
Elementos na análise da potência de um teste
• Variabilidade dos dados (não temos grande controlo sobre este elemento)
• Magnitude da diferença que se pretende detectar
• Nível de significância do teste (risco de cometer o erro de tipo I)
• Dimensão da amostra
Potência do teste
Como aumentar a potência de um teste?
• Aumentar a dimensão das amostras
• Aumentar a magnitude da diferença que se pretende que o teste detecte
• Diminuir o nível de significância α
Sam
ple
Pow
er
Sample Size
high
low
small large
A
B
CNNíível optimizadovel optimizado
EficazEficaz masmas ineficienteineficiente
IneficazIneficaz
Power CurveCurva da potência do teste Que potência?
Não há critérios universal.
• O que é mais importante?
Falhar uma tendência?
Detectar uma tendência falsa?
• Geralmente entre 80% e 95%
Testes de hipótesesSua aplicações e limites
Testes de hipóteses para comparação entre grupos
Comparações entre grupos
A comparação de grupos é um dos formatos mais usuais na investigação psicológica:
� Comparação entre grupos naturais (diferenças entre sexos, por exemplo) ou entre populações clínicas (grupos de disléxicos face grupo de controlo de idade)
� Comparação entre grupos experimentais (grupo que recebe o tratamento experimental versus grupo de controlo)
10
Comparações entre grupos
Alguns aspectos a levar em consideração:
� Natureza métrica da variável em estudo (nominal / de escala)
� Natureza dos conjuntos de medidas (amostras independentes / amostras emparelhadas)
� Número de grupos em comparação
Comparações entre gruposCaso de variáveis de escala
Se o nível de medida da variável em questão é de escala, a comparação entre grupos geralmente corresponde a testes de hipóteses sobre valores médios. Na verdade, ao comparar grupos estamos, em geral, interessados em tomar decisões sobre a magnitude dos valores que a variável toma populações de onde foram extraídos os grupos.
Por exemplo, verificar se há diferenças entre rapazes e raparigas na Aptidão verbal.
Comparações entre gruposCaso de variáveis nominais
Se o nível de medida da variável em questão é nominal, a comparação entre grupos geralmente corresponde a testes de hipóteses sobre proporções ou a testes de independência entre variáveis.
Por exemplo, comparar se a percentagem de reformados é igual na população de utentes de dois serviços hospitalares.
Testes de hipótesesSua aplicações e limites
Comparação entre duas médias grupos
A. Amostras independentes
Testes de hipótesesSua aplicações e limites
Condições de aplicação
� Uma das variáveis está medida no formato escala; a outra variável define os grupos (pode ser dicotómica ou dicotomizada)
� A distribuição das variáveis deve ser normal ou a dimensões dos grupos a comparar deve ser grande
� A variância de cada grupo deve ser semelhante (homogeneidade das variâncias).
Testes sobre diferenças entre dois valores médios (amostras independentes)
11
A hipótese nula postula que os dois grupos têm média igual.
A rejeição da hipótese nula (p ≤ α) indica que existem diferenças significativas entre as duas médias.
A magnitude da diferença pode ser avaliada por uma medida de magnitude do efeito (effect size)
Testes sobre diferenças entre dois valores médios (amostras independentes) Exemplo
Num estudo sobre o efeito da estimulação durante o sono na aprendizagem, dividiu-se aleatoriamente um conjunto de 62 crianças em dois grupos. Durante um mês, todas as noites enquanto dormiam, metade das crianças foram expostas a uma gravação áudio com um relato de informação sobre História de
Portugal. As restantes crianças foram expostas a um gravação áudio de discurso sem informação relevante.
No final do mês, os conhecimentos de História de ambos os
grupos foram avaliados através de um teste (classificação de 0 a 20). Verifique se o procedimento seguido teve efeito significativo
(α = 0.05).
Exemplo
Desvio-padrão
Média
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Partici-pantes
161728
3,6013,232Desvio-padrão
13,54514,967Média
9
151230
131429
131727
91426
14925
181524
121823
101022
71421
151220
16819
151718
81917
191916
131815
141714
201313
181512
81911
171610
9129
10138
18157
10176
11165
14104
12203
14142
17191
Grupo deControlo
GrupoExperimental
Partici-pantes
Resultados obtidos nos dois grupos. Uma das crianças do grupo experimental não compareceu ao teste.
Que teste?
Hipóteses:
H0: µµµµExp = µµµµCont versus H1: µµµµExp > µµµµCont
Teste de unilateral direito de diferenças entre valores médios (para dois grupos independentes).
Teste de diferenças
Teste de unilateral direito
Diferenças significativas?
A avaliação da significância da diferença entre dois valores médios não depende apenas do valor da diferença mas também da sobreposição das duas distribuições (ou seja, da sua dispersão).No exemplo, apesar da diferença entre valores médios ser idêntica nas três situações, essa diferença aparenta ser mais significativa apenas na situação de baixa dispersão.
Teste t de Student para amostras independentes
� Amostras aleatórias retiradas de população normal ou amostras com dimensão suficientemente grande para se aplicar o Teorema do Limite Central (em geral, N ≥ 30 para ambas as amostras).OK (N = 31 para o grupo de controlo e N = 30 para o grupo experimental)
� Homogeneidade das variâncias: as variância / desvios-padrão dos dois grupos têm de ser iguais. A razão desta exigência é que o teste assume que as populações de onde vêm as duas amostras são iguais em tudo (distribuição, dispersão, etc) excepto nos respectivos valores médios. A verificar (S = 3,232 para o grupo de controlo e S = 3,601 para o grupo experimental)
Condições de aplicação
12
Condições de aplicação:
� As observações da amostra 1 são independentes das observações da amostra 2.OK (os resultados de um grupo não afectam os resultados de outro grupo)
� A variável em estudo tem de estar medida pelo menos numa escala quasi-intervalar (quasi-intervalar, intervalar ou de quociente).OK (variável: classificação obtida no teste)
Teste t de Student para amostras independentes Condições de aplicação
Verificação de normalidade (desnecessário neste caso pois as amostras são grandes)
Gráfico de quartis
Gráfico de quantis da normal
Condições de aplicação
Verificação da homogeneidade das variâncias
Grupo Experimental
S2 = 3,2322 = 10,4458
Grupo Controlo
S2 = 3,6012 = 12,9672
As variâncias são grosseiramente semelhantes (a divisão de uma pela outra dá cerca de 1,2), embora convenha sempre efectuar um teste
estatístico formal para garantir que não há razões para as assumirmos como diferentes (teste de Levene para a igualdade de variâncias).
Teste de Levene para averiguar a homogeneidade das variâncias
Hipóteses do teste de Levene(teste de homogeneidade das variâncias):
H0: σσσσ2Exp = σσσσ2
Cont versus H1: σσσσ2Exp ≠≠≠≠ σσσσ2
Cont
No SPSS, este teste vem incluído no output do teste t de Student para amostras independentes.
Teste de Levene (output do SPSS)
Teste de Levene sobre homogeneidade de variâncias
Valor p do teste de Levene – não significativo
Estatísticas descritivas para cada grupo (média, desvio-padrão e
erro-padrão da média)
Teste de Levene para averiguar a homogeneidade das variâncias
Conclusão do teste de Levene
Rejeita-se H0 ao nível de significância α = 0,05, ou seja, pode-se considerar que as variâncias dos dois grupos são iguais (F = 0,54, p = 0,467).
Assegura-se assim o pressuposto da homogeneidade das variâncias, pelo que se pode prosseguir com o teste t para avaliar a diferença entre valores médios.
13
Teste t (output do SPSS)
Estatística de teste
Valor p do teste t (bilateral)
Decisão
Como o teste é unilateral, tem de se dividir por dois o valor calculado pelo SPSS.
Assim, Sig. = 0,071/2 = 0,036 < α.
Logo, rejeita-se H0 ao nível de significância α = 0,05, ou seja, o grupo experimental tem, em média, um desempenho superior no
teste de História do que o grupo de controlo (t = 1,84, gl = 59, p = 0,036), indicando que a estimulação durante o sono teve um efeito positivo significativo na aprendizagem.
Consequências de violar as condições de aplicação do teste t de Student
Normalidade
O teste t é robusto face à violação do pressuposto da normalidade
da distribuição da variável, mesmo com amostras pequenas. Assim, as consequências da não normalidade dos dados afecta minimamente os erros de tipo I e tipo II envolvidos na decisão.
Por exemplo, se a distribuição da variável em estudo for assimétrica e as amostras em comparação tiverem dimensões tão pequenas como 5, sabe-se que a verdadeira
margem de erro de tipo I envolvida na decisão poderá afastar-se no máximo em 2% do valor de α estipulado, o que é negligenciável em termos práticos (Hsu & Feldt, 1969). No entanto, ainda assim existe a possibilidade de recorrer a testes não
paramétricos alternativos (teste de Mann-Whitney).
Consequências de violar as condições de aplicação do teste t de Student
Homogeneidade das variâncias
O teste t baseia-se nos desvios-padrão das duas amostras para
obter uma estimativa conjunta de σ2 (S2pool). Se não existir
homogeneidade das variâncias, esta estimativa conjunta não faz sentido.
Sabe-se que o teste t é robusto face à violação do pressuposto da homogeneidade das variâncias desde que as duas amostras tenham igual dimensão – nestes casos, as consequências da heterogeneidade das variâncias afectam minimamente os erros de tipo I e tipo II envolvidos na decisão.
Consequências de violar as condições de aplicação do teste t de Student
Homogeneidade das variâncias
Contudo, quando as amostras têm dimensão diferente, verifica-
se que:
� Se a amostra maior tiver a maior variância, o teste t éconservador (ou seja, a probabilidade real de cometer o erro de
tipo I é mais pequena do que o valor α estipulado).
� Se a amostra mais pequena estiver associada à maior variância, o este t é bastante liberal (ou seja, a probabilidade real de
cometer o erro de tipo I é superior ao estipulado) – situação mais problemática.
Consequências de violar as condições de aplicação do teste t de Student
Homogeneidade das variâncias
O SPSS fornece uma correcção ao teste t para as situações de heterogeneidade das variâncias (procedimento de Welch), que consiste num ajustamento dos graus de liberdade.
Um procedimento alternativo para lidar com a estas situações érealizar um teste não-paramétrico equivalente, que não exija homogeneidade das variâncias (teste Mann-Whitney).
14
B. Amostras emparelhadas
Testes de hipótesesSua aplicações e limites
A hipótese nula postula que os dois conjuntos de dados provêm de populações com valor médio igual.
As investigações que levam à recolha de dados emparelhados surge em estudos longitudinais (o mesmo indivíduo é observado duas vezes) ou quando indivíduos diferentes são emparelhados por diferentes razões (por semelhança em variáveis relevantes ou por pertencerem à mesma unidade, por exemplo um casal).
Testes sobre diferenças entre dois valores médios (amostras emparelhadas)
Exemplo
Para avaliar o efeito dos ritmos circadianos na memória, um conjunto de 30 crianças com idades entre 6 e 9 anos realizaram uma prova de memória imediata (digit span) de manhã e a mesma prova 12 horas depois.
Teste, ao nível de significância α = 0,05, se existem diferenças significativas no desempenho observado nos dois momentos.
Exemplo
54305615
34296514
77284413
53275612
55265511
56255610
5524769
5523458
4522457
5621446
5620455
6519454
5618563
6717452
5516671
TardeManhãParticipanteTardeManhãParticipante
Que teste?
Hipóteses:
H0: µµµµManhã = µµµµTarde versus H1: µµµµManhã ≠µ≠µ≠µ≠µTarde
Teste de bilateral direito de diferenças entre valores médios (para dois grupos emparelhados).
Teste de diferenças
Teste de bilateral
Amostras independentes versusAmostras emparelhadas
Se cada observação da amostra 1 puder ser emparelhada a uma observação da amostra 2, os dois conjuntos de dados não são independentes mas emparelhados.
Observação 2Observação 2
Observação nObservação n
……
Observação 1Observação 1
Amostra 2Amostra 1
No caso de amostras emparelhadas, a unidade em estudo não é a observação mas sim o par de observações.Não se pretende saber se existe diferenças entre a média das observações do grupo 1 e a média das observações do grupo 2 mas sim saber se a média das diferenças entre os elementos de cada par ésignificativa.
15
Amostras independentes versusAmostras emparelhadas
Designações para este tipo de design:
� Amostras emparelhadas (versus amostras independentes);
� Medidas repetidas (versus medidas independentes);
� Planeamento experimental intra-sujeito (versus planeamento entre-sujeitos) (within subjects versus between subjects).
Teste t de Student(para amostras emparelhadas)
Condições de aplicação:
� Amostras aleatórias retiradas de população normal ou amostras com dimensão suficientemente grande para se aplicar o Teorema do Limite Central (em geral, N ≥ 30 para ambas as amostras).OK (N = 30 pares de observações)
� Observações emparelhadas. OK (estamos perante um design com medidas repetidas, uma vez que cada sujeito é o controlo de si próprio)
Data view: os valores observados nos dois momentos de avaliação são dispostos lado a lado em colunas diferentes
(faceta T da data box).
Teste de diferenças entre valores médios
Variável que corresponde ao desempenho dos sujeitos
durante a manhã
Variável que corresponde ao desempenho dos
sujeitos durante a tarde
Teste t de Student(para amostras emparelhadas)
Teste t de Student para amostras emparelhadas (output do SPSS)
Correlação existente entre os dois conjuntos de observações – reflecte o grau em que o desempenho
da manhã está relacionado com o desempenho da tarde. No entanto, não esclarece se há diferença no
nível médio desses dois desempenhos.
Teste de diferenças – significativo
Estatísticas descritivas para cada conjunto de observações (média, desvio-
padrão e erro-padrão da média)
Decisão
Como Sig. = 0,025 = < α, rejeita-se H0.
O desempenho no teste de memória é diferente quando este érealizado de manhã e à tarde (t = 2,36, 29gl, p = 0,025),
indicando que o ritmo circadiano poderá influenciar o desempenho neste tipo de prova.
E se não se respeitassem as medidas emparelhadas?
Se, em vez de 30 pares de observações, considerássemos
que existiam 60 observações independentes (30 de manhã e 30 de tarde), os dados estariam lançados numa única coluna, jánão havendo o cuidado de
emparelhar o desempenho do mesmo sujeito nos dois momentos.
O teste a utilizar seria o teste t para amostras independentes.
Variável que identifica o momento da observação
Variável correspondente ao desempenho na prova
de memória
16
Output do SPSS
Teste de diferenças – não significativo
O facto de se ter ignorado o emparelhamento dos dados resulta numa conclusão diferente – não há diferenças entre o desempenho de manhã e àtarde. Porquê, se os dados (“números”) são idênticos?
Utilizar o procedimento de medidas repetidas sempre que os dados o permitam
O teste para amostra emparelhadas é mais potente na detecção de diferenças que o teste para medidas independentes, pois anula a variância (ruído) causada pelo facto de haver sujeitos diferentes nas duas condições experimentais (quando as amostras são emparelhadas, o mesmo sujeito é exposto às duas condições experimentais, pelo que se anula, parcialmente, o efeito das diferenças individuais).
Quanto maior a correlação entre as observações do par, maior a vantagem em usar o procedimentos para amostras emparelhadas.
No entanto, o design com medidas repetidas tem alguns problemas intrínsecos (aprendizagem, mortalidade experimental, carry over
effects).
Parte 2Comparação entre mais do que dois conjuntos de medidas
Testes de hipótesesSua aplicações e limites
Testes de hipóteses sobre diferenças entre mais de dois valores médios
Teste t para diferenças entre valores médios: adequado na testagem de hipóteses sobre dois valores médios.
Que fazer quando se pretende comparar mais do que dois valores médios?
Exemplo
Pretende-se avaliar se o nível médio de satisfação dos estudantes com os Serviços Sociais da Universidade é igual nas diferentes faculdades (FCHS, FCT, FERN, FCMA e FE).
Haverá diferenças significativas, ao nível de significância de α = 5%, entre as cinco faculdades?
Como responder a esta questão?
O problema das comparações múltiplas
Bastará comparar as faculdades duas a duas com um teste t para
amostras independentes?
Quantos testes t teriam de ser feitos?5C2 = 10 (FCHS vs FCT; FCHS vs FERN; FCHS vs FCMA; etc…)
Se em cada um destes testes corremos um risco α de chegar a uma decisão errada (5%), qual a probabilidade cometermos erro
ao basearmos a nossa conclusão geral nas dez comparações?
17
O problema das comparações múltiplas
Se quisermos decidir se as faculdades são ou não iguais em termos de satisfação, ao fazer as comparações par a par empolamos o risco de cometer um erro de tipo I (achar que há diferenças quando, na verdade, não existem).
Probabilidade de cometer pelo menos um erro de tipo I ao fazer k
comparações duas a duas através de um teste t ao nível de
significância α (experimentwise error):
1 – (1 - αααα)k
O problema das comparações múltiplas
No caso de α = 0,05 e k = 10 comparações, vem:
1 – (1 – 0,05)10 = 0,4013
O risco de nos enganarmos é demasiadamente alto para ser considerada uma abordagem estatisticamente segura. Mesmo que não haja diferença entre as faculdades, há 40% de probabilidade de pelo menos um teste t indicar que existe uma (falsa) diferença (rejeitar H0).
O problema das comparações múltiplas
A probabilidade de tomar pelo menos uma decisão errada aumenta marcadamente com o número de grupos a comparar. Por exemplo, se compararmos 8
grupos, há 75% de probabilidade de cometer pelo menos um erro.
Valor da probabilidade de cometer pelo menos
um erro de tipo I ao comparar k grupos
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,55
0,60
0,65
0,70
0,75
0,80
0,85
0,90
0,95
1,00
2 3 4 5 6 7 8 9 10 11 12 13 14 15
k - nº de grupos
Pro
b e
rro
Tip
o I
Nível de signif icância nominal
Nota: estes cálculos assumem que os testes t são independentes, o que não érigorosamente verdade uma vez que se baseiam em informação sobreposta, o que piora ainda mais este cenário.
O problema das comparações múltiplas
Conclusão:
A abordagem ao problema em causa fazendo testes t múltiplos éinadequada, porque o risco de nos enganarmos aumenta
proporcionalmente ao número de comparações que têm de ser feitas.
De que alternativas dispomos?
A. Amostras independentes
Testes de hipótesesSua aplicações e limites
ANOVA
A técnica estatística denominada ANOVA (Analysis of
Variance) foi desenvolvida por Ronald Fisher (1890-1962) para poder testar em simultâneo a igualdade do número de valores médios que se pretender, sem
empolar o valor de α.
Trata-se, assim, de um procedimento ideal para comparar o valor médio de mais de dois grupos.
18
Exemplo
A fim de estudar o efeito do ruído ambienta na compreensão de um texto lido, dividiram-se nove pessoas por três condições experimentais: Grupo 1 – silêncio; Grupo 2 – com música de fundo instrumental; Grupo 3 – com ruído (não musical) de fundo.
No final, fez-se a cada pessoa um total de dez perguntas sobre o texto lido, registando-se o número de respostas correctas. Haverádiferença entre as condições experimentais?
Factor e Variável dependente
Variável dependente
Desempenho no teste de compreensão (nº de respostas
certas)
Variável independente (factor)
Ruído de fundo – três níveis: silêncio versus música de fundo
instrumental versus ruído (não musical) de fundo.
Que teste?
Hipóteses:
H0: Os k valores médios são iguaisversus
H1: Pelo menos um valor médio é diferente dos restantes
H0: µµµµ1 = µµµµ2 = µµµµ3 versus H1: ∃∃∃∃i,j, µµµµi ≠≠≠≠ µµµµj
Repare-se que a hipótese nula se refere globalmente a todos os grupos do estudo (hipóteses omnibus, global).
Hipóteses na ANOVA
Algumas precisões sobre o teste de hipóteses através de ANOVA:
� As hipóteses são globais (omnibus) – apenas se testa o efeito global da experiência (hipótese nula de que os valores médios são todos iguais versus a hipótese alternativa de que pelo menos um deles é diferente dos restantes).
� Numa ANOVA não se coloca a questão do teste ser bi ou unilateral.
� Não aceitar a hipótese nula não nos esclarece onde reside a diferença detectada – essa análise é feita numa fase posterior.
Condições de aplicação da ANOVA
� Amostras aleatórias retiradas de populações normais ou amostras com dimensão suficientemente grande para se aplicar o Teorema do Limite Central (em geral, N ≥ 30).
� Homogeneidade das variâncias: as variância (desvios-padrão) dos diferentes grupos têm de ser iguais.
� As observações de cada grupo são independentes entre si.
� A variável em estudo tem de estar medida, pelo menos, numa escala quasi-intervalar (quasi-intervalar, intervalar ou de quociente).
Violação das condições de aplicação
A ANOVA é robusta face a violações de algumas condições referidas, nomeadamente a exigência de normalidade (desde que todos os grupos tenham dimensão suficiente) e a exigência da homogeneidade das variâncias (desde que os grupos tenham dimensão semelhante).
Mais grave é a violação da independência das observações entre grupos (não devem estar correlacionados; resolve-se garantindo a aleatoriedade na formação dos grupos em comparação).
19
“Mecanismo” da ANOVA
Embora se denomine “análise de variância”, trata-se de um procedimento para averiguar se os valores médios são estatisticamente diferentes (e não para ver se as variâncias são diferentes).
O nome resulta da ANOVA recorrer ao cálculo de variâncias para decidir se as médias são diferentes. O raciocínio é o seguinte: calcula-se a variância dentro de cada grupo e depois compara-se com a variância entre os grupos – se houver diferenças, é porque as médias dos grupos são diferentes.
“Mecanismo” da ANOVA
Na ANOVA, avalia-se em que medida duas fontes de variabilidade contribuem para a variação total dos dados:
* Alguma variação resulta da diferença entre indivíduos
dentro de cada grupo (variação within, residual ou variância dentro do grupo)
* Alguma variação resulta das diferenças introduzidas pelos grupos (variação between, ou variância entre grupos)
Exemplo
Número de respostas correctas em cada grupo:
Média 458
7
8
8
9
Grupo 1
45
36
64
35
Grupo 3Grupo 2
Haverá diferença entre os valores médios das populações de onde vieram estes três grupos?
Para isso, a ANOVA vai comparar a variância dentro dos grupo (variância natural dos dados) com a variância entre médias (variância devida ao efeito diferenciador das condições experimentais).
ANOVA e teste de valores médios
A Análise de Variância compara a variância dentro dos grupos (variância residual ou variância within) com a variância entre grupos (variância entre grupos ou variância between).
Se a variância residual for claramente inferior àvariância entre grupos, então pode-se afirmar que os valores médios são diferentes.
Na ANOVA a estatística de teste é designada por F e corresponde ao quociente entre a variância entre grupos e a variância residual:
A estatística F segue uma distribuição F de Snedecor com υ1 = k-1 gl (associados ao numerador) e υ2 = N-k gl (associados ao denominador).
Estatística de teste e sua distribuição
Nota: os graus de liberdade indicados correspondem à situação em que os k grupos
têm a mesma dimensão, formando um total de N observações.
Oneway ANOVA (output do SPSS)
Teste de Levene para avaliar o pressuposto da homogeneidade das variâncias
Estatísticas descritivas por grupo (média, desvio-
padrão, erro-padrão da média, IC, mínimo e
máximo)
Tabela ANOVA (resultados do teste de comparação de
médias)
20
Tabela ANOVA
Fontes de variação dos
dados
Valor p
Estatística F
Soma de quadrados
Graus de liberdade
associados a cada soma de
quadrados
Estimativa da variância (média
quadrática)
Tabela ANOVA
Valor p
Os graus de liberdade também somam
A adição das Somas de Quadrados
corresponde à Soma de Quadrados total
Nº de grupos - 1
N - 1
As médias quadráticas resultam de dividir a Soma de Quadrados
pelos graus de liberdade
correspondentes
A estatística F resulta da divisão da Média Quadrática between
pela Média Quadrática within
Decisão
Se Sig. ≤ α, rejeita-se H0, o que se verifica no presente exemplo
(Sig. = 0,001 < 0,05).
Logo, rejeita-se H0 ao nível de significância α = 0,05, ou seja, pelo menos um dos grupos têm valor médio diferente dos restantes [F(2, 9) = 15,6, p = 0,001].
Oneway ANOVA (output do SPSS)
Gráfico de médias (means plot), permite visualizar que médias
são diferentes
O Grupo 1 (silêncio)
aparenta diferir dos restantes dois.
Como verificar estatistica-mente se assim é?
Análises posteriores
Se não se rejeitar H0, é fácil concluir que os grupos são idênticos. Mas se se rejeitar H0, apenas sabemos que pelo menos um dos grupos é diferente dos restantes. Como determinar os grupos que diferem entre si?
G1 = G2 = G3
G1 ≠ (G2 = G3) ou G2 ≠ (G1 = G3) ou G3 ≠ (G1 = G2)
G1 ≠ G2 ≠ G3
Em que situação estamos?
Não rejeitar H0
Rejeitar H0
Análises post-hoc
Existem inúmeros procedimentos para decidir que média são realmente diferentes umas das outras.
Todos estes procedimentos consistem em comparar pares de médias, mas agora estas comparações estão protegidas quanto ao empolamento do erro de tipo I.
Há procedimentos mais conservadores e procedimentos mais liberais – sem razão especial, vamos utilizar o procedimento post-hoc de Tukey HSD (honestly significant difference).
21
Análises post-hoc
Valor p para a diferença entre cada par de
condições
Valor da diferença para cada para de médias
Assinalam-se com * as diferenças significativas
para o valor de α escolhido
Análises post-hoc
Valor p para a diferença entre as médias dentro
de cada grupo
As condições organizam-se em dois grupos: “Condições 3 e 2” (que apresentam média com valores 4 e 5) e Condição 1 (que apresenta média
com valor 8).
Conclusão final
Em resumo, as diferenças detectadas pela ANOVA resultam do Grupo 1 ter uma desempenho significativamente mais elevado que os outros dois grupos (Grupo 1 vs Grupo 2: p = 0,008; Grupo 1 vs Grupo 3: p = 0,001), que, por sua vez, não se distinguem de
forma estatisticamente significativa (Grupo 2 vs Grupo 3: p = 0,409).
Análises post-hoc – procedimento de Bonferroni
Uma outra forma de realizar análises post-hoc controlando a taxa de erro global (experimentwise error) é através do procedimento de Bonferroni, que aqui se vai descrever por ser fácil de conduzir manualmente.
Se pretendemos fazer uma análise post-hoc após rejeitar na ANOVA
uma hipótese omnibus, basta realizar as k comparações através testes t entre pares de médias e utilizar como nível de significância
não α mas sim α/k.
Trata-se de um procedimento conservador, mas fácil de aplicar.
Análises post-hoc – procedimento de Bonferroni
Como são três grupos em comparação, vamos utilizar o nível
de significância α/3 = 0,05/3 = 0,0167.
Apenas a comparação 2 vs 3 não é significativa para este nível de significância corrigido.
0,2676t = 1,22Grupo 2 vs Grupo 3
0,0036t = 4,90Grupo 1 vs Grupo 3
0,0026t = 5,20Grupo 1 vs Grupo 2
Valor pGLEstatística tComparação
Análises post-hoc – outros procedimento
O SPSS oferece 18 alternativas no que respeita à análise post-hoc.
Alguns critérios podem nortear a escolha de uma dessas alternativas:
� Controlo sobre o erro de tipo I
� Controlo sobre o erro de tipo II
� Desigualdade no tamanho dos grupos a comparar
� Heterogeneidade das variâncias
22
Análises post-hoc – outros procedimento
Games-HowellVariâncias diferentes
Grupos diferentes
Gabriel (pouco diferentes)Hochberg GT2 (muito diferentes)
Variâncias diferentes
TukeyREGWQBonferroni (conservador)
Variâncias iguaisGrupos iguais
Procedimento post-hocHomogeneidade das variâncias
Dimensão dos grupos
Segundo Field (2000)
Contrastes a priori
Em vez de olharmos para as diferenças entre todos os pares de grupos, podemos estar interessados em apreciar contrastes planeados a priori.
Por exemplo, num estudo experimental, pode interessar comparar o grupo de controlo com dois grupos experimentais. Estes contrastes devem ser especificados antes da realização do teste omnibus.
Contrastes a priori
O SPSS disponibiliza um conjunto de contrastes a priori:
Testa tendências lineares, quadráticas e cúbicas e quárticas nos dados
Polynomial
Cada nível é comparado com o efeito médio das categorias anteriores
Difference
Cada nível é comparado com o efeito médio das categorias seguintes
Helmert
Cada nível é comparado com o nível seguinteRepeated
Cada nível é comparado com o primeiro / últimoSimple (first / last)
Compara o efeito de cada nível (excepto o primeiro / último) com o efeito global do estudo
Deviation (first / last)
Contraste
Exemplo
Considere que se planeara a priori contrastar o efeito da condição “Silêncio” com o efeito das outras duas condições. O contraste adequado será o de Helmert.
O silêncio (nível 1) difere significativamente da
média dos outros dois níveis (p = 0,000). No entanto, os outros dois níveis não diferem entre si de forma estaticamente
significativa (p = 0,213).
Relação entre o teste t e a ANOVA unifactorial
O teste t é um caso particular da ANOVA unifactorial (quando o número de grupos em comparação é 2).
Nessa situação, o valor da estatística F corresponde ao quadrado da estatística t. O valor p será idêntico em ambos os testes.
B. Amostras emparelhadas
Testes de hipótesesSua aplicações e limites
23
ANOVA com medidas repetidas
EXEMPLO
Objectivo: avaliar o efeito da cor na identificação e nomeação de objectos.
Desenho experimental: 25 sujeitos expostos a três condições experimentais (os objectos a nomear são representados através “desenhos”, “fotografias a preto e branco” ou “fotografias a cor”). Todos os sujeitos foram expostos a cada uma das condições experimentais.
Atenção aos efeitos de ordem!
ANOVA com medidas repetidas
Desenho experimental intra-sujeitos (o mesmo sujeito é exposto às três condições – amostras emparelhadas)
Factores:
Tipo de imagem: “desenho”, “foto B&W”, “foto cor”
(factor within subject)
Variável dependente:
Tempo de nomeação
Fontes de variação nos dados
Porque é que duas observações são diferentes?
� Porque os sujeitos nomearam estímulos diferentemente coloridos (efeito do factor Tipo de imagem)
� Porque os sujeitos são diferentes (efeito residual)
Hipóteses sobre valores médios
H0: Não há diferenças no desempenho médio dos sujeitos nas três condições experimentais
H1: Em pelo menos uma das condições experimentais o desempenho médio dos sujeitos difere do desempenho nas restantes condições
Dados
Vinte e cinco sujeitos expostos a três condições experimentais, definidas
consoante o tipo de imagem a nomear.
Os valores referem o tempo médio de nomeação das imagens (em
segundos) para cada condição.
A questão da esfericidade
Teste da esfericidade
Quando o factor within tem mais do que duas modalidades, é necessário que se verifique a esfericidade da matriz das covariâncias. Trata-se de uma exigência semelhante à homogeneidade de variâncias, mas desta vez para o caso da ANOVAcom medidas repetidas.
Na presente situação, rejeita-se H0 [X2(2) = 14,4, p = 0,001], ou seja, não se pode assumir a esfericidade da matriz de co-variâncias, pelo que é preciso seguir alguns cuidados na realização desta ANOVA de medidas repetidas.
24
ANOVA para medidas repetidas(output do SPSS)
Efeito do Tipo de Imagem
Rejeita-se H0 [F(1.4, 32.8) = 45,9, p = 0,000], ou seja, o tempo de nomeação das imagens foi influenciado pela manipulação experimental (presença ou
não de cor).
A significância do efeito do “Tipo de Imagem” lê-se nesta linha pois não se pode assumir a esfericidade dos dados.
A correcção de Greenhouse-Geisser altera os grau de liberdade da estatística F, de forma a garantir maior fiabilidade aos resultados da ANOVA.
ANOVA para medidas repetidas(output do SPSS)
Efeito do Tipo de Imagem
A nomeação dos
desenhos parece ser mais lenta do que a nomeação
das fotografias, quer sejam a cor ou a preto e branco.
ANOVA para medidas repetidas(output do SPSS)
Comparação entre modalidades
O tempo de nomeação dos desenhos é
estatisticamente diferente do tempo de nomeação dos outros dois tipos de imagem
(fotos B&W e fotos Cor).
Análise post hoc através do método de Bonferroni
Relação com outros procedimentos para teste estatístico de hipóteses sobre valores médios
Tal como o procedimento “One-way ANOVA” é a generalização do teste t de Student (Two independent samples t test) para situações em que se pretende comparar a média de mais do que duas amostras independentes, também o procedimento “Repeated measures ANOVA”é a generalização do teste t de Student (Two paired samples t test) para situações em que se pretende comparar a média de mais do que duas amostra emparelhadas.
Se não se cumprirem os requisitos mínimos de aplicação da ANOVA com medidas repetidas, é sempre possível recorrer ao teste não paramétrico de Friedman.
Parte 3Testes não paramétricos (distribution free)
Testes de hipótesesSua aplicações e limites
Árvore de decisão para testes sobre valores médios
Tipo de
dados
Nominais
Escala
Ordinais
Não se aplica o conceito de valor médio; talvez se
pretenda um teste de qui-quadrado
Amostras provém de populações normais
Não se sabe se as amostras provém de populações normais
Amostras grandes(N ≥ 30)
Amostras pequenas (N < 30)
Testes não-paramétricos
Testes paramétricos
25
Árvore de decisão(testes paramétricos sobre valores médios)
Teste de conformidade
Teste de diferenças
Amostras independentes
Amostras emparelhadas
Comparar dois valores médios
Comparar mais de dois valores médios
Homogeneidade de variâncias
Heterogeneidade de variâncias
Independent-Samples T Test
(Welch Method)
Independent-Samples T Test
One-SampleT Test
Paired-Samples T Test
Oneway-ANOVA
Welch & Brown-Forsythe Method
Amostras independentes
Testes paramétricos sobre valores
médios
Amostras emparelhadas GLM - Repeated
Measures
Homogeneidade de variâncias
Heterogeneidade de variâncias
Testes paramétricos e não paramétricos
Os testes apresentados testam hipóteses sobre parâmetros (valor médio). Quando as exigências de aplicação destes testes paramétrico não são respeitadas, pode-se optar pela alternativa não paramétricas correspondente.No entanto, os testes não paramétricos, tal como o seu nome indica, não avaliam hipóteses sobre parâmetros, pelo que as duas abordagens (paramétrica e não-paramétrica) não coincidem totalmente. Os testes não paramétricos testam, de um forma geral, igualdade de distribuições.
Condições de aplicação
Em geram, os testes não paramétricos exigem apenas que...
� As observações de uma amostra sejam independentes entre si.
� As observações resultem da mediação de uma variável métrica (medida ao nível ordinal ou de escala).
Árvore de decisão(testes não-paramétricos)
Teste de conformidade
Teste de diferenças
Amostras independentes
Amostras emparelhadas
Comparar dois valores médios
Comparar mais de dois valores médios
Não existe alternativanão-paramétrica
Amostras independentes
Testes não-paramétricos
equivalentes a testes sobre
valores médios
Amostras emparelhadas
Nonparametric tests2 Independent samples
(Mann-Whitney)
Nonparametric testsK Independent samples
(Kruskal-Wallis)
Nonparametric testsK Related samples
(Friedman)
Nonparametric tests2 Related samples
(Wilcoxon)
Ranking
Os testes não paramétricos indicados não se baseiam nos dados originalmente recolhidos mas na sua conversão em ranks (ordens).
Exemplo de ranking
Dados originais Ranks
7,2 → 4
5,4 → 3
2,8 → 1
9,3 → 5
5,2 → 2
As ordens ignoram o valor das
diferenças existentes entre observações, transformando uma variável medida ao
nível escalar numa variável ordinal.
Ranking
Exemplo de ranking com empates
Dados originais Ordenação Ranks
2,8 → 1 ou 2 1,5
2,8 → 1 ou 2 1,5
5,2 → 3 3
5,4 → 4 ou 5 ou 6 5
5,4 → 4 ou 5 ou 6 5
5,4 → 4 ou 5 ou 6 5
7,2 → 7 7
9,3 → 8 8
Faz-se a média das ordens:
(1+2)/2 = 1,5
Faz-se a média das ordens:
(4+5+6)/3 = 5
26
Parte 4Desenhos experimentais complexos
Testes de hipótesesSua aplicações e limites
Planos experimentais factoriais
Em investigação experimental, é frequente estudar o efeito simultâneo de dois ou mais factores no desempenho dos participantes.
Por exemplo…Testar a agradabilidade provocada pelo contacto
com um estímulo táctil em que se variou diferentes características (textura e temperatura).
Factores / modalidade / condições
Trata-se de um plano experimental bifactorial, pois manipularam-se dois factores: o factor experimental “textura” tem duas modalidades
(liso e rugoso) e o factor experimental “temperatura” tem três
modalidades (frio, normal e quente).
Para avaliar o efeito destas seis condições experimentais na variável dependente (“agradabilidade sentida”), dever-se-á recorrer a
uma ANOVA 2x3.
Rugoso
Liso
QuenteNormalFrio
Situações multifactoriais
O plano experimental anterior pode estender-se a três factores, incluindo um factor adicional (por exemplo, a “humidade” do
estímulo: seco ou húmido), passando assim a uma situação trifactorial e definindo-se 2 x 3 x 2 = 12 condições experimentais.
SecoHúmido
QuenteNormalFrio
Rugoso
Liso
QuenteNormalFrio
Natureza dos factores
Existem dois tipos de factores experimentais:
� Factores entre-sujeitos (between subjects) – quando cada sujeito experimental é exposto apenas a uma modalidade de cada factor.
� Factores intra-sujeitos (within subjects) – quando um sujeito éexposto a mais do que uma modalidade de um mesmo factor.
Plano experimental entre-sujeitos
Nesta experiência, cada sujeito é exposto a uma única condição.
Para comparar condições temos de comparar o desempenho de sujeitos diferentes. Assim, trata-se de um plano experimental
entre-sujeitos (between subjects design).
RaulTâniaPaulo
PaulaJoséMário
VascoManuelJulieta
Rugoso
JoaquimVanessaRui
TiagoHugoVânia
PedroJoãoMaria
Liso
QuenteNormalFrio
27
Plano experimental intra-sujeitos
Nesta experiência, cada sujeito é exposto a todas as condições experimentais. Para comparar condições temos de comparar o
desempenho de cada sujeito numa condição com o seu desempenho noutra condição. Assim, trata-se de um plano experimental intra-
sujeitos puro (within subjects design).
PedroJoãoMaria
PedroJoãoMaria
PedroJoãoMaria
Rugoso
PedroJoãoMaria
PedroJoãoMaria
PedroJoãoMaria
Liso
QuenteNormalFrio
Plano experimental misto
Nesta experiência, cada sujeito é exposto às duas modalidades do factor “textura” mas apenas a uma modalidade do factor “temperatura”. Num dos factores (“textura”) o
desempenho do sujeito numa condição pode ser comparado com o seu desempenho noutra condição; no outro factor (“temperatura”), o seu desempenho é comparado com o desempenho de outros sujeitos. Assim, trata-se de um plano experimental misto
(mixed design): a “textura” é um factor intra-sujeitos e a “temperatura” um factor entre-sujeitos.
JoaquimVanessaRui
TiagoHugoVânia
PedroJoãoMaria
Rugoso
JoaquimVanessaRui
TiagoHugoVânia
PedroJoãoMaria
Liso
QuenteNormalFrio
Interacção
Em estudos com mais de um factor, o foco de interesse é o efeito da interacção entre esses factores na variável
dependente.
Será o efeito de um factor independente do outro factor ou o seu efeito conjunto leva a produzir padrões de resultados
inesperados?
A análise das interacções é um ponto fundamental na investigação psicológica.
A. ANOVA bifactorial
Testes de hipótesesSua aplicações e limites
ANOVA bifactorial(para grupos independentes)
EXEMPLO
Objectivo: avaliar o impacto de uma formação breve nas competências para utilizar software estatístico.
Amostra: grupo de controlo (20 estudantes) e grupo experimental (20 estudantes que receberam a formação breve). Cada grupo foi definido de forma a garantir que metade dos estudantes tivessem experiência no uso de software (grupo de experientes) e a outra metade não tivesse qualquer experiência de utilização de software
(grupo de não experientes).
ANOVA bifactorial
Plano experimental bifactorial entre-sujeitos
Factores
Formação: Grupo experimental versus Grupo de controlo
Experiência: Experientes versus Não-experientes
Variável dependente
Competências de utilização demonstradas numa tarefa
com o software em causa
Procedimento de análise: ANOVA 2x2
28
Fontes de variação nos dados
Porque razão duas observações deste estudo são diferentes?
� Porque os sujeitos receberam formação diferente (efeito do factor “Formação”).
� Porque os sujeitos têm experiências prévias diferente com software
(efeito do factor “Experiência”).
� Porque o efeito da formação nos sujeitos depende da sua experiência prévia (efeito da interacção entre “Experiência” e “Formação”).
� Porque são pessoas diferentes (efeito residual)
Serão este efeitos realmente significativos no desempenho?
Fontes de variação nos dados
Efeitos presentes num plano bifactorial:
� Efeito do factor “Formação”
� Efeito do factor “Experiência”
� Efeito da interacção “Experiência x Formação” (interacção de 2ªordem)
Efeitos principais
(main effects)
Hipóteses
Factor formação
H0: Não há diferenças entre Grupo Experimental e Grupo de Controlo
H1: Há diferenças entre grupo Experimental e Grupo de Controlo
Factor Experiência
H0: Não há diferenças entre Experientes e Não-experientes
H1: Há diferenças entre Experientes e Não-experientes
Interacção entre formação e experiência
H0: O efeito da formação é independente da experiência dos participantes. H1: O efeito da formação depende da experiência dos participantes.
Dados
15, 16 14, 19, 13, 14, 15, 16, 17, 17
15, 16, 15, 17, 15, 16, 15, 17, 15, 16
Experimental(com formação)
15, 14, 15, 16, 16, 15, 16, 17, 15, 14
11, 12, 13, 14, 10, 12, 11, 13, 14, 12
Controlo(sem formação)
ExperientesInexperientesResultados na tarefa
A amostra total é constituída por 40 observações distribuídas pelas quatro condições experimentais.
Homogeneidade das variâncias
Teste de homogeneidade das variâncias de Levene
Perante grupos independentes, a realização da ANOVA exige
que as variâncias dos grupos em comparação sejam semelhantes.
Como não se rejeita H0 [F(3, 36) = 2,2, p = 0,111], pode-se assumir a homogeneidade das variâncias, pelo que existem
condições para prosseguir a ANOVA.
Interacção entre factores
A vantagem das ANOVAs bifactoriais sobre as ANOVAs unifactoriais diz respeito à possibilidade de avaliar se os dois efeitos agem
independentemente um do outro sobre a variável dependente ou se, pelo contrário, o efeito de um depende do efeito do outro (interacção).
No exemplo em análise, será que o efeito benéfico da formação dependerádo facto dos sujeitos serem Experientes ou Inexperientes?
Se não existe interacção significativa, os factores principais podem ser
interpretados isoladamente. Quando existe interacção, não se pode falar dos efeitos principais isoladamente, uma vez que o efeito de um factor
depende do efeito do outro. Assim, a interacção deve ser sempre interpretada em primeiro lugar, antes da interpretação dos efeitos principais.
29
Teste das hipóteses sobre valores médios – efeito de interacção
Efeito da interacção Formação x Experiência
Rejeita-se H0 [F(1, 36) = 15,8, p = 0,000], ou seja, o efeito da formação não é
idêntico para experientes e não experientes; o esclarecimento sobre o significado desta interacção é facilitado pela análise do gráfico de médias.
Gráfico de médias
Interacção Formação x Experiência
Enquanto que nos Experientes a formação parece ter um efeito negligenciável, o facto dos Inexperientes terem
frequentado o curso de formação fez com que o seu desempenho se aproximasse do dos Experientes.
Análise gráfica dos efeitos de interacção
A1 A2 A1 A2 A1 A2
B2
B1
Efeito A: n sig
Efeito B: n sig
Interacção: n sig
Efeito A: n sig
Efeito B: sig
Interacção: n sig
Efeito A: sig
Efeito B: sig
Interacção: n sig
Nota: a ausência de interacção detecta-se facilmente através de um gráfico de médias: as linhas são grosseiramente paralelas.
Análise gráfica dos efeitos de interacção
A1 A2 A1 A2 A1 A2
Efeito A: n sig
Efeito B: sig
Interacção: sig
Efeito A: sig
Efeito B: n sig
Interacção: sig
Efeito A: n sig
Efeito B: n sig
Interacção: sig
A1 A2
Efeito A: sig
Efeito B: sig
Interacção: sig
Nota: a presença de interacção detecta-se facilmente através de um gráfico de médias: as linhas cruzam, convergem ou divergem.
Identificação das diferenças significativas numa interacção
Os diversos padrões de interacção que podem surgir obrigam a identificar que condições diferem entre si.
O SPSS não permite fazer comparações post hoc para efeitos de interacção, pelo que é preciso recorrer a testes t de Student ou a ANOVAs para identificar que médias diferem umas das outras. Nestes casos, é necessário usar sempre a correcção de Bonferroni.
NOTA: para realizar esta comparação post hoc com o teste t, utilize o
comando “split file” para fazer a análise separadamente em função do nível de experiência.
Grupo de experientes
Grupo de inexperientes
Identificação das diferenças significativas numa interacção
30
Identificação das diferenças significativas numa interacção
Como estamos a fazer dois testes, a correcção de Bonferroni recomenda
usar o nível de significância α/2 = 0,05/2 = 0,025.
Confirma-se, assim, que a formação
não exerce efeito nos experientes (médias: 15,3 vs 15,6; t = -0,47, df =
18, p = 0,643) mas melhora significativamente o desempenho dos inexperientes (médias: 12,2 vs 15,7; t =
-7,13, df = 18, p = 0,000).
Teste das hipóteses sobre valores médios – efeitos principais
Efeito da Formação
Rejeita-se H0 [F(1, 36) = 22,3, p = 0,000], ou seja, a formação introduziu diferenciação significativa no desempenho da tarefa. Pela tabela das
estatísticas descritivas, pode-se observar que o grupo experimental (com formação) teve um desempenho médio significativamente superior ao grupo
de controlo (15,65 versus 13,75).
Teste das hipóteses sobre valores médios – efeitos principais
Efeito da Experiência
Rejeita-se H0 [F(1, 36) = 13,9, p = 0,001], ou seja, a experiência introduziu
diferenciação significativa no desempenho da tarefa. Pela tabela das estatísticas descritivas, pode-se observar que, independentemente da
formação, o grupo experiente teve um desempenho médio significativamente superior ao grupo inexperiente (15,45 versus 13,95).
Conclusão geral
A formação parece ter efeito positivo apenas no grupo de inexperientes, permitindo-lhes um nível de desempenho igual
aos experientes. O seu benefício para os Experientes é não significativo.
Apesar dos efeitos principais serem significativos, perdem significado perante a interacção detectada (ou seja, a
vantagem dos Experientes observa-se apenas na condição “Sem formação” e a vantagem da formação observa-se apenas para o grupo de Inexperientes).
Dificuldades na interpretação dos efeitos de interacção
A presença de efeitos designados por “ceiling effect” ou “floor
effect” pode tornar inviável a interpretação das interacções.
Efeito de tecto (ceiling effect) – ocorre quando o desempenho de um dos grupos se aproxima do nível máximo possível permitido pela prova (ou seja, a prova é demasiadamente fácil
para esse grupo).
Efeito de chão (floor effect) – ocorre quando o desempenho de um dos grupos se aproxima do nível mínimo permitido pela prova (a prova é demasiadamente difícil para esse grupo).
Efeito de tecto e efeito de chão
Uma interacção significativa entre dois factores pode ser um artefacto devido à presença de efeito de tecto ou de efeito de
chão, tornando assim a investigação inconclusiva.
Por essa razão, o investigador deve garantir que a prova ou teste que está a utilizar para avaliar o desempenho dos sujeitos seja suficientemente discriminativa (nem muito fácil
nem muito difícil), para garantir que os níveis de desempenho se situem a um nível médio (longe do “tecto” e longe do “chão”).
31
Efeito de tecto
Neste exemplo, o grupo A tem um desempenho próximo do máximo
(100%) em ambas as condições experimentais (ceiling effect).
A análise estatística vai detectar uma interacção que, muito provavelmente,
será um artefacto devido ao ceiling effect. O facto do grupo A ter-se aproximado do
nível máximo de desempenho em ambas as condições não garante que, numa
prova mais difícil, o seu desempenho não diferisse entre condições, assemelhando-se ao do grupo B (as linhas do gráfico
ficariam então paralelas e deixaria de haver interacção).
50
55
60
65
70
75
80
85
90
95
100
Grupo A Grupo B
Res
po
sta
s c
orr
ecta
s (%
)
Com Luz
Sem Luz
Efeito de chão
Neste exemplo, o grupo B tem um desempenho próximo do nível mínimo que
a prova permite (0%) em ambas as condições experimentais (floor effect).
Também aqui a ANOVA vai detectar uma interacção significativa que será um
artefacto devido à presença de floor
effect. O facto do grupo B ter-se
aproximado sistematicamente do nível mínimo de desempenho em ambas as
condições não garante que, numa prova mais fácil, o seu desempenho permitisse uma dissociação entre condições
experimentais, semelhante à observada no grupo A.
0
10
20
30
40
50
60
Grupo A Grupo B
Res
post
as c
orr
ecta
s (%
)
Com Luz
Sem Luz
B. ANOVA bifactorialcom medidas repetidas
Testes de hipótesesSua aplicações e limites
ANOVA com medidas repetidas
Planos bifactoriais em que ambos os factores são intra-sujeitos são frequentes em estudos experimentais, quando o mesmo conjunto de sujeitos é exposto às diferentes condições manipuladas pelo experimentador.
A utilização da mesma amostra nas diferentes condições permite reduzir a variação residual atribuível a diferenças individuais. No entanto, é preciso cuidados metodológicos especiais neste tipo de estudos, para evitar efeitos de ordem no desempenho dos sujeitos(cansaço, treino, expectativas).
ANOVA com medidas repetidas
EXEMPLO
Objectivo: avaliar o efeito da fase do dia (manhã e noite) e da
natureza do material (letras, números, formas geométricas) no desempenho em provas de memória imediata.
Plano experimental: 30 sujeitos expostos a três condições experimentais durante a manhã (memorizar letras, números e formas geométricas) e às mesmas três condições experimentais
durante o início da noite. Regista-se o número de respostas certas nas diferentes provas de memória. Foram acautelados os efeitos de ordem.
ANOVA com medidas repetidas
EXEMPLO
Plano experimental intra-sujeitos
Factores (within subject):
Tipo de material: “letras”, “números”, “formas”
Fase do dia: “manhã”, “noite”
Variável dependente:
Desempenho nas provas de memória imediata
Procedimento de análise: ANOVA 3 x 2 com medidas repetidas
32
Hipóteses
Factor Fase do dia
H0: Não há diferenças de desempenho entre a manhã e a noite
H1: Existem diferenças entre a manhã e a noite
Factor Tipo de material
H0: Não há diferenças de desempenho para os três tipos de material
H1: Pelo menos um dos tipos de material levou a desempenho diferentes dos restantes
Interacção entre factores
H0: O efeito do tipo de material é independente da fase do dia do teste
H1: O efeito do tipo de material depende da fase do dia do teste
Dados
Trinta sujeitos expostos a seis (2 x 3) condições
experimentais.
Como se trata de um plano de estudo com medidas
repetidas, a base de dados
inclui 30 linhas (sujeitos) e 6 colunas (condições).
Os valores referem a acuidade das respostas
dadas nas provas de memória imediata realizadas
em cada condição.
ANOVA com medidas repetidas no SPSS
É necessário atribuir um nome aos dois factores within subjects e identificar o número de níveis que eles possuem.
Aqui trata-se do factor “fase_dia” (com duas modalidades: “manhã” e “noite”) e do factor “material” (com três modalidades: “letras”, “números” e
“formas”).
ANOVA com medidas repetidas no SPSS
Atribuir as seis variáveis aos
factores within subjects.
Options
Solicitar um gráfico de médias,
para facilitar a interpretação de eventuais interacções.
Output – estatísticas descritivas
Estatísticas descritivas:
acuidade no desempenho em cada prova
Descriptive Statistics
7,37 2,918 30
6,10 2,845 30
4,10 2,591 30
7,00 2,213 30
4,40 2,568 30
3,97 2,236 30
manha_num
manha_let
manha_for
noite_num
noite_let
noite_for
Mean Std. Deviation N
Mauchly's Test of Sphericityb
Measure: MEASURE_1
1,000 ,000 0 . 1,000 1,000 1,000
,203 44,687 2 ,000 ,556 ,563 ,500,778 7,020 2 ,030 ,818 ,861 ,500
Within Subjects Effectfase_dia
materialfase_dia * material
Mauchly's WApprox.
Chi-Square df Sig.Greenhouse-Geisser Huynh-Feldt Lower-bound
Epsilona
Tests the null hypothesis that the error covariance matrix of the orthonormalized transformed dependent variables isproportional to an identity matrix.
May be used to adjust the degrees of freedom for the averaged tests of significance. Corrected tests are displayed inthe Tests of Within-Subjects Effects table.
a.
Design: Intercept Within Subjects Design: fase_dia+material+fase_dia*material
b.
Output – esfericidade
Rejeita-se a hipótese de esfericidade nos casos em que ela tem de ser testada
(ou seja, para o factor “material”, que tem 3 níveis, e na interacção que tem 2x3 níveis). Por haver problemas de esfericidade, é preciso proceder às
devidas correcções na ANOVA (correcção de Greenhouse-Geisser).
33
Output – teste das hipóteses
Como se referiu anteriormente, nos planos bifactoriais deve-se começar sempre por verificar se a interacção é significativa antes de
analisar os efeitos principais…
Isto porque, caso a interacção seja significativa, é arriscado falar do efeito isolado de um factor sem que se tenha, obrigatoriamente, de referir o outro factor (uma vez que os dois factores interagem na
influência que têm sobre a variável dependente).
Apenas quando a interacção não é significativa é que o efeito isolado
de cada factor pode ser referido, independentemente do outro factor da experiência.
Tests of Within-Subjects Effects
Measure: MEASURE_1
24,200 1 24,200 34,858 ,000
24,200 1,000 24,200 34,858 ,000
24,200 1,000 24,200 34,858 ,000
24,200 1,000 24,200 34,858 ,000
20,133 29 ,694
20,133 29,000 ,694
20,133 29,000 ,694
20,133 29,000 ,694302,811 2 151,406 16,892 ,000
302,811 1,113 272,119 16,892 ,000
302,811 1,125 269,075 16,892 ,000
302,811 1,000 302,811 16,892 ,000
519,856 58 8,963
519,856 32,271 16,109
519,856 32,636 15,929
519,856 29,000 17,926
21,433 2 10,717 13,741 ,000
21,433 1,637 13,093 13,741 ,000
21,433 1,722 12,449 13,741 ,000
21,433 1,000 21,433 13,741 ,001
45,233 58 ,780
45,233 47,472 ,953
45,233 49,928 ,906
45,233 29,000 1,560
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity AssumedGreenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sourcefase_dia
Error(fase_dia)
material
Error(material)
fase_dia * material
Error(fase_dia*material)
Type III Sumof Squares df Mean Square F Sig.
Output – teste das hipóteses
A interacção entre os
dois factores ésignificativa (correcção
de Greenhouse-Geisser).
Output – teste das hipóteses (interacção)
Efeito da interacção entre factores
Rejeita-se H0 [F(1.6, 47.5) = 13,7, p = 0,000], ou seja, as diferenças
de desempenho nas três provas não são iguais de manhã e ànoite…
… ou seja, as diferenças entre o desempenho matinal e nocturno
não é igual nas três provas.
… ou seja, o efeito do tipo de material depende da altura do dia em que a prova é realizada.
Output – gráfico de médias
Interacção entre material e
fase do dia
A capacidade de memória
para números e para formas parece semelhante nos dois
momentos de avaliação; a memória para letras parece ser mais eficaz durante a
manhã. Para verificar a significância desta leitura, é
preciso proceder a análises post hoc.
Paired Samples Test
,367 1,608 ,294 -,234 ,967 1,249 29 ,222
1,700 1,119 ,204 1,282 2,118 8,323 29 ,000
,133 ,819 ,150 -,173 ,439 ,891 29 ,380
manha_num - noite_numPair 1
manha_let - noite_letPair 2
manha_for - noite_forPair 3
Mean Std. DeviationStd. Error
Mean Lower Upper
95% ConfidenceInterval of the
Difference
Paired Differences
t df Sig. (2-tailed)
Identificação das diferenças significativas na interacção (análise post hoc)
A comparação post hoc entre as médias do gráfico de interacção poderá ser feita recorrendo ao teste t para amostras emparelhadas (com correcção de
Bonferroni, utilizando-se o valor α/3 = 0.05/3 = 0.0167, pois é realizado um conjunto de três testes).
A análise post hoc permite afirmar que apenas na prova de memória para letras existe diferença significativa entre manhã e noite (t = 8,3, gl = 29, p = 0,000).
Output – teste das hipóteses (efeitos principais)
Efeito do tipo de material
Rejeita-se H0 [F(1.1, 32.3) = 16,9, p = 0,000], ou seja, o desempenho de pelomenos uma das provas é diferente dos restantes.
Como este factor tem três modalidades, é preciso proceder a
análises post hoc para identificar que modalidades são diferentes entre si (apenas sabemos que pelo
menos uma difere das restantes).
34
Pairwise Comparisons
Measure: MEASURE_1
1,933* ,659 ,019 ,260 3,607
3,150* ,656 ,000 1,483 4,817
-1,933* ,659 ,019 -3,607 -,260
1,217* ,179 ,000 ,762 1,671
-3,150* ,656 ,000 -4,817 -1,483
-1,217* ,179 ,000 -1,671 -,762
(J) material2
3
1
3
1
2
(I) material1
2
3
MeanDifference
(I-J) Std. Error Sig.a
Lower Bound Upper Bound
95% Confidence Interval forDifference
a
Based on estimated marginal means
The mean difference is significant at the ,05 level.*.
Adjustment for multiple comparisons: Bonferroni.a.
Output – análise post hoc
Comparação entre materiais
Observam-se diferenças significativas entre o desempenho nas três provas, pelo que
se pode afirmar que, independentemente da hora do dia, a capacidade de memória para números é sempre melhor do que a capacidade de memória para letras e ambas são melhores do que a capacidade de memória para formas geométricas.
Análise post hoc através do método de Bonferroni
Output – teste das hipóteses (efeitos principais)
Efeito da fase do dia
Rejeita-se H0 [F(1, 29) = 34,9, p = 0,000], ou seja, o desempenho geral nas provas de memória depende da fase do dia em que foi avaliado.
A análise das médias indica que o desempenho geral nas provas de
memória durante a manhã é superior ao desempenho durante a noite (neste
caso, como o factor “fase do dia” apenas tem duas modalidades, não é preciso proceder a análises post hoc); no
entanto, a análise da interacção revelou-nos que essa diferença deve-se
sobretudo à prova de letras..
Conclusão geral
Embora o desempenho de provas de memória seja sistematicamente melhor quando se trabalha com números e
pior quando se trabalha com formas geométricas, o desempenho em provas de memória que utilizem letras parece depender da altura do dia em que a prova é realizada. C. ANOVA mista
Testes de hipótesesSua aplicações e limites
ANOVA com plano experimental misto
EXEMPLO
Objectivo: avaliar o efeito de uma sessão de relaxamento na pressão arterial sistólica.
Plano experimental: Após uma prova de esforço (destinada a aumentar a pressão arterial), 30 sujeitos foram aleatoriamente distribuídos por dois grupos: um grupo realizou uma sessão de relaxamento activo com duração de 10 minutos (grupo experimental) e o outro grupo ficou em repouso (grupo de controlo). Mediu-se a pressão arterial antes e depois de cada sessão. Pretende-se avaliar se a sessão de relaxamento activo teve mais efeito na redução da tensão arterial do que sessão de repouso.
ANOVA com plano experimental misto
Plano experimental misto
Factores:
Tempo: “antes da sessão” versus “depois da sessão”
(factor within subjects)
Tipo de sessão: relaxamento activo versus repouso
(factor between subjects)
Variável dependente:
Pressão arterial sistólica
Procedimento de análise: ANOVA com medidas repetidas
35
Hipóteses
Factor Tempo
H0: Não há diferenças na pressão arterial antes e depois das sessões
H1: Há diferenças na pressão arterial antes e depois das sessões
Factor Tipo de Relaxamento
H0: Não há diferenças entre Relaxamento Activo e RepousoH1: Há diferenças entre Relaxamento Activo e Repouso
Interacção entre factores
H0: A diferença na pressão antes e depois é independente do tipo de relaxamento
H1: A diferença na pressão antes e depois depende do tipo de relaxamento
Esta é a hipótese que interessa explorar nesta investigação, pois permite averiguar se o tipo de relaxamento afecta a descida da pressão arterial.
Dados
Trinta sujeitos distribuídos por duas condições experimentais
Os valores referem à pressão arterial sistólica (PA) antes e depois do
tratamento (sessão de relaxamento / repouso)
Homogeneidade de variâncias
Homogeneidade das variâncias
Como nesta análise existe um factor entre-sujeitos, é necessário verificar se a variância das variáveis em estudo (PA_antes e PA_depois) é igual
nos dois grupos em comparação.
Verifica-se existir homogeneidade das variâncias para as duas variáveis (para ambas a variáveis, p > 0,050), pelo que se pode prosseguir a ANOVA.
Levene's Test of Equality of Error Variancesa
,119 1 28 ,732
,285 1 28 ,597
PA_antes
PA_depois
F df1 df2 Sig.
Tests the null hypothesis that the error variance of thedependent variable is equal across groups.
Design: Intercept+Sessão Within Subjects Design: tempo
a.
Esfericidade
Teste da esfericidade
Como o factor within tem apenas dois níveis (“antes” e “depois”) não faz
sentido testar a esfericidade da matriz das covariâncias.
Mauchly's Test of Sphericityb
Measure: MEASURE_1
1,000 ,000 0 . 1,000 1,000 1,000Within Subjects Effecttempo
Mauchly's WApprox.
Chi-Square df Sig.Greenhouse-Geisser Huynh-Feldt Lower-bound
Epsilona
Tests the null hypothesis that the error covariance matrix of the orthonormalized transformed dependent variables isproportional to an identity matrix.
May be used to adjust the degrees of freedom for the averaged tests of significance. Corrected tests are displayed inthe Tests of Within-Subjects Effects table.
a.
Design: Intercept+Sessão Within Subjects Design: tempo
b.
Tests of Within-Subjects Effects
Measure: MEASURE_1
390,150 1 390,150 104,504 ,000
390,150 1,000 390,150 104,504 ,000
390,150 1,000 390,150 104,504 ,000
390,150 1,000 390,150 104,504 ,000
30,817 1 30,817 8,254 ,008
30,817 1,000 30,817 8,254 ,008
30,817 1,000 30,817 8,254 ,008
30,817 1,000 30,817 8,254 ,008
104,533 28 3,733
104,533 28,000 3,733
104,533 28,000 3,733
104,533 28,000 3,733
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sourcetempo
tempo * Sessão
Error(tempo)
Type III Sumof Squares df Mean Square F Sig.
Teste das hipóteses – factor within
Efeito do Tempo (efeito within)
Como seria de esperar (pois a pressão arterial deverá baixar naturalmente 10 minutos após a conclusão do exercício), rejeita-se H0 [F(1, 28) = 104,5, p = 0,000], ou seja, há diferenças na pressão arterial antes e depois das sessões.
A significância do efeito do facto within
(Tempo) lê-se nesta linha pois não se coloca a exigência da esfericidade.
Tests of Between-Subjects Effects
Measure: MEASURE_1
Transformed Variable: Average
596206,017 1 596206,017 1315,354 ,000
170,017 1 170,017 ,375 ,545
12691,467 28 453,267
SourceIntercept
Sessão
Error
Type III Sumof Squares df Mean Square F Sig.
Teste das hipóteses – factor between
Efeito da Sessão (efeito between)
Não se rejeita H0 [F(1, 28) = 0,4, p = 0,545], ou seja, não existe diferença entre sessões.
Atenção: como se trata de um factor between, o SPSS apresenta o teste correspondente numa tabela diferente da anterior.
36
Tests of Within-Subjects Effects
Measure: MEASURE_1
390,150 1 390,150 104,504 ,000
390,150 1,000 390,150 104,504 ,000
390,150 1,000 390,150 104,504 ,000
390,150 1,000 390,150 104,504 ,000
30,817 1 30,817 8,254 ,008
30,817 1,000 30,817 8,254 ,008
30,817 1,000 30,817 8,254 ,008
30,817 1,000 30,817 8,254 ,008
104,533 28 3,733
104,533 28,000 3,733
104,533 28,000 3,733
104,533 28,000 3,733
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sourcetempo
tempo * Sessão
Error(tempo)
Type III Sumof Squares df Mean Square F Sig.
Teste das hipóteses - interacção
Efeito da interacção Tempo x Sessão (efeito misto)
Existe interacção entre Tempo e Sessão [F(1, 28) = 8,3, p = 0,008], ou seja, a
redução da pressão observada entre o momento “antes” e “depois” é diferente no grupo que fez relaxamento e no grupo de repouso.
Gráfico de médias
Interacção Tempo x Sessão
A diminuição da tensão
entre o momento “antes” e “depois” (efeito do Tempo) é distinta nos dois grupos:
tal diminuição é mais marcada no grupo que
seguiu a sessão de relaxamento.
Identificação das diferenças significativas na interacção
Também aqui poderá ser necessário fazer comparações post hoc para identificar que médias diferem umas das outras.
O teste a escolher depende se se está trabalhar com o factor intra-sujeitos ou
o factor entre-sujeitos…
É necessário usar sempre a correcção de Bonferroni.
Identificação das diferenças significativas na interacção
Duas alternativas de análise…
Fazer análise do factor intra-sujeitos para cada grupo definido pelo factor
entre-sujeitos.
Fazer a comparação entre os grupos definido pelo factor entre-sujeitos para cada um dos momentos definidos pelo
factor intra-sujeitos.
Identificação das diferenças significativas na interacção
Grupo Sessão = repouso
Grupo Sessão = relaxamento
Identificação das diferenças significativas na interacção
Verifica-se que o efeito entre o início e o fim da sessão é significativo para os dois tipos de sessão (repouso: t = 9,49, df = 14, p = 0,000; relaxamento: t =
7,10, df = 14, p = 0,000). No entanto, a diminuição dos níveis médios de pressão é maior nas sessões de relaxamento (diferença entre médias = 6,53)
do que nas sessões de repouso (diferença entre médias = 3,67).
Uma sessão de relaxamento activo parece ter um efeito mais marcado na
redução da pressão arterial após exercício do que uma sessão de repouso simples.
37
Conclusão
Uma sessão de relaxamento activo parece ter um efeito mais marcado na redução da pressão arterial após exercício do que uma sessão de repouso simples.
D. Situações mais complexas
Testes de hipótesesSua aplicações e limites
ANOVAs mais complexas
Podem surgir estudos mais complexos, dependendo do número de factores envolvidos e do número de modalidades presentes em cada
factor:
a) Estudos com dois factores, mas onde cada factor tem mais de duasmodalidades (por exemplo, ANOVA 3 x 4)
b) Estudos com mais do que dois factores – análise de variância multifactorial (por exemplo, ANOVA 2 x 3 x 2).
Análise bifactorial com mais de duas modalidades
ANOVA 3 x 2
O efeito da iluminação édiferente consoante o nível
de experiência do sujeito: ser leitor experiente traz
vantagens para a velocidade de leitura em condições de penumbra.
10
12
14
16
18
20
22
24
26
28
30
Luz Penumbra Sombra
Condições de leitura
Vel
oci
dad
e d
e le
itu
ra
Experientes
Inexperientes
ANOVA 3 x 4
O aumento do número de
modalidades de cada factor dificulta a interpretação da interacção.
A análise post-hoc desta interacção
implica o recurso à ANOVA unifactorial e ao método de Tukey(para comparar, por exemplo, o
desempenho dos três grupos ESS
em cada ano de escolaridade).10
11
12
13
14
15
16
17
18
19
20
1º ano 2º ano 3º ano 4º ano
ESS baixo
ESS médio
ESS alto
Análise multifactorial
Quanto existem três factores em jogo (A, B e C), para além dos factores
principais (main effects) e da interacção de 2ª ordem (interacção entre pares de factores: AxB, AxC e BxC), existe ainda a interacção de 3ª ordem entre os três factores (AxBxC).
A dificuldade em interpretar os efeitos de interacção aumenta rapidamente assim que se passa para análises com mais do que três factores.
38
Análise trifactorial
Considere-se que se pretende avaliar a presença de música na sessão de relaxamento (com música ou sem música) tem efeito na redução da pressão
sistólica (antes versus depois), procurando averiguar se esse feito édiferente entre homens e mulheres.
Temos uma ANOVA 2 x 2 x 2, com os seguintes factores:
Sexo (masculino vs feminino)
Momento (antes vs depois)
Condição experimental (com música vs sem música)
Interacção de 3ª ordem
A redução da pressão sistólica (antes versus depois) é diferente entre sexos
quando o treino é feito sem música (as mulheres relaxam mais) mas igual nos dois sexos quando o treino é feito com música.
E. ANCOVA
Testes de hipótesesSua aplicações e limites
ANCOVA – Analysis of Covariance
Covariáveis são variáveis de natureza quantitativa utilizadas em ANOVA para reduzir a variação devida ao erro residual, aumentando assim a potência do teste para detectar diferenças.
No estudo sobre o efeito do ruído na compreensão de um texto podemos considerar que o resultado numa prova de Vocabulário
(medida da vocabulário que o sujeito possui) está correlacionado com a compreensão do texto, pelo que pode ser usado para tornar o teste mais sensível (mais potente) pois controla-se o efeito dessa variável estranha no efeito que se pretende avaliar (efeito das condições de ruído na compreensão de um texto).
ANCOVA – Analysis of Covariance
EXEMPLO
Objectivo: avaliar o ruído ambiental na compreensão de um texto.
Amostra: três grupos de 4 crianças cada foram expostos a três condições ambientais distintas (silêncio vs música de fundo vs ruído de fundo) ouviram a leitura de um texto. No final, foram feitas perguntas para avaliar a compreensão do texto escutado.
Considerou-se que o conhecimento de vocabulário se relaciona com a compreensão de textos, pelo que se pretendeu usar essa variável para controlar essa fonte de variação e tornar o estudo mais sensível às diferenças entre as condições experimentais.
ANCOVA – Analysis of Covariance
ANOVA (sem covariável)
Rejeita-se H0 [F(2, 9) = 15,6, p = 0,001]: existem diferenças entre condições de
ruído.
ANOVA
Acertos
34,667 2 17,333 15,600 ,00110,000 9 1,111
44,667 11
Between GroupsWithin Groups
Total
Sum ofSquares df Mean Square F Sig.
39
ANCOVA – Analysis of Covariance
ANCOVA (usar Vocabulário como covariável)
A variância do erro diminui de 1,11 para 0,57, devido ao controlo da variação atribuível às diferenças individuais no vocabulário dos sujeitos.
O efeito da covariável é significativo [F(1, 8) = 9,6, p = 0,015], confirmando a existência de associação entre o nível de vocabulário e a variável dependente.
Rejeita-se H0
[F(2, 8) = 23,1, p = 0,000].
Tests of Between-Subjects Effects
Dependent Variable: Acertos
40,113a 3 13,371 23,493 ,000
,164 1 ,164 ,289 ,606
5,447 1 5,447 9,570 ,01526,350 2 13,175 23,149 ,000
4,553 8 ,569
430,000 12
44,667 11
SourceCorrected Model
Intercept
VocabCondição
Error
Total
Corrected Total
Type III Sumof Squares df Mean Square F Sig.
R Squared = ,898 (Adjusted R Squared = ,860)a.
ANCOVA: Condição de aplicação
Homogeneidade de declives: a ANCOVA exige que a relação entre a covariável e a variável dependente seja semelhante nos três grupos.
Para testar este
pressuposto, é preciso indicar ao SPSS para
testar a interacção entre a VI e a covariável.
A estatística F permite afirmar que o efeito da covariável é semelhante
nos três grupos [F(2, 6) = 0,2, p = 0,845], pelo que se pode assumir a homogeneidade dos declives.
Tests of Between-Subjects Effects
Dependent Variable: Acertos
40,361a 5 8,072 11,250 ,005
,321 1 ,321 ,447 ,529,824 2 ,412 ,574 ,591
5,469 1 5,469 7,622 ,033
,248 2 ,124 ,173 ,8454,305 6 ,718
430,000 1244,667 11
SourceCorrected Model
InterceptCondição
Vocab
Condição * VocabError
TotalCorrected Total
Type III Sumof Squares df Mean Square F Sig.
R Squared = ,904 (Adjusted R Squared = ,823)a.
ANCOVA – Analysis of Covariance
Se a introdução da covariável tiver o efeito de diminuir a estatística F para testar a diferença entre grupos então fica-se a saber que a covariável não só correlaciona como a VD mas também apresenta níveis diferentes na VI (por exemplo, os sujeitos colocados nos
diferentes grupos teriam, à partida, diferenças no nível de vocabulário).
Nesta situação, entrar com a covariável na análise não só controla
variância residual indesejável como também exclui variância atribuível à VI. Desta forma, fica-se a conhecer o efeito da VI sobre a VD livre da influência da covariável.
Parte 5Medidas de magnitude do efeito
Testes de hipótesesSua aplicações e limites
Um problema
Um investigador pretende avaliar se um medicamento novo tem efeito na redução das dores de cabeça.
Para isso, realiza um ensaio clínico duplamente cego com dois
grupos de 7 pessoas cada um, atribuindo a um grupo o medicamento novo e ao outro grupo um medicamento tradicional, conhecido por ser eficaz no tratamento das dores de cabeça.
Regista a intensidade dos sintomas observados no final do tratamento, realiza um teste estatístico para comparar as duas médias e chega a uma significância p = 0, 096.
Um problema
Que concluir?
Apesar de não significativa, a diferença entre as duas médias parece ser reveladora de uma maior eficácia do medicamento tradicional.
40
Dúvidas perante um resultado estatisticamente não significativo
Perante um resultado não significativo, o investigador fica com a seguinte dúvida:
� Ou o novo medicamento pode ser realmente tão eficaz quanto o tradicional;
� Ou pode haver diferença entre os dois medicamentos mas,
como a amostra é pequena, o procedimento estatístico utilizado não tem poder suficiente para detectar a diferença (estar-se-ia a cometer um erro de tipo II).
O problema dos resultados não significativos
A Estatística é conservadora e a rejeição de H0 exige evidências empíricas fortes que uma amostra pequena dificilmente poderáfornecer.
Será que a diferença existe e só não foi considerada significativa devido à dimensão da amostra?
Será que aumentando a dimensão da amostra se obteria um resultado estatisticamente significativo?
Outro problema
Um investigador pretende comparar as diferenças entre sexos em diversas aptidões cognitivas.
Para isso, aplica uma bateria de avaliação de aptidões a uma amostra de 1500 rapazes e de 1500 raparigas.
Ao realizar um teste estatístico para comparar as médias destes dois
grupos, chega a conclusão que existem diferenças significativas para todas as aptidões em causa.
Que concluir?
O problema dos resultados estatisticamente significativos
1) Existem realmente diferenças entre rapazes e raparigas para
todas as aptidões estudadas (dificilmente as médias destes dois grupos seriam exactamente iguais).
2) Embora estatisticamente significativas, as diferenças reais entre
as médias entre médias são mínimas, parecendo negligenciáveis do ponto de vista psicológico.
Na verdade, quanto maior a amostra, mais facilmente uma pequena diferença, sem impacto psicológico substancial, éconsiderada estatisticamente significativa. A significância
estatística, neste caso, pode não coincidir com a significância psicológica do resultado.
Em resumo...
A capacidade que um teste estatístico possui para detectar diferenças depende da dimensão da amostra. Diferenças grandes podem não ser detectadas em amostras pequenas; diferenças mínimas podem ser detectadas em amostras grandes.
Estes problemas têm posto em causa a real utilidade dos testes de significância *.
Por esta razão, recomenda-se que, para além da informação sobre a significância da diferença, se indique informação sobre a magnitude da diferença.* Para mais informação, consultar:
http://www.apa.org/monitor/may99/task.html; http://www.loyola.edu/library/ref/articles/Wilkinson.pdf
Magnitude do efeito
Tão importante quanto saber se uma diferença é significativa é saber qual a magnitude dessa diferença.
Uma diferença pode ser significativa mas ter uma magnitude diminuta (pode acontecer quando trabalhamos com amostras grandes) ou, pelo contrário, a diferença pode não ser significativa mas ter uma magnitude grande (pode acontecer quando se trabalha com amostras pequenas).
Esta questão torna-se particularmente relevante quando se trata de avaliar efeitos de intervenções (clínicos ou educacionais).
Assim, convém sempre apresentar uma medida da magnitude do efeito quando se apresenta o valor p de um teste de hipóteses.
41
Magnitude do efeito
Medidas de magnitude do efeito (effect size)
São medidas padronizadas (independentes das unidades de expressão da variável em estudo e da dimensão da amostra) e que permitem avaliar a magnitude da diferença (por exemplo, a
magnitude do efeito introduzido por um tratamento experimental) ou da associação entre variáveis.
Medidas da magnitude do efeito
Existem diferentes medidas da magnitude do efeito, adequadas a cada situação; algumas estatísticas descritivas podem ser usadas como medidas da magnitude do efeito
(coeficiente de correlação, odds ratio).
Medidas de magnitude do efeito:• Diferença padronizada entre médias (adequado à
comparação entre grupos)• Odds ratio (adequado à análise da associação entre variáveis
nominais) • Coeficiente de correlação (adequado à análise da associação
entre variáveis contínuas)
Diferença padronizada entre médias
d de Cohen (exprime a diferença entre duas médias em termos de unidades padronizadas)
Cálculo directo a partir dos dados amostrais
Cálculo directo a partir da estatística t
21
2
r
rd
−=
Cálculo directo a partir da correlação
Medidas de magnitude do efeito
.000.0000.0
.002.0500.1
.010.1000.2SMALL
.022.1480.3
.038.1960.4
.059.2430.5MEDIUM
.083.2870.6
.109.3300.7
.138.3710.8LARGE
.168.4100.9
.200.4471.0
.232.4821.1
.265.5141.2
.297.5451.3
.329.5731.4
.360.6001.5
.390.6251.6
.419.6481.7
.448.6691.8
.474.6891.9
.500.7072.0
r2rdEfeito
Relação entre d (medidada magnitude do efeitobaseada em diferençaspadronizadas entre médias) e r (medida damagnitude do efeitobaseada na percentagemde variância explicada).
Medidas de magnitude do efeito
0%500.0
7.7%540.1
14.7%580.2SMALL
21.3%620.3
27.4%660.4
33.0%690.5MEDIUM
38.2%730.6
43.0%760.7
47.4%790.8LARGE
51.6%820.9
55.4%841.0
58.9%861.1
62.2%881.2
65.3%901.3
68.1%91.91.4
70.7%93.31.5
73.1%94.51.6
75.4%95.51.7
77.4%96.41.8
79.4%97.11.9
81.1%97.72.0
Percent of NonoverlapPercentile StandingdEfeito
Se d = 0.8, a média do grupo experimental localiza-se no eprcentil 79 do grupo de controlo.
Interpretação de d de Cohen
O sinal de d depende da forma como se calculou a diferença entre as médias, pelo que não tem significado especial.
O valor de d não está limitado, mas, sendo uma medida
padronizada, raramente vai acima de 2 (significando que as médias difeririam entre si em mais do que dois desvios-padrão). O valor 0 significa que as médias dos dois grupos
coincidem.
42
Interpretação de d de Cohen
O valor de d pode ser interpretado em termos da sobreposição das duas curvas que estão a ser
apresentadas. Por exemplo, sabe-se que um valor de d = 0,3 indica que cerca de 80% das distribuições de cada grupo se sobrepõem (este cálculo recorre à distribuição normal),
indicando assim as diferenças os dois grupos são de pequena magnitude.
Sobreposição entre as distribuições dos resultados de dois grupos que se
diferenciam pouco
Interpretação de d de Cohen
Cohen (1988) sugere as seguintes linhas orientadoras para interpretar o valor de d:
Efeito reduzido = 0.2Efeito médio = 0.5Efeito grande = 0.8
Exemplo(retoma-se o exemplo do início da aula)
Apesar de estarmos perante um resultado não significativo (p >
0,050), a magnitude do efeito do tratamento é grande (d = 0,967), o que sugere que a diferença entre este dois grupos merece ser
explorada recolhendo informação adicional.
Eta square
η2 (exprime o efeito da variável independente na variável dependente e corresponde à proporção da variância total da variável dependente que é atribuída ao efeito da variável independente) – é adequado para medir a magnitude do efeito do factor na One-way ANOVA.
Cálculo a partir da tabela ANOVA
Eta square
A interpretação do valor η2 deve ser feita em termos percentuais, uma vez que ele é equivalente ao coeficiente
de determinação da regressão (R2): corresponde àpercentagem da variação total da VD que é atribuível às modalidades da VI.
f de Cohen
Cohen sugere uma medida alternativa para avaliar o efeito numa ANOVA, baseada no eta square:
Para interpretação de f, Cohen (1988) indica as seguintes
linhas orientadoras:
Efeito reduzido = 0.10Efeito médio = 0.25Efeito grande = 0.40
43
Exemplo
Considere-se que num estudo sobre o efeito do álcool nos tempos de reacção se avaliou o desempenho de 60 estudantes em três condições experimentais: Controlo (os sujeitos que não consumiram álcool), Nível 1 (após consumirem álcool, os sujeitos ficaram com uma alcoolémia de 0,5) e Nível 2 (após consumirem
álcool, os sujeitos ficaram com uma alcoolémia de 1,5).
Pretende-se avaliar se há diferenças entre condições nos tempos de reacção simples (detecção de um estímulo luminoso).
Exemplo
Encontra-se um feito significativo da
condição experimental no tempo de reacção [F (2, 57) = 3,8, p = 0,029] – o
álcool parece afectar o tempo de reacção.
η2 = SS Between / SS Total = 0,042 / 0,357 = 0,118.
Este valor indica que apenas 11,8% da variância dos tempos de reacção se
pode atribuir ao efeito das condições experimentais (variar a alcoolémia entre 0 e 1,5 g/l); trata-se de um efeito grande, uma vez que f = 0,37.
Exemplo
Na fase de análise post hoc, podemos querer conhecer a magnitude dos
efeitos introduzidos por níveis específicos da variável independente. Neste caso, uma vez que se trata de comparação entre pares de médias, pode-se recorrer a uma adaptação do d de Cohen, usando como medida da
variância o valor MSWithin (retirado da tabela ANOVA).
Exemplo
A análise post hoc (teste de Tukey) indica que a diferença entre as condições Alcoolémia 0,5 (média = 0,2537) e Alcoolémia 1,5 (média = 0,2427) não é
significativa. Qual será o valor da magnitude desta diferença?
Trata-se de um efeito reduzido (d < 0,20).
Aplicações das medidas da magnitude do efeito
• Avaliar a magnitude da diferença entre médias ou a magnitude da associação entre variáveis, de forma a decidir se é um efeito psicologicamente significativo ou não, indo assim além da questão da significância estatística.
• Possuir medidas da magnitude do efeito que permitam comparar resultados obtidos em estudos diferentes (é um instrumento fundamental em meta-análise).
• Permitir determinar a dimensão da amostra que necessitamos para garantir que uma determinada diferença seja estatisticamente detectada (com um nível de confiança determinado à partida).
Utilização da magnitude do efeito para determinar a dimensão da amostra
É possível decidirmos quantas observações são necessárias para detectar uma determinada magnitude de diferença, considerando os níveis de erro que estamos dispostos a correr (α e β) .
Por exemplo, se num estudo de diferenças entre médias quisermos que um efeito pequeno (d = 0.2) seja detectado ao nível de significância α = 0,05 e com a potência 1-β = 0,80, então cada amostra necessita ter pelo menos 383 indivíduos.
Estes cálculos podem ser facilmente efectuados em páginas web como:http://www.stat.ubc.ca/~rollin/stats/ssize/n2.html
44
Utilização da magnitude do efeito para determinar a dimensão da amostra
O programa G-Power permite explorar as relações entre a magnitude do efeito que se pretende detectar, a dimensão das amostras necessárias e os níveis de erro α e β.
Este procedimento pode ser aplicado relativamente a diferentes técnicas estatísticas (teste t, ANOVA, correlação, regressão, teste do qui-quadrado, etc).
Onde obter GPower (freeware):http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3/download-and-register
G-Power
O programa G-Power permite fazer diferentes tipos de análise:
� Determinar qual a dimensão da amostra necessária para que um teste com potência especificada (por exemplo, 1 - β = 0,80) detecte uma magnitude de diferença entre médias específica (por exemplo, d = 0,50) ao nível de significância α (por exemplo, 5%).
� Determinar qual a potência de um teste que utilize N observações para detectar uma magnitude de diferença entre médias de d = 0,50 ao nível de significância α = 5%.
� Determinar qual a magnitude da diferença que se espera que um teste com N observações detecte com potência especificada (1 - β = 0,80) e nível de significância α = 5%.
Etc
Exemplo de output do GPower3
A potência para um teste t detectar uma diferença de magnitude média (d = 0,50) ao nível de significância α = 0,05 é muito baixa com amostras pequenas. Mesmo com duas amostras de dimensão usual (N = 30 + 30 = 60), a probabilidade de aceitar H0 quando esta hipótese é falsa é superior a 50% (1 - β = 0,48).
Associação entre variáveis nominais
Testes de hipótesesSua aplicações e limites
Métodos Avançados de Investigação I
A. Associação entre duas variáveis nominais
Associação entre variáveis nominais
Um investigador pretende avaliar se, numa amostra de
adolescentes, existe associação entre o consumo de tabaco (consumidor ou não consumidor) e o sexo do adolescente.
Recolheu informação sobre 200 adolescentes (120 raparigas e 80
rapazes) e construiu um tabela de contingência.
Existirá associação entre o sexo do adolescente e o consumo de tabaco?
20015050Total
12010020Rapariga
805030Rapaz
TotalNão fuma
Fuma
45
Independência entre duas variáveis nominais
Se as duas variáveis forem independentes, a distribuição do “fumar”
condicionada ao “sexo” será idêntica para rapazes e raparigas. Assim, o facto de “ser rapaz” (ou de “ser rapariga”) não interfere na probabilidade de
“ser fumador”.
(De igual modo, a distribuição do “sexo” condicionada ao “fumar” será igual
para fumadores e não fumadores).
Independência entre variáveis nominais
Duas variáveis são independentes se a pertença a uma categoria de uma variável não afectar a probabilidade de pertencer à categoria de outra variável.
Representação gráfica da situação de independência
Rapaz
20%
80%
Fumador
Não fumador
Rapariga
20%
80%
Fumador
Não fumador
A percentagem de fumadores em cada grupo (“rapazes” e “raparigas”) é idêntica à percentagem de fumadores na amostra total.
Esta distribuição significa que as duas variáveis (“sexo” e “fumar”) são independentes entre si.
Amostra total
20%
80%
Fumador
Não fumador
Representação gráfica da situação de associação
Rapaz
38%
62%
Fumador
Não fumador
Rapariga
8%
92%
Fumador
Não fumador
A percentagem de fumadores é diferente em cada um dos grupos: há mais rapazes a fumar do que no geral (38% contra 20%) e há menos raparigas a fumar do que no geral (8% contra 20%).
Este resultado significa que as duas variáveis estão associadas: o facto de ser
rapaz aumenta a probabilidade de se ser fumador.
Amostra total
20%
80%
Fumador
Não fumador
Independência versus Associação
Relação de independência entre Sexo e Fumar
20% 20% 20%
0%
10%
20%
30%
40%
50%
Rapazes Raparigas Total
Fu
mad
ore
s (%
)
Associação entreSexo e Fumar
38%
8%
20%
0%
10%
20%
30%
40%
50%
Rapazes Raparigas Total
Fu
mad
ore
s (%
)
Quando as variáveis são independentes, a proporção de fumadores em cada grupo ésemelhante à proporção de fumadores na amostra total.
Quando as variáveis estão associadas, pelo menos um dos grupos apresenta uma proporção
de fumadores superior àproporção da amostra total.
Porquê um teste estatístico?
A necessidade de um teste estatístico para avaliar a situação de independência surge porque se colocam diversas perguntas:
� Corresponderá a distribuição observada corresponde à situação de independência?
� Serão negligenciáveis os desvios observados?
� Serão os desvios observados suficientes para dizer que há
associação?
Teste do qui-quadrado
O teste do Qui-quadrado é um dos testes estatísticos mais antigos (desenvolvido por Karl Pearson no final do século XIX) e um dos mais utilizados em Ciências Sociais.
Permite avaliar se a distribuição observada na amostra se ajusta ou não à observação esperada caso haja independência.
46
Hipóteses
H0 : O consumo de tabaco é independente do sexo do adolescente.
versus
H1 : O consumo de tabaco está associado ao sexo do adolescente.
Dados
20015050Total
12010020Rapariga
805030Rapaz
TotalNão fuma
Fuma
20015050Total
120??Rapariga
80??Rapaz
TotalNão fuma
Fuma
Distribuição observadaDistribuição esperada se H0 for verdadeira
Dados
20015050Total
12010020Rapariga
805030Rapaz
TotalNão fuma
Fuma
20015050Total
12030Rapariga
8020Rapaz
TotalNão fuma
Fuma
Distribuição observada Distribuição esperada se H0 for verdadeira
Qual a percentagem de fumadores observada na amostra? 50/200 = 25%.
Então quantos rapazes deveriam fumar? 25% x 80 = 20.
Quantas raparigas deveriam fumar? 25% x 120 = 30.
Dados
20015050Total
12010020Rapariga
805030Rapaz
TotalNão fuma
Fuma
20015050Total
1209030Rapariga
806020Rapaz
TotalNão fuma
Fuma
Distribuição observada Distribuição esperada se H0 for verdadeira
Qual a percentagem de não fumadores observada? 120/200 = 75%.
Então quantos rapazes deveriam ser não fumadores? 75% x 80 = 60.
Quantas raparigas deveriam ser não fumadoras? 75% x 120 = 90.
Dados
20015050Total
12010020Rapariga
805030Rapaz
TotalNão fuma
Fuma
20015050Total
1209030Rapariga
806020Rapaz
TotalNão fuma
Fuma
Distribuição observada Distribuição esperada se H0 for verdadeira
Estas duas distribuições – distribuição observada e distribuição esperada no caso de independência – são diferentes.
A estatística do qui-quadrado mede a diferença entre estas duas distribuições.
Estatística do qui-quadrado
A estatística de qui-quadrado ésimplesmente a soma do quadrado das
diferenças entre a frequência observada de cada célula (O) e a frequência
esperada (E), dividida por E.
Se as duas distribuições (observada e esperada) forem iguais, o valor de X2
é nulo.
Quanto maior o valor de X2, mais a distribuição observada se afasta da
distribuição esperada e mais se deve suspeitar de que existe associação entre as variáveis.
47
Cálculo da estatística do qui-quadrado
20015050Total
12010020Rapariga
805030Rapaz
TotalNão fumaFumaObservada (O)
X2 = (30-20)2 / 20 + (50-60)2 / 60 + (20-30)2 / 30 + (100-90)2 / 90 =
11,11
20015050Total
1209030Rapariga
806020Rapaz
TotalNão fumaFumaEsperada (E)
11,1112,7785,333Total
3,4441,1113,333Rapariga
6,6671,6675Rapaz
TotalNão fumaFuma(O - E)2 / E
Distribuição do qui-quadrado
Como se comporta a estatística de qui-quadrado?
O qui-quadrado é uma variável que toma valores positivos e cuja distribuição
depende de um único parâmetro (υ - graus de liberdade). Esta distribuição éconhecida e encontra-se tabelada.
O valor médio de uma distribuição de qui-quadrado corresponde ao valor de
υ e a variância ao valor 2υ.
Distribuição do qui-quadrado
Distribuição do qui-quadrado para diferentes
graus de liberdade
(υ = 1, 2, …, 5).
Distribuição do qui-quadrado
Quanto maior o valor de υ, mais a distribuição do qui-quadrado se aproxima
de uma distribuição normal.
Graus de liberdade no teste de independência
De uma forma geral, o número de graus de liberdade associados a uma tabela de contingência podem ser calculados da seguinte forma:
gl = (nº de linhas – 1) x (nº de colunas – 1)
No caso de uma tabela 2x2, o número de graus de liberdade será sempre:
gl = (2 – 1) x (2 – 1) = 1
Teste de independência – regra de teste
Se o valor observado da estatística X2
se afastar muito do centro da distribuição, isso significa que as duas tabelas em comparação (observada e
esperada) são diferentes e é de rejeitar a hipótese de independência (H0).
Atenção: O teste de independência do qui-quadrado deverá ser sempre um
teste à direita, em que a zona de rejeição corresponde sempre a α.
48
Teste de independência – decisão
De regresso ao exemplo…
Estatística de teste: X2 = 11,11
Graus de liberdade de distribuição de qui-quadrado: υ = 1
Valor crítico para α = 0,05: χ2(1)0,05 = 3,841 (ver tabela)
Como X2 > 3,841, rejeita-se H0, ou seja, parece existir associação entre as duas variáveis (“sexo do adolescente” e “fumar”).
Condições de aplicação do teste de independência
� As frequências esperadas devem ser superiores a 5; alguns autores afirmam que esta exigência é excessiva, bastando que todas as células tenham frequência esperada superior a 1 e que 80% das células tenham frequência esperada superior a 5.
� As observações têm de ser independentes (a mesma observação não pode ser contada duas vezes)
� Embora possa ser utilizado com variáveis nominais, ordinais ou de escala, o teste de independência do qui-quadrado trata-as todas como se fossem nominais, pelo que se está a perder informação; existem testes de associação alternativos mais potentes que levam em conta a quantificação presente nas variáveis ordinais e de escala.
Teste de independência do qui-quadrado(output do SPSS)
Tabela de contingência,
com indicação da frequência observada, das percentagens relativas à
distribuição condicionada ao sexo e dos resíduos
ajustados.
Teste de independência do qui-quadrado(output do SPSS)
Estatística de teste: X2 = 11,1 (gl = 1)
Nível de significância associado: p = 0,001
A informação no inferior da tabela indica que não existem células na tabela com
frequência esperada inferior a 5, pelo que o teste está a ser realizado nas melhores condições.
Teste de independência do qui-quadrado(output do SPSS)
No caso de tabelas 2x2, se o teste não pudesse ser aplicado por existirem frequências esperadas inferiores a 5 poder-se-ia recorrer a um procedimento alternativo (o Teste Exacto de Fisher).
Teste de independência – análise posterior
Se duas variáveis forem independentes, não há mais a dizer sobre a sua relação – a análise fica concluída.
No entanto, se se rejeitar a independência, é necessário esclarecer de que forma as duas variáveis se associam. Este esclarecimento pode
ser feito com auxílio de gráficos e da análise de resíduos.
49
Teste de independência – análise posterior
O gráfico apresenta a distribuição da variável “fumar” condicionada ao sexo.
Verifica-se que a percentagem de fumadores entre os rapazes (37,5%) éclaramente superior à percentagem de
fumadores entre as raparigas (16,7%).
No entanto, esta análise é apenas descritiva
– a significância das diferenças apontadas éfeita através da análise de resíduos.
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
Rapaz Rapariga
Fuma
Não fuma
Análise de resíduos
Analisar os resíduos (ajustados) permite identificar
quais as células da tabela que responsáveis pela não-
independência dos dados.
Como os resíduos ajustados têm uma distribuição normal padronizada, se
tomarem valores superiores a 1,96 (≈ 2), podemos dizer que são significativos (ao nível de significância α = 5%).
Análise de resíduos
Este resíduo é positivo (+) e
superior a 2, pelo que se pode dizer que na amostra existem mais rapazes a fumar do que os
que seriam de esperar com base na hipótese da independência.
Este resíduo é negativo (-) e superior a 2, pelo que se pode dizer que na amostra existem menos raparigas a fumar do que as
que seriam de esperar com base na hipótese da independência.
Nota: numa tabela 2x2, os resíduos são sempre numericamente iguais, só diferindo no sinal
Teste de independência -conclusão
Resumindo…
Os dados sugerem que existe associação entre o sexo do adolescente e o acto de fumar (X2 = 11,1, gl = 1, p = 0,001). Essa associação resulta do facto dos rapazes fumarem mais do que as raparigas.
B. Associação entre três variáveis nominais
Testes de hipótesesSua aplicações e limites
Associação entre três variáveis
Qual o efeito de ter pertencido aos Escuteiros no comportamento delinquente adulto? Estudo com uma amostra de 530 indivíduos do sexo masculino.
Associação estatisticamente significativa (X2 = 9,8, df = 1, p = 0,002):
menor incidência de indivíduos delinquentes no grupo daqueles que foram escuteiros em criança.
Escuteiros * Deliquência Crosstabulation
19 239 25830,2% 51,2% 48,7%
-3,1 3,144 228 272
69,8% 48,8% 51,3%3,1 -3,1
63 467 530100,0% 100,0% 100,0%
Count% within Deliquência
Adjusted ResidualCount
% within DeliquênciaAdjusted Residual
Count% within Deliquência
Sim
Não
Escuteiros
Total
Sim Não
Deliquência
Total
50
Associação entre três variáveis
E se levarmos em conta o estatuto socioeconómico das famílias (SES alto versus SES baixo)?
A associação entras duas
variáveis desapareceu.
Grupo SES baixo:
X2 = 0,0, df = 1, p = 0,939
Grupo SES baixo
X2 = 0,1, df = 1, p = 0,817
Escuteiros * Deliquência * SES Crosstabulation
11 43 5420,8% 20,3% 20,4%
,1 -,142 169 211
79,2% 79,7% 79,6%-,1 ,1
53 212 265100,0% 100,0% 100,0%
8 196 20480,0% 76,9% 77,0%
,2 -,22 59 61
20,0% 23,1% 23,0%-,2 ,2
10 255 265100,0% 100,0% 100,0%
Count
% within DeliquênciaAdjusted Residual
Count% within Deliquência
Adjusted ResidualCount
% within DeliquênciaCount
% within DeliquênciaAdjusted Residual
Count% within Deliquência
Adjusted ResidualCount% within Deliquência
Sim
Não
Escuteiros
Total
Sim
Não
Escuteiros
Total
SESBaixo
Alto
Sim NãoDeliquência
Total
Associação entre três variáveis
Estamos perante um padrão de independência específico designado por independência condicional: a independência entre “ter sido escuteiro” e “delinquência” é condicional ao SES. – dentro de cada nível de SES considerado não existe associação entre “ter sido
escuteiro” e “delinquência”.
Esta associação surge na análise bivariada (ignorando SES) apenas por existir associação entre SES e ter sido escuteiro. Se se controlar o
SES, esta associação desaparece.
Assim, existe associação entre “ser escuteiro” e SES, entre SES e “delinquência” mas não entre “ser escuteiro” e “delinquência”.
Tipos de independência numa tabela de três entradas
� Independência mútua (X, Y e Z são independentes entre si): log µijk = λ + λi
X + λjY + λk
Z
� Independência conjunta (X é independente de Y e Z, mas Y e Z estão associados): log µijk = λ + λi
X + λjY + λk
Z + λjkYZ
� Independência condicional (X e Y são independentes quando condicionados a Z): log µijk = λ + λi
X + λjY + λk
Z + λikXZ
+ λjkYZ
� Independência marginal (X e Y são independentes quando se ignora a informação sobre Z): log µijk = λ + λi
X + λjY
Tipos de independência numa tabela de três entradas
� A independência mútua implica independência conjunta (todas as variáveis são independentes uma das outras)
� A independência conjunta implica independência marginal (um variável é independente das outras dias)
� A independência marginal não implica independência conjunta
� A independência marginal não implica independência condicional
� A independência condicional não implica independência marginal
Associação entre três variáveis
Em que medida a exposição a mass media (TV e jornais) influencia o conhecimento que se tem sobre o cancro? Estudo com uma amostra de 1000 indivíduos de ambos os sexos.
Jornal * TV * Cancro Crosstabulation
179 305 484
37,0% 63,0% 100,0%
62 57 119
52,1% 47,9% 100,0%
241 362 603
40,0% 60,0% 100,0%
122 197 319
38,2% 61,8% 100,0%
40 38 78
51,3% 48,7% 100,0%
162 235 397
40,8% 59,2% 100,0%
Count
% within Jornal
Count
% within Jornal
Count
% within Jornal
Count
% within Jornal
Count
% within Jornal
Count
% within Jornal
Alto
Baixo
Jornal
Total
Alto
Baixo
Jornal
Total
CancroAlto
Baixo
Alto Baixo
TV
Total