Download pdf - Testes de hipóteses Sua aplicações e limites - w3.ualg.ptw3.ualg.pt/~lfaisca/SMAD01/SMAD_Testes Hipoteses_PPT.pdf · 1 Testes de hipóteses Sua aplicações e limites Seminários

1

Testes de hipótesesSua aplicações e limites

Seminários de métodos e análise de dados

Luís FaíscaDoutoramento em PsicologiaFevereiro 2010


Enquadramento dos Testes de Hipóteses na Estatística

A importância da Estatística…

Representação matemática do real

MUNDO REAL

(objecto de estudo)

NÚMEROS

(representação matemática)

Análise estatística

Divisão clássica da Estatística

Estatística descritiva

Estatística indutiva (ou inferencial)

Estatística

POPULAÇÃO

(estudantes da UALG)

amostra

amostragem

Inferência

100 alunos inquiridos

A importância da Estatística…

Aquilo quese pretendeconhecer…

Aquilo que se conhece atravésda EstatísticaDescritiva…

Generalizar com segurança para a população a descrição obtida na amostra


Conjunto de procedimentos para

organizar e sumariar a informação de

uma forma tão breve e precisa quanto

possível.

2

Aplicações da estatística descritiva

AnAnáálise descritiva (uni e lise descritiva (uni e bivariadabivariada))

Descrever e resumir conjuntos volumosos de dados

Gráficos / Tabelas / Estatísticas descritivas

AnAnáálise descritiva (lise descritiva (multivaridamultivarida))

Representações gráficas multidimensionais

Redução da dimensionalidade dos dados

Descrição univariada

255044283832364531343927201737

272143354837354037403521282524

412939254046384434393745384138

362547423633493327554726463424

454125404237412336484243424039

392741484431415253434326383837

204244412229394122212242423029

243521224138242532353423433223

543923513336353535201930242618

363919333339234250284634313439

Aptidão Numérica em estudantes do 9º anoN = 150 alunos; aptidão numérica medida pela GATB

Média = 35,19Desvio-padrão = 9,00

Mediana = 37Mínimo = 17Máximo = 55

Estatística descritiva univariada

Descrição univariada Descrição bivariada

Existe relação entre a nota de ingresso do aluno num curso de licenciatura eresultado que ele obtém no primeiro teste efectuado na Universidade?

Teste 1 = - 8,72 + 1,24 * Nota ingR2 = 28,6 %


bivariada

Descrição bivariada Descrição multivariada

Caracterizar relaCaracterizar relaçção entre diversas varião entre diversas variááveisveis

Será possível distinguir tipos de dificuldades de aprendizagem a partir de uma bateria de doze testes de avaliação?

N = 10 estudantes com problemas de aprendizagemTécnica de análise Q

3

Estatística descritiva multivariada

(análise de clusters)

Descrição multivariada

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7 8

S07

S02

S04

S08

S10

S03S06

S01

S05

S09

Estatística descritiva multivariada

(escalonamento multidimensional)

Descrição multivariada

Estatística indutiva

Conjunto de procedimentos usados

para fazer inferências a partir de

informação parcial, avaliando o grau de

incerteza envolvido da generalização.

Erros envolvidos no estudo de amostras e de populações

Aplicações da estatística indutiva

AnAnáálise inferenciallise inferencial

Estimação intervalar

Testes de hipóteses

Modelação

Estimação de parâmetros (valores desconhecidos da população)

Qual a percentagem de estudantes universitários dispostos a experimentar drogas duras?

Amostra representativa da população, controlando variáveis consideradas importantes (amostra estratificada, e.g.)

Questionário adequado a este tema sensível e contabilização das respostas

Dos 350 estudantes inquiridos, 24 disseram que “Sim”

4

Estatística indutiva - estimação

Há 95% de confiançade que a

percentagem de estudantes dispostos a

experimentar drogas duras se situa entre

4,21% e 9,51%

População Amostra6,86% de respostas “Sim”

(N = 350)

Estimação de parâmetros Testes de hipóteses

Avaliar se as diferenAvaliar se as diferençças observadas na amostra as observadas na amostra

reflectem diferenreflectem diferençças reais na populaas reais na populaçção ou se, pelo ão ou se, pelo

contrcontráário, se devem ou não ao acaso.rio, se devem ou não ao acaso.

Teste de hipóteses

a) Formular uma hipóteseb) Recolher dados amostrais para verificar se

apoiam ou não a hipótesec) Avaliar o grau em que esse apoio se pode

dever ao acaso

Estatística indutiva – testes de hipóteses

Significância da diferença

Não há diferenças significativas no tempo

de resposta entre as duas condições

experimentais (p > 0,2).

A presença de ruído ambiental afecta a memorização de um texto?

Hipótese (nula): a memorização de um texto é tão boa em silêncio como em condições de ruído

505560657075808590

Silêncio Ruído

Condição experimental

Iten

s c

orr

etam

en

te

evo

cad

os

(%

)


Modelação por “path analysis”

Modelação

Explicitar as relações que se estabelecem num conjunto alargado de variáveis.

Estatística…

A Estatística Descritiva permite descrever a

amostra e a Estatística Indutiva permite

generalizar com confiança essa descrição

para a população de onde a amostra foi

retirada, recorrendo para isso à Teoria das

Probabilidades.



5

Teste de hipóteses

O teste de hipóteses é a técnica da Estatística Indutiva mais utilizada na investigação em Psicologia.

Consiste em averiguar se a hipótese formulada sobre aspectos desconhecidos de uma população é ou não apoiada pela informação contida na amostra retirada dessa população.

Tipos de teste estatísticos

1) Testes unilaterais e bilaterais

Testes unilaterais menos exigentes, pois as suas hipóteses implicam fundamentação a priori.

2) Testes paramétricos e não paramétricos (distribution

free)

Testes não paramétricos menos exigentes em termos das condições de aplicação mas, eventualmente, menos potentes para detectar diferenças.

Passos num teste de hipóteses

Passo 1. A questão em investigação deverá permitir formular uma hipótese sobre um ou mais parâmetros desconhecidos da população.

A formulação de hipóteses é um formalismo deste procedimento; na maior parte das vezes, a hipótese de investigação é contrária à hipótese nula em que se baseia o teste estatístico.


Pergunta teoricamente relevante:

Durante a adolescência, serão os rapazes mais ansiosos do que asraparigas?

Hipótese nula: O nível médio de ansiedade na população de rapazes é igual ao da população de raparigas

H0: µM = µF


Passo 2. Extrair uma amostra da população, aplicar uma medida de ansiedade e calcular as estatísticas descritivas relevantes.

µM = ?

µF = ?

População

Amostra

100 rapazes

100 raparigas

XM = 28

XF = 32


As medidas de ansiedade que usamos não são totalmente fiáveis, envolvendo margem de erro.

Não havendo possibilidade de avaliar a ansiedade de todos os adolescentes (rapazes e raparigas) da população sobre a qual se pretende tirar conclusões, limitámo-nos a estudar a uma amostra (por exemplo, duas ou três escolas de Faro).

6


Pelo menos, duas fontes de erro:

erro de medição erro de amostragem

Informação amostralsobre nível de ansiedade

não é 100% segura


A diferença de 4 pontos observada entre rapazes e raparigas reflecte uma diferença real ou é apenas aparente (devida aos erros envolvidos na obtenção destas médias)?

AmostraXM = 28

XF = 32


Passo 3. Maquinaria dos testes de significância

Recorrendo à Teoria das Probabilidades e assumindo algumas condições, é possível saber em que medida duas médias amostrais contaminadas de erro podem diferir entre si quando a amostra provém de uma população semelhante à estipulada na hipótese (ou seja, em que não há diferença entre rapazes e raparigas).


Distribuição de amostragem

Como se comportam todas as médias que se podem extrair de uma população com as característica especificadas na hipótese nula?


Conhecimento a priori das distribuições de amostragem –Estatística Clássica


Pergunta a que responde um teste de significância:

“Se não existir diferença entre os níveis médios de ansiedade de rapazes e raparigas (hipótese nula), qual éa probabilidade de, devido ao acaso, encontrarmos uma diferença igual (ou mais extrema) do que observada na amostra?”.

7


Amostra

XM = 28

XF = 32

SM = 12

SF = 14

NM = 100

NF = 100

t = 2,45

df = 98p = 0,015

Teste t de Student

Significância

A probabilidade de a diferença entre

rapazes e raparigas observada na amostra se dever ao acaso é 0,015.


Passo 4. Decisão

Como é pouco provável que os dados observados provenham de uma população com as características especificas em H0, devemos abandoná-la e concluir que existem diferenças entre rapazes e raparigas.

Será uma decisão correcta?

Erros envolvidos numa decisão estatística

Decisão correcta(rejeitar H0

quando ela éfalsa)

Decisão erradaErro de tipo I(rejeitar H0

quando éverdadeira)

Rejeitar H0

Decisão erradaErro de tipo II(aceitar H0

quando ela éfalsa)

Decisão correcta(aceitar H0

quando ela éverdadeira)

Aceitar H0

H0 é falsaH0 é verdadeira

Caracterização da população(desconhecida)

Decisãodo teste

estatístico �� !"#$%�&'!(&(�Erros envolvidos numa decisão

Erros envolvidos numa decisão estatística

Na tomada de decisão estatística é importante considerar o risco (probabilidade) de cometer os dois tipos de erro:

Probabilidade de cometer erro de tipo I = αααα

nível de significância do teste

Probabilidade de cometer erro de tipo II = 1 – ββββ

complementar da potência do teste

Nível de significância do teste

O nível de significância do teste αααα corresponde àprobabilidade de nos estamos a enganar ao rejeitar H0

(rejeitar a hipótese quando ela é verdadeira - erro de tipo I). Deve ser definido antes da realização do teste.

Por exemplo, se o teste indicar a rejeição de H0 (sugerindo-nos haver diferença de ansiedade entre rapazes e raparigas) isso pode ser um erro pois podemos estar perante uma situação rara em que a diferença observada se deve realmente ao acaso (e não haver diferença verdadeira na população entre rapazes e

raparigas).

8

Nível de significância do teste

Em geral, define-se em 5% o nível de significância

do teste αααα.

Este valor resulta de uma convenção e não tem nada de especial; por vezes utilizam-se níveis de significância mais exigentes (por exemplo, 1%), outras vezes níveis menos exigentes (10%), mas o valor de 5% é o tradicionalmente mais utilizado. Porquê?

Nível de significância

De uma maneira geral, pretende-se que a probabilidade de cometer o erro de tipo I seja mínima. No entanto, esta probabilidade não pode ser reduzida a 0 pois diminui-la em excesso faz aumentar a probabilidade de cometer o

erro de tipo II. Por isso, pode não ser adequado usar níveis de significância muito baixos.

Potência do teste

A potência do teste 1-ββββ corresponde à probabilidade de não nos estamos a enganar ao aceitar H0 (aceitar a hipótese quando ela é falsa - erro de tipo II).

Um teste potente permite-nos decidir com um baixo risco de nos enganarmos quando aceitamos H0, ou seja, dá-nos segurança que não há diferenças reais entre rapazes e raparigas quando o teste sugere que não se rejeite H0.

Potência do teste

A determinação da potência do teste é complexa e, entre outros factores, depende da dimensão da amostra: amostras de maiores dimensões garantem testes mais potentes.

Pode-se estabelecer à partida a potência do teste, bastando para isso definir a dimensão da amostra necessária para garantir que uma diferença de determinada magnitude na população tenha probabilidade elevada de ser realmente

detectada (por exemplo, potência do teste 1 - β = 0,80).

Potência do teste

Apesar de ter vindo a ser secundarizado face ao nível de significância, a questão da potência do teste é fulcral: de nada serve realizar um teste estatístico que não tenha potência para detectar a diferença teoricamente especificada – ficamos sempre na dúvida se H0 érealmente verdadeira ou se, pelo contrário, é falsa mas o teste não teve suficiente potência para detectar essa falsidade .

Nível de significância e potência do teste

Relação entre α e β (quando se assume que a distribuição de

amostragem das médias amostrais é normal).

9

Elementos na análise da potência de um teste

• Variabilidade dos dados (não temos grande controlo sobre este elemento)

• Magnitude da diferença que se pretende detectar

• Nível de significância do teste (risco de cometer o erro de tipo I)

• Dimensão da amostra

Potência do teste

Como aumentar a potência de um teste?

• Aumentar a dimensão das amostras

• Aumentar a magnitude da diferença que se pretende que o teste detecte

• Diminuir o nível de significância α

Sam

ple

Pow

er

Sample Size

high

low

small large

A

B

CNNíível optimizadovel optimizado

EficazEficaz masmas ineficienteineficiente

IneficazIneficaz

Power CurveCurva da potência do teste Que potência?

Não há critérios universal.

• O que é mais importante?

Falhar uma tendência?

Detectar uma tendência falsa?

• Geralmente entre 80% e 95%


Testes de hipóteses para comparação entre grupos

Comparações entre grupos

A comparação de grupos é um dos formatos mais usuais na investigação psicológica:

� Comparação entre grupos naturais (diferenças entre sexos, por exemplo) ou entre populações clínicas (grupos de disléxicos face grupo de controlo de idade)

� Comparação entre grupos experimentais (grupo que recebe o tratamento experimental versus grupo de controlo)

10

Comparações entre grupos

Alguns aspectos a levar em consideração:

� Natureza métrica da variável em estudo (nominal / de escala)

� Natureza dos conjuntos de medidas (amostras independentes / amostras emparelhadas)

� Número de grupos em comparação

Comparações entre gruposCaso de variáveis de escala

Se o nível de medida da variável em questão é de escala, a comparação entre grupos geralmente corresponde a testes de hipóteses sobre valores médios. Na verdade, ao comparar grupos estamos, em geral, interessados em tomar decisões sobre a magnitude dos valores que a variável toma populações de onde foram extraídos os grupos.

Por exemplo, verificar se há diferenças entre rapazes e raparigas na Aptidão verbal.

Comparações entre gruposCaso de variáveis nominais

Se o nível de medida da variável em questão é nominal, a comparação entre grupos geralmente corresponde a testes de hipóteses sobre proporções ou a testes de independência entre variáveis.

Por exemplo, comparar se a percentagem de reformados é igual na população de utentes de dois serviços hospitalares.


Comparação entre duas médias grupos

A. Amostras independentes


Condições de aplicação

� Uma das variáveis está medida no formato escala; a outra variável define os grupos (pode ser dicotómica ou dicotomizada)

� A distribuição das variáveis deve ser normal ou a dimensões dos grupos a comparar deve ser grande

� A variância de cada grupo deve ser semelhante (homogeneidade das variâncias).

Testes sobre diferenças entre dois valores médios (amostras independentes)

11

A hipótese nula postula que os dois grupos têm média igual.

A rejeição da hipótese nula (p ≤ α) indica que existem diferenças significativas entre as duas médias.

A magnitude da diferença pode ser avaliada por uma medida de magnitude do efeito (effect size)

Testes sobre diferenças entre dois valores médios (amostras independentes) Exemplo

Num estudo sobre o efeito da estimulação durante o sono na aprendizagem, dividiu-se aleatoriamente um conjunto de 62 crianças em dois grupos. Durante um mês, todas as noites enquanto dormiam, metade das crianças foram expostas a uma gravação áudio com um relato de informação sobre História de

Portugal. As restantes crianças foram expostas a um gravação áudio de discurso sem informação relevante.

No final do mês, os conhecimentos de História de ambos os

grupos foram avaliados através de um teste (classificação de 0 a 20). Verifique se o procedimento seguido teve efeito significativo

(α = 0.05).

Exemplo

Desvio-padrão

Média

31

30

29

28

27

26

25

24

23

22

21

20

19

18

17

16

15

14

13

12

11

10

9

8

7

6

5

4

3

2

1

Partici-pantes

161728

3,6013,232Desvio-padrão

13,54514,967Média

9

151230

131429

131727

91426

14925

181524

121823

101022

71421

151220

16819

151718

81917

191916

131815

141714

201313

181512

81911

171610

9129

10138

18157

10176

11165

14104

12203

14142

17191

Grupo deControlo

GrupoExperimental

Partici-pantes

Resultados obtidos nos dois grupos. Uma das crianças do grupo experimental não compareceu ao teste.

Que teste?

Hipóteses:

H0: µµµµExp = µµµµCont versus H1: µµµµExp > µµµµCont

Teste de unilateral direito de diferenças entre valores médios (para dois grupos independentes).

Teste de diferenças

Teste de unilateral direito

Diferenças significativas?

A avaliação da significância da diferença entre dois valores médios não depende apenas do valor da diferença mas também da sobreposição das duas distribuições (ou seja, da sua dispersão).No exemplo, apesar da diferença entre valores médios ser idêntica nas três situações, essa diferença aparenta ser mais significativa apenas na situação de baixa dispersão.

Teste t de Student para amostras independentes

� Amostras aleatórias retiradas de população normal ou amostras com dimensão suficientemente grande para se aplicar o Teorema do Limite Central (em geral, N ≥ 30 para ambas as amostras).OK (N = 31 para o grupo de controlo e N = 30 para o grupo experimental)

� Homogeneidade das variâncias: as variância / desvios-padrão dos dois grupos têm de ser iguais. A razão desta exigência é que o teste assume que as populações de onde vêm as duas amostras são iguais em tudo (distribuição, dispersão, etc) excepto nos respectivos valores médios. A verificar (S = 3,232 para o grupo de controlo e S = 3,601 para o grupo experimental)


12

Condições de aplicação:

� As observações da amostra 1 são independentes das observações da amostra 2.OK (os resultados de um grupo não afectam os resultados de outro grupo)

� A variável em estudo tem de estar medida pelo menos numa escala quasi-intervalar (quasi-intervalar, intervalar ou de quociente).OK (variável: classificação obtida no teste)

Teste t de Student para amostras independentes Condições de aplicação

Verificação de normalidade (desnecessário neste caso pois as amostras são grandes)

Gráfico de quartis

Gráfico de quantis da normal


Verificação da homogeneidade das variâncias

Grupo Experimental

S2 = 3,2322 = 10,4458

Grupo Controlo

S2 = 3,6012 = 12,9672

As variâncias são grosseiramente semelhantes (a divisão de uma pela outra dá cerca de 1,2), embora convenha sempre efectuar um teste

estatístico formal para garantir que não há razões para as assumirmos como diferentes (teste de Levene para a igualdade de variâncias).

Teste de Levene para averiguar a homogeneidade das variâncias

Hipóteses do teste de Levene(teste de homogeneidade das variâncias):

H0: σσσσ2Exp = σσσσ2

Cont versus H1: σσσσ2Exp ≠≠≠≠ σσσσ2

Cont

No SPSS, este teste vem incluído no output do teste t de Student para amostras independentes.

Teste de Levene (output do SPSS)

Teste de Levene sobre homogeneidade de variâncias

Valor p do teste de Levene – não significativo

Estatísticas descritivas para cada grupo (média, desvio-padrão e

erro-padrão da média)

Teste de Levene para averiguar a homogeneidade das variâncias

Conclusão do teste de Levene

Rejeita-se H0 ao nível de significância α = 0,05, ou seja, pode-se considerar que as variâncias dos dois grupos são iguais (F = 0,54, p = 0,467).

Assegura-se assim o pressuposto da homogeneidade das variâncias, pelo que se pode prosseguir com o teste t para avaliar a diferença entre valores médios.

13

Teste t (output do SPSS)

Estatística de teste

Valor p do teste t (bilateral)

Decisão

Como o teste é unilateral, tem de se dividir por dois o valor calculado pelo SPSS.

Assim, Sig. = 0,071/2 = 0,036 < α.

Logo, rejeita-se H0 ao nível de significância α = 0,05, ou seja, o grupo experimental tem, em média, um desempenho superior no

teste de História do que o grupo de controlo (t = 1,84, gl = 59, p = 0,036), indicando que a estimulação durante o sono teve um efeito positivo significativo na aprendizagem.

Consequências de violar as condições de aplicação do teste t de Student

Normalidade

O teste t é robusto face à violação do pressuposto da normalidade

da distribuição da variável, mesmo com amostras pequenas. Assim, as consequências da não normalidade dos dados afecta minimamente os erros de tipo I e tipo II envolvidos na decisão.

Por exemplo, se a distribuição da variável em estudo for assimétrica e as amostras em comparação tiverem dimensões tão pequenas como 5, sabe-se que a verdadeira

margem de erro de tipo I envolvida na decisão poderá afastar-se no máximo em 2% do valor de α estipulado, o que é negligenciável em termos práticos (Hsu & Feldt, 1969). No entanto, ainda assim existe a possibilidade de recorrer a testes não

paramétricos alternativos (teste de Mann-Whitney).


Homogeneidade das variâncias

O teste t baseia-se nos desvios-padrão das duas amostras para

obter uma estimativa conjunta de σ2 (S2pool). Se não existir

homogeneidade das variâncias, esta estimativa conjunta não faz sentido.

Sabe-se que o teste t é robusto face à violação do pressuposto da homogeneidade das variâncias desde que as duas amostras tenham igual dimensão – nestes casos, as consequências da heterogeneidade das variâncias afectam minimamente os erros de tipo I e tipo II envolvidos na decisão.



Contudo, quando as amostras têm dimensão diferente, verifica-

se que:

� Se a amostra maior tiver a maior variância, o teste t éconservador (ou seja, a probabilidade real de cometer o erro de

tipo I é mais pequena do que o valor α estipulado).

� Se a amostra mais pequena estiver associada à maior variância, o este t é bastante liberal (ou seja, a probabilidade real de

cometer o erro de tipo I é superior ao estipulado) – situação mais problemática.



O SPSS fornece uma correcção ao teste t para as situações de heterogeneidade das variâncias (procedimento de Welch), que consiste num ajustamento dos graus de liberdade.

Um procedimento alternativo para lidar com a estas situações érealizar um teste não-paramétrico equivalente, que não exija homogeneidade das variâncias (teste Mann-Whitney).

14

B. Amostras emparelhadas


A hipótese nula postula que os dois conjuntos de dados provêm de populações com valor médio igual.

As investigações que levam à recolha de dados emparelhados surge em estudos longitudinais (o mesmo indivíduo é observado duas vezes) ou quando indivíduos diferentes são emparelhados por diferentes razões (por semelhança em variáveis relevantes ou por pertencerem à mesma unidade, por exemplo um casal).

Testes sobre diferenças entre dois valores médios (amostras emparelhadas)

Exemplo

Para avaliar o efeito dos ritmos circadianos na memória, um conjunto de 30 crianças com idades entre 6 e 9 anos realizaram uma prova de memória imediata (digit span) de manhã e a mesma prova 12 horas depois.

Teste, ao nível de significância α = 0,05, se existem diferenças significativas no desempenho observado nos dois momentos.

Exemplo

54305615

34296514

77284413

53275612

55265511

56255610

5524769

5523458

4522457

5621446

5620455

6519454

5618563

6717452

5516671

TardeManhãParticipanteTardeManhãParticipante

Que teste?

Hipóteses:

H0: µµµµManhã = µµµµTarde versus H1: µµµµManhã ≠µ≠µ≠µ≠µTarde

Teste de bilateral direito de diferenças entre valores médios (para dois grupos emparelhados).


Teste de bilateral

Amostras independentes versusAmostras emparelhadas

Se cada observação da amostra 1 puder ser emparelhada a uma observação da amostra 2, os dois conjuntos de dados não são independentes mas emparelhados.

Observação 2Observação 2

Observação nObservação n

……

Observação 1Observação 1

Amostra 2Amostra 1

No caso de amostras emparelhadas, a unidade em estudo não é a observação mas sim o par de observações.Não se pretende saber se existe diferenças entre a média das observações do grupo 1 e a média das observações do grupo 2 mas sim saber se a média das diferenças entre os elementos de cada par ésignificativa.

15

Amostras independentes versusAmostras emparelhadas

Designações para este tipo de design:

� Amostras emparelhadas (versus amostras independentes);

� Medidas repetidas (versus medidas independentes);

� Planeamento experimental intra-sujeito (versus planeamento entre-sujeitos) (within subjects versus between subjects).

Teste t de Student(para amostras emparelhadas)

Condições de aplicação:

� Amostras aleatórias retiradas de população normal ou amostras com dimensão suficientemente grande para se aplicar o Teorema do Limite Central (em geral, N ≥ 30 para ambas as amostras).OK (N = 30 pares de observações)

� Observações emparelhadas. OK (estamos perante um design com medidas repetidas, uma vez que cada sujeito é o controlo de si próprio)

Data view: os valores observados nos dois momentos de avaliação são dispostos lado a lado em colunas diferentes

(faceta T da data box).

Teste de diferenças entre valores médios

Variável que corresponde ao desempenho dos sujeitos

durante a manhã

Variável que corresponde ao desempenho dos

sujeitos durante a tarde

Teste t de Student(para amostras emparelhadas)

Teste t de Student para amostras emparelhadas (output do SPSS)

Correlação existente entre os dois conjuntos de observações – reflecte o grau em que o desempenho

da manhã está relacionado com o desempenho da tarde. No entanto, não esclarece se há diferença no

nível médio desses dois desempenhos.

Teste de diferenças – significativo

Estatísticas descritivas para cada conjunto de observações (média, desvio-

padrão e erro-padrão da média)

Decisão

Como Sig. = 0,025 = < α, rejeita-se H0.

O desempenho no teste de memória é diferente quando este érealizado de manhã e à tarde (t = 2,36, 29gl, p = 0,025),

indicando que o ritmo circadiano poderá influenciar o desempenho neste tipo de prova.

E se não se respeitassem as medidas emparelhadas?

Se, em vez de 30 pares de observações, considerássemos

que existiam 60 observações independentes (30 de manhã e 30 de tarde), os dados estariam lançados numa única coluna, jánão havendo o cuidado de

emparelhar o desempenho do mesmo sujeito nos dois momentos.

O teste a utilizar seria o teste t para amostras independentes.

Variável que identifica o momento da observação

Variável correspondente ao desempenho na prova

de memória

16

Output do SPSS

Teste de diferenças – não significativo

O facto de se ter ignorado o emparelhamento dos dados resulta numa conclusão diferente – não há diferenças entre o desempenho de manhã e àtarde. Porquê, se os dados (“números”) são idênticos?

Utilizar o procedimento de medidas repetidas sempre que os dados o permitam

O teste para amostra emparelhadas é mais potente na detecção de diferenças que o teste para medidas independentes, pois anula a variância (ruído) causada pelo facto de haver sujeitos diferentes nas duas condições experimentais (quando as amostras são emparelhadas, o mesmo sujeito é exposto às duas condições experimentais, pelo que se anula, parcialmente, o efeito das diferenças individuais).

Quanto maior a correlação entre as observações do par, maior a vantagem em usar o procedimentos para amostras emparelhadas.

No entanto, o design com medidas repetidas tem alguns problemas intrínsecos (aprendizagem, mortalidade experimental, carry over

effects).

Parte 2Comparação entre mais do que dois conjuntos de medidas


Testes de hipóteses sobre diferenças entre mais de dois valores médios

Teste t para diferenças entre valores médios: adequado na testagem de hipóteses sobre dois valores médios.

Que fazer quando se pretende comparar mais do que dois valores médios?

Exemplo

Pretende-se avaliar se o nível médio de satisfação dos estudantes com os Serviços Sociais da Universidade é igual nas diferentes faculdades (FCHS, FCT, FERN, FCMA e FE).

Haverá diferenças significativas, ao nível de significância de α = 5%, entre as cinco faculdades?

Como responder a esta questão?

O problema das comparações múltiplas

Bastará comparar as faculdades duas a duas com um teste t para

amostras independentes?

Quantos testes t teriam de ser feitos?5C2 = 10 (FCHS vs FCT; FCHS vs FERN; FCHS vs FCMA; etc…)

Se em cada um destes testes corremos um risco α de chegar a uma decisão errada (5%), qual a probabilidade cometermos erro

ao basearmos a nossa conclusão geral nas dez comparações?

17


Se quisermos decidir se as faculdades são ou não iguais em termos de satisfação, ao fazer as comparações par a par empolamos o risco de cometer um erro de tipo I (achar que há diferenças quando, na verdade, não existem).

Probabilidade de cometer pelo menos um erro de tipo I ao fazer k

comparações duas a duas através de um teste t ao nível de

significância α (experimentwise error):

1 – (1 - αααα)k


No caso de α = 0,05 e k = 10 comparações, vem:

1 – (1 – 0,05)10 = 0,4013

O risco de nos enganarmos é demasiadamente alto para ser considerada uma abordagem estatisticamente segura. Mesmo que não haja diferença entre as faculdades, há 40% de probabilidade de pelo menos um teste t indicar que existe uma (falsa) diferença (rejeitar H0).


A probabilidade de tomar pelo menos uma decisão errada aumenta marcadamente com o número de grupos a comparar. Por exemplo, se compararmos 8

grupos, há 75% de probabilidade de cometer pelo menos um erro.

Valor da probabilidade de cometer pelo menos

um erro de tipo I ao comparar k grupos

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

0,50

0,55

0,60

0,65

0,70

0,75

0,80

0,85

0,90

0,95

1,00

2 3 4 5 6 7 8 9 10 11 12 13 14 15

k - nº de grupos

Pro

b e

rro

Tip

o I

Nível de signif icância nominal

Nota: estes cálculos assumem que os testes t são independentes, o que não érigorosamente verdade uma vez que se baseiam em informação sobreposta, o que piora ainda mais este cenário.


Conclusão:

A abordagem ao problema em causa fazendo testes t múltiplos éinadequada, porque o risco de nos enganarmos aumenta

proporcionalmente ao número de comparações que têm de ser feitas.

De que alternativas dispomos?

A. Amostras independentes


ANOVA

A técnica estatística denominada ANOVA (Analysis of

Variance) foi desenvolvida por Ronald Fisher (1890-1962) para poder testar em simultâneo a igualdade do número de valores médios que se pretender, sem

empolar o valor de α.

Trata-se, assim, de um procedimento ideal para comparar o valor médio de mais de dois grupos.

18

Exemplo

A fim de estudar o efeito do ruído ambienta na compreensão de um texto lido, dividiram-se nove pessoas por três condições experimentais: Grupo 1 – silêncio; Grupo 2 – com música de fundo instrumental; Grupo 3 – com ruído (não musical) de fundo.

No final, fez-se a cada pessoa um total de dez perguntas sobre o texto lido, registando-se o número de respostas correctas. Haverádiferença entre as condições experimentais?

Factor e Variável dependente

Variável dependente

Desempenho no teste de compreensão (nº de respostas

certas)

Variável independente (factor)

Ruído de fundo – três níveis: silêncio versus música de fundo

instrumental versus ruído (não musical) de fundo.

Que teste?

Hipóteses:

H0: Os k valores médios são iguaisversus

H1: Pelo menos um valor médio é diferente dos restantes

H0: µµµµ1 = µµµµ2 = µµµµ3 versus H1: ∃∃∃∃i,j, µµµµi ≠≠≠≠ µµµµj

Repare-se que a hipótese nula se refere globalmente a todos os grupos do estudo (hipóteses omnibus, global).

Hipóteses na ANOVA

Algumas precisões sobre o teste de hipóteses através de ANOVA:

� As hipóteses são globais (omnibus) – apenas se testa o efeito global da experiência (hipótese nula de que os valores médios são todos iguais versus a hipótese alternativa de que pelo menos um deles é diferente dos restantes).

� Numa ANOVA não se coloca a questão do teste ser bi ou unilateral.

� Não aceitar a hipótese nula não nos esclarece onde reside a diferença detectada – essa análise é feita numa fase posterior.

Condições de aplicação da ANOVA

� Amostras aleatórias retiradas de populações normais ou amostras com dimensão suficientemente grande para se aplicar o Teorema do Limite Central (em geral, N ≥ 30).

� Homogeneidade das variâncias: as variância (desvios-padrão) dos diferentes grupos têm de ser iguais.

� As observações de cada grupo são independentes entre si.

� A variável em estudo tem de estar medida, pelo menos, numa escala quasi-intervalar (quasi-intervalar, intervalar ou de quociente).

Violação das condições de aplicação

A ANOVA é robusta face a violações de algumas condições referidas, nomeadamente a exigência de normalidade (desde que todos os grupos tenham dimensão suficiente) e a exigência da homogeneidade das variâncias (desde que os grupos tenham dimensão semelhante).

Mais grave é a violação da independência das observações entre grupos (não devem estar correlacionados; resolve-se garantindo a aleatoriedade na formação dos grupos em comparação).

19

“Mecanismo” da ANOVA

Embora se denomine “análise de variância”, trata-se de um procedimento para averiguar se os valores médios são estatisticamente diferentes (e não para ver se as variâncias são diferentes).

O nome resulta da ANOVA recorrer ao cálculo de variâncias para decidir se as médias são diferentes. O raciocínio é o seguinte: calcula-se a variância dentro de cada grupo e depois compara-se com a variância entre os grupos – se houver diferenças, é porque as médias dos grupos são diferentes.

“Mecanismo” da ANOVA

Na ANOVA, avalia-se em que medida duas fontes de variabilidade contribuem para a variação total dos dados:

* Alguma variação resulta da diferença entre indivíduos

dentro de cada grupo (variação within, residual ou variância dentro do grupo)

* Alguma variação resulta das diferenças introduzidas pelos grupos (variação between, ou variância entre grupos)

Exemplo

Número de respostas correctas em cada grupo:

Média 458

7

8

8

9

Grupo 1

45

36

64

35

Grupo 3Grupo 2

Haverá diferença entre os valores médios das populações de onde vieram estes três grupos?

Para isso, a ANOVA vai comparar a variância dentro dos grupo (variância natural dos dados) com a variância entre médias (variância devida ao efeito diferenciador das condições experimentais).

ANOVA e teste de valores médios

A Análise de Variância compara a variância dentro dos grupos (variância residual ou variância within) com a variância entre grupos (variância entre grupos ou variância between).

Se a variância residual for claramente inferior àvariância entre grupos, então pode-se afirmar que os valores médios são diferentes.

Na ANOVA a estatística de teste é designada por F e corresponde ao quociente entre a variância entre grupos e a variância residual:

A estatística F segue uma distribuição F de Snedecor com υ1 = k-1 gl (associados ao numerador) e υ2 = N-k gl (associados ao denominador).

Estatística de teste e sua distribuição

Nota: os graus de liberdade indicados correspondem à situação em que os k grupos

têm a mesma dimensão, formando um total de N observações.

Oneway ANOVA (output do SPSS)

Teste de Levene para avaliar o pressuposto da homogeneidade das variâncias

Estatísticas descritivas por grupo (média, desvio-

padrão, erro-padrão da média, IC, mínimo e

máximo)

Tabela ANOVA (resultados do teste de comparação de

médias)

20

Tabela ANOVA

Fontes de variação dos

dados

Valor p

Estatística F

Soma de quadrados

Graus de liberdade

associados a cada soma de

quadrados

Estimativa da variância (média

quadrática)

Tabela ANOVA

Valor p

Os graus de liberdade também somam

A adição das Somas de Quadrados

corresponde à Soma de Quadrados total

Nº de grupos - 1

N - 1

As médias quadráticas resultam de dividir a Soma de Quadrados

pelos graus de liberdade

correspondentes

A estatística F resulta da divisão da Média Quadrática between

pela Média Quadrática within

Decisão

Se Sig. ≤ α, rejeita-se H0, o que se verifica no presente exemplo

(Sig. = 0,001 < 0,05).

Logo, rejeita-se H0 ao nível de significância α = 0,05, ou seja, pelo menos um dos grupos têm valor médio diferente dos restantes [F(2, 9) = 15,6, p = 0,001].

Oneway ANOVA (output do SPSS)

Gráfico de médias (means plot), permite visualizar que médias

são diferentes

O Grupo 1 (silêncio)

aparenta diferir dos restantes dois.

Como verificar estatistica-mente se assim é?

Análises posteriores

Se não se rejeitar H0, é fácil concluir que os grupos são idênticos. Mas se se rejeitar H0, apenas sabemos que pelo menos um dos grupos é diferente dos restantes. Como determinar os grupos que diferem entre si?

G1 = G2 = G3

G1 ≠ (G2 = G3) ou G2 ≠ (G1 = G3) ou G3 ≠ (G1 = G2)

G1 ≠ G2 ≠ G3

Em que situação estamos?

Não rejeitar H0

Rejeitar H0

Análises post-hoc

Existem inúmeros procedimentos para decidir que média são realmente diferentes umas das outras.

Todos estes procedimentos consistem em comparar pares de médias, mas agora estas comparações estão protegidas quanto ao empolamento do erro de tipo I.

Há procedimentos mais conservadores e procedimentos mais liberais – sem razão especial, vamos utilizar o procedimento post-hoc de Tukey HSD (honestly significant difference).

21

Análises post-hoc

Valor p para a diferença entre cada par de

condições

Valor da diferença para cada para de médias

Assinalam-se com * as diferenças significativas

para o valor de α escolhido

Análises post-hoc

Valor p para a diferença entre as médias dentro

de cada grupo

As condições organizam-se em dois grupos: “Condições 3 e 2” (que apresentam média com valores 4 e 5) e Condição 1 (que apresenta média

com valor 8).

Conclusão final

Em resumo, as diferenças detectadas pela ANOVA resultam do Grupo 1 ter uma desempenho significativamente mais elevado que os outros dois grupos (Grupo 1 vs Grupo 2: p = 0,008; Grupo 1 vs Grupo 3: p = 0,001), que, por sua vez, não se distinguem de

forma estatisticamente significativa (Grupo 2 vs Grupo 3: p = 0,409).

Análises post-hoc – procedimento de Bonferroni

Uma outra forma de realizar análises post-hoc controlando a taxa de erro global (experimentwise error) é através do procedimento de Bonferroni, que aqui se vai descrever por ser fácil de conduzir manualmente.

Se pretendemos fazer uma análise post-hoc após rejeitar na ANOVA

uma hipótese omnibus, basta realizar as k comparações através testes t entre pares de médias e utilizar como nível de significância

não α mas sim α/k.

Trata-se de um procedimento conservador, mas fácil de aplicar.

Análises post-hoc – procedimento de Bonferroni

Como são três grupos em comparação, vamos utilizar o nível

de significância α/3 = 0,05/3 = 0,0167.

Apenas a comparação 2 vs 3 não é significativa para este nível de significância corrigido.

0,2676t = 1,22Grupo 2 vs Grupo 3



Valor pGLEstatística tComparação

Análises post-hoc – outros procedimento

O SPSS oferece 18 alternativas no que respeita à análise post-hoc.

Alguns critérios podem nortear a escolha de uma dessas alternativas:

� Controlo sobre o erro de tipo I

� Controlo sobre o erro de tipo II

� Desigualdade no tamanho dos grupos a comparar

� Heterogeneidade das variâncias

22

Análises post-hoc – outros procedimento

Games-HowellVariâncias diferentes

Grupos diferentes

Gabriel (pouco diferentes)Hochberg GT2 (muito diferentes)

Variâncias diferentes

TukeyREGWQBonferroni (conservador)

Variâncias iguaisGrupos iguais

Procedimento post-hocHomogeneidade das variâncias

Dimensão dos grupos

Segundo Field (2000)

Contrastes a priori

Em vez de olharmos para as diferenças entre todos os pares de grupos, podemos estar interessados em apreciar contrastes planeados a priori.

Por exemplo, num estudo experimental, pode interessar comparar o grupo de controlo com dois grupos experimentais. Estes contrastes devem ser especificados antes da realização do teste omnibus.

Contrastes a priori

O SPSS disponibiliza um conjunto de contrastes a priori:

Testa tendências lineares, quadráticas e cúbicas e quárticas nos dados

Polynomial

Cada nível é comparado com o efeito médio das categorias anteriores

Difference

Cada nível é comparado com o efeito médio das categorias seguintes

Helmert

Cada nível é comparado com o nível seguinteRepeated

Cada nível é comparado com o primeiro / últimoSimple (first / last)

Compara o efeito de cada nível (excepto o primeiro / último) com o efeito global do estudo

Deviation (first / last)

Contraste

Exemplo

Considere que se planeara a priori contrastar o efeito da condição “Silêncio” com o efeito das outras duas condições. O contraste adequado será o de Helmert.

O silêncio (nível 1) difere significativamente da

média dos outros dois níveis (p = 0,000). No entanto, os outros dois níveis não diferem entre si de forma estaticamente

significativa (p = 0,213).

Relação entre o teste t e a ANOVA unifactorial

O teste t é um caso particular da ANOVA unifactorial (quando o número de grupos em comparação é 2).

Nessa situação, o valor da estatística F corresponde ao quadrado da estatística t. O valor p será idêntico em ambos os testes.

B. Amostras emparelhadas


23

ANOVA com medidas repetidas

EXEMPLO

Objectivo: avaliar o efeito da cor na identificação e nomeação de objectos.

Desenho experimental: 25 sujeitos expostos a três condições experimentais (os objectos a nomear são representados através “desenhos”, “fotografias a preto e branco” ou “fotografias a cor”). Todos os sujeitos foram expostos a cada uma das condições experimentais.

Atenção aos efeitos de ordem!


Desenho experimental intra-sujeitos (o mesmo sujeito é exposto às três condições – amostras emparelhadas)

Factores:

Tipo de imagem: “desenho”, “foto B&W”, “foto cor”

(factor within subject)

Variável dependente:

Tempo de nomeação

Fontes de variação nos dados

Porque é que duas observações são diferentes?

� Porque os sujeitos nomearam estímulos diferentemente coloridos (efeito do factor Tipo de imagem)

� Porque os sujeitos são diferentes (efeito residual)

Hipóteses sobre valores médios

H0: Não há diferenças no desempenho médio dos sujeitos nas três condições experimentais

H1: Em pelo menos uma das condições experimentais o desempenho médio dos sujeitos difere do desempenho nas restantes condições

Dados

Vinte e cinco sujeitos expostos a três condições experimentais, definidas

consoante o tipo de imagem a nomear.

Os valores referem o tempo médio de nomeação das imagens (em

segundos) para cada condição.

A questão da esfericidade

Teste da esfericidade

Quando o factor within tem mais do que duas modalidades, é necessário que se verifique a esfericidade da matriz das covariâncias. Trata-se de uma exigência semelhante à homogeneidade de variâncias, mas desta vez para o caso da ANOVAcom medidas repetidas.

Na presente situação, rejeita-se H0 [X2(2) = 14,4, p = 0,001], ou seja, não se pode assumir a esfericidade da matriz de co-variâncias, pelo que é preciso seguir alguns cuidados na realização desta ANOVA de medidas repetidas.

24

ANOVA para medidas repetidas(output do SPSS)

Efeito do Tipo de Imagem

Rejeita-se H0 [F(1.4, 32.8) = 45,9, p = 0,000], ou seja, o tempo de nomeação das imagens foi influenciado pela manipulação experimental (presença ou

não de cor).

A significância do efeito do “Tipo de Imagem” lê-se nesta linha pois não se pode assumir a esfericidade dos dados.

A correcção de Greenhouse-Geisser altera os grau de liberdade da estatística F, de forma a garantir maior fiabilidade aos resultados da ANOVA.


Efeito do Tipo de Imagem

A nomeação dos

desenhos parece ser mais lenta do que a nomeação

das fotografias, quer sejam a cor ou a preto e branco.


Comparação entre modalidades

O tempo de nomeação dos desenhos é

estatisticamente diferente do tempo de nomeação dos outros dois tipos de imagem

(fotos B&W e fotos Cor).

Análise post hoc através do método de Bonferroni

Relação com outros procedimentos para teste estatístico de hipóteses sobre valores médios

Tal como o procedimento “One-way ANOVA” é a generalização do teste t de Student (Two independent samples t test) para situações em que se pretende comparar a média de mais do que duas amostras independentes, também o procedimento “Repeated measures ANOVA”é a generalização do teste t de Student (Two paired samples t test) para situações em que se pretende comparar a média de mais do que duas amostra emparelhadas.

Se não se cumprirem os requisitos mínimos de aplicação da ANOVA com medidas repetidas, é sempre possível recorrer ao teste não paramétrico de Friedman.

Parte 3Testes não paramétricos (distribution free)


Árvore de decisão para testes sobre valores médios

Tipo de

dados

Nominais

Escala

Ordinais

Não se aplica o conceito de valor médio; talvez se

pretenda um teste de qui-quadrado

Amostras provém de populações normais

Não se sabe se as amostras provém de populações normais

Amostras grandes(N ≥ 30)

Amostras pequenas (N < 30)

Testes não-paramétricos

Testes paramétricos

25

Árvore de decisão(testes paramétricos sobre valores médios)

Teste de conformidade


Amostras independentes

Amostras emparelhadas

Comparar dois valores médios

Comparar mais de dois valores médios

Homogeneidade de variâncias

Heterogeneidade de variâncias

Independent-Samples T Test

(Welch Method)

Independent-Samples T Test

One-SampleT Test

Paired-Samples T Test

Oneway-ANOVA

Welch & Brown-Forsythe Method


Testes paramétricos sobre valores

médios

Amostras emparelhadas GLM - Repeated

Measures


Heterogeneidade de variâncias

Testes paramétricos e não paramétricos

Os testes apresentados testam hipóteses sobre parâmetros (valor médio). Quando as exigências de aplicação destes testes paramétrico não são respeitadas, pode-se optar pela alternativa não paramétricas correspondente.No entanto, os testes não paramétricos, tal como o seu nome indica, não avaliam hipóteses sobre parâmetros, pelo que as duas abordagens (paramétrica e não-paramétrica) não coincidem totalmente. Os testes não paramétricos testam, de um forma geral, igualdade de distribuições.


Em geram, os testes não paramétricos exigem apenas que...

� As observações de uma amostra sejam independentes entre si.

� As observações resultem da mediação de uma variável métrica (medida ao nível ordinal ou de escala).

Árvore de decisão(testes não-paramétricos)

Teste de conformidade




Comparar dois valores médios

Comparar mais de dois valores médios

Não existe alternativanão-paramétrica


Testes não-paramétricos

equivalentes a testes sobre

valores médios


Nonparametric tests2 Independent samples

(Mann-Whitney)

Nonparametric testsK Independent samples

(Kruskal-Wallis)

Nonparametric testsK Related samples

(Friedman)

Nonparametric tests2 Related samples

(Wilcoxon)

Ranking

Os testes não paramétricos indicados não se baseiam nos dados originalmente recolhidos mas na sua conversão em ranks (ordens).

Exemplo de ranking

Dados originais Ranks

7,2 → 4

5,4 → 3

2,8 → 1

9,3 → 5

5,2 → 2

As ordens ignoram o valor das

diferenças existentes entre observações, transformando uma variável medida ao

nível escalar numa variável ordinal.

Ranking

Exemplo de ranking com empates

Dados originais Ordenação Ranks

2,8 → 1 ou 2 1,5

2,8 → 1 ou 2 1,5

5,2 → 3 3

5,4 → 4 ou 5 ou 6 5

5,4 → 4 ou 5 ou 6 5

5,4 → 4 ou 5 ou 6 5

7,2 → 7 7

9,3 → 8 8

Faz-se a média das ordens:

(1+2)/2 = 1,5

Faz-se a média das ordens:

(4+5+6)/3 = 5

26

Parte 4Desenhos experimentais complexos


Planos experimentais factoriais

Em investigação experimental, é frequente estudar o efeito simultâneo de dois ou mais factores no desempenho dos participantes.

Por exemplo…Testar a agradabilidade provocada pelo contacto

com um estímulo táctil em que se variou diferentes características (textura e temperatura).

Factores / modalidade / condições

Trata-se de um plano experimental bifactorial, pois manipularam-se dois factores: o factor experimental “textura” tem duas modalidades

(liso e rugoso) e o factor experimental “temperatura” tem três

modalidades (frio, normal e quente).

Para avaliar o efeito destas seis condições experimentais na variável dependente (“agradabilidade sentida”), dever-se-á recorrer a

uma ANOVA 2x3.

Rugoso

Liso

QuenteNormalFrio

Situações multifactoriais

O plano experimental anterior pode estender-se a três factores, incluindo um factor adicional (por exemplo, a “humidade” do

estímulo: seco ou húmido), passando assim a uma situação trifactorial e definindo-se 2 x 3 x 2 = 12 condições experimentais.

SecoHúmido

QuenteNormalFrio

Rugoso

Liso

QuenteNormalFrio

Natureza dos factores

Existem dois tipos de factores experimentais:

� Factores entre-sujeitos (between subjects) – quando cada sujeito experimental é exposto apenas a uma modalidade de cada factor.

� Factores intra-sujeitos (within subjects) – quando um sujeito éexposto a mais do que uma modalidade de um mesmo factor.

Plano experimental entre-sujeitos

Nesta experiência, cada sujeito é exposto a uma única condição.

Para comparar condições temos de comparar o desempenho de sujeitos diferentes. Assim, trata-se de um plano experimental

entre-sujeitos (between subjects design).

RaulTâniaPaulo

PaulaJoséMário

VascoManuelJulieta

Rugoso

JoaquimVanessaRui

TiagoHugoVânia

PedroJoãoMaria

Liso

QuenteNormalFrio

27

Plano experimental intra-sujeitos

Nesta experiência, cada sujeito é exposto a todas as condições experimentais. Para comparar condições temos de comparar o

desempenho de cada sujeito numa condição com o seu desempenho noutra condição. Assim, trata-se de um plano experimental intra-

sujeitos puro (within subjects design).

PedroJoãoMaria

PedroJoãoMaria

PedroJoãoMaria

Rugoso

PedroJoãoMaria

PedroJoãoMaria

PedroJoãoMaria

Liso

QuenteNormalFrio

Plano experimental misto

Nesta experiência, cada sujeito é exposto às duas modalidades do factor “textura” mas apenas a uma modalidade do factor “temperatura”. Num dos factores (“textura”) o

desempenho do sujeito numa condição pode ser comparado com o seu desempenho noutra condição; no outro factor (“temperatura”), o seu desempenho é comparado com o desempenho de outros sujeitos. Assim, trata-se de um plano experimental misto

(mixed design): a “textura” é um factor intra-sujeitos e a “temperatura” um factor entre-sujeitos.

JoaquimVanessaRui

TiagoHugoVânia

PedroJoãoMaria

Rugoso

JoaquimVanessaRui

TiagoHugoVânia

PedroJoãoMaria

Liso

QuenteNormalFrio

Interacção

Em estudos com mais de um factor, o foco de interesse é o efeito da interacção entre esses factores na variável

dependente.

Será o efeito de um factor independente do outro factor ou o seu efeito conjunto leva a produzir padrões de resultados

inesperados?

A análise das interacções é um ponto fundamental na investigação psicológica.

A. ANOVA bifactorial


ANOVA bifactorial(para grupos independentes)

EXEMPLO

Objectivo: avaliar o impacto de uma formação breve nas competências para utilizar software estatístico.

Amostra: grupo de controlo (20 estudantes) e grupo experimental (20 estudantes que receberam a formação breve). Cada grupo foi definido de forma a garantir que metade dos estudantes tivessem experiência no uso de software (grupo de experientes) e a outra metade não tivesse qualquer experiência de utilização de software

(grupo de não experientes).

ANOVA bifactorial

Plano experimental bifactorial entre-sujeitos

Factores

Formação: Grupo experimental versus Grupo de controlo

Experiência: Experientes versus Não-experientes

Variável dependente

Competências de utilização demonstradas numa tarefa

com o software em causa

Procedimento de análise: ANOVA 2x2

28


Porque razão duas observações deste estudo são diferentes?

� Porque os sujeitos receberam formação diferente (efeito do factor “Formação”).

� Porque os sujeitos têm experiências prévias diferente com software

(efeito do factor “Experiência”).

� Porque o efeito da formação nos sujeitos depende da sua experiência prévia (efeito da interacção entre “Experiência” e “Formação”).

� Porque são pessoas diferentes (efeito residual)

Serão este efeitos realmente significativos no desempenho?


Efeitos presentes num plano bifactorial:

� Efeito do factor “Formação”

� Efeito do factor “Experiência”

� Efeito da interacção “Experiência x Formação” (interacção de 2ªordem)

Efeitos principais

(main effects)

Hipóteses

Factor formação

H0: Não há diferenças entre Grupo Experimental e Grupo de Controlo

H1: Há diferenças entre grupo Experimental e Grupo de Controlo

Factor Experiência

H0: Não há diferenças entre Experientes e Não-experientes

H1: Há diferenças entre Experientes e Não-experientes

Interacção entre formação e experiência

H0: O efeito da formação é independente da experiência dos participantes. H1: O efeito da formação depende da experiência dos participantes.

Dados

15, 16 14, 19, 13, 14, 15, 16, 17, 17

15, 16, 15, 17, 15, 16, 15, 17, 15, 16

Experimental(com formação)

15, 14, 15, 16, 16, 15, 16, 17, 15, 14

11, 12, 13, 14, 10, 12, 11, 13, 14, 12

Controlo(sem formação)

ExperientesInexperientesResultados na tarefa

A amostra total é constituída por 40 observações distribuídas pelas quatro condições experimentais.


Teste de homogeneidade das variâncias de Levene

Perante grupos independentes, a realização da ANOVA exige

que as variâncias dos grupos em comparação sejam semelhantes.

Como não se rejeita H0 [F(3, 36) = 2,2, p = 0,111], pode-se assumir a homogeneidade das variâncias, pelo que existem

condições para prosseguir a ANOVA.

Interacção entre factores

A vantagem das ANOVAs bifactoriais sobre as ANOVAs unifactoriais diz respeito à possibilidade de avaliar se os dois efeitos agem

independentemente um do outro sobre a variável dependente ou se, pelo contrário, o efeito de um depende do efeito do outro (interacção).

No exemplo em análise, será que o efeito benéfico da formação dependerádo facto dos sujeitos serem Experientes ou Inexperientes?

Se não existe interacção significativa, os factores principais podem ser

interpretados isoladamente. Quando existe interacção, não se pode falar dos efeitos principais isoladamente, uma vez que o efeito de um factor

depende do efeito do outro. Assim, a interacção deve ser sempre interpretada em primeiro lugar, antes da interpretação dos efeitos principais.

29

Teste das hipóteses sobre valores médios – efeito de interacção

Efeito da interacção Formação x Experiência

Rejeita-se H0 [F(1, 36) = 15,8, p = 0,000], ou seja, o efeito da formação não é

idêntico para experientes e não experientes; o esclarecimento sobre o significado desta interacção é facilitado pela análise do gráfico de médias.

Gráfico de médias

Interacção Formação x Experiência

Enquanto que nos Experientes a formação parece ter um efeito negligenciável, o facto dos Inexperientes terem

frequentado o curso de formação fez com que o seu desempenho se aproximasse do dos Experientes.

Análise gráfica dos efeitos de interacção

A1 A2 A1 A2 A1 A2

B2

B1

Efeito A: n sig

Efeito B: n sig

Interacção: n sig

Efeito A: n sig

Efeito B: sig

Interacção: n sig

Efeito A: sig

Efeito B: sig

Interacção: n sig

Nota: a ausência de interacção detecta-se facilmente através de um gráfico de médias: as linhas são grosseiramente paralelas.

Análise gráfica dos efeitos de interacção

A1 A2 A1 A2 A1 A2

Efeito A: n sig

Efeito B: sig

Interacção: sig

Efeito A: sig

Efeito B: n sig

Interacção: sig

Efeito A: n sig

Efeito B: n sig

Interacção: sig

A1 A2

Efeito A: sig

Efeito B: sig

Interacção: sig

Nota: a presença de interacção detecta-se facilmente através de um gráfico de médias: as linhas cruzam, convergem ou divergem.

Identificação das diferenças significativas numa interacção

Os diversos padrões de interacção que podem surgir obrigam a identificar que condições diferem entre si.

O SPSS não permite fazer comparações post hoc para efeitos de interacção, pelo que é preciso recorrer a testes t de Student ou a ANOVAs para identificar que médias diferem umas das outras. Nestes casos, é necessário usar sempre a correcção de Bonferroni.

NOTA: para realizar esta comparação post hoc com o teste t, utilize o

comando “split file” para fazer a análise separadamente em função do nível de experiência.

Grupo de experientes

Grupo de inexperientes


30


Como estamos a fazer dois testes, a correcção de Bonferroni recomenda

usar o nível de significância α/2 = 0,05/2 = 0,025.

Confirma-se, assim, que a formação

não exerce efeito nos experientes (médias: 15,3 vs 15,6; t = -0,47, df =

18, p = 0,643) mas melhora significativamente o desempenho dos inexperientes (médias: 12,2 vs 15,7; t =

-7,13, df = 18, p = 0,000).

Teste das hipóteses sobre valores médios – efeitos principais

Efeito da Formação

Rejeita-se H0 [F(1, 36) = 22,3, p = 0,000], ou seja, a formação introduziu diferenciação significativa no desempenho da tarefa. Pela tabela das

estatísticas descritivas, pode-se observar que o grupo experimental (com formação) teve um desempenho médio significativamente superior ao grupo

de controlo (15,65 versus 13,75).

Teste das hipóteses sobre valores médios – efeitos principais

Efeito da Experiência

Rejeita-se H0 [F(1, 36) = 13,9, p = 0,001], ou seja, a experiência introduziu

diferenciação significativa no desempenho da tarefa. Pela tabela das estatísticas descritivas, pode-se observar que, independentemente da

formação, o grupo experiente teve um desempenho médio significativamente superior ao grupo inexperiente (15,45 versus 13,95).

Conclusão geral

A formação parece ter efeito positivo apenas no grupo de inexperientes, permitindo-lhes um nível de desempenho igual

aos experientes. O seu benefício para os Experientes é não significativo.

Apesar dos efeitos principais serem significativos, perdem significado perante a interacção detectada (ou seja, a

vantagem dos Experientes observa-se apenas na condição “Sem formação” e a vantagem da formação observa-se apenas para o grupo de Inexperientes).

Dificuldades na interpretação dos efeitos de interacção

A presença de efeitos designados por “ceiling effect” ou “floor

effect” pode tornar inviável a interpretação das interacções.

Efeito de tecto (ceiling effect) – ocorre quando o desempenho de um dos grupos se aproxima do nível máximo possível permitido pela prova (ou seja, a prova é demasiadamente fácil

para esse grupo).

Efeito de chão (floor effect) – ocorre quando o desempenho de um dos grupos se aproxima do nível mínimo permitido pela prova (a prova é demasiadamente difícil para esse grupo).

Efeito de tecto e efeito de chão

Uma interacção significativa entre dois factores pode ser um artefacto devido à presença de efeito de tecto ou de efeito de

chão, tornando assim a investigação inconclusiva.

Por essa razão, o investigador deve garantir que a prova ou teste que está a utilizar para avaliar o desempenho dos sujeitos seja suficientemente discriminativa (nem muito fácil

nem muito difícil), para garantir que os níveis de desempenho se situem a um nível médio (longe do “tecto” e longe do “chão”).

31

Efeito de tecto

Neste exemplo, o grupo A tem um desempenho próximo do máximo

(100%) em ambas as condições experimentais (ceiling effect).

A análise estatística vai detectar uma interacção que, muito provavelmente,

será um artefacto devido ao ceiling effect. O facto do grupo A ter-se aproximado do

nível máximo de desempenho em ambas as condições não garante que, numa

prova mais difícil, o seu desempenho não diferisse entre condições, assemelhando-se ao do grupo B (as linhas do gráfico

ficariam então paralelas e deixaria de haver interacção).

50

55

60

65

70

75

80

85

90

95

100

Grupo A Grupo B

Res

po

sta

s c

orr

ecta

s (%

)

Com Luz

Sem Luz

Efeito de chão

Neste exemplo, o grupo B tem um desempenho próximo do nível mínimo que

a prova permite (0%) em ambas as condições experimentais (floor effect).

Também aqui a ANOVA vai detectar uma interacção significativa que será um

artefacto devido à presença de floor

effect. O facto do grupo B ter-se

aproximado sistematicamente do nível mínimo de desempenho em ambas as

condições não garante que, numa prova mais fácil, o seu desempenho permitisse uma dissociação entre condições

experimentais, semelhante à observada no grupo A.

0

10

20

30

40

50

60

Grupo A Grupo B

Res

post

as c

orr

ecta

s (%

)

Com Luz

Sem Luz

B. ANOVA bifactorialcom medidas repetidas



Planos bifactoriais em que ambos os factores são intra-sujeitos são frequentes em estudos experimentais, quando o mesmo conjunto de sujeitos é exposto às diferentes condições manipuladas pelo experimentador.

A utilização da mesma amostra nas diferentes condições permite reduzir a variação residual atribuível a diferenças individuais. No entanto, é preciso cuidados metodológicos especiais neste tipo de estudos, para evitar efeitos de ordem no desempenho dos sujeitos(cansaço, treino, expectativas).


EXEMPLO

Objectivo: avaliar o efeito da fase do dia (manhã e noite) e da

natureza do material (letras, números, formas geométricas) no desempenho em provas de memória imediata.

Plano experimental: 30 sujeitos expostos a três condições experimentais durante a manhã (memorizar letras, números e formas geométricas) e às mesmas três condições experimentais

durante o início da noite. Regista-se o número de respostas certas nas diferentes provas de memória. Foram acautelados os efeitos de ordem.


EXEMPLO

Plano experimental intra-sujeitos

Factores (within subject):

Tipo de material: “letras”, “números”, “formas”

Fase do dia: “manhã”, “noite”


Desempenho nas provas de memória imediata

Procedimento de análise: ANOVA 3 x 2 com medidas repetidas

32

Hipóteses

Factor Fase do dia

H0: Não há diferenças de desempenho entre a manhã e a noite

H1: Existem diferenças entre a manhã e a noite

Factor Tipo de material

H0: Não há diferenças de desempenho para os três tipos de material

H1: Pelo menos um dos tipos de material levou a desempenho diferentes dos restantes


H0: O efeito do tipo de material é independente da fase do dia do teste

H1: O efeito do tipo de material depende da fase do dia do teste

Dados

Trinta sujeitos expostos a seis (2 x 3) condições

experimentais.

Como se trata de um plano de estudo com medidas

repetidas, a base de dados

inclui 30 linhas (sujeitos) e 6 colunas (condições).

Os valores referem a acuidade das respostas

dadas nas provas de memória imediata realizadas

em cada condição.

ANOVA com medidas repetidas no SPSS

É necessário atribuir um nome aos dois factores within subjects e identificar o número de níveis que eles possuem.

Aqui trata-se do factor “fase_dia” (com duas modalidades: “manhã” e “noite”) e do factor “material” (com três modalidades: “letras”, “números” e

“formas”).

ANOVA com medidas repetidas no SPSS

Atribuir as seis variáveis aos

factores within subjects.

Options

Solicitar um gráfico de médias,

para facilitar a interpretação de eventuais interacções.

Output – estatísticas descritivas

Estatísticas descritivas:

acuidade no desempenho em cada prova

Descriptive Statistics

7,37 2,918 30

6,10 2,845 30

4,10 2,591 30

7,00 2,213 30

4,40 2,568 30

3,97 2,236 30

manha_num

manha_let

manha_for

noite_num

noite_let

noite_for

Mean Std. Deviation N

Mauchly's Test of Sphericityb

Measure: MEASURE_1

1,000 ,000 0 . 1,000 1,000 1,000

,203 44,687 2 ,000 ,556 ,563 ,500,778 7,020 2 ,030 ,818 ,861 ,500

Within Subjects Effectfase_dia

materialfase_dia * material

Mauchly's WApprox.

Chi-Square df Sig.Greenhouse-Geisser Huynh-Feldt Lower-bound

Epsilona

Tests the null hypothesis that the error covariance matrix of the orthonormalized transformed dependent variables isproportional to an identity matrix.

May be used to adjust the degrees of freedom for the averaged tests of significance. Corrected tests are displayed inthe Tests of Within-Subjects Effects table.

a.

Design: Intercept Within Subjects Design: fase_dia+material+fase_dia*material

b.

Output – esfericidade

Rejeita-se a hipótese de esfericidade nos casos em que ela tem de ser testada

(ou seja, para o factor “material”, que tem 3 níveis, e na interacção que tem 2x3 níveis). Por haver problemas de esfericidade, é preciso proceder às

devidas correcções na ANOVA (correcção de Greenhouse-Geisser).

33

Output – teste das hipóteses

Como se referiu anteriormente, nos planos bifactoriais deve-se começar sempre por verificar se a interacção é significativa antes de

analisar os efeitos principais…

Isto porque, caso a interacção seja significativa, é arriscado falar do efeito isolado de um factor sem que se tenha, obrigatoriamente, de referir o outro factor (uma vez que os dois factores interagem na

influência que têm sobre a variável dependente).

Apenas quando a interacção não é significativa é que o efeito isolado

de cada factor pode ser referido, independentemente do outro factor da experiência.

Tests of Within-Subjects Effects

Measure: MEASURE_1

24,200 1 24,200 34,858 ,000

24,200 1,000 24,200 34,858 ,000

24,200 1,000 24,200 34,858 ,000

24,200 1,000 24,200 34,858 ,000

20,133 29 ,694

20,133 29,000 ,694

20,133 29,000 ,694

20,133 29,000 ,694302,811 2 151,406 16,892 ,000

302,811 1,113 272,119 16,892 ,000

302,811 1,125 269,075 16,892 ,000

302,811 1,000 302,811 16,892 ,000

519,856 58 8,963

519,856 32,271 16,109

519,856 32,636 15,929

519,856 29,000 17,926

21,433 2 10,717 13,741 ,000

21,433 1,637 13,093 13,741 ,000

21,433 1,722 12,449 13,741 ,000

21,433 1,000 21,433 13,741 ,001

45,233 58 ,780

45,233 47,472 ,953

45,233 49,928 ,906

45,233 29,000 1,560

Sphericity Assumed

Greenhouse-Geisser

Huynh-Feldt

Lower-bound

Sphericity Assumed

Greenhouse-Geisser

Huynh-Feldt

Lower-bound

Sphericity Assumed

Greenhouse-Geisser

Huynh-Feldt

Lower-bound

Sphericity Assumed

Greenhouse-Geisser

Huynh-Feldt

Lower-bound

Sphericity AssumedGreenhouse-Geisser

Huynh-Feldt

Lower-bound

Sphericity Assumed

Greenhouse-Geisser

Huynh-Feldt

Lower-bound

Sourcefase_dia

Error(fase_dia)

material

Error(material)

fase_dia * material

Error(fase_dia*material)

Type III Sumof Squares df Mean Square F Sig.

Output – teste das hipóteses

A interacção entre os

dois factores ésignificativa (correcção

de Greenhouse-Geisser).

Output – teste das hipóteses (interacção)

Efeito da interacção entre factores

Rejeita-se H0 [F(1.6, 47.5) = 13,7, p = 0,000], ou seja, as diferenças

de desempenho nas três provas não são iguais de manhã e ànoite…

… ou seja, as diferenças entre o desempenho matinal e nocturno

não é igual nas três provas.

… ou seja, o efeito do tipo de material depende da altura do dia em que a prova é realizada.

Output – gráfico de médias

Interacção entre material e

fase do dia

A capacidade de memória

para números e para formas parece semelhante nos dois

momentos de avaliação; a memória para letras parece ser mais eficaz durante a

manhã. Para verificar a significância desta leitura, é

preciso proceder a análises post hoc.

Paired Samples Test

,367 1,608 ,294 -,234 ,967 1,249 29 ,222

1,700 1,119 ,204 1,282 2,118 8,323 29 ,000

,133 ,819 ,150 -,173 ,439 ,891 29 ,380

manha_num - noite_numPair 1

manha_let - noite_letPair 2

manha_for - noite_forPair 3

Mean Std. DeviationStd. Error

Mean Lower Upper

95% ConfidenceInterval of the

Difference

Paired Differences

t df Sig. (2-tailed)

Identificação das diferenças significativas na interacção (análise post hoc)

A comparação post hoc entre as médias do gráfico de interacção poderá ser feita recorrendo ao teste t para amostras emparelhadas (com correcção de

Bonferroni, utilizando-se o valor α/3 = 0.05/3 = 0.0167, pois é realizado um conjunto de três testes).

A análise post hoc permite afirmar que apenas na prova de memória para letras existe diferença significativa entre manhã e noite (t = 8,3, gl = 29, p = 0,000).

Output – teste das hipóteses (efeitos principais)

Efeito do tipo de material

Rejeita-se H0 [F(1.1, 32.3) = 16,9, p = 0,000], ou seja, o desempenho de pelomenos uma das provas é diferente dos restantes.

Como este factor tem três modalidades, é preciso proceder a

análises post hoc para identificar que modalidades são diferentes entre si (apenas sabemos que pelo

menos uma difere das restantes).

34

Pairwise Comparisons

Measure: MEASURE_1

1,933* ,659 ,019 ,260 3,607

3,150* ,656 ,000 1,483 4,817

-1,933* ,659 ,019 -3,607 -,260

1,217* ,179 ,000 ,762 1,671

-3,150* ,656 ,000 -4,817 -1,483

-1,217* ,179 ,000 -1,671 -,762

(J) material2

3

1

3

1

2

(I) material1

2

3

MeanDifference

(I-J) Std. Error Sig.a

Lower Bound Upper Bound

95% Confidence Interval forDifference

a

Based on estimated marginal means

The mean difference is significant at the ,05 level.*.

Adjustment for multiple comparisons: Bonferroni.a.

Output – análise post hoc

Comparação entre materiais

Observam-se diferenças significativas entre o desempenho nas três provas, pelo que

se pode afirmar que, independentemente da hora do dia, a capacidade de memória para números é sempre melhor do que a capacidade de memória para letras e ambas são melhores do que a capacidade de memória para formas geométricas.

Análise post hoc através do método de Bonferroni

Output – teste das hipóteses (efeitos principais)

Efeito da fase do dia

Rejeita-se H0 [F(1, 29) = 34,9, p = 0,000], ou seja, o desempenho geral nas provas de memória depende da fase do dia em que foi avaliado.

A análise das médias indica que o desempenho geral nas provas de

memória durante a manhã é superior ao desempenho durante a noite (neste

caso, como o factor “fase do dia” apenas tem duas modalidades, não é preciso proceder a análises post hoc); no

entanto, a análise da interacção revelou-nos que essa diferença deve-se

sobretudo à prova de letras..

Conclusão geral

Embora o desempenho de provas de memória seja sistematicamente melhor quando se trabalha com números e

pior quando se trabalha com formas geométricas, o desempenho em provas de memória que utilizem letras parece depender da altura do dia em que a prova é realizada. C. ANOVA mista


ANOVA com plano experimental misto

EXEMPLO

Objectivo: avaliar o efeito de uma sessão de relaxamento na pressão arterial sistólica.

Plano experimental: Após uma prova de esforço (destinada a aumentar a pressão arterial), 30 sujeitos foram aleatoriamente distribuídos por dois grupos: um grupo realizou uma sessão de relaxamento activo com duração de 10 minutos (grupo experimental) e o outro grupo ficou em repouso (grupo de controlo). Mediu-se a pressão arterial antes e depois de cada sessão. Pretende-se avaliar se a sessão de relaxamento activo teve mais efeito na redução da tensão arterial do que sessão de repouso.

ANOVA com plano experimental misto

Plano experimental misto

Factores:

Tempo: “antes da sessão” versus “depois da sessão”

(factor within subjects)

Tipo de sessão: relaxamento activo versus repouso

(factor between subjects)


Pressão arterial sistólica

Procedimento de análise: ANOVA com medidas repetidas

35

Hipóteses

Factor Tempo

H0: Não há diferenças na pressão arterial antes e depois das sessões

H1: Há diferenças na pressão arterial antes e depois das sessões

Factor Tipo de Relaxamento

H0: Não há diferenças entre Relaxamento Activo e RepousoH1: Há diferenças entre Relaxamento Activo e Repouso


H0: A diferença na pressão antes e depois é independente do tipo de relaxamento

H1: A diferença na pressão antes e depois depende do tipo de relaxamento

Esta é a hipótese que interessa explorar nesta investigação, pois permite averiguar se o tipo de relaxamento afecta a descida da pressão arterial.

Dados

Trinta sujeitos distribuídos por duas condições experimentais

Os valores referem à pressão arterial sistólica (PA) antes e depois do

tratamento (sessão de relaxamento / repouso)



Como nesta análise existe um factor entre-sujeitos, é necessário verificar se a variância das variáveis em estudo (PA_antes e PA_depois) é igual

nos dois grupos em comparação.

Verifica-se existir homogeneidade das variâncias para as duas variáveis (para ambas a variáveis, p > 0,050), pelo que se pode prosseguir a ANOVA.

Levene's Test of Equality of Error Variancesa

,119 1 28 ,732

,285 1 28 ,597

PA_antes

PA_depois

F df1 df2 Sig.

Tests the null hypothesis that the error variance of thedependent variable is equal across groups.

Design: Intercept+Sessão Within Subjects Design: tempo

a.

Esfericidade

Teste da esfericidade

Como o factor within tem apenas dois níveis (“antes” e “depois”) não faz

sentido testar a esfericidade da matriz das covariâncias.

Mauchly's Test of Sphericityb

Measure: MEASURE_1

1,000 ,000 0 . 1,000 1,000 1,000Within Subjects Effecttempo

Mauchly's WApprox.

Chi-Square df Sig.Greenhouse-Geisser Huynh-Feldt Lower-bound

Epsilona

Tests the null hypothesis that the error covariance matrix of the orthonormalized transformed dependent variables isproportional to an identity matrix.

May be used to adjust the degrees of freedom for the averaged tests of significance. Corrected tests are displayed inthe Tests of Within-Subjects Effects table.

a.

Design: Intercept+Sessão Within Subjects Design: tempo

b.


Measure: MEASURE_1

390,150 1 390,150 104,504 ,000

390,150 1,000 390,150 104,504 ,000

390,150 1,000 390,150 104,504 ,000

390,150 1,000 390,150 104,504 ,000

30,817 1 30,817 8,254 ,008

30,817 1,000 30,817 8,254 ,008

30,817 1,000 30,817 8,254 ,008

30,817 1,000 30,817 8,254 ,008

104,533 28 3,733

104,533 28,000 3,733

104,533 28,000 3,733

104,533 28,000 3,733

Sphericity Assumed

Greenhouse-Geisser

Huynh-Feldt

Lower-bound

Sphericity Assumed

Greenhouse-Geisser

Huynh-Feldt

Lower-bound

Sphericity Assumed

Greenhouse-Geisser

Huynh-Feldt

Lower-bound

Sourcetempo

tempo * Sessão

Error(tempo)


Teste das hipóteses – factor within

Efeito do Tempo (efeito within)

Como seria de esperar (pois a pressão arterial deverá baixar naturalmente 10 minutos após a conclusão do exercício), rejeita-se H0 [F(1, 28) = 104,5, p = 0,000], ou seja, há diferenças na pressão arterial antes e depois das sessões.

A significância do efeito do facto within

(Tempo) lê-se nesta linha pois não se coloca a exigência da esfericidade.

Tests of Between-Subjects Effects

Measure: MEASURE_1

Transformed Variable: Average

596206,017 1 596206,017 1315,354 ,000

170,017 1 170,017 ,375 ,545

12691,467 28 453,267

SourceIntercept

Sessão

Error


Teste das hipóteses – factor between

Efeito da Sessão (efeito between)

Não se rejeita H0 [F(1, 28) = 0,4, p = 0,545], ou seja, não existe diferença entre sessões.

Atenção: como se trata de um factor between, o SPSS apresenta o teste correspondente numa tabela diferente da anterior.

36


Measure: MEASURE_1

390,150 1 390,150 104,504 ,000

390,150 1,000 390,150 104,504 ,000

390,150 1,000 390,150 104,504 ,000

390,150 1,000 390,150 104,504 ,000

30,817 1 30,817 8,254 ,008

30,817 1,000 30,817 8,254 ,008

30,817 1,000 30,817 8,254 ,008

30,817 1,000 30,817 8,254 ,008

104,533 28 3,733

104,533 28,000 3,733

104,533 28,000 3,733

104,533 28,000 3,733

Sphericity Assumed

Greenhouse-Geisser

Huynh-Feldt

Lower-bound

Sphericity Assumed

Greenhouse-Geisser

Huynh-Feldt

Lower-bound

Sphericity Assumed

Greenhouse-Geisser

Huynh-Feldt

Lower-bound

Sourcetempo

tempo * Sessão

Error(tempo)


Teste das hipóteses - interacção

Efeito da interacção Tempo x Sessão (efeito misto)

Existe interacção entre Tempo e Sessão [F(1, 28) = 8,3, p = 0,008], ou seja, a

redução da pressão observada entre o momento “antes” e “depois” é diferente no grupo que fez relaxamento e no grupo de repouso.

Gráfico de médias

Interacção Tempo x Sessão

A diminuição da tensão

entre o momento “antes” e “depois” (efeito do Tempo) é distinta nos dois grupos:

tal diminuição é mais marcada no grupo que

seguiu a sessão de relaxamento.

Identificação das diferenças significativas na interacção

Também aqui poderá ser necessário fazer comparações post hoc para identificar que médias diferem umas das outras.

O teste a escolher depende se se está trabalhar com o factor intra-sujeitos ou

o factor entre-sujeitos…

É necessário usar sempre a correcção de Bonferroni.


Duas alternativas de análise…

Fazer análise do factor intra-sujeitos para cada grupo definido pelo factor

entre-sujeitos.

Fazer a comparação entre os grupos definido pelo factor entre-sujeitos para cada um dos momentos definidos pelo

factor intra-sujeitos.


Grupo Sessão = repouso

Grupo Sessão = relaxamento


Verifica-se que o efeito entre o início e o fim da sessão é significativo para os dois tipos de sessão (repouso: t = 9,49, df = 14, p = 0,000; relaxamento: t =

7,10, df = 14, p = 0,000). No entanto, a diminuição dos níveis médios de pressão é maior nas sessões de relaxamento (diferença entre médias = 6,53)

do que nas sessões de repouso (diferença entre médias = 3,67).

Uma sessão de relaxamento activo parece ter um efeito mais marcado na

redução da pressão arterial após exercício do que uma sessão de repouso simples.

37

Conclusão

Uma sessão de relaxamento activo parece ter um efeito mais marcado na redução da pressão arterial após exercício do que uma sessão de repouso simples.

D. Situações mais complexas


ANOVAs mais complexas

Podem surgir estudos mais complexos, dependendo do número de factores envolvidos e do número de modalidades presentes em cada

factor:

a) Estudos com dois factores, mas onde cada factor tem mais de duasmodalidades (por exemplo, ANOVA 3 x 4)

b) Estudos com mais do que dois factores – análise de variância multifactorial (por exemplo, ANOVA 2 x 3 x 2).

Análise bifactorial com mais de duas modalidades

ANOVA 3 x 2

O efeito da iluminação édiferente consoante o nível

de experiência do sujeito: ser leitor experiente traz

vantagens para a velocidade de leitura em condições de penumbra.

10

12

14

16

18

20

22

24

26

28

30

Luz Penumbra Sombra

Condições de leitura

Vel

oci

dad

e d

e le

itu

ra

Experientes

Inexperientes

ANOVA 3 x 4

O aumento do número de

modalidades de cada factor dificulta a interpretação da interacção.

A análise post-hoc desta interacção

implica o recurso à ANOVA unifactorial e ao método de Tukey(para comparar, por exemplo, o

desempenho dos três grupos ESS

em cada ano de escolaridade).10

11

12

13

14

15

16

17

18

19

20

1º ano 2º ano 3º ano 4º ano

ESS baixo

ESS médio

ESS alto

Análise multifactorial

Quanto existem três factores em jogo (A, B e C), para além dos factores

principais (main effects) e da interacção de 2ª ordem (interacção entre pares de factores: AxB, AxC e BxC), existe ainda a interacção de 3ª ordem entre os três factores (AxBxC).

A dificuldade em interpretar os efeitos de interacção aumenta rapidamente assim que se passa para análises com mais do que três factores.

38

Análise trifactorial

Considere-se que se pretende avaliar a presença de música na sessão de relaxamento (com música ou sem música) tem efeito na redução da pressão

sistólica (antes versus depois), procurando averiguar se esse feito édiferente entre homens e mulheres.

Temos uma ANOVA 2 x 2 x 2, com os seguintes factores:

Sexo (masculino vs feminino)

Momento (antes vs depois)

Condição experimental (com música vs sem música)

Interacção de 3ª ordem

A redução da pressão sistólica (antes versus depois) é diferente entre sexos

quando o treino é feito sem música (as mulheres relaxam mais) mas igual nos dois sexos quando o treino é feito com música.

E. ANCOVA


ANCOVA – Analysis of Covariance

Covariáveis são variáveis de natureza quantitativa utilizadas em ANOVA para reduzir a variação devida ao erro residual, aumentando assim a potência do teste para detectar diferenças.

No estudo sobre o efeito do ruído na compreensão de um texto podemos considerar que o resultado numa prova de Vocabulário

(medida da vocabulário que o sujeito possui) está correlacionado com a compreensão do texto, pelo que pode ser usado para tornar o teste mais sensível (mais potente) pois controla-se o efeito dessa variável estranha no efeito que se pretende avaliar (efeito das condições de ruído na compreensão de um texto).


EXEMPLO

Objectivo: avaliar o ruído ambiental na compreensão de um texto.

Amostra: três grupos de 4 crianças cada foram expostos a três condições ambientais distintas (silêncio vs música de fundo vs ruído de fundo) ouviram a leitura de um texto. No final, foram feitas perguntas para avaliar a compreensão do texto escutado.

Considerou-se que o conhecimento de vocabulário se relaciona com a compreensão de textos, pelo que se pretendeu usar essa variável para controlar essa fonte de variação e tornar o estudo mais sensível às diferenças entre as condições experimentais.


ANOVA (sem covariável)

Rejeita-se H0 [F(2, 9) = 15,6, p = 0,001]: existem diferenças entre condições de

ruído.

ANOVA

Acertos

34,667 2 17,333 15,600 ,00110,000 9 1,111

44,667 11

Between GroupsWithin Groups

Total

Sum ofSquares df Mean Square F Sig.

39


ANCOVA (usar Vocabulário como covariável)

A variância do erro diminui de 1,11 para 0,57, devido ao controlo da variação atribuível às diferenças individuais no vocabulário dos sujeitos.

O efeito da covariável é significativo [F(1, 8) = 9,6, p = 0,015], confirmando a existência de associação entre o nível de vocabulário e a variável dependente.

Rejeita-se H0

[F(2, 8) = 23,1, p = 0,000].


Dependent Variable: Acertos

40,113a 3 13,371 23,493 ,000

,164 1 ,164 ,289 ,606

5,447 1 5,447 9,570 ,01526,350 2 13,175 23,149 ,000

4,553 8 ,569

430,000 12

44,667 11

SourceCorrected Model

Intercept

VocabCondição

Error

Total

Corrected Total


R Squared = ,898 (Adjusted R Squared = ,860)a.

ANCOVA: Condição de aplicação

Homogeneidade de declives: a ANCOVA exige que a relação entre a covariável e a variável dependente seja semelhante nos três grupos.

Para testar este

pressuposto, é preciso indicar ao SPSS para

testar a interacção entre a VI e a covariável.

A estatística F permite afirmar que o efeito da covariável é semelhante

nos três grupos [F(2, 6) = 0,2, p = 0,845], pelo que se pode assumir a homogeneidade dos declives.


Dependent Variable: Acertos

40,361a 5 8,072 11,250 ,005

,321 1 ,321 ,447 ,529,824 2 ,412 ,574 ,591

5,469 1 5,469 7,622 ,033

,248 2 ,124 ,173 ,8454,305 6 ,718

430,000 1244,667 11

SourceCorrected Model

InterceptCondição

Vocab

Condição * VocabError

TotalCorrected Total


R Squared = ,904 (Adjusted R Squared = ,823)a.


Se a introdução da covariável tiver o efeito de diminuir a estatística F para testar a diferença entre grupos então fica-se a saber que a covariável não só correlaciona como a VD mas também apresenta níveis diferentes na VI (por exemplo, os sujeitos colocados nos

diferentes grupos teriam, à partida, diferenças no nível de vocabulário).

Nesta situação, entrar com a covariável na análise não só controla

variância residual indesejável como também exclui variância atribuível à VI. Desta forma, fica-se a conhecer o efeito da VI sobre a VD livre da influência da covariável.

Parte 5Medidas de magnitude do efeito


Um problema

Um investigador pretende avaliar se um medicamento novo tem efeito na redução das dores de cabeça.

Para isso, realiza um ensaio clínico duplamente cego com dois

grupos de 7 pessoas cada um, atribuindo a um grupo o medicamento novo e ao outro grupo um medicamento tradicional, conhecido por ser eficaz no tratamento das dores de cabeça.

Regista a intensidade dos sintomas observados no final do tratamento, realiza um teste estatístico para comparar as duas médias e chega a uma significância p = 0, 096.

Um problema

Que concluir?

Apesar de não significativa, a diferença entre as duas médias parece ser reveladora de uma maior eficácia do medicamento tradicional.

40

Dúvidas perante um resultado estatisticamente não significativo

Perante um resultado não significativo, o investigador fica com a seguinte dúvida:

� Ou o novo medicamento pode ser realmente tão eficaz quanto o tradicional;

� Ou pode haver diferença entre os dois medicamentos mas,

como a amostra é pequena, o procedimento estatístico utilizado não tem poder suficiente para detectar a diferença (estar-se-ia a cometer um erro de tipo II).

O problema dos resultados não significativos

A Estatística é conservadora e a rejeição de H0 exige evidências empíricas fortes que uma amostra pequena dificilmente poderáfornecer.

Será que a diferença existe e só não foi considerada significativa devido à dimensão da amostra?

Será que aumentando a dimensão da amostra se obteria um resultado estatisticamente significativo?

Outro problema

Um investigador pretende comparar as diferenças entre sexos em diversas aptidões cognitivas.

Para isso, aplica uma bateria de avaliação de aptidões a uma amostra de 1500 rapazes e de 1500 raparigas.

Ao realizar um teste estatístico para comparar as médias destes dois

grupos, chega a conclusão que existem diferenças significativas para todas as aptidões em causa.

Que concluir?

O problema dos resultados estatisticamente significativos

1) Existem realmente diferenças entre rapazes e raparigas para

todas as aptidões estudadas (dificilmente as médias destes dois grupos seriam exactamente iguais).

2) Embora estatisticamente significativas, as diferenças reais entre

as médias entre médias são mínimas, parecendo negligenciáveis do ponto de vista psicológico.

Na verdade, quanto maior a amostra, mais facilmente uma pequena diferença, sem impacto psicológico substancial, éconsiderada estatisticamente significativa. A significância

estatística, neste caso, pode não coincidir com a significância psicológica do resultado.

Em resumo...

A capacidade que um teste estatístico possui para detectar diferenças depende da dimensão da amostra. Diferenças grandes podem não ser detectadas em amostras pequenas; diferenças mínimas podem ser detectadas em amostras grandes.

Estes problemas têm posto em causa a real utilidade dos testes de significância *.

Por esta razão, recomenda-se que, para além da informação sobre a significância da diferença, se indique informação sobre a magnitude da diferença.* Para mais informação, consultar:

http://www.apa.org/monitor/may99/task.html; http://www.loyola.edu/library/ref/articles/Wilkinson.pdf

Magnitude do efeito

Tão importante quanto saber se uma diferença é significativa é saber qual a magnitude dessa diferença.

Uma diferença pode ser significativa mas ter uma magnitude diminuta (pode acontecer quando trabalhamos com amostras grandes) ou, pelo contrário, a diferença pode não ser significativa mas ter uma magnitude grande (pode acontecer quando se trabalha com amostras pequenas).

Esta questão torna-se particularmente relevante quando se trata de avaliar efeitos de intervenções (clínicos ou educacionais).

Assim, convém sempre apresentar uma medida da magnitude do efeito quando se apresenta o valor p de um teste de hipóteses.

41

Magnitude do efeito

Medidas de magnitude do efeito (effect size)

São medidas padronizadas (independentes das unidades de expressão da variável em estudo e da dimensão da amostra) e que permitem avaliar a magnitude da diferença (por exemplo, a

magnitude do efeito introduzido por um tratamento experimental) ou da associação entre variáveis.

Medidas da magnitude do efeito

Existem diferentes medidas da magnitude do efeito, adequadas a cada situação; algumas estatísticas descritivas podem ser usadas como medidas da magnitude do efeito

(coeficiente de correlação, odds ratio).

Medidas de magnitude do efeito:• Diferença padronizada entre médias (adequado à

comparação entre grupos)• Odds ratio (adequado à análise da associação entre variáveis

nominais) • Coeficiente de correlação (adequado à análise da associação

entre variáveis contínuas)

Diferença padronizada entre médias

d de Cohen (exprime a diferença entre duas médias em termos de unidades padronizadas)

Cálculo directo a partir dos dados amostrais

Cálculo directo a partir da estatística t

21

2

r

rd

−=

Cálculo directo a partir da correlação

Medidas de magnitude do efeito

.000.0000.0

.002.0500.1

.010.1000.2SMALL

.022.1480.3

.038.1960.4

.059.2430.5MEDIUM

.083.2870.6

.109.3300.7

.138.3710.8LARGE

.168.4100.9

.200.4471.0

.232.4821.1

.265.5141.2

.297.5451.3

.329.5731.4

.360.6001.5

.390.6251.6

.419.6481.7

.448.6691.8

.474.6891.9

.500.7072.0

r2rdEfeito

Relação entre d (medidada magnitude do efeitobaseada em diferençaspadronizadas entre médias) e r (medida damagnitude do efeitobaseada na percentagemde variância explicada).

Medidas de magnitude do efeito

0%500.0

7.7%540.1

14.7%580.2SMALL

21.3%620.3

27.4%660.4

33.0%690.5MEDIUM

38.2%730.6

43.0%760.7

47.4%790.8LARGE

51.6%820.9

55.4%841.0

58.9%861.1

62.2%881.2

65.3%901.3

68.1%91.91.4

70.7%93.31.5

73.1%94.51.6

75.4%95.51.7

77.4%96.41.8

79.4%97.11.9

81.1%97.72.0

Percent of NonoverlapPercentile StandingdEfeito

Se d = 0.8, a média do grupo experimental localiza-se no eprcentil 79 do grupo de controlo.

Interpretação de d de Cohen

O sinal de d depende da forma como se calculou a diferença entre as médias, pelo que não tem significado especial.

O valor de d não está limitado, mas, sendo uma medida

padronizada, raramente vai acima de 2 (significando que as médias difeririam entre si em mais do que dois desvios-padrão). O valor 0 significa que as médias dos dois grupos

coincidem.

42


O valor de d pode ser interpretado em termos da sobreposição das duas curvas que estão a ser

apresentadas. Por exemplo, sabe-se que um valor de d = 0,3 indica que cerca de 80% das distribuições de cada grupo se sobrepõem (este cálculo recorre à distribuição normal),

indicando assim as diferenças os dois grupos são de pequena magnitude.

Sobreposição entre as distribuições dos resultados de dois grupos que se

diferenciam pouco


Cohen (1988) sugere as seguintes linhas orientadoras para interpretar o valor de d:

Efeito reduzido = 0.2Efeito médio = 0.5Efeito grande = 0.8

Exemplo(retoma-se o exemplo do início da aula)

Apesar de estarmos perante um resultado não significativo (p >

0,050), a magnitude do efeito do tratamento é grande (d = 0,967), o que sugere que a diferença entre este dois grupos merece ser

explorada recolhendo informação adicional.

Eta square

η2 (exprime o efeito da variável independente na variável dependente e corresponde à proporção da variância total da variável dependente que é atribuída ao efeito da variável independente) – é adequado para medir a magnitude do efeito do factor na One-way ANOVA.

Cálculo a partir da tabela ANOVA

Eta square

A interpretação do valor η2 deve ser feita em termos percentuais, uma vez que ele é equivalente ao coeficiente

de determinação da regressão (R2): corresponde àpercentagem da variação total da VD que é atribuível às modalidades da VI.

f de Cohen

Cohen sugere uma medida alternativa para avaliar o efeito numa ANOVA, baseada no eta square:

Para interpretação de f, Cohen (1988) indica as seguintes

linhas orientadoras:

Efeito reduzido = 0.10Efeito médio = 0.25Efeito grande = 0.40

43

Exemplo

Considere-se que num estudo sobre o efeito do álcool nos tempos de reacção se avaliou o desempenho de 60 estudantes em três condições experimentais: Controlo (os sujeitos que não consumiram álcool), Nível 1 (após consumirem álcool, os sujeitos ficaram com uma alcoolémia de 0,5) e Nível 2 (após consumirem

álcool, os sujeitos ficaram com uma alcoolémia de 1,5).

Pretende-se avaliar se há diferenças entre condições nos tempos de reacção simples (detecção de um estímulo luminoso).

Exemplo

Encontra-se um feito significativo da

condição experimental no tempo de reacção [F (2, 57) = 3,8, p = 0,029] – o

álcool parece afectar o tempo de reacção.

η2 = SS Between / SS Total = 0,042 / 0,357 = 0,118.

Este valor indica que apenas 11,8% da variância dos tempos de reacção se

pode atribuir ao efeito das condições experimentais (variar a alcoolémia entre 0 e 1,5 g/l); trata-se de um efeito grande, uma vez que f = 0,37.

Exemplo

Na fase de análise post hoc, podemos querer conhecer a magnitude dos

efeitos introduzidos por níveis específicos da variável independente. Neste caso, uma vez que se trata de comparação entre pares de médias, pode-se recorrer a uma adaptação do d de Cohen, usando como medida da

variância o valor MSWithin (retirado da tabela ANOVA).

Exemplo

A análise post hoc (teste de Tukey) indica que a diferença entre as condições Alcoolémia 0,5 (média = 0,2537) e Alcoolémia 1,5 (média = 0,2427) não é

significativa. Qual será o valor da magnitude desta diferença?

Trata-se de um efeito reduzido (d < 0,20).

Aplicações das medidas da magnitude do efeito

• Avaliar a magnitude da diferença entre médias ou a magnitude da associação entre variáveis, de forma a decidir se é um efeito psicologicamente significativo ou não, indo assim além da questão da significância estatística.

• Possuir medidas da magnitude do efeito que permitam comparar resultados obtidos em estudos diferentes (é um instrumento fundamental em meta-análise).

• Permitir determinar a dimensão da amostra que necessitamos para garantir que uma determinada diferença seja estatisticamente detectada (com um nível de confiança determinado à partida).

Utilização da magnitude do efeito para determinar a dimensão da amostra

É possível decidirmos quantas observações são necessárias para detectar uma determinada magnitude de diferença, considerando os níveis de erro que estamos dispostos a correr (α e β) .

Por exemplo, se num estudo de diferenças entre médias quisermos que um efeito pequeno (d = 0.2) seja detectado ao nível de significância α = 0,05 e com a potência 1-β = 0,80, então cada amostra necessita ter pelo menos 383 indivíduos.

Estes cálculos podem ser facilmente efectuados em páginas web como:http://www.stat.ubc.ca/~rollin/stats/ssize/n2.html

44

Utilização da magnitude do efeito para determinar a dimensão da amostra

O programa G-Power permite explorar as relações entre a magnitude do efeito que se pretende detectar, a dimensão das amostras necessárias e os níveis de erro α e β.

Este procedimento pode ser aplicado relativamente a diferentes técnicas estatísticas (teste t, ANOVA, correlação, regressão, teste do qui-quadrado, etc).

Onde obter GPower (freeware):http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3/download-and-register

G-Power

O programa G-Power permite fazer diferentes tipos de análise:

� Determinar qual a dimensão da amostra necessária para que um teste com potência especificada (por exemplo, 1 - β = 0,80) detecte uma magnitude de diferença entre médias específica (por exemplo, d = 0,50) ao nível de significância α (por exemplo, 5%).

� Determinar qual a potência de um teste que utilize N observações para detectar uma magnitude de diferença entre médias de d = 0,50 ao nível de significância α = 5%.

� Determinar qual a magnitude da diferença que se espera que um teste com N observações detecte com potência especificada (1 - β = 0,80) e nível de significância α = 5%.

Etc

Exemplo de output do GPower3

A potência para um teste t detectar uma diferença de magnitude média (d = 0,50) ao nível de significância α = 0,05 é muito baixa com amostras pequenas. Mesmo com duas amostras de dimensão usual (N = 30 + 30 = 60), a probabilidade de aceitar H0 quando esta hipótese é falsa é superior a 50% (1 - β = 0,48).

Associação entre variáveis nominais


Métodos Avançados de Investigação I

A. Associação entre duas variáveis nominais

Associação entre variáveis nominais

Um investigador pretende avaliar se, numa amostra de

adolescentes, existe associação entre o consumo de tabaco (consumidor ou não consumidor) e o sexo do adolescente.

Recolheu informação sobre 200 adolescentes (120 raparigas e 80

rapazes) e construiu um tabela de contingência.

Existirá associação entre o sexo do adolescente e o consumo de tabaco?

20015050Total

12010020Rapariga

805030Rapaz

TotalNão fuma

Fuma

45

Independência entre duas variáveis nominais

Se as duas variáveis forem independentes, a distribuição do “fumar”

condicionada ao “sexo” será idêntica para rapazes e raparigas. Assim, o facto de “ser rapaz” (ou de “ser rapariga”) não interfere na probabilidade de

“ser fumador”.

(De igual modo, a distribuição do “sexo” condicionada ao “fumar” será igual

para fumadores e não fumadores).

Independência entre variáveis nominais

Duas variáveis são independentes se a pertença a uma categoria de uma variável não afectar a probabilidade de pertencer à categoria de outra variável.

Representação gráfica da situação de independência

Rapaz

20%

80%

Fumador

Não fumador

Rapariga

20%

80%

Fumador

Não fumador

A percentagem de fumadores em cada grupo (“rapazes” e “raparigas”) é idêntica à percentagem de fumadores na amostra total.

Esta distribuição significa que as duas variáveis (“sexo” e “fumar”) são independentes entre si.

Amostra total

20%

80%

Fumador

Não fumador

Representação gráfica da situação de associação

Rapaz

38%

62%

Fumador

Não fumador

Rapariga

8%

92%

Fumador

Não fumador

A percentagem de fumadores é diferente em cada um dos grupos: há mais rapazes a fumar do que no geral (38% contra 20%) e há menos raparigas a fumar do que no geral (8% contra 20%).

Este resultado significa que as duas variáveis estão associadas: o facto de ser

rapaz aumenta a probabilidade de se ser fumador.

Amostra total

20%

80%

Fumador

Não fumador

Independência versus Associação

Relação de independência entre Sexo e Fumar

20% 20% 20%

0%

10%

20%

30%

40%

50%

Rapazes Raparigas Total

Fu

mad

ore

s (%

)

Associação entreSexo e Fumar

38%

8%

20%

0%

10%

20%

30%

40%

50%

Rapazes Raparigas Total

Fu

mad

ore

s (%

)

Quando as variáveis são independentes, a proporção de fumadores em cada grupo ésemelhante à proporção de fumadores na amostra total.

Quando as variáveis estão associadas, pelo menos um dos grupos apresenta uma proporção

de fumadores superior àproporção da amostra total.

Porquê um teste estatístico?

A necessidade de um teste estatístico para avaliar a situação de independência surge porque se colocam diversas perguntas:

� Corresponderá a distribuição observada corresponde à situação de independência?

� Serão negligenciáveis os desvios observados?

� Serão os desvios observados suficientes para dizer que há

associação?

Teste do qui-quadrado

O teste do Qui-quadrado é um dos testes estatísticos mais antigos (desenvolvido por Karl Pearson no final do século XIX) e um dos mais utilizados em Ciências Sociais.

Permite avaliar se a distribuição observada na amostra se ajusta ou não à observação esperada caso haja independência.

46

Hipóteses

H0 : O consumo de tabaco é independente do sexo do adolescente.

versus

H1 : O consumo de tabaco está associado ao sexo do adolescente.

Dados

20015050Total

12010020Rapariga

805030Rapaz

TotalNão fuma

Fuma

20015050Total

120??Rapariga

80??Rapaz

TotalNão fuma

Fuma

Distribuição observadaDistribuição esperada se H0 for verdadeira

Dados

20015050Total

12010020Rapariga

805030Rapaz

TotalNão fuma

Fuma

20015050Total

12030Rapariga

8020Rapaz

TotalNão fuma

Fuma

Distribuição observada Distribuição esperada se H0 for verdadeira

Qual a percentagem de fumadores observada na amostra? 50/200 = 25%.

Então quantos rapazes deveriam fumar? 25% x 80 = 20.

Quantas raparigas deveriam fumar? 25% x 120 = 30.

Dados

20015050Total

12010020Rapariga

805030Rapaz

TotalNão fuma

Fuma

20015050Total

1209030Rapariga

806020Rapaz

TotalNão fuma

Fuma


Qual a percentagem de não fumadores observada? 120/200 = 75%.

Então quantos rapazes deveriam ser não fumadores? 75% x 80 = 60.

Quantas raparigas deveriam ser não fumadoras? 75% x 120 = 90.

Dados

20015050Total

12010020Rapariga

805030Rapaz

TotalNão fuma

Fuma

20015050Total

1209030Rapariga

806020Rapaz

TotalNão fuma

Fuma


Estas duas distribuições – distribuição observada e distribuição esperada no caso de independência – são diferentes.

A estatística do qui-quadrado mede a diferença entre estas duas distribuições.

Estatística do qui-quadrado

A estatística de qui-quadrado ésimplesmente a soma do quadrado das

diferenças entre a frequência observada de cada célula (O) e a frequência

esperada (E), dividida por E.

Se as duas distribuições (observada e esperada) forem iguais, o valor de X2

é nulo.

Quanto maior o valor de X2, mais a distribuição observada se afasta da

distribuição esperada e mais se deve suspeitar de que existe associação entre as variáveis.

47

Cálculo da estatística do qui-quadrado

20015050Total

12010020Rapariga

805030Rapaz

TotalNão fumaFumaObservada (O)

X2 = (30-20)2 / 20 + (50-60)2 / 60 + (20-30)2 / 30 + (100-90)2 / 90 =

11,11

20015050Total

1209030Rapariga

806020Rapaz

TotalNão fumaFumaEsperada (E)

11,1112,7785,333Total

3,4441,1113,333Rapariga

6,6671,6675Rapaz

TotalNão fumaFuma(O - E)2 / E

Distribuição do qui-quadrado

Como se comporta a estatística de qui-quadrado?

O qui-quadrado é uma variável que toma valores positivos e cuja distribuição

depende de um único parâmetro (υ - graus de liberdade). Esta distribuição éconhecida e encontra-se tabelada.

O valor médio de uma distribuição de qui-quadrado corresponde ao valor de

υ e a variância ao valor 2υ.


Distribuição do qui-quadrado para diferentes

graus de liberdade

(υ = 1, 2, …, 5).


Quanto maior o valor de υ, mais a distribuição do qui-quadrado se aproxima

de uma distribuição normal.

Graus de liberdade no teste de independência

De uma forma geral, o número de graus de liberdade associados a uma tabela de contingência podem ser calculados da seguinte forma:

gl = (nº de linhas – 1) x (nº de colunas – 1)

No caso de uma tabela 2x2, o número de graus de liberdade será sempre:

gl = (2 – 1) x (2 – 1) = 1

Teste de independência – regra de teste

Se o valor observado da estatística X2

se afastar muito do centro da distribuição, isso significa que as duas tabelas em comparação (observada e

esperada) são diferentes e é de rejeitar a hipótese de independência (H0).

Atenção: O teste de independência do qui-quadrado deverá ser sempre um

teste à direita, em que a zona de rejeição corresponde sempre a α.

48

Teste de independência – decisão

De regresso ao exemplo…

Estatística de teste: X2 = 11,11

Graus de liberdade de distribuição de qui-quadrado: υ = 1

Valor crítico para α = 0,05: χ2(1)0,05 = 3,841 (ver tabela)

Como X2 > 3,841, rejeita-se H0, ou seja, parece existir associação entre as duas variáveis (“sexo do adolescente” e “fumar”).

Condições de aplicação do teste de independência

� As frequências esperadas devem ser superiores a 5; alguns autores afirmam que esta exigência é excessiva, bastando que todas as células tenham frequência esperada superior a 1 e que 80% das células tenham frequência esperada superior a 5.

� As observações têm de ser independentes (a mesma observação não pode ser contada duas vezes)

� Embora possa ser utilizado com variáveis nominais, ordinais ou de escala, o teste de independência do qui-quadrado trata-as todas como se fossem nominais, pelo que se está a perder informação; existem testes de associação alternativos mais potentes que levam em conta a quantificação presente nas variáveis ordinais e de escala.

Teste de independência do qui-quadrado(output do SPSS)

Tabela de contingência,

com indicação da frequência observada, das percentagens relativas à

distribuição condicionada ao sexo e dos resíduos

ajustados.


Estatística de teste: X2 = 11,1 (gl = 1)

Nível de significância associado: p = 0,001

A informação no inferior da tabela indica que não existem células na tabela com

frequência esperada inferior a 5, pelo que o teste está a ser realizado nas melhores condições.


No caso de tabelas 2x2, se o teste não pudesse ser aplicado por existirem frequências esperadas inferiores a 5 poder-se-ia recorrer a um procedimento alternativo (o Teste Exacto de Fisher).

Teste de independência – análise posterior

Se duas variáveis forem independentes, não há mais a dizer sobre a sua relação – a análise fica concluída.

No entanto, se se rejeitar a independência, é necessário esclarecer de que forma as duas variáveis se associam. Este esclarecimento pode

ser feito com auxílio de gráficos e da análise de resíduos.

49

Teste de independência – análise posterior

O gráfico apresenta a distribuição da variável “fumar” condicionada ao sexo.

Verifica-se que a percentagem de fumadores entre os rapazes (37,5%) éclaramente superior à percentagem de

fumadores entre as raparigas (16,7%).

No entanto, esta análise é apenas descritiva

– a significância das diferenças apontadas éfeita através da análise de resíduos.

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Rapaz Rapariga

Fuma

Não fuma

Análise de resíduos

Analisar os resíduos (ajustados) permite identificar

quais as células da tabela que responsáveis pela não-

independência dos dados.

Como os resíduos ajustados têm uma distribuição normal padronizada, se

tomarem valores superiores a 1,96 (≈ 2), podemos dizer que são significativos (ao nível de significância α = 5%).

Análise de resíduos

Este resíduo é positivo (+) e

superior a 2, pelo que se pode dizer que na amostra existem mais rapazes a fumar do que os

que seriam de esperar com base na hipótese da independência.

Este resíduo é negativo (-) e superior a 2, pelo que se pode dizer que na amostra existem menos raparigas a fumar do que as

que seriam de esperar com base na hipótese da independência.

Nota: numa tabela 2x2, os resíduos são sempre numericamente iguais, só diferindo no sinal

Teste de independência -conclusão

Resumindo…

Os dados sugerem que existe associação entre o sexo do adolescente e o acto de fumar (X2 = 11,1, gl = 1, p = 0,001). Essa associação resulta do facto dos rapazes fumarem mais do que as raparigas.

B. Associação entre três variáveis nominais


Associação entre três variáveis

Qual o efeito de ter pertencido aos Escuteiros no comportamento delinquente adulto? Estudo com uma amostra de 530 indivíduos do sexo masculino.

Associação estatisticamente significativa (X2 = 9,8, df = 1, p = 0,002):

menor incidência de indivíduos delinquentes no grupo daqueles que foram escuteiros em criança.

Escuteiros * Deliquência Crosstabulation

19 239 25830,2% 51,2% 48,7%

-3,1 3,144 228 272

69,8% 48,8% 51,3%3,1 -3,1

63 467 530100,0% 100,0% 100,0%

Count% within Deliquência

Adjusted ResidualCount

% within DeliquênciaAdjusted Residual


Sim

Não

Escuteiros

Total

Sim Não

Deliquência

Total

50


E se levarmos em conta o estatuto socioeconómico das famílias (SES alto versus SES baixo)?

A associação entras duas

variáveis desapareceu.

Grupo SES baixo:

X2 = 0,0, df = 1, p = 0,939

Grupo SES baixo

X2 = 0,1, df = 1, p = 0,817

Escuteiros * Deliquência * SES Crosstabulation

11 43 5420,8% 20,3% 20,4%

,1 -,142 169 211

79,2% 79,7% 79,6%-,1 ,1

53 212 265100,0% 100,0% 100,0%

8 196 20480,0% 76,9% 77,0%

,2 -,22 59 61

20,0% 23,1% 23,0%-,2 ,2

10 255 265100,0% 100,0% 100,0%

Count



Adjusted ResidualCount

% within DeliquênciaCount



Adjusted ResidualCount% within Deliquência

Sim

Não

Escuteiros

Total

Sim

Não

Escuteiros

Total

SESBaixo

Alto

Sim NãoDeliquência

Total


Estamos perante um padrão de independência específico designado por independência condicional: a independência entre “ter sido escuteiro” e “delinquência” é condicional ao SES. – dentro de cada nível de SES considerado não existe associação entre “ter sido

escuteiro” e “delinquência”.

Esta associação surge na análise bivariada (ignorando SES) apenas por existir associação entre SES e ter sido escuteiro. Se se controlar o

SES, esta associação desaparece.

Assim, existe associação entre “ser escuteiro” e SES, entre SES e “delinquência” mas não entre “ser escuteiro” e “delinquência”.

Tipos de independência numa tabela de três entradas

� Independência mútua (X, Y e Z são independentes entre si): log µijk = λ + λi

X + λjY + λk

Z

� Independência conjunta (X é independente de Y e Z, mas Y e Z estão associados): log µijk = λ + λi

X + λjY + λk

Z + λjkYZ

� Independência condicional (X e Y são independentes quando condicionados a Z): log µijk = λ + λi

X + λjY + λk

Z + λikXZ

+ λjkYZ

� Independência marginal (X e Y são independentes quando se ignora a informação sobre Z): log µijk = λ + λi

X + λjY

Tipos de independência numa tabela de três entradas

� A independência mútua implica independência conjunta (todas as variáveis são independentes uma das outras)

� A independência conjunta implica independência marginal (um variável é independente das outras dias)

� A independência marginal não implica independência conjunta

� A independência marginal não implica independência condicional

� A independência condicional não implica independência marginal


Em que medida a exposição a mass media (TV e jornais) influencia o conhecimento que se tem sobre o cancro? Estudo com uma amostra de 1000 indivíduos de ambos os sexos.

Jornal * TV * Cancro Crosstabulation

179 305 484

37,0% 63,0% 100,0%

62 57 119

52,1% 47,9% 100,0%

241 362 603

40,0% 60,0% 100,0%

122 197 319

38,2% 61,8% 100,0%

40 38 78

51,3% 48,7% 100,0%

162 235 397

40,8% 59,2% 100,0%

Count

% within Jornal

Count

% within Jornal

Count

% within Jornal

Count

% within Jornal

Count

% within Jornal

Count

% within Jornal

Alto

Baixo

Jornal

Total

Alto

Baixo

Jornal

Total

CancroAlto

Baixo

Alto Baixo

TV

Total