62
L'analisi di varianza cipali: l'analisi di varianza di basa sul calcolo della nfronto la varianza tra i gruppi con la varianza entro i F = MQ tra MQ entro MQ tra = SQ tra k 1 1 n k SQ = MQ entro entro dove: k: numero di trattamenti n: numero di soggetti nel gruppo SQ tot = SQ tra + SQ entro .

L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Embed Size (px)

Citation preview

Page 1: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

L'analisi di varianza

Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F.

Si mette a confronto la varianza tra i gruppi con la varianza entro i gruppi.

F=MQtra

MQ entro

MQ tra=SQ tra

k−1

1nk

SQ=MQ entro

entro

dove:

k: numero di trattamenti

n: numero di soggetti nel gruppo

SQtot

= SQtra

+ SQentro

.

Page 2: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Uno sperimentatore eseguo uno studio per verificare gli effetti della droga sulle abilità psicomotorie. La abilità psicomotorie sono misurate tramite il numero di errori commessi in un test psicomotorio. Maggiore è il punteggio, peggiore è la prestazione psicomotoria.

Variabile indipendente: droga vs no droga (2 condizioni sperimentali)Variabile dipendente: abilità psicomotoria

scala di misura: numero di errori commessi (scala ad intervallo)

disegno: soggetti diversi nelle due condizioni sperimentali

Matrice dei dati: Soggetti Droga No droga1 6 02 4 23 3 24 3 05 4 1

Page 3: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Somma dei quadrati (SQ):

n

SQ=

n

XX=s 2

2 2ns=SQ

Formula computazionale della somma dei quadrati

22

2 Xn

X=s

n

XX=

n

XnX=X

n

Xn=ns=SQ

2

22

2

222

2

Esempio: X = {6, 4, 3, 3, 4}

1,216

5

169916362 =++++

=s

45

43344=

++++=X

65

2016991636

2

=++++=SQ 61,252 ==ns=SQ

Page 4: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Logica dell'analisi di varianza

jiij ε+α+μ=yEquazione del modello:

Soggetti Droga No droga1 6 02 4 23 3 24 3 05 4 1

4 1 2.5medie:

Media totale

Scarto delle medie dei trattamenti da :

SQtra

:5[(4 – 2,5)2 + (1 – 2,5)2] = 5(4.5) =2= 22,5

Scarto dei punteggi dei soggetti dalle medie dei rispettivi gruppi:

SQentro

:[(6 – 4)2 + . . . + (4 – 4)2] + [(0 – 1)2 + . . . + (1 – 1)2] = 6 + 4 = 10

Varianza totale:

SQtot

= SQtra

+ SQentro

= 22,5 + 10 = 32,5

SQtot

:(6 – 2,5)2 + . . . + (4 – 2,5)2 + (0 –2,5)2 + . . . + (1 – 2,5)2 = 32,5

Page 5: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Droga No droga6 04 23 23 04 1

Droga No droga1,5 -1,51,5 -1,51,5 -1,51,5 -1,51,5 -1,5

Droga No droga2 -10 1-1 1-1 -10 0

+=

Punteggi osservati

scartitra scarti

entro

y ij μX .j .ji. XX

jiij ε+α+μ=y

SQtot

SQtra SQ

entro

Componenti della varianza totale:

Droga No droga2,5 2,52,5 2,52,5 2,52,5 2,52,5 2,5

μ

+

Mediapop.

Page 6: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Calcolo delle medie dei quadrati (MQ)

MQtra

= SQtra

/ (k – 1)

MQentro

= SQentro

/ k(n – 1)

gdl: N – 1

k – 1 k(n – 1)

N: numero totale di soggetti

MQtra

= 22,5 / (2 – 1) = 22,5 / 1 = 22,5

MQentro

= 10 / 2(5 – 1) = 10 / 2(4) = 10 / 8 = 1,25

F=MQtra

MQ entro

= 22,51,25

=18

0,050,003 =α<=p

L'effetto della droga è significativo

Page 7: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

F1,8

= 18

Fcrit

= 5,32

Page 8: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Disegni con più di due gruppi e dati su scala a intervallo o a rapporto

Se lo psicologo deve utilizzare più di 2 gruppi di soggetti per la raccolta dati, allora è costretto a usare un test statistico diverso dal t-test. Se, supponiamo, lo psicologo usa tre gruppi di soggetti, indicati con A, B e C, allora qualcuno potrebbe sostenere che si potrebbe fare una serie di t-test per confrontare ciascun gruppo con tutti gli altri. In questo modo si avrebbero 3 t-test per ciascun confronto (A con B, A con C e B con C). La formula generale per calcolare tutti i possibili confronti a coppie è

2

1rr=C p

3

2

133==C p

91

2

11414==C p

Esempi:

3 gruppi:

14 gruppi:

Page 9: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Quindi aumentando il numero di gruppi aumenta notevolmente anche il numero di confronti a coppie.La figura seguente mostra l'incremento del numero di confronti a coppie in relazione al numero di gruppi. Come si vede l'incremento ha andamento esponenziale.

0

100

200

300

400

500

0 10 20 30 40

numero di gruppi

con

fro

nti

a c

op

pie

Page 10: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

In linea di principio è ammissibile effettuare tutti i possibili confronti a coppie, ma esiste il problema dell'errore di gruppo. Per errore di gruppo si intende il fatto che se con un t-test si ha una probabilità pari a 0,05 di commettere un errore del I° tipo (rifiutare l'ipotesi nulla mentre in realtà è vera), se si esegue un unico confronto. Se, invece, si eseguono tanti t-test questa probabilità aumenta. La formula per calcolare l'errore di gruppo è:

pCα=EG 11

Cp è il numero di confronti e è l'errore di I° tipo. Posto = 0,05, riprendendo gli esempi precedenti, per 3 gruppi Cp = 3, quindi EG = 0,14. In questo caso abbiamo una probabilità pari al 14% di commettere un errore rifiutando l'ipotesi nulla quando questa è vera. Per 14 gruppi, Cp = 91, quindi EG = 0,99. In questo caso abbiamo una probabilità del 99% di commettere un errore. Pertanto aumentando il numero di confronti, aumentiamo la probabilità di commettere un errore del I° tipo.

Page 11: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Un modo per risolvere tale problema è quello di ricorrere al test di Bonferroni (detto anche test di Dunn). Il test di Bonferroni si basa sull’ineguaglianza di Bonferroni che stabilisce che l’evenienza di uno o più eventi non può superare la somma delle probabilità individuali. Facendo riferimento all’errore di I° tipo, se α = 0,05, e se facciamo tre confronti ( Cp = 3), allora la probabilità di fare almeno un errore di I° tipo è 3(0,05)= 0,15. Se vogliamo quindi mantenere basso l’errore di gruppo, indicando con α’ l’errore di riferimento, allora α’ = α/ Cp. Una volta calcolato α’ e in base ai gradi di libertà è possibile trovare il valore critico di t consultando delle apposite tavole sviluppate da Dunn. Ad esempio, per α' = 0,0167 e gdl =5, allora tcrit = 3,53. Se i t calcolati con le formule per il t-test sono inferiori a tale valore, allora l'ipotesi nulla non può essere rifiutata. Occorre far notare che per α = 0,05 e gdl = 5, allora tcrit = 2,57 (ipotesi a due code), per cui, ovviamente, aumentando il numero di confronti a coppie aumenta il valore critico di t, rendendo sempre più difficile la determinazione di una differenza significativa (si riduce la potenza del test).

Un altro modo per risolvere il problema dei confronti multipli è quello di ricorrere all'analisi della varianza.

Page 12: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Analisi della varianza

I disegni fattoriali:

1) è un disegno in cui una data variabile indipendente assume diversi livelli di valori (esempio: a 5 gruppi di topi vengono somministrate diverse dosi di un farmaco) oppure in cui si hanno 2 o più variabili indipendenti articolate in due o più livelli (esempio: si possono suddividere i topi in maschi e femmine e si creano per ciascun sesso 5 gruppi a cui vengono somministrate diverse dosi di un farmaco).

2) a differenza dei disegni sperimentali semplici (con due gruppi) i disegni fattoriali consentono l'analisi degli effetti di più variabili contemporaneamente con un minor numero di soggetti, risparmiando tempo ed energia.

3) I disegni fattoriali consentono di fare un'analisi aggiuntiva: oltre agli effetti delle singole variabili (analisi degli effetti principali) consentono l'analisi dell'interazione, ossia di analizzare quanto le variazioni di una variabile sono modulate dagli effetti delle altre variabili.

Page 13: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Disegni fattoriali:

1. Disegno fattoriale con una sola variabile indipendente a più livelli a misure indipendenti o non ripetute (disegno con 1 fattore between)

2. Disegno fattoriale con una sola variabile indipendente a più livelli a misure dipendenti o ripetute (disegno con 1 fattore within)

3. Disegno fattoriale con due variabili indipendenti a misure indipendenti o non ripetute (disegno con 2 fattori between)

4. Disegno fattoriale con due variabili indipendenti, una a misure ripetute e una a misure non ripetute (disegno misto: 1 fattore between e 1 within)

Page 14: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

a a a ab b b bc c c c

1. Rappresentazione del disegno con 1 fattore between

A1

A2

A3

A4

ogni lettera indica un diverso soggetto

livelli della var. indipendente A

2. Rappresentazione del disegno con 1 fattore within

A1

A2

A3

A4

livelli della var. indipendente A

si hanno soggetti diversi per ogni livello di A

si ripetono gli stessi soggetti per ogni livello di A

a d g l

b e h m

c f i n

Page 15: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

3. Rappresentazione del disegno con 2 fattori between

a d g lb e h mc f i n

A1

A2

B1

B2

ogni lettera indica un diverso soggetto

livelli della var. indipendente A

4. Rappresentazione del disegno misto con 1 fattore between e 1 fattore withinsi hanno soggetti diversi per ogni combinazione di livelli di A e di B

B1

B2livelli della var.

indipendente B

a a d db b e ec c f f

A1

A2

B1

B2

ogni lettera indica un diverso soggetto

livelli della var. indipendente A (fattore between)

si hanno soggetti diversi per ciascun livello di A e si ripetono gli stessi soggetti per ciascun livello di B

B1

B2

livelli della var. indipendente B (fattore within)

Page 16: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Disegno con una sola variabile indipendente a più livelli:

Struttura: 4 gruppi di bambini (ogni gruppo composto da 5 soggetti ciascuno).Tre gruppi di bambini sono sottoposti a tre diversi metodi per la comprensione del testo (indicati con A, B e C), mentre il quarto gruppo (indicato con D) non è sottoposto ad alcun metodo. I quattro gruppi vengono sottoposti ad un compito di comprensione del testo, in cui vengono dati dei voti da 0 a 10.

5

6

9

7

8

3

4

4

7

8

2

3

4

5

7

2

3

4

4

5

Gruppo A Gruppo B Gruppo C Gruppo D

Page 17: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Struttura della varianza dei punteggi per il disegno con un solo fattore between:

varianza totale

varianzatra i gruppi (trattamento)

IK − 1

K(I − 1)K − 1varianzaentro i gruppi (errore)

Modello algebrico del disegno con una sola variabile indipendente a misure non ripetute (1 fattore between):

ikkik ε+α+μ=y 0

k = livello della variabile indipendente (K = 4, 1 ≤ k ≤ 4 )i = numero del soggetto (I = 5, 1 ≤ i ≤ 5 )

var. dip. var. indip. erroremediapopolazione

partizione dei g.d.l.:

Page 18: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Calcolo manuale della varianza

ikkik ε+α+μ=y 0

1. calcolo delle medie per trattamento e della media globale2. calcolo delle SQ (somme dei quadrati) del trattamento e della SQ di tutti i soggetti entro i gruppi (varianza d'errore)3. calcolo dei g.d.l. dei livelli di trattamento e dei g.d.l. di tutti i soggetti4. calcolo delle MQ (medie dei quadrati) del trattamento e della MQ di tutti i soggetti entro i gruppi5. calcolo della F e verifica della significatività del trattamento

2

22

ε

εα

σ

σ+σ=F

varianza dovuta al trattamento

varianza dovuta all'errore

Page 19: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

8 8 7 57 7 5 49 4 4 46 4 3 35 3 2 27 5.2 4.2 3.6 5

A B C D

medie:

media globale

Struttura del disegno:

ikkik ε+α+μ=y 0

X ..

s1

s2

s3

s4

s5

785758 ++=scarto media trattamento-media globalescarto punteggio soggetto-media trattamento

4,2454,254 ++=

*

(*) In realtà si dovrebbe scrivere:

2220 ikεkαiky σ+σ+μ=σ

simbolo di varianza

per facilità di lettura i sigma sono omessi dalla formula del modello

Page 20: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

9 9 4 04 4 0 116 1 1 11 1 4 40 4 9 9

82

1. SQ della varianza totale:

SQTOT

= SQtratt

+ SQerr

varianza totalevarianza deltrattamento

varianza dell'errore

IK

j=jTOT Xx=SQ

1

2

..

2jyσ

A B C D

SQTOT

=

(8 − 5)2

Per il calcolo manuale dell'analisi della varianza si ricorre al calcolo delle somme dei quadrati (SQ).

La varianza totale è indicata dalla SQTOT

. Inoltre

Page 21: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

formula computazionale:

2..1

2 XIKx=SQIK

j=jTOT

numero soggetti× livelli di trattamento = 20

825253...595758 22222

1

2

.. =+++++=Xx=SQIK

j=jTOT

8252023...978 2222222

..1

2 =+++++=XIKx=SQIK

j=jTOT

Page 22: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

2. SQ della varianza dovuta al trattamento:

K

=kktratt XXI=SQ

1

2

..

numero soggetti per gruppo (I = 5)

2

..1

2XKXI=SQ

K

=kktratt

numero livelli di trattamento = 4

formula computazionale:

33,26,64553,654,255,2575 2222

1

2

.. ==+++=XXI=SQK

=kktratt

33,2543,64,25,275 222222

..1

2=+++=XKXI=SQ

K

=kktratt

22εkα σ+σ

Page 23: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

3. SQ della varianza dovuta all'errore:

K

=k

I

=ikikerr Xx=SQ

1 1

2

22222

1

2

1

2 23...978 +++++=XIx=SQK

=kk

IK

j=jerr

formula computazionale:

2222

1 1

25,23...5,2875...78 +++++=Xx=SQ

K

=k

I

=ikikerr

48,83,62...3,654,22...4,27 2222 =++++++

48,83,64,25,275 2222 =+++

2ikεσ

Page 24: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

SQTOT

= SQtratt

+ SQerr

82 = 33,2 + 48,8

4. calcolo dei g.d.l.:

● g.d.l. del trattamento: gdltratt

= K – 1 = 3● g.d.l. dell'errore: gdl

err = K(I – 1) = 16

● g.d.l. della varianza totale: gdlTOT

=(I × K) – 1 = 19

5. calcolo delle MQ

MQtratt

= SQtratt

/ gdltratt

= 33,2 / 3 = 11,07

MQerr

= SQerr

/ gdlerr

= 48,8 / 16 = 3,05

Page 25: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

6. Calcolo dell'F:

F = MQtratt

/ MQerr

= 11,07 / 3,05 = 3,63

F è significativo? Per saperlo si possono seguire due modi:

●Trovare nelle tavole dei libri di statistica l'Fcrit

corrispondente e verificare se F > F

crit. Per trovare l'F

crit corrispondente occorre sapere

quali sono i g.d.l del numeratore e i g.d.l. del denominatore del rapporto di F (in questo caso i g.d.l. del numeratore sono 3 e quelli del denominatore sono 16). Inoltre occorre stabilire le proporzione di errore del I° tipo (0.01, 0.05, e così via). Stabilito = 0.05, allora per 3 e 16 g.d.l., F

crit = 3,24 < 3,63 (l'F calcolato).

●Se si usa un programma statistico, il programma fornisce automaticamente il valore di p associato all'F calcolato ( p = 0.036)

L'F calcolato risulta, dunque, significativo.

Page 26: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Per sapere quale gruppo ha fornito la prestazione migliore, ossia ha il livello più alto di comprensione del testo, conviene fare un grafico delle medie della var. dipendente in relazione ai vari livelli del trattamento sperimentale. La figura seguente riposta i dati del nostro esempio.

Var. ind ipenden te

Va

r. d

ip.

(co

mp

ren

sio

ne

te

sto

)

A B C D

0

2

4

6

8I puntini del graficoindicano le medie.

Le barre sopra e sottoi puntini riportanol'errore standard. Maggioreè l'ampiezza delle barre,maggiore è la varianza del campione.

Dal grafico emerge che il gruppo A ha la migliore prestazione,mentre il gruppo D è il peggiore.

Page 27: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Tavola dei valori critici di F per = 0,05

valore critico di Fper 3 g.d.l. al numeratore e 16 g.d.l. al denominatore

Page 28: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Inserimento dati per l’SPSS:

è necessario creare due colonne:

la prima colonna “metodo” definisce i gruppi.Per distinguere i gruppi si possono usare numeri o lettere o codici alfa-numerici, ecc…

La seconda colonna “punteggio” riposte ai valori o misure della variabile dipendente, un questo caso il livello di comprensione del testo.

Per fare un’ANOVA univariata, occorre una colonna che definisce i gruppi o le categorie di soggetti e una colonna che riporta le misure o i dati su cui si effettua il test

Page 29: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Scelta dei comandi:

Menù: AnalizzaModello lineare generalizzato

Univariata…

Page 30: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi
Page 31: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi
Page 32: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Tavola degli F:

Grafico delle medieper gruppi:

Page 33: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

L’ANOVA consente di stabilire se esiste almeno una differenza tra due gruppi. È altresì possibile che esista più di una differenza. Ad esempio se si hanno 5 gruppi, e possibile che oppure

Se per il ricercatore è importante sapere anche quali sono le differenze può seguire due strategie. O stabilire prima di eseguire l’analisi statistica quali contrasti analizzare, oppure analizzare i contrasti dopo aver eseguito il test generale. In altri termini si può decidere a priori di fare l’analisi dei confronti o a posteriori. L’analisi a priori è possibile se il ricercatore ha già ipotizzato quali sono i confronti importanti. Quella a posteriori viene eseguita quando, invece, il ricercatore non ha formulato alcuna ipotesi specifica e desidera raccogliere ulteriori informazioni.

54321

54321

Page 34: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

ANOVA per campioni indipendenti

Confronti a priori:

1. t-test multipli2. contrasti lineari3. contrasti ortogonali4. test di Bonferroni (o Dunn o Sidak)

Page 35: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

t-test multipli

Consistono nell’esecuzione di diversi t-test. C’è il rischio dell’incremento dell’errore di gruppo. La formula per i t-test multipli è:

nM S

XX

nM S

nM S

XXt

e r r o re r r o re r r o r 22121

dove 1 e 2 sono le medie dei due gruppi e MSerror la varianza entro i gruppi ed n il numero di soggetti per gruppo. Se i gruppi hanno varianze omogenee, si può usare la MSerror come termine di errore per il t test. Il t test è a due code, quindi posto α = 0.05, occorre cercare i t critici per 0.025.

X X

Page 36: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Contrasti lineari

I contrati lineari sono una combinazione lineare di somme di medie indicata con L:

jjmm XaXaXaXaL . . .2211

La regole impone che ∑aj = 0, in altri termini i valori dei paramentri a devono essere tali da annullarsi. Nel caso di 5 gruppi ecco possibili combinazioni valide di parametri:

-1+1+0+0+0=00-1-1+2+0=01+1+1+0-3=0

I valori dei parametri a sono arbitrari. Si consiglia di scegliere valori che facilitino i calcoli. Un esempio di una combinazione lineare L è:

21321 )0()1()1( XXXXXL

Page 37: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Per calcolare la significatività di un contrasto lineare occorre calcolare la somma dei quadrati dei contrasti o SScontrasto che è

2

2

2

2

j

jj

jc o n t r a s t o a

Xan

an L

S S

n è il numero di soggetti.

Se calcoliamo diversi contrasti ad esempio 2, allora SStratt = SScontrasto1 + SScontrasto2 .I gradi di libertà dei contrasti lineari sono sempre uguali a uno (si tratta sempre del confronto tra due medie), ossia dfcontrasto = 1. Quindi MScontrasto = SScontrasto / dfcontrasto = SScontrasto / 1 = SScontrasto .

Page 38: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

e r r o rje r r o r

j

e r r o r

c o n t r a s t o

M Sa

n L

M S

an L

M S

M SF

2

222 /

La significatività del contrasto è

dove MSerror è la varianza d’errore dell’ANOVA generale. L’F critico ha 1 e dferror gradi di libertà.Esempio:

esperimento sull’efficacia dei metodi di lettura sulla comprensione del testo.

¹X A = 7¹X B = 5,2¹X C = 4,2¹X D = 3,6

Supponiamo di voler confrontare il gruppo A con il gruppo D.Facciamo un contrasto lineare.n = 5MSerror = 3,05

Pa2

j = 12 + 02 + 02 + (¡ 1)2 = 2

L 2 = [1(7) + 0(5;2) + 0(4;2) ¡ 1(3;6)]2 = [7¡ 3;6]2 = 11;56

F = 5(11;56)2(3;05) = 9;48 la cui probabilità è: p = 0,007. Quindi la differenza è

significativa.

Page 39: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Contrasti ortogonali

Talvolta i contrasti sono tra loro indipendenti, talvolta no. Per indipendenza si intende la possibilità dei preveder una differenza. Ad es., se 1 è più grande della medie di 2 e 3, questo non ci dice nulla se 4 è più grande di 5, ma abbiamo una probabilità maggiore di 50% che 1 risulti più grande di 2. Le regole principali dei contrasti ortogonali sono 2: ∑aj = 0 (ossia la somma dei parametri deve esse uguale a zero) e ∑ajbj = 0 (ossia la somma del prodotto dei parametri tra contrasti deve essere zero). Es: dati 5 gruppi, abbiamo la seguente partizione dei contrasti

(1 ,2 ,3 ,4 ,5 ) (1 ,2 ) v s . (3 ,4 ,5 ) (1 ) v s . (2 ) (3 ) v s . (4 ,5 ) (4 ) v s . (5 )

X X X X X

X X

Page 40: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

La tabella dei coefficienti risulta:

Page 41: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

test di Bonferroni

Il test di Bonferroni, talvolta chiamato test di Dunn o Sidak, si basa sull’ineguaglianza di Bonferroni che stabilisce che l’evenienza di uno o più eventi non può superare la somma delle probabilità individuali. Facendo riferimento all’errore di I° tipo, se α = .05, e se facciamo tre confronti, allora la probabilità di fare almeno un errore di I° tipo è 3(.05)= 0.15. Se vogliamo quindi mantenere basso l’errore di gruppo, indicando con α’ l’errore di riferimento, allora α’ = α/c, dove c è il numero di confronti. In altri termini occorre abbassare α per abbassare l’errore di gruppo. Sulla base di queste considerazioni Dunn ha sviluppato un test che consente di calcolare la significatività dei contrasti tramite t test e facendo riferimento all’errore α’. Nel caso di tre confronti, se α’ è posto uguale a 0.05, allora α = .05/3=0.0167. Il t critico corrispondente a tale livello di errore è consultabile nelle tavole di Dunn (il t per α =0.0167 e dferror=5 è 3.53).

Page 42: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

La formula per il calcolo del t è la stessa usata per i t multipli, ossia

nM S

XX

nM S

nM S

XXt

e r r o re r r o re r r o r 2' 2121

In questo caso t’ indica che sono necessarie le tavole di Dunn per trovare il valore critico di t.

Page 43: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Confronti a posteriori

Si dividono in due gruppi: test che non fissano il valore di FW (familywise error o errore di gruppo) e test che fissano FW. I primi sono detti non conservativi e i secondi conservativi in quanto più restrittivi, nel senso che pongono condizioni che più difficilmente consentono l’individuazione di differenze significative.

Test che non fissano FW:

1. metodo delle minima differenza significativa (least significant difference o LSD) 2. Newman-Keuls test

Test che fissano FW:

1.Test di Tukey2. Test di Ryan3. Test di Scheffé4. Test di Dunnett

Page 44: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Differenza minima significativa (Least Significant Difference o LSD).

Anche questa procedura si basa sull’uso di t test multipli, L’unica differenza è che la procedura LSD richiede un F significativo per l’analisi globale. Il problema è sempre il valore di FW che aumenta all’aumentare dei confronti. Per questo è una procedura generalmente non consigliata.

Page 45: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Multiple Comparisons

Dependent Variable: DIP

LSD

1.8000 1.1045 .123 -.5415 4.1415

2.8000* 1.1045 .022 .4585 5.1415

3.4000* 1.1045 .007 1.0585 5.7415

-1.8000 1.1045 .123 -4.1415 .5415

1.0000 1.1045 .379 -1.3415 3.3415

1.6000 1.1045 .167 -.7415 3.9415

-2.8000* 1.1045 .022 -5.1415 -.4585

-1.0000 1.1045 .379 -3.3415 1.3415

.6000 1.1045 .594 -1.7415 2.9415

-3.4000* 1.1045 .007 -5.7415 -1.0585

-1.6000 1.1045 .167 -3.9415 .7415

-.6000 1.1045 .594 -2.9415 1.7415

(J) GROUP2.00

3.00

4.00

1.00

3.00

4.00

1.00

2.00

4.00

1.00

2.00

3.00

(I) GROUP1.00

2.00

3.00

4.00

MeanDifference

(I-J) Std. Error Sig. Lower Bound Upper Bound

95% Confidence Interval

Based on observed means.

The mean difference is s ignificant at the .05 level.*.

Differenza minima significativa (Least Significant Difference o LSD).

μA μB μC μD

μA = ≠ ≠

μB = = =

μC ≠ = =

μD ≠ = =

Page 46: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Test di Newman-Keuls

Si basa sul calcolo di una particolare statistica, detta statistica del rango studentizzata (q). La formula per il calcolo del q è

nM S

XXq

er r o r

sl

dove l e s sono rispettivamente le media più grande (largest o l) e più piccola (smallest o s) della serie di medie. La formula è simile a quelle dei t test multipli, tranne per il fatto che al denominatore non compare √2. Quindi per ottenere q da t, q = t√2.

X X

Page 47: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Per stabilire se la differenza tra la media più piccola e più grande è significativa si ricorre alla seguente formula

n

M Sd frqXX e r r o r

e r r o rsl ),(0 5.0

dove q0.05 è il valore critico di q per α = .05 ed r indica il numero di medie della serie di trattamenti tra la media più grande e la media più piccola (se abbiamo 5 trattamenti, allora r=5). r è la distanza in rango tra le medie. dferror sono i gradi di libertà della varianza d’errore. La formula calcola la differenza minima significativa tra medie che deve poi essere confrontata con quella reale. Se la differenza reale risulta maggiore allora è significativa. I q critici per r e dferror gradi di libertà sono ricavati da apposite tavole.

Page 48: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Il test Newman-Keuls si basa sul calcolo di diversi q per le diverse distanze tra le medie. Ossia, date 5 medie, abbiamo r = 2, 3, 4, 5 distanze e per ciascuna si calcola la differenza minima significativa tra medie. Poi si calcolano le differenze reali e si confrontano con quelle minime. Se le reali sono maggiori della minima, allora la differenza è significativa.

Test di Tukey

Il test di Tukey si basa come il Newman Keuls sul calcolo di q per tutte le possibili distanze, solo che considera tutte le differenze come se fossero distanti 5 intervalli. Ossia due medie con distanza r = 2 vengono considerate con distanza r =5.

Page 49: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Newman-Keuls testDIP

Student-Newman-Keulsa,b

5 3.6000

5 4.2000 4.2000

5 5.2000 5.2000

5 7.0000

.341 .055

GROUP4.00

3.00

2.00

1.00

Sig.

N 1 2

Subset

Means for groups in homogeneous subsets are displayed.Based on Type III Sum of SquaresThe error term is Mean Square(Error) = 3.050.

Uses Harmonic Mean Sample Size = 5.000.a.

Alpha = .050.b.

insieme 1: μA = μB = μC;

insieme 2: μB = μC = μD

μA μB μC μD

DIP

Tukey HSDa,b

5 3.6000

5 4.2000 4.2000

5 5.2000 5.2000

5 7.0000

.489 .092

GROUP4.00

3.00

2.00

1.00

Sig.

N 1 2

Subset

Means for groups in homogeneous subsets are displayed.Based on Type III Sum of SquaresThe error term is Mean Square(Error) = 3.050.

Uses Harmonic Mean Sample Size = 5.000.a.

Alpha = .05.b.

Test di Tukey

insieme 1: μA = μB = μC;

insieme 2: μB = μC = μD

μA μB μC μD

Page 50: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Test di Scheffè

Il test di Scheffè invece della distribuzione di q usa la distribuzione F. La formula per il calcolo di F coincide con quella dei contrasti lineari, ossia

e r r o rje r r o r

j

e r r o r

c o n t r a s t o

M Sa

n L

M S

an L

M S

M SF

2

222 /

ma l’F critico è calcolato nel seguente modo: Fcrit = (k-1)Fa (k-1, dferror),dove k è il numero di medie, α l’errore di I° tipo (sempre constante) e dferror i gradi di libertà della varianza d’errore. Fa è il valore critico di F per k -1 e dferror. Tra tutti i test è quello più conservativo ossia quello con la minor capacità di rivelare differenze significative.

Page 51: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Test di Scheffé

DIP

Scheffea,b

5 3.6000

5 4.2000

5 5.2000

5 7.0000

.054

GROUP4.00

3.00

2.00

1.00

Sig.

N 1

Subset

Means for groups in homogeneous subsets are displayed.Based on Type III Sum of SquaresThe error term is Mean Square(Error) = 3.050.

Uses Harmonic Mean Sample Size = 5.000.a.

Alpha = .050.b.

Il test di Scheffé è troppo conservativo:nessuna coppia di medie ha unadifferenza significativa, nonostante l’F siasignificativo!

μA μB μC μD

Page 52: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Il test di Dunnett

Se l’ANOVA prevede un gruppo di controllo e diversi gruppi sperimentali, allora si applica il test di Dunnett. Il test di Dunnett fa riferimento ad apposite tavole di t, elaborate proprio da Dunnett. Indicando con td il t critico delle tavole di Dunnett, individuabile se si hanno k = 5 medie e se si conosce il valore di dferror allora si può calcolare la differenza minima significativa tra gruppo di controllo e gruppo sperimentale , dove c è la media del gruppo di controllo e j è la media di un gruppo sperimentale. Pertanto

jc XX

X X

n

M StXX e r r o r

dJc

2

Si procede al calcolo di tutte le differenze tra gruppi sperimentali e il gruppo di controllo e quelle che risultano inferiori alla differenza calcolata con la formula precedente non sono significative.

Page 53: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

confronto 1: μA ≠ μD;

confronto 2: μB = μD;

confronto 3: μC = μD.

Page 54: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Trend analysis

Se diversi gruppi sono assegnati a ciascun livello di una data variabile, ma tale variabile consente di ordinare i gruppi lungo un continuum, allora si può eseguire un’analisi volta a stabilire la forma globale dell’effetto della variabile. Questo tipo di analisi è detta Trend Analysis.

L’analisi del trend consiste essenzialmente nell’identificare quale curva lineare (lineare o polinomiale) è quella più adatta a descrivere l’effetto della variabile. A differenza dei confronti tra media a priori o posteriori, in cui si calcola la differenza tra due medie o gruppi di medie, essa consente di stabilire quale tipo di relazione descrive meglio l’andamento dei valori della variabile. Es.: se a diversi gruppi di soggetti vengono fornite dosi crescenti di un farmaco (2-4-6-8 mg), la cui funzione è prevenire l’infarto, possiamo con la trend analysis verificare se la relazione tra dosi di farmaco e rischio di infarto è di tipo lineare (ossia il rischio è inversamente proporzionale all’aumento della dose), o quadratico (ossia l’aumento del farmaco è efficace fino ad in punto e poi diminuisce).

Page 55: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

La formula per il calcolo del tipo di curva è uguale a quella dei contrasti lineari. Indicando con L la componente di curva

jjmm XaXaXaXaL . . .2211

dove aj sono i parametri della curva. Ogni curva ha un insieme specifico di parametri:curva lineare: -2 -1 0 1 2curva quadratica: 2 -1 -2 -1 2

Nota bene: la serie di coefficienti sopra presentata è valida se: a) la variabile è discreta b) gli intervalli tra i livelli della variabile sono costanti.

I coefficienti delle curve hanno le stesse proprietà dei contrasti ortogonali, ossia ∑aj = 0 e ∑ajbj = 0.

Page 56: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Per stabilire se è significativa la componente lineare o quadratica, occorre calcolare le SSlineare e le SSquadratiche.

2

2

2

2

jq u a d r a t i c a

jl i n e a r e

bn L

S S

an L

S S

dato che dflineare = 1 e dfquadratica = 1, allora MSlineare = SSlineare e MSquadratica = SSquadratica.

Flineare = MSlineare/ MSerror e Fquadratica = MSquadratica/ MSerror, dove la MSerror è la varianza d’errore dell’ANOVA globale. Si confrontano gli F ottenuti con l’Fcrit(1,dferror) e se superano l’Fcrit allora la componente di curva è significativa.

Page 57: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Var. ind ipenden te

Va

r. d

ip.

(co

mp

ren

sio

ne

te

sto

)

A B C D

0

2

4

6

8 A, B e C tre metodi di letturaD: nessun metodo

Trend analysis: l’effetto della variabile indipendente è lineare o quadratico?

Coefficienti trend lineare:

-2 -1 + 1 +2 = 0

Coefficienti trend quadratico:

-1 +1 +1 -1 = 0

trend lineare:

trend quadratico:

MQ trend lineare:

L 2q = [¡ 1(7) + 1(5;2) + 1(4;2) ¡ 1(3;6)]2 = 1;44

L 2l = [¡ 2(7) ¡ 1(5;2) + 1(4;2) + 2(3;6)]2 = 60;84

M Qq =nL 2

qPa2 = 5(1;44)

4 = 1;8

M Ql = nL 2lPa2 = 5(60;84)

10 = 30;42

MQ trend quadr.:

MQerr = 3,05

F l = M Q lM Q er r

= 30;423;05 = 9;97 p = 0;006

Fq = M Qq

M Qer r= 1;8

3;05 = 0;59 p = 0;454

Solo la componente lineare è significativa.L’effetto della var. indip. è, dunque, lineare.

Page 58: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Nell’ANOVA l’effect size viene calcolato in due modi principali. Uno fa riferimento al valore d di Cohen, l’altro invece al coefficiente di correlazione al quadrato r2. Gli indici calcolati nel secondo modo vengono definiti “grandezza dell’effetto”.

Esistono sei indici della grandezza dell’effetto sperimentale, ma i due più usati e qui considerati sono l’eta al quadrato (2) e l’omega al quadrato (2).

l’eta al quadrato (2).

L’eta al quadrato, talvolta indicato come rapporto di correlazione, è la più antica forma di misura dell’effetto sperimentale. L’eta () viene definito in alcuni manuali come coefficiente di regressione o correlazione curvilineare, in quanto consente di trovare la migliore regressione quando la relazione tra due variabili non è lineare. La formula per il calcolo del coefficiente di correlazione per la retta di regressione è:

2

22

2

222

ˆ

YY

YYYY

S S

S SS S

S S

S SS S

s

ssr

i j

i ji ji j

t o t a l

r e s i d u a lt o t a l

Y

r e s i d u a lY

Y

Y XY

Page 59: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

La figura successiva evidenzia la distribuzione dei punteggi per 5 gruppi con diversi numeri di soggetti impegnati nel ricordo di liste di parole usando 5 tipi di tecniche di memorizzazione

0

5

1 0

1 5

2 0

2 5

0 1 2 3 4 5 6

Gruppo

Rec

all

Page 60: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

I quadrati bianchi uniti dalle linee indicano le medie dei gruppi. La formula per il calcolo dell’eta al quadrato è simile a quella per il calcolo di r2 se al posto di inseriamo . Effettuata la sostituzione, si ottiene:

2

22

2

YY

YYYY

S S

S SS S

i j

ji ji j

t o t a l

r e s i d u a lt o t a l

dato che SStotal – SSresidual = SStreatment, allora la formula si riduce semplicemente a

t o t a l

t r e a t m e n t

S S

S S2

i jY

jY

Page 61: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

Utilizzando i dati riprodotti nella figura si ottiene che 2 = 0.447, il che significa che il 44,7 % della varianza nei punteggi di ricordo è attribuibile all’effetto del trattamento. Quindi l’eta al quadrato indica la percentuale di varianza spiegata dal trattamento.

Occorre far notare che l’indice dell’eta al quadrato assume che la vera linea di regressione passi attraverso le medie del trattamento. Se i dati sono tratti dalla popolazione, questo è vero. Se i dati sono tratti da dei campioni, allora è possibile che ci sia un bias tra la media del campione e quella della popolazione. L’eta al quadrato, perciò risulta suscettibile alle distorsioni.

Tests of Between-Subjects Effects

Dependent Variable: DIP

33.200b 3 11.067 3.628 .036 .405 10.885 .685

500.000 1 500.000 163.934 .000 .911 163.934 1.000

33.200 3 11.067 3.628 .036 .405 10.885 .685

48.800 16 3.050

582.000 20

82.000 19

SourceCorrected Model

Intercept

GROUP

Error

Total

Corrected Total

Type III Sumof Squares df Mean Square F Sig. Eta Squared

Noncent.Parameter

ObservedPower

a

Computed using alpha = .05a.

R Squared = .405 (Adjusted R Squared = .293)b.

Esempio:

η2

1 -

Page 62: L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi

L’omega al quadrato. È una statistica discussa da Hays e sviluppata da Fliess. L’omega viene derivato dal modello strutturale dell’anova. La formula è:

e r r o rt o t a l

e r r o rt r ea t

M SS S

M SkS S

12

Usando sempre i dati del ricordo, allora 2 = 0.393. Il valore dell’omega a quello dell’eta per gli stessi dati risulta inferiore. Ciò indica la distorsione presente nell’eta. Occorre far notare che esistono due formule per il calcolo dell’omega, una (quella qui presentata) per l’anova che usa un modello a effetti fissi, l’altra per l’anova che usa il modello a effetti random.

Una versione del coefficiente di correlazione intraclasse coincide con l’omega al quadrato calcolato secondo la formula per il modello a effetti random.