Upload
nilda-amato
View
214
Download
0
Embed Size (px)
Citation preview
Corso di biomatematica Corso di biomatematica lezione 10:lezione 10:
test di Student e test Ftest di Student e test F
Silvia Capelli
Sommario
•Distribuzione di Student
•Media osservata e attesa
•Medie di due campioni
•Test F
•Facciamo il punto sui test di
significatività
t di Student
Silvia Capelli - Dottorato in Biologia
• La distribuzione t di Student La distribuzione t di Student
nS
xt
Abbiamo già incontrato la distribuzione t di Student come distribuzione campionaria diversa dalla distribuzione normale Z ed espressa dalla formula
Quando la media della popolazione non è nota, di solito anche la sua varianza è ignota. Si utilizza quindi la varianza del campione S, che ne rapprensenta la stima più attendibile. La distribuzione di probabilità non è più quindidata da Z, ma dalla t di Student.Essa può essere applicata a piccoli campioni anche conmeno di una decina di osserv. Per n40 Student Z.
t di Student• La distribuzione t di Student La distribuzione t di Student
Silvia Capelli - Dottorato in Biologia
La forma della distribuzione t di Student è a campana con una dispersione maggiore rispetto alla gaussiana standardizzata, ed esiste un’intera famiglia di distribuzionit in funzione dei gradi di libertà (la distribuzione normale rappresenta una t quando i g.d.l. aumentano…).
I valori critici per l’area in una coda alla probabilità coincidono con quelli a probabilità 2 nella distribuzione a due code e viceversa.Con il t di student calcolerò un intervallo fiduciale ovvero l’intervallo entro il quale è collocato il valore reale della popolazione alla probabilità , partendo dalla misura campionaria!
t di Student• La distribuzione t di Student La distribuzione t di Student Condizioni di validità:1. Distribuzione di dati normale2. Osservazioni indipendentiLa t di Student è robusta, ovvero vale anche
per una serie di dati che devia dalla normalità..
Applicazioni per il confronto tra:1. Media campione e media universo2. Singolo dato e media di un campione3. Media delle differenze di due campioni
dipendenti e differenza media attesa4. Medie di due campioni indipendenti
Silvia Capelli - Dottorato in Biologia
t di Student• Media osservata e media attesa Media osservata e media attesa La t di Student con n-1 g.d.l. è data da
Con:- valore atteso - errore standard - n numero di dati - S la deviazione standard calcolata sui dati
del campione.
nS
xt )n(
1
nS
Silvia Capelli - Dottorato in Biologia
t di Student• Media osservata e media attesaMedia osservata e media attesaPer verificare l’ipotesi relativa alla media
nel caso di un test bilaterale avremo:• Ipotesi nulla H0 : = 0
• Ipotesi alternativa H1 : 0
Mentre nel caso di un test unilaterale l’ipotesi relativa alla
media sarà:• Ipotesi nulla H0 : () 0
• Ipotesi alternativa H1 : < (>) 0
Per verificare se la media è significativamente inferiore (o
maggiore) di quella attesa
Silvia Capelli - Dottorato in Biologia
t di Student• Media osservata e media attesaMedia osservata e media attesaQuindi dalla formula per la differenza tra
media attesa e campionaria avremo
E da questo posso stimare l’intervallo fiduciale
(o intervallo di confidenza) entro il quale è compresa la
media reale della popolazione da cui ho estratto
il campione alla probabilità
nS
xt )n(
01
nStx)n,(
1
2Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservata e media attesa - esempioMedia osservata e media attesa - esempioAbbiamo un vivaio con pianticelle di tipo A,
che dopo due mesi raggiungono un’altezza media di 25
cm (0), nel terreno vengono versate sostanze tossiche
e per verificare l’incidenza negativa sulla crescita delle
piante ne vengono seminate 7 che dopo 2 mesi raggiungono le
altezze di22,25, 21,23,24,25,21 cm
Voglio sapere:1. Le sostanze tossiche inibiscono la
crescita?2. Qual è la media reale dell’altezza delle
piante nel nuovo terreno?
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservava e media attesa - Media osservava e media attesa - esempioesempio
• Le sostanze tossiche inibiscono la crescita?
Questo è un test ad una coda con1. Ipotesi alternativa H1 : < 0
2. Ipotesi nulla H0 : 0
Il test ovviamente assume significato solo se la media
campionaria assume valore minore della media attesa 0, e
serve per verificare se la differenza sia casuale o
significativa.
Scegliamo una probabilità =0,05
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservata e media attesa - esempioMedia osservata e media attesa - esempioAvremo dunque la formula
Con i nostri 7 dati abbiamo
X =23,0
S =1,732
t0,025;6 =2,447
n=7
0=25
nS
xt )n(
01
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservata e media attesa - esempioMedia osservata e media attesa - esempioEd il calcolo di t con 6 g.d.l. mi dà
Cioè t(6) = - 3,053Dove il segno meno indica solamente che la
differenza è negativa rispetto al valore atteso. Per la
significatività prendo il modulo.Per il test ad una coda abbiamo con =0,05 t0,05;6 =1,943Accetto dunque H1 (cioè le sostanze
tossiche inibiscono la crescita) e rifiuto H0 con il 5% di prob. di
sbagliare
7732,1
0,250,23)6(
t
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservata e media attesa - esempioMedia osservata e media attesa - esempio• Qual è la media reale dell’altezza delle
piante nel nuovo terreno?L’altezza media reale può essere stimata
tramite l’intervallo di confidenza, ovvero
Prendendo i dati del nostro campione con la probabilità
associata ad =0,05 per un test a due code t0,025;6 =2,447
Cioè (21,398 ; 24,602)
nStx )n,(
1
2
602,1237732,1447,223
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto tra una misura e la media di un Confronto tra una misura e la media di un campionecampione
Voglio ora stabilire se una misura (per ragioni non note) si
possa considerare errata. Questo può essere effettuato con
un test unilaterale o bilaterale a seconda delle ipotesi
mediante la formula:
Con:- nA numero di oservazioni del campione, - x1 misura da verificare, - xA,media del campione - S
A varianza del campione A
n
nS
Axxt
A
AA
)n( A
12
11
Silvia Capelli - Dottorato in Biologia
t di Student• Confronto una misura e media di un Confronto una misura e media di un
campionecampioneAd esempio voglio “rigettare” una misura
(x1 =49,7) nel campione A=(40,3 - 38,8 – 33,5 – 38,6 – 31,9
– 37,6)Dove nA =6, xA= 36,873, S
A=12,206, ottenendo
Ora dalle tabelle per il test bilaterale abbiamo i valori
critici2,571 per =0,05 4,032 per =0,01 Mentre il test unilaterale dà3,365 per =0,01 5,893 per =0,001Rifuto l’ipotesi nulla (quindi rigetto x1 ) con
tra 0,05 e 0,01 (0,01 e 0,001 uni)
42,3)5(t
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioniConfronto le medie di due campioniPosso derivare la distribuzione t di Student
dal rapporto tra la differenza delle due medie
campionarie ed il suo errore standard, ovvero
Dove nell’ipotesi nulla H0 le due medie sono identiche,
Ovvero H0 :1 = 2 oppure H0 :1 - 2 =0
mediediffstderroremediediff
t_2___
_2_
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni Confronto le medie di due campioni DIPENDENTIDIPENDENTI
Se ho due campioni dipendenti, posso accoppiare ogni
osservazione di un campione con UNA ed UNA SOLA
osservazione dell’altro (senza entrare nello specifico
dell’appaiamento).L’analisi dunque è applicata ad una nuova
serie di dati, risultanti dalle differenze tra gli elementi di
ciascuna coppia.Per il test di Student bilaterale, abbiamo H0 =0 mentre H1 0Il test unilaterale invece èH0 < (>) 0 mentre H1 () 0
Silvia Capelli - Dottorato in Biologia
t di Student• Confronto le medie di due campioni Confronto le medie di due campioni
DIPENDENTIDIPENDENTILa significatività della media delle
differenze viene verificata con:
Dove dm è la media delle differenze, è la differenza
media attesa (spesso ma non sempre 0), n è il numero di
differenze e Sd è la deviazione standard delle differenze.
L’intervallo di confidenza entro cui è compresa la
differenza media reale è
ndS
mdt )n(
1
ndStmd )n,(
1
2Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni Confronto le medie di due campioni INDIPENDENTIINDIPENDENTI
In questo caso aumenta la variabilità tra i due gruppi,
ovvero potrò 1. Utilizzare numero diverso di osservazioni
tra i due gruppi2. Avere dati che esprimono la variabilità
casuale3. Confrontare il mio campione con quello
raccolto da altriNel caso di due campioni indipendenti i
calcoli per il test di significatività vengono effettuati sulle due
serie di osservazioni e non sulla serie delle
differenze come era nel caso di campioni dipendenti
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni Confronto le medie di due campioni INDIPENDENTIINDIPENDENTI
Nel caso di un test bilaterale l’ipotesi nulla H0 è che i due
campioni A e B siano estratti dalla stessa popolazione o da
due popolazioni diverse ma con media uguale ovvero:
Ipotesi nulla Ho
A = B oppure A - B =0L’ipotesi alternativa H1 saràA B oppure A - B 0Mentre nel test unilaterale avremoH0 A () B oppure A - B () 0H1 A < (>) B oppure A - B <(>) 0
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni Confronto le medie di due campioni INDIPENDENTIINDIPENDENTI
Per due campioni indipendenti i gradi di libertà di t sono
dati da (nA-1) + (nB-1) =(nA+ nB-2) =(N-2)Il valore di t è ottenuto così:
Con xAe xB medie dei due campioni, Ae b medie attese
nAe nB numero di osservazioni e Sp è la
varianza associata (pooled) dei due gruppi a confronto
nnS
BABxAxt
BAP
)nBnA(112
2
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni Confronto le medie di due campioni INDIPENDENTIINDIPENDENTI
Sp la varianza pooled è in pratica una
varianza media ponderata (sul numero di dati presi per
ciascun gruppo) calcolata a partire dalle due devianze e dai
loro g.d.l. ed è data dalla formula:
Questo test si può quindi applicare anche ai risultati di due
ricercatori diversi (che saranno ora A e B), al patto di
disporre dei dati, delle rispettive varianze, e delle medie
11
2
1
2
12
nn
xxxxS
BA
nB
i
nA
i
p
BBiAAi
Silvia Capelli - Dottorato in Biologia
t di Student
• Validità del t-di StudentValidità del t-di StudentLe assunzioni per la validità del test di
Student sono essenzialmente tre:1. Indipendenza dei dati entro i campioni2. Omogeneità della varianza tra i due
campioni3. Dati (o scarti rispetto alla media)
distribuiti normalmenteCon due campioni indipendenti è molto
importante che le varianze dei due campioni siano
statisticamente uguali.Infatti la varianza pooled S
p che è una quantità
fondamentale ha significato solo se è rappresentativa delle
varianze di ogni gruppo.
Silvia Capelli - Dottorato in Biologia
t di Student
• Validità del t-di StudentValidità del t-di StudentPer applicare il test t , la cosiddetta
omoschedasticità tra due gruppi A e B è verificata con un test
bilaterale, dove l’ipotesi nulla e l’ipotesi alternativa sono:H0
A = B e
H1 A
B
Esistono vari test per verificare quella che si chiama
omoschedasticità bilaterale o unilaterale, in particolare
accenneremo solo al test F bilateraleSilvia Capelli - Dottorato in Biologia
t di Student
• Validità del t-di Student: test FValidità del t-di Student: test F
2
12
2
11 21 SF
S)n)(n(
Il test F bilaterale è fondato sul rapporto tra la varianza campionaria (S) maggiore e quella minore:
Dove S1 è la varianza maggiore e S
2 è quella minore (F[1;)). Una volta calcolato il rapporto (che non sarà mai 1 perchè la stima delle due varianze campionarie non è mai esatta) lo si confronta con una tabella di distribuzione F relativa ai due g.d.l. (di solito entro =0,05)
Silvia Capelli - Dottorato in Biologia
t di Student
• Validità del t-di Student: test FValidità del t-di Student: test F
Solo se si dimostra che l’ipotesi nulla (A =
B) è vera,ovvero i due gruppi hanno varianze statisticamente uguali,posso usare il test t di Student per i due campioniindipendenti.
NB: Sono costretto ad utilizzare un test di inferenza statistica per verificare se
A = B perchè non conosco
i valori reali delle varianze, ma solo i valori campionari.Se avessi conosciuto i valori reali sarebbe bastato il semplice confronto.
test F di Fisher e analisi della varianza
Silvia Capelli - Dottorato in Biologia
• Confronto tra medieConfronto tra medie
Nel caso del confronto tra più medie non è corretto ricorrere al test t di Student per ripetere l’analisi tante volte quanti sono i possibili confronti a coppie tra i singoli gruppi in quanto la probabilità di commettere un errore di I tipo (rifiutare Ho quando è vera) è valida SOLO per ogni singolo confronto. Se i confronti sono numerosi la probabilità complessiva di sbagliare rifiutando l’ipotesi nulla diventa ’=1-(1-)k con k numero dei confronti effettuati ovvero aumenta col numero di confronti.
• Confronto tra medieConfronto tra medieIn questo caso si utilizza quindi un metodo
detto di analisi della varianza.Abbiamo già introdotto un metodo di analisi
della varianza per il test di Student, ovvero il
confronto tra le varianze di due campioni a cui è applicato il
test.Per confrontare le due varianze abbiamo
detto che si effettua un test di Fisher, dato dal rapporto
tra 1, la
varianza maggiore e 2 è quella minore. In
seguito il risultato viene confrontato con le tabelle del
test di Fisher tenendo conto dei gradi di libertà dei due
campioni.
Silvia Capelli - Dottorato in Biologia
test F di Fisher e analisi della varianza
Facciamo il punto sui test...
Silvia Capelli - Dottorato in Biologia
-Test del 2:
Si utilizza per: • Confrontare distribuzione osservata e distribuzione attesa• Confrontare 2 o più distribuzioni osservate
Condizioni di validità:
* è valido quando il numero totale di osservazioni > 100* è meno attendibile, ed ha bisogno di una correzione (Yates) per numero di osservazioni tra 30 e 100* perde ogni attendibilità quando il numero totale di osservazioni è < 30 e/o il numero di osservazioni attese entro una o più classi < 5
Condizioni di validità:* Si utilizza per piccoli campioni (decina o meno). Per n >40 diventa equivalente allo Z test * I dati entro e tra i campioni devono essere indipendenti * Le varianze delle popolazioni da cui sono estratti i campioni a confronto devono essere simili * I dati (o gli scarti rispetto alla media) devono essere distribuiti in modo normale (gaussiano)
Facciamo il punto sui test...
Si utilizza per:•Cfr la media di un campione e la media attesa•Cfr un dato di un campione e la media del campione•Cfr la media delle differenze di due campioni dipendenti con una differenza media attesa•Cfr le medie di due campioni indipendenti
-Test t di Student:
Silvia Capelli - Dottorato in Biologia
Facciamo il punto sui test... -Test F di Fisher:
Si utilizza per:•Confrontare varianze campionarie•Verificare la significatività di una regressione lineare calcolata
•Confrontare più medie tra loro (analisi della varianza)
• Condizioni di validità: * I fattori non noti (non dovuti al trattamento effettuato sui campioni) che determinano la differenza tra la media generale e la media di ogni campione a confronto devono essere indipendenti tra loro, distribuiti normalemente, * Le varianze dei vari gruppi devono essere omogenee
Ft nn )2,1()2(
2
Silvia Capelli - Dottorato in Biologia