218
PRONTUARIO DI STATISTICA

Prontuario Di Statistica

Embed Size (px)

Citation preview

Page 1: Prontuario Di Statistica

PRONTUARIO DI STATISTICA

Page 2: Prontuario Di Statistica

STATISTICA MODERNA

MISURE DI DISPERSIONE

MISURE DI TENDENZA CENTRALE

CALCOLO DELLE PROBABILITA’

TEST DI IPOTESI

ANALISI DELLA VARIANZA

REGRESSIONE LINEARE SEMPLICE

METODI NON PARAMETRICI PER 1 O 2

CAMPIONI

Page 3: Prontuario Di Statistica

(2000) 01-1

STATISTICA MODERNA

contenuti:- raccolta dei dati- elaborazione numerica delle informazioni- presentazione dei risultati

finalità:- agevolare l'analisi e i processi decisionali- trarre conclusioni sull’intera popolazione, anche quando si conoscono

solamente i dati di uno o più campionicomponenti:

STATISTICA DESCRITTIVA

insieme dei metodi che riguardano raccolta, presentazione esintesi di un insieme di dati per descriverne le caratteristicheessenziali

STATISTICA INFERENZIALE

insieme dei metodi con cui si possono elaborare i dati deicampioni per dedurne omogeneità o differenze nellecaratteristiche analizzate

Supponiamo di voler conoscere la velocità d'accrescimento somatico di una determinata

specie animale o vegetale; è ovvio che non è possibile prendere tutti gli individui esistenti di quella

specie, la POPOLAZIONE od UNIVERSO, ma solamente alcuni di essi, un CAMPIONE.

Quando poi si trattasse di misurare rapporti tra organi interni di una specie animale, è ovvio

che non si può pretendere di dissezionare tutti gli individui della specie.

Tuttavia le conclusioni devono non essere limitate ai pochi casi del campione utilizzato, ma

estese a tutta la popolazione, per rivestire una effettiva importanza generale e contribuire alla

costruzione di teorie scientifiche universalmente valide.

L'esigenza di metodi di statistica inferenziale deriva anche dalla necessità di ricorrere al

CAMPIONAMENTO (*), affinché i dati analizzati in un numero relativamente ridotto di casi

rappresentino in modo corretto le caratteristiche di tutta la popolazione.

La teoria della probabilità permette poi di verificare la VEROSIMIGLIANZA che i risultati

del campione non si discostino dagli eventuali risultati che si sarebbero raggiunti analizzando tutta

la popolazione o l'universo dei dati.

(*) Disegno sperimentale e campionamento sono le due fasi preliminari indispensabili ad una corretta impostazione

degli esperimenti e della raccolta dei dati. Tuttavia la loro presentazione didattica richiede concetti complessi e

metodologie sofisticate, che la limitata preparazione specifica delle persone non ancora esperte impone di affrontare

in una fase successiva, allorché saranno più familiari terminologia statistica, concetti e metodi fondamentali

dell'inferenza.

Page 4: Prontuario Di Statistica

(2000) 01-2

STATISTICA DESCRITTIVA PER DISTRIBUZIONI SEMPLICI

La conduzione dell’indagine (o ESPERIMENTO) è un percorso di ricerca scientificaarticolabile in quattro fasi:

1 - disegno sperimentale• osservazioni in natura e ripetizioni in laboratorio non raccolte ed attuate a

caso, ma scelte e programmate in funzione della ricerca e delle ipotesiesplicative

• chiarire a priori la formulazione dell'IPOTESI ESPLICATIVA (alternativaall'IPOTESI NULLA)

Le eventuali differenze riscontrate dovranno essere imputate aFATTORI CAUSALI SPECIFICI ?

o solamente aFATTORI CASUALI IGNOTI ?

attribuibili alla naturale variabilità di misure e materiale utilizzato

2 - campionamento- raccogliere i dati in funzione dello scopo della ricerca- rispettare le caratteristiche della popolazione

Numero limitato di dati –––> conclusioni generali –––> tutta la popolazione(UNIVERSO)

3 - descrizione dei dati raccolti per verificare l'adeguatezza di:- disegno sperimentale- campionamento- analisi condotte- risultati conseguiti

4 - utilizzo dei tests (programmati nel disegno sperimentale e in funzione dei qualiè stato effettuato il campionamento)

processo logico-matematico che, mediante il calcolo di probabilità, porta allaconclusione di non poter respingere oppure di dover respingere l'ipotesinulla

Page 5: Prontuario Di Statistica

(2000) 01-3

Soltanto con una corretta applicazione del campionamento e dei test diconfronto statistico è possibile rispondere alla DOMANDA INFERENZIALE diverifica dell'ipotesi nulla:

LE DIFFERENZE FRA LE OSSERVAZIONI EMPIRICHE

SONO DOVUTE A FATTORI PURAMENTE CASUALI

? quale è la probabilità che, fra tutte le alternative possibili,si presenti proprio lasituazione descritta dai dati raccolti ?

- probabilità alta (convenzionalmente => 5%) –––> fattori casuali- probabilità bassa (< 5%) –––> fattori non casuali

cioé rientranti tra i criteri con cui i dati sono stati raggruppati

Analisi e conclusioni sono rese complesse fondamentalmente da tre aspetti:

errori nelle misurazioni generati da strumenti e da differenti abilitàdegli sprimentatori

utilizzo di campioni i dati utilizzati in una ricerca non sono maiidentici a quelli rilevati nelle altre

fattori contingenti di disturbo possono incidere in modo differente sulfenomeno indagato (es.: tempo, luogo, …)

Page 6: Prontuario Di Statistica

(2000) 01-4

TIPI DI DATI - SCALE DI MISURA

Ai due tipi fondamentali di variabili casuali sono associati due TIPI DI DATI:

- QUALITATIVI generati da risposte categoriali- QUANTITATIVI generati da risposte numeriche e distinti in:

= DISCRETI derivano da un conteggio= CONTINUI derivano da una misurazione

A proprietà formali differenti dei dati (che di conseguenza consentonooperazioni different) sono associati quattro TIPI DI SCALE DI MISURA:

Scala NOMINALE (o classificatoria)- livello più basso di misurazione- utilizzata quando i dati possono essere raggruppati in categorie,

eventualmente identificati con simboli- gli individui attribuiti a classi diverse sono tra loro differenti; quelli della

stessa classe sono tra loro equivalenti rispetto alla proprietà utilizzatanella classificazione

- l'attribuzione di numeri per identificare le varie categorie nominali (es.: igiocatori di squadre) non autorizza ad elaborare quei numeri come tali

- quesiti statistici: frequenze degli individui per categoria, per confronti traloro o rispetto a valori attesi

Scala ORDINALE (o per ranghi)- contiene una quantità di informazione superiore- alla proprietà di equivalenza tra gli individui della stessa classe si

aggiunge quella di gradazione tra le classi (es.: un reagente colora unaserie di provette secondo la quantità di sostanza analizzata contenuta,consentendo di ordinare le provette in base all'intensità del colore)

- le risposte, apparentemente definite a livello nominale, possono venireespresse su scala ordinale (es.: giovane, adulto, anziano; insufficiente,sufficiente, discreto, buono, ottimo)

- eventuali rappresentazioni simboliche (es.: - -, -, =, +, ++)- impossibilità di valutare la distanza tra livelli (es.: tra insufficiente e

sufficiente c’è una distanza diversa che tra buono ed ottimo?)- SCALA MONOTONICA: alle variabili è possibile applicare una serie di

tests non parametrici, ma non quelli parametrici

Page 7: Prontuario Di Statistica

(2000) 01-5

Scala di INTERVALLI

- alle due caratteristiche della scala ordinale si aggiunge quella di potermisurare le distanze tra tutte le coppie di valori

- si fonda su una misura oggettiva e costante, anche se punto di origine eunità di misura sono arbitrari (es.: la temperatura misurata in gradiCelsius o Fahrenheit, i calendari)

- solo le differenze tra i numeri sono quantità continue ed ISOMORFICHE

e possono essere tra loro sommate, elevate a potenza e divise,determinando quantità utilizzate nella statistica parametrica

Le misure della temperatura possono essere facilmente ordinate e le

differenze tra loro sono direttamente confrontabili e quantificabili; le date

con un calendario gregoriano, islamico, ebraico o cinese possono essere

tra loro ordinate dalla più antica a quella più recente e le differenze

temporali possono essere misurate con precisione oggettiva. Ma una

temperatura di 40 gradi non è il doppio di 20 gradi e l'anno 2000

significa che è trascorso il doppio del tempo rispetto all'anno 1000

solamente con riferimento al punto di origine su cui ogni calendario si

basa.

Scala di RAPPORTI

- alle tre proprietà della scala precedente aggiunge quella ad avere unaorigine reale

- è il tipo di misurazione più sofisticato e completo (es.: altezza, distanza,età, peso, reddito procapite)

- non solo le differenze ma gli stessi valori possono essere moltiplicati odivisi per quantità costanti senza che l'informazione ne risulti alterata

- 0 (zero) significa quantità nulla (a differenza di quanto avviene, per es.,con la temperatura di 0 (zero) gradi Celsius)

- si possono usare la media geometrica ed il coefficiente di variazione,che richiedono che il punto 0 sia reale e non convenzionale

- può essere applicato qualsiasi test statistico

Page 8: Prontuario Di Statistica

(2000) 01-6

CLASSIFICAZIONE IN TABELLE

Prima di qualunque elaborazione, una serie di dati va ordinata e sintetizzata in

DISTRIBUZIONE DI FREQUENZA (o di intensità)

poichè una serie non ordinata non permette quasi mai di evidenziare lecaratteristiche del fenomeno in esame.

ESEMPIO

Conteggio del numero di foglie (variabile discreta) spuntate su 45 rami di ugualelunghezza di una pianta in un dato intervallo di tempo :

5 6 3 4 7 2 3 2 3 2 6 4 3 9 32 0 3 3 4 6 5 4 2 3 6 7 3 4 25 1 3 4 3 7 0 2 1 3 1 5 0 4 5

Definire le classi:

1 - identificare il valore minimo (0 nell'esempio) e quello massimo (9nell'esempio), contando quante volte compare ogni variabile

2 - dalla frequenza assoluta ni si calcola la frequenza relativa fi formatadal rapporto tra la frequenza assoluta ni ed il numero totale di casi N

E' utile soprattutto quando si vogliono confrontare due o più distribuzioni dellostesso fenomeno, ognuna con un numero differente di osservazioni

Page 9: Prontuario Di Statistica

(2000) 01-7

ESEMPIO

Distribuzione di frequenze assolute e relative (arrotondate) delle foglie di 45 rami:

classe (xi) 0 1 2 3 4 5 6 7 8 9

freq. assol. (ni) 3 3 7 12 7 5 4 3 0 1

freq. rel. (fi) 0,07 0,07 0,15 0,27 0,15 0,11 0,09 0,07 0,00 0,02

freq.cumulata 0,07 0,14 0,29 0,56 0,71 0,82 0,91 0,98 0,98 1,00

Quante classi di frequenza costruire?

- da un minimo di 4-5 ad un massimo di 15-20 (prassi abituale) in funzione delnumero complessivo di osservazioni. Infatti:

- se il numero di classi è troppo basso: perdita d’informazione sulle caratteristichedella distribuzione e la rende nonsignificativa

- se il numero di classi è troppo alto: disperde i valori e non manifesta conevidenza la forma della distribuzione

Non è necessario costruire intervalli uguali; ma la loro rappresentazione grafica edil calcolo dei parametri fondamentali esigono alcune avvertenze non sempreintuitive

Page 10: Prontuario Di Statistica

(2000) 01-8

ESEMPIO - parte a

Raggruppamento in classi di una variabile continua: altezza (cm) di 40 piante:

107 83 100 128 143 127 117 125 64 11998 111 119 130 170 143 156 126 113 127

130 120 108 95 192 124 129 143 198 131163 152 104 119 161 178 135 146 158 176

Procedura:

1 - individuare il valore minimo e massimo (64 e 198)2 - stabilire l'intervallo di variazione, che ovviamente deve comprendere

l'intero campo di variazione (cm 140, da cm 60 a cm 199 compresi)3 - sulla base di N (40) si decide il numero di classi (nel caso specifico

potrebbero essere 7, con passo 20)

avvertenze:

4 - definire con precisione il valore minimo e quello massimo di ogni classe,per evitare incertezze nell'attribuzione di un singolo dato tra due classicontigue

5 - la determinazione dei valori estremi, del numero di classi e dell'intervallo diogni classe è soggettiva

6 - la scelta di una particolare serie al posto di un'altra può tradursi inun'immagine completamente diversa dei dati:

- per piccoli campioni, l'alterazione e le differenze possono esseresensibili- per grandi campioni, gli effetti delle scelte soggettive, purchè nonsiano estreme, incidono meno sulla concentrazione dei dati

7 - la classe iniziale e terminale non devono essere aperte (es.: < 80 quellainiziale; ≥ 180 quella finale), poichè:

- si perderebbe l'informazione del loro valore minimo e massimo equindi del valore centrale (indispensabili per calcolare la media e glialtri parametri da essa derivati)

- verrebbe impedita o resa soggettiva anche la rappresentazionegrafica, per la quale è indispensabile conoscere i valori iniziale eterminale

Page 11: Prontuario Di Statistica

(2000) 01-9

ESEMPIO - parte b

Distribuzione di frequenza assoluta e relativa (%) dell'altezza delle 40 piante:

classe (xi) 60-79 80-99 100-119 120-139 140-159 160-179 180-199

freq. ass. (ni) 1 3 10 12 7 5 2

freq. rel. ( fi) 2,5 7,5 25,0 30,0 17,5 12,5 5,0

freq. cumul. 2,5 10,0 35,0 65,0 82,5 95,0 100,0

Rispetto all'elenco grezzo, la tabella di distribuzione delle frequenze fornisce diversivantaggi:

POSIZIONE (o dimensione)TENDENZA CENTRALE

VARIABILITÀ (o dispersione)FORMA: simmetria

curtosi

... e uno svantaggio:non poter conoscere come sono distribuiti i dati entro ogni classe (perquesta ragione, quando è richiesta la conoscenza di tutti i dati compresiin un particolare intervallo, viene usato il valore centrale di ogni classe)

N.B. Le distribuzioni delle frequenze relative o percentuali sono indispensabiliquando si confrontano due o più gruppi di misure, che quasi mai presentano lostesso numero di osservazioni

Page 12: Prontuario Di Statistica

(2000) 01-10

RAPPRESENTAZIONI GRAFICHE DI DATI QUANTITATIVI

Le rappresentazioni grafiche forniscono:• una sintesi visiva delle caratteristiche fondamentali delle distribuzioni• impressioni percepite con maggiore facilità• meno particolari.• una descrizione espressa mediante una interpretazione soggettiva

ISTOGRAMMI e POLIGONI

dati quantitativi raggruppati in distribuzioni di frequenza assoluta, o difrequenza relativa, o di percentuali

Istogrammi : grafici a barre verticali in cui i rettangoli vengono costruiti in corrispondenza degliestremi di ciascuna classe. La variabile casuale o il fenomeno di interesse è tracciato lungo l'asse x,mentre l'asse y rappresenta il numero assoluto (o la frequenza relativa o quella percentuale) concui compaiono i singoli valori delle classi

0

0.05

0.1

0.15

0.2

0.25

0.3

0 1 2 3 4 5 6 7 8 9 100

2

4

6

8

10

12

60 80 100 120 140 160 180

Dati di Tab. 2 (9 classi) Dati di Tab. 4 (Val. iniz. = 60; Val. fin. =

199; Passo = 20; Classi = 7)

0

2

4

6

8

10

12

14

60 80 100 120 140 160 180

0

2

4

6

8

10

12

60 80 100 120 140 160 180

Somma errata di due classi Somma corretta di due classi

Page 13: Prontuario Di Statistica

(2000) 01-11

Gli ISTOGRAMMI sono rappresentazioni grafiche di tipo areale

• aree dei rettangoliproporzionali alle frequenze

• altezze dei rettangoliproporzionali alle frequenze

• basi dei rettangoli :ampiezze uguali ––> ragionare in termini di altezze o di aree èequivalenteampiezze diverse –-> occorre rendere le altezza proporzionalidividendo il numero di osservazioni per il numero di classicontenute nella base

• asse verticale :deve mostrare lo zero reale (o “origine”) al fine di non travisarele caratteristiche dei dati

0

1

2

3

4

5

6

7

8

60 80 100 120 140 160 180

(Valore iniziale = 60; Valore finale = 199; Passo = 10; Classi =1 4)

Questa rappresentazione grafica non è significativa, a causa di una eccessiva suddivisione

in classi

Page 14: Prontuario Di Statistica

(2000) 01-12

POLIGONI

valori relativi o percentuali (simili agli istogrammi) ottenuti unendo con lineaspezzata i punti centrali di ogni classe

• l'asse orizzontale rappresenta il fenomeno• l'asse verticale rappresenta la proporzione o percentuale di ogni classe• area sottesa : 1 per le frequenze relative; = 100 per le percentuali• linea spezzata unita all'asse orizzontale all'inizio e alla fine (il valore

centrale della 1.a classe con quello di una precedente classe fittiziadi valore 0; il valore centrale dell'ultima classe con quello di unaclasse successiva fittizia di valore 0)

DISTRIBUZIONI CUMULATE E GRAFICI POLIGONALI

evidenziano quante sono in totale le misure inferiori o superiori ad un certo valore

• il valore dell'asse orizzontale corrispondente al 50% dell’asseverticale identifica la mediana (importante quando la distribuzionedei dati è asimmetrica)

0

0.05

0.1

0.15

0.2

0.25

0.3

50 70 90 110 130 150 170 190 2100

0.10.20.30.40.50.60.70.80.9

1

50 70 90 110 130 150 170 190 210

Poligono Poligono cumulato

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 1 2 3 4 5 6 7 8 9 Istogramma cumulato

Page 15: Prontuario Di Statistica

(2000) 01-13

RAPPRESENTAZIONI GRAFICHE DI DATI QUALITATIVI

RETTANGOLI DISTANZIATI (o GRAFICI A COLONNE)

Si tratta di rettangoli con basi uguali ed altezze proporzionali alle intensità (ofrequenze) corrispondenti ai vari gruppi considerati

• quando non esiste una logica specifica nell'ordine, i rettangoli ocolonne vengono disposti dal maggiore al minore

• se le classi qualitative sono composte da sottoclassi, è possibile anchequesta ulteriore rappresentazione grafica dividendo il rettangolorelativo in più parti, le cui altezze devono essere proporzionalialle frequenze delle sottoclassi

• avendo basi uguali, le aree sono proporzionali alle altezze, pertantoanche i diagrammi a rettangoli distanziati sono rappresentazioniareali

0

50000

100000

150000

200000

1 2 3 4 0 50000 100000 150000 200000

1

2

3

4

5

Page 16: Prontuario Di Statistica

(2000) 01-14

ORTOGRAMMI (o GRAFICI A NASTRI)

Sono simili ai rettangoli distanziati, ma con le classi di frequenza sequenziali sullastessa barra per una migliore lettura

0

100000

200000

300000

400000

500000

1 2 3 4 0 100000 200000 300000 400000 500000

1

2

3

4

DIAGRAMMI A PUNTI

Si ottengono sostituendo ai rettangoli una linea punteggiata

• rappresentano molto bene le informazioni contenute in distribuzionidi frequenza di dati qualitativi

AREOGRAMMI

Sono superfici di figure piane (quadrati, rettangoli, cerchi o loro parti)

• utilizzati con frequenze o quantità di una distribuzione di variabilequalitativa

• la rappresentazione può avvenire:- con più figure dello stesso tipo aventi superfici proporzionali allefrequenze o quantità- con unica figura suddivisa in parti ugualmente proporzionali

AREOGRAMMI A TORTA (o CIRCOLARI)

E’ un cerchio suddiviso in parti proporzionali alle classi di frequenza, come per irettangoli.

Page 17: Prontuario Di Statistica

(2000) 01-15

MEDIANA

è il valore che occupa la posizione centrale in un insieme ordinato di dati

• Proprietà :- non è influenzata dai valori estremi, ma solo dal numero delle

osservazioni- ogni osservazione estratta a caso ha la stessa probabilità di essere

inferiore o superiore alla mediana

• Si usa :- per attenuare l'effetto di valori estremi molto alti o bassi- nel caso di scale ordinali o di ranghi

N.B. : Ooccorre ordinare i valori :- se il campione ha un numero dispari di dati, la mediana è il valore

del dato centrale, in posizione (n+1)/2- se il campione ha un numero pari di dati, la mediana è la media

aritmetica dei valori numerici dei due valori centrali(posizioni n/2 e n/2+1)

10 11 12 13 14 15I I I I II

10.1 10.8 13.1 13.4 13.9 14.2 14.5

media (12.85)

mediana

MODA

è il valore più frequente di una distribuzione

• Proprietà:- non è influenzata dalla presenza di alcun valore estremo- differisce quando con gli stessi dati si formano classi diampiezza differente

• Si usa :- solo a scopi descrittivi, essendo più variabile delle altre misure ditendenza centrale

Page 18: Prontuario Di Statistica

(2000) 01-16

DISTRIBUZIONI DI FREQUENZA

- UNIMODALI ––> hanno un’unica moda- BIMODALI (e PLURIMODALI) ––> hanno mode secondarie

00.05

0.10.15

0.20.25

0.30.35

0.40.45

0.5

-3.98 -1.98 0.02 3.38 Distribuzione bimodale

INTERVALLO MEDIO

E’ la media aritmetica tra il valore più piccolo e quello più grande

• Proprietà : si calcola rapidamente anche con un elevato numero di dati• Si usa :- quando non ci sono valori erratici (outliers) per evitare un valore dell'intervallo

medio molto distorto- in meteorologia, nel caso di una serie di dati sulla temperatura o per il calcolo della

precipitazione media mensile, essendo improbabile la presenza di valoriestremi

MEDIA INTERQUARTILE

E’ la media fra 1° e 3° interquartile (=mediane della 1ª e della 2ª metà dei dati)

• Proprietà : risente in misura molto più ridotta della presenza di valori estremi

TRIMEDIA (proposta da Tuckey) : T = Q1 + 2Q2 + Q3

4Q2 = mediana; Q1 e Q3 = mediane della prima e seconda metà dei dati ordinati

• Si usa :- quando si dispone di materiale molto variabile- con una distribuzione molto asimmetrica (es.: misure d'inquinamento atmosferico

con picchi anomali)

Page 19: Prontuario Di Statistica

(2000) 01-17

MISURE DI DISPERSIONE O VARIABILITA'

CAMPO DI VARIAZIONE (O INTERVALLO DI VARIAZIONE)

E’ la differenza tra il valore massimo e il valore minimo

• Proprietà :- intuitivo e semplice, in particolare quando i dati sono ordinati- incapace di misurare come i dati sono distribuiti entro l'intervallo- risente della presenza di valori anomali

• Si usa : quando i valori delle osservazioni devono restare entro limiti prestabiliti

DIFFERENZA INTERQUARTILE

tra il 3° ed il 1° quartile (tra il valore della mediana della seconda metà equello della mediana della prima metà della distribuzione)

1

4

1

2

3

4 1

1 2 3 4Q Q Q Q

QUANTILI (O FRATTILI) :

Sono misure di posizione non-centrale con esclusive finalità descrittive (ognigruppo parziale contiene la stessa frazione di osservazioni)

- DECILI ––> dividono i dati ordinati in decine- PERCENTILI ––> dividono i dati ordinati in centesimi

• Proprietà : individuano i valori che delimitano una % o frazione stabilita di valoriestremi (es.: nel monitoraggio dell'inquinamento indicano i valori cherientrano nell’x% dei massimi o minimi)

• Si usano :- quando non si conosce la forma della distribuzione- quando la distribuzione è fortemente asimmetrica

Page 20: Prontuario Di Statistica

(2000) 01-18

SCARTO MEDIO ASSOLUTO ( )S m DALLA MEDIA ( )x

Sx x

nm

i=−∑ per dati semplici

Sx x n

nm

i i per dati ponderati con la frequenza ni di ogni classe

xi = valore del dato i-esimo in una distribuzione semplice e valore centrale

della classe in una distribuzione di frequenza

n = n° totale di datini = n° di dati della classe i-esima in una distribuzione di frequenza

SCARTO MEDIO ASSOLUTO DALLA MEDIANA

E’ la media degli scarti assoluti dei singoli dati dalla loro mediana e viene calcolatocome sopra, sostituendo la mediana alla media

• Proprietà :- rende minima la somma degli scarti assoluti- è inferiore allo scarto medio assoluto dalla media (è uguale solo quando

media e mediana coincidono)- viene usato come misura di dispersione in alcuni test di statistica non

parametrica

DEVIANZA (o SOMMA DEI QUADRATI degli scarti dalla media, SQ, SUM OF

SQUARES, SS) E’ la base delle misure di dispersione dei dati

Formule EURISTICHE :( ) ( )devianza SQ x xi= −∑ 2

per serie ordinate di dati

( )devianza x x ni i(SQ) = −∑ 2per dati in distribuzioni di frequenza

FORMULA EMPIRICA (o ABBREVIATA) :

( )devianza x

x

n(SQ) = −∑ ∑

2

2

x2 = sommatoria dei quadrati delle osservazioni

( )x∑ 2= sommatoria totale quadrata

n = n° delle osservazioni

Page 21: Prontuario Di Statistica

(2000) 01-19

ESERCIZIO

Calcolare la devianza (SQ) nei due modi descritti dei valori: 5 6 7 7 8 10

x =+ + + + +

= =5 6 7 7 8 10

6

43

67 16,

( )devianza x xi(SQ)

( , ) ( , ) ( , ) ( , ) (8 , ) ( , )

, , , , , , ,

= − =

= − + − + − + − + − + − == + + + + + =

∑ 2

2 2 2 2 2 25 716 6 7 16 7 716 7 7 16 716 10 7 16

4 665 13456 0 0256 00256 07056 8 0656 148356

( )devianza x

x

n(SQ)

( ) , ,

= − =

= + + + + + − = − = − =

∑ ∑2

2

2

25 36 49 49 64 10043

6323

1849

6323 30816 1484

VARIANZA (o QUADRATO MEDIO, Mean Square, MS)

media dei quadrati degli scarti dei valori dalla loro media (devianza media)

V. DI UNA POPOLAZIONE devianza diviso il n° di osservazioni n

( )σ

µ2

2

=−∑ x

ni

V. DI UN CAMPIONE devianza diviso n-1 (correzione di Student)

( )s2

2

1=

−−

∑ x x

ni

• nella statistica inferenziale, cioè quando si utilizzano i dati del campioneper stimare le caratteristiche di una popolazione, si usa sempre lavarianza campionaria

• n-1, n° di osservazioni indipendenti, è chiamato GRADI DI LIBERTÀ

(gdl, df); poiché la somma degli scarti dalla media è uguale a zero,l'ultimo valore è fissato a priori e non è libero di assumere qualsiasivalore

Page 22: Prontuario Di Statistica

(2000) 01-20

DEVIAZIONE STANDARD (o SCARTO QUADRATICO MEDIO, σ per unapopolazione; s per un campione)

E’ la radice quadrata della varianza

( )( )

deviazione s dard stan =−

−=∑ x x

n 1

i

2

i 1

n

• Proprietà :- è sempre un valore positivo- è una misura della dispersione della variabile casuale attorno alla media

COEFFICIENTE DI VARIAZIONE (CV)

Misura la dispersione percentuale relativa dei dati in rapporto alla media

cv 10=

σµ

0 ( µ = media; σ = deviazione standard )

• Proprietà :- è un numero puro svincolato da ogni scala di misura e dalla tendenza

centrale del fenomeno studiato- in quanto rapporto, ha significato solo se calcolato per variabili misurate

con una scala di rapporti- tende ad essere costante per ogni fenomeno (di solito oscilla tra il 5% e il

30%)

• Si usa per confrontare :- la variabilità di due o più gruppi con medie molto diverse- dati espressi in unità di misura diverse- popolazioni differenti per lo stesso carattere (es.: confronto tra la

variabilità di specie animali di taglie diverse, come cani e cavalli)

N.B. Un C.V. molto basso (<5%) fa sospettare l'esistenza di un fattore limitante che abbassa

notevolmente od elimina la variabilità; un C.V. molto alto (>50%) è indice di condizioni anomale

(es.: quando in un gruppo animale gli individui mostrano grandi differenze nell'accrescimento, si

può sospettare uno squilibrio alimentare).

Page 23: Prontuario Di Statistica

(2000) 01-21

VARIANZA IN DATI RAGGRUPPATI ( CORREZIONE DI SHEPPARD (oCORREZIONE PER LA CONTINUITÀ )

In una distribuzione di frequenza di misure continue, il raggruppamento inclassi approssima tutti i valori compresi nell'intervallo al loro valore centrale, e illoro risultato non coincide con quello calcolato sui dati reali

Se la distribuzione è normale, per il calcolo della media le approssimazioni asinistra della media compensano quelle a destra e, tra i due sistemi di calcolo, sihanno solo differenze casuali di entità ridotta

Per il calcolo della varianza, le approssimazioni di segno opposto sonoelevate al quadrato e dunque si sommano: la varianza reale calcolata dai datioriginari è inferiore a quella calcolata sui raggruppamenti in classi, e le differenzecrescono all'aumentare dell’ampiezza dell'intervallo delle classi

Alla varianza è calcolata su una distribuzione di dati raggruppati in classi, sideve apportare la correzione :

σ σ2 22

reale calcolata = h

12− (h=ampiezza delle classi)

ESEMPIO

In una distribuzione di frequenza in cui le classi hanno ampiezza costante conintervallo h=10 è stata calcolata una varianza σ2=50. La varianza corretta, che sisarebbe ottenuta utilizzando i singoli valori, secondo Sheppard dovrebbe essere:

σ22

reale = 0 1

125

050 8 33 41 66− = − =, ,

La relazione è valida per le popolazioni, mentre con pochi dati campionari, èdifficile sapere se la distribuzione rispetta le condizioni fissate da Sheppard (esserecontinua, limitata ad un intervallo di ampiezza finito, le due code della distribuzionetendere a zero in modo graduale)

Per piccoli campioni la correzione potrebbe essere sbagliata e determinare unerrore maggiore, per cui molti sperimentatori preferiscono non applicare lacorrezione

Page 24: Prontuario Di Statistica

(2000) 01-22

INDICI DI FORMA DI UNA DISTRIBUZIONE

Riguardano due caratteristiche :

- SIMMETRIA

- CURTOSI

Caratteristiche:• le misure sono ancora rudimentali• le definizioni permangono equivoche

Si ha SIMMETRIA :- nelle distribuzioni unimodali, quando:

media, moda e mediana coincidono- nelle distribuzione bimodali, quando :

solo media e mediana coincidono- in qualunque distribuzione, quando :

i valori equidistanti dalla medianapresentano la stessa frequenza(questa è quindi una condizione che non

caratterizza la distribuzione in modo univoco)

0

2

4

6

8

10

12

1 2 3 4 5 6 7 8 9 10 110

2

4

6

8

10

12

1 2 3 4 5 6 7 8 9 10 11

Distribuzioni simmetriche

Page 25: Prontuario Di Statistica

(2000) 01-23

Si ha ASIMMETRIA A DESTRA quando :i valori maggiori sono più frequenti (la successione delle misuredi tendenza centrale da sinistra a destra è: moda, mediana,media)

Si ha ASIMMETRIA A SINISTRA quando :i valori minori sono più frequenti (la successione delle misuredi tendenza centrale da sinistra a destra è: media, mediana,moda)

0

0.05

0.1

0.15

0.2

0.25

0.3

0 1 2 3 4 5 6 7 8 9 10

0

0.05

0.1

0.15

0.2

0.25

0.3

0 1 2 3 4 5 6 7 8 9 10

Distribuzione con asimmetria a sinistra

0

0.05

0.1

0.15

0.2

0.25

0.3

1 2 3 4 5 6 7 8 9 10

0

0.05

0.1

0.15

0.2

0.25

0.3

1 2 3 4 5 6 7 8 9 10

Distribuzione con asimmetria a destra

0

0.05

0.1

0.15

0 6 12 18 24

MEDIAMEDIANAMODA

0

0.05

0.1

0.15

0 6 12 18 24

MODAMEDIANAMEDIA

Page 26: Prontuario Di Statistica

(2000) 01-24

Attenzone alle

• false simmetrie ...

nella distribuzione 4 16 20 20 20 30 30 media, mediana e moda sonocoincidenti (valore 20), ma la sua forma non è simmetrica

• false asimmetrie ...

analizzando la distribuzione dei dati di un campione, può capitare di rilevareun'asimmetria determinata dal ridotto numero di osservazioni, o da modalitàinadeguate di raggruppamento in classi

In questi casi si parla di ASIMMETRIA FALSA, dadistinguere dalla ASIMMETRIA VERA che esiste solo perle distribuzioni di popolazioni

INDICI DI ASIMMETRIA

- Dovrebbero essere = 0 se (e solo se) la distribuzione è simmetrica- Non godono della stessa proprietà degli indici di variabilità o dispersione

- quando la distribuzione è simmetrica sono nulli- quando la distribuzione è asimmetrica possono essere nulli

INDICI DI ASIMMETRIA ASSOLUTA

si esprimono con le distanze tra la media e la moda o la mediana

DIFFERENZA TRA MEDIA E MODA :d = media - moda

d = 0 ––> la curva è simmetricad > 0 –-> la curva ha asimmetria positiva (o sinistra) :

media > mediana > modad < 0 ––> la curva ha asimmetria negativa (o destra) :

media < mediana < moda

Page 27: Prontuario Di Statistica

(2000) 01-25

INDICI DI ASIMMETRIA RELATIVA

Si utilizzano per confrontare l'asimmetria di più distribuzioni con valori differenti

SKEWNESS DI PEARSON (sk)INDICE γ1 DI FISHER

INDICE β1 DI PEARSON

SKEWNESS DI PEARSON (sk)E’ la differenza (d) tra media e moda divisa per la deviazione standard (s)

skd

s=

• Proprietà :- sk può essere nullo, positivo o negativo secondo la forma della

distribuzione- essendo un rapporto, è misura adimensionale, e quindi può essere

utilizzato per il confronto tra due o più distribuzioni

INDICE 1 DI FISHER

E’ il momento standardizzato di terz’ordine

γσ1

33

m

INDICE ß1 DI PEARSON

βσ1

33

2

=

m

Tra questi due ultimi indici vale la relazione: γ β1 1=

N.B.

Nel caso di distribuzioni simmetriche gli indici sk,γ1, ß1 danno un risultato nullo;

ma non sempre vale l'inverso, cioè non sempre l’ndice di asimmetria uguale a zeroesprime la perfetta simmetria di una distribuzione

Page 28: Prontuario Di Statistica

(2000) 01-26

MOMENTI DI ORDINE K rispetto ad un punto c :

( )m

x c

nk

i

k

=−∑

per una serie di dati

( )m

x c f

nk

i

k

i=− ⋅∑

per una distribuzione di frequenza divisa in classi

c = origine (c = 0) --> momento rispetto all'origine,oppure

c = media (c = media)--> momento centrale

Momento di ordine 1 rispetto all'origine (k=1; c=0) ––> mediaMomento centrale di ordine 1 (k=1; c=media) ––> 0

(è la somma degli scarti dalla media)Momento centrale di ordine 2(k=2; c=media) ––> varianza

m = 0 m = s1 22

Nello stesso modo si possono calcolare i momenti centrali di ordine terzo (m3),quarto (m4), quinto (m5),...ennesimo (mn).

I momenti centrali di ordine dispari (m3, m5,...) sono indici di simmetria :

- sono nulli per distribuzioni simmetriche- sono non-nulli per distribuzioni asimmetriche (quanto maggiore è

l'asimmetria, tanto più grande è il valore del momento centrale diordine dispari)- hanno valore positivo in distribuzioni con asimmetria destra- hanno valore negativo in distribuzioni con asimmetria sinistra

N.B.

I valori dei momenti dipendono dalla scala utilizzata; per avere una misuraadimensionale, che permetta i confronti tra più distribuzioni, bisogna dividerliper la potenza n (n=3 per il terz’ordine, n=4 per il quart’ordine, ecc.) delloscarto quadratico medio

Page 29: Prontuario Di Statistica

(2000) 01-27

CURTOSI (dal greco , curvo o convesso)

E’ il grado di appiattimento, rispetto alla curva normale (o gaussiana) delle curve unimodali simmetriche

MESO- : forma uguale alla distribuzione normaleLEPTO-: eccesso di frequenza delle classi centrali, frequenza minore delle classi

intermedie e frequenza maggiore di quelle estremePLATI-: numero più ridotto dei valori centrali, frequenza maggiore di quelle

intermedie e frequenza minore di quelle centrali ed estreme

INDICI DI CURTOSI

Si basano su rapporti, e sono pertanto misure adimensionali

Il rapporto µ4σ4

[= µ4

µ22 ] è una quantità adimensionale :

- distribuzione perfettamente normale ––> 3- dati più addensati verso il centro (lepto) ––> > 3- curva schiacciata (plati) ––> < 3

INDICE 2 DI FISHER

differenza tra il rapporto fra il momento centrale di quart’ordine e lo scartoquadratico medio (o deviazione standard) elevato alla quarta potenza e la costante3

γσ2

44

3m

- distribuzione mesocurtica o normale ––> 0- distribuzione leptocurtica o ipernormale ––> +- distribuzione platicurtica o iponormale ––> –

INDICE 2 DI PEARSON

rapporto fra il momento centrale di quart’ordine e lo scarto quadraticomedio (o deviazione standard) elevato alla quarta potenza :

βσ2

44

m= [Tra questi due indici vale la relazione β γ2 2 3= + ]

N.B. Tutti gli indici presentati si applicano sia alle variabili discrete che allecontinue, con l'ovvia approssimazione data dal raggruppamento in classi

Page 30: Prontuario Di Statistica

(2000) 01-28

ESERCIZIO

Concentrazioni (mg/l) di sodio e cloruri in 36 laghi appenninici :- rappresentare graficamente i dati e la loro distribuzione di frequenza- calcolare le misure di tendenza centrale, di dispersione e gli indici di forma

Lago Sodio Cloruri

1 1,78 1,602 1,63 1,803 1,85 2,904 2,10 2,905 1,35 2,906 1,40 2,907 1,82 2,008 1,35 2,009 2,06 2,0010 1,85 2,2011 1,51 2,3012 2,00 2,3013 2,02 2,8014 1,90 2,8015 1,60 2,8016 2,18 2,5017 1,82 2,5018 1,90 2,5019 1,75 2,6020 2,11 2,6021 2,30 2,6022 1,95 2,7023 2,60 2,9024 2,44 2,9025 2,18 3,0026 2,51 3,1027 2,37 3,1028 2,54 3,3029 2,06 3,3030 2,77 3,4031 2,31 3,4032 2,81 3,6033 2,33 3,7034 1,45 3,8035 1,78 3,8036 2,09 3,90

Page 31: Prontuario Di Statistica

(2000) 01-29

Sodio CloruriNumero di dati (Count, N. of data) 36 36Somma (Sum) 72,87 101,4Minimo (Minimum) 1,37 1,6Massimo (Maximum) 2,81 3,9Intervallo (Range) 1,46 2,3Media aritmetica (Mean) 2,024 2,817Media geometrica (Geometric mean) 1,987 2,756Media armonica (Harmonic mean) 1,949 2,692Devianza (Sum of squares) 152,785 297,38Varianza (Variance, Mean square) 0,151 0,336Deviazione standard (Standard deviation) 0,389 0,58Errore standard (Standard error) 0,065 0,097Curtosi (Kurtosis) -0,655 -0,53Asimmetria (Skewness) 0,084 -0,015

0

2

4

6

8

10

1.2 1.6 2 2.4 2.80

2

4

6

8

10

12

1.5 1.9 2.3 2.7 3.1 3.5 3.9

Concentrazioni sodio Concentrazioni cloruri

Page 32: Prontuario Di Statistica

(2000) 01-30

ESERCIZIO

Densità dei principali taxa fitoplanctonici in 4 laghi appenninici- rappresentare i dati in tabella nelle forme grafiche di uso più comune

Clorophyceae Cryptophyceae Crysophyceae Diatomophyceae Dinophyceae

Lago 1 179.857 83.497 30.891 166.861 25.600Lago 2 120.893 29.000 136.791 27.500 28.000Lago 3 198.043 54.454 82.770 38.712 54.734Lago 4 57.496 42.980 66.440 34.356 31.270

0

50000

100000

150000

200000

1 2 3 40

100000

200000

300000

400000

500000

1 2 3 4

138%

217%

36%

434%

55%

135%

28%

341%

48%

58%

Lago 1 Lago 2

146%

2

13%

319%

49%

513%

125%

218%

329%

4

15%

513%

Lago 3 Lago 4

Page 33: Prontuario Di Statistica

(2000) 01-31

ESERCIZIO

Delle due serie di dati:A: 5 7 2 4 3B: 15 11 9 8 10 12

calcolare le misure di tendenza centrale, di dispersione e gli indici di forma

A BNumero di dati (Count, No. of data) 5 6Somma (Sum, Summation) 21 65Minimo (Minimum) 2 8Massimo (Maximum) 7 15Intervallo (Range) 5 7Media (Mean, Average) 4,2 10,833Media geometrica (Geometric mean) 3,845 10,60Media armonica (Harmonic mean) 3,506 10,398Devianza (Sum of squares, SS) 103 735Varianza (Variance, Mean square) 3,7 6,167Deviazione standard (Stn. dev.) 1,924 2,483Errore standard (Standard error) 0,86 1,014Curtosi (Kurtosis) -1,005 -0,605Asimmetria (Skewness) 0,084 0,636

00.10.20.30.40.50.60.70.80.9

1

0 1 2 3 4 5 6 7 8 9

1

35%

2

8%

3

41%

4

8%5

8%

Page 34: Prontuario Di Statistica

(2000) 01-32

0

1

10 11 12 13 14 15 16

10 11 12 13 14 15

10.1 10.8 13.1 13.4 13.9 14.2 14.5

0

1

10 11 12 13 14 15

.

0

0.05

0.1

0.15

0 6 12 18 24

MEDIAMEDIANAMODA

0

0.05

0.1

0.15

0 6 12 18 24

MODAMEDIANAMEDIA

0

0.05

0.1

0.15

0 6 12 18 240

0.05

0.1

0.15

0 6 12 18 24

Page 35: Prontuario Di Statistica

MISURE DI TENDENZA CENTRALE

Le rappresentazioni grafiche forniscono una sintesi visiva delle caratteristiche fondamentali delle

distribuzioni di frequenza; rispetto alle cifre, le figure forniscono impressioni che sono percepite

con maggiore facilità, ma nel contempo sono meno ricche di particolari. Per caratteri qualitativi,

la tabella e le rappresentazioni grafiche esauriscono quasi completamente gli aspetti descrittivi.

Per i caratteri quantitativi, si pone il problema di sintesi oggettive che siano numeriche; è una

trasformazione indispensabile per la loro elaborazione. I grafici forniscono una descrizione che

può essere espressa mediante una interpretazione soggettiva; un'analisi obiettiva deve condurre

tutti i ricercatori, che analizzano gli stessi dati, alle medesime conclusioni.

Un gruppo di dati numerici è compiutamente descritto da tre proprietà principali:

1) la tendenza centrale o posizione

2) la dispersione o variabilità

3) la forma

Queste misure descrittive sintetiche, riassuntive dei dati tabellari, sono chiamate statistiche, quando sono

calcolate su un campione di dati; sono chiamate parametri, quando descrivono la popolazione od universo dei

dati.

Le misure di tendenza centrale o posizione servono ad individuare il valore intorno al quale

i dati sono raggruppati; se una distribuzione di dati dovesse essere descritta con un solo valore, è

questa la misura più appropriata per sintetizzare l'insieme delle osservazioni..

A causa della varietà delle distribuzioni ed in funzione del tipo di scala, le misure di tendenza

centrale proposte sono essenzialmente tre: la media, la moda e la mediana. Più raramente si

trovano altre misure, come l'intervallo medio.

Media aritmetica semplice è la media o la misura di tendenza centrale più comunemente

utilizzata. E' uguale alla somma del valore di tutte le osservazioni, diviso il numero di unità.

x x + x + . . .+ x

n1 2 n=

che con una notazione più generale diventa:

x

x

n

i

i 1

n

= =∑

x = media del campionexi = i-esima osservazione della variabile X

n = numero di osservazioni del campione

Page 36: Prontuario Di Statistica

i 1

n

= sommatoria di tutti gli x del campione.

E' importante annotare che la media sarebbe il baricentro della distribuzione campionaria, se

ogni singola osservazione fosse rappresentata come un peso convenzionale, identico per tutti,

lungo l' asse che riporta i valori con una scala di intervalli o di rapporti. La media aritmetica

corrisponde al punto di bilanciamento o di equilibrio dei dati.

10 11 12 13 14 15 16

media

v10.9 11.5 12.3 12.8 15.4

(12.58)

X =+ + + +

=10 9 11 5 12 3 12 8 15 4

512 58

, , , , ,,

In una distribuzione di frequenza raggruppata in classi, come valore rappresentativo di tutti i

valori di ogni classe si prende il dato centrale di ognuna di esse.

La media aritmetica, detta media aritmetica ponderata è calcolata più rapidamente con

x

f x

f

i

i

n

i

i

i

n

1

1

x =media della distribuzione in classixi = valore medio di una classe di intervallo

fi = numero di osservazioni della classe i-esima classe

n = numero di classi, = sommatoria di tutte le classi

Calcolo dell'altezza media di un gruppo di 25 ventenni con la seguente distribuzione in classi:

.Classe altezza xi 150-159 160-169 170-179 180-189 190-199

Frequenza fi 3 5 8 6 3

(media)x =⋅ + ⋅ + ⋅ + ⋅ + ⋅

+ + + += =

( ) ( ) ( ) ( ) ( ),

155 3 165 5 175 8 185 6 195 3

3 5 8 6 3

4385

25175 4

Page 37: Prontuario Di Statistica

Le applicazioni della media aritmetica semplice sono numerose e derivano da alcune proprietà:

le grandezze additive sono le più frequenti in natura; la media aritmetica effettua la correzione

degli errori accidentali d'osservazione, per cui essa è la stima più precisa di misure ripetute; la

media aritmetica è la più semplice delle medie algebriche. A causa del suo uso diffuso, quando si

parla di media si intende sempre la media aritmetica, se non diversamente espresso

Quando le quantità od i fattori causali non sono additivi oppure i dati sono ottenuti da rapporti,

si ricorre ad altri tipi di medie; in questi casi, quelle di uso più frequente nelle scienze ambientali

sono la media geometrica, la media armonica e la media quadratica.

Media geometrica : è utilizzata quando le variabili non sono rappresentate da valori lineari ma

da prodotti, come per il confronto di superfici o volumi, di tassi di accrescimento o di

sopravvivenza, valori che sono espressi da rapporti.

Per il calcolo della media geometrica, le quantità devono essere tutte positive (condizione

necessaria). Se fossero negative, si devono trasformare nel loro valore assoluto.

La media geometrica di n dati è uguale alla radice di ordine n (solo positiva) del prodotto

degli n dati.xg = ⋅ ⋅ ⋅x x xn

n1 2 ...

che può essere scritto come

xg ==

∏ x i

i

n

n

1

Una proprietà importante è che il logaritmo della media geometrica è uguale alla media

aritmetica dei logaritmi dei dati.

log logxn

x i

i

n

==∑

1

1

Risulta utile in particolare quando si deve ricorrere alla trasformazione dei dati nei loro

logaritmi, allo scopo di normalizzare la distribuzione ed applicare in modo corretto i tests di

inferenza.

Media armonica : è la stima più corretta della tendenza centrale in distribuzioni in cui si

devono usare gli inversi dei dati. Si tratta di una misura di tendenza centrale da utilizzare

quando i valori di X sono espressi come rapporti di un totale costante:

mn

x

h

ii

n=

=∑ 1

1

Media quadratica : è la radice quadrata della media aritmetica dei quadrati:

Page 38: Prontuario Di Statistica

m

x

nq

i

i

n2

1

Sotto l'aspetto matematico può essere calcolata per valori positivi, nulli o negativi; ma essa ha

senso come misura di tendenza centrale solamente se i valori sono positivi o nulli. Trova

applicazioni quando si analizzano superfici, come il diametro della sezione di un albero o

appezzamenti di terreno.

Page 39: Prontuario Di Statistica

CONCETTO DI PROBABILITÀ'

Il risultato (o esito) di ogni singolo evento, in una sequenza fondata su processi- casuali- mutualmente esclusivi- equiprobabili- indipendenti

è imprevedibile

Se il numero di eventi (o osservazioni) è elevato, si stabiliscono delle “regolarità”, cherenderanno l’esito prevedibile e calcolabile con precisione crescente all'aumentare delleosservazioni

PROBABILITÀ MATEMATICA (o A PRIORI O CLASSICA) :

• peculiarità :- non si richiede alcun dato sperimentale- i risultati sono conosciuti a priori- è basata sul solo ragionamento logico formalizzato nel

• principio di Laplace :la probabilità di un evento è il rapporto tra il numero di casi favorevolied il numero di casi possibili, purchè tutti i casi siano ugualenteprobabili

• esempi :- lancio di una moneta- lancio di un dado- lotterie (la probabilità di fare ambo è superiore a quella di fare terno)

- ordini d'arrivo in una gara dove nessuno ha i favori del pronostico

• comporta limitazioni per la ricerca sperimentale poichè questa è basata su unapproccio non teorico ma empirico :

- per valutare una probabilità sarebbe necessario conoscere preventivamente le diverse

probabilità dei vari eventi

- non sarebbe possibile rispondere a quesiti che per loro natura richiedano

osservazioni ripetute

2001-02-1

Page 40: Prontuario Di Statistica

PROBABILITÀ FREQUENTISTA

(o A POSTERIORI, o LEGGE EMPIRICA DEL CASO, o STATISTICA) :

• ise in un insieme di prove la frequenza di un evento è all'incircacostante, questo valore di frequenza è assunto come probabilità

• si basa sul principio di von Mises (formulato nel 1920) :la probabilità di un evento, in una serie di prove condotte nellestesse condizioni, è il limite a cui essa tende al crescere delnumero delle osservazioni

• si applica in tutti quei casi in cui non sono note a priori le leggi deifenomeni studiati, ma possono essere determinate a posteriori;ovvero...

...per calcolare la probabilità attesa di trovare un numero stabilito di individui in un conteggio,

deve essere nota la percentuale di presenza rilevata attraverso una precedente serie di osservazioni.

Infatti, l’unico modo per rispondere ai quesiti empirici è condurre una serie di osservazioni od

esperimenti, in condizioni controllate statisticamente, per rilevare la frequenza relativa del fenomeno

PROBABILITÀ SOGGETTIVISTICA (o "BAYESIANA")

Le probabilità classica e frequentista richiedono che gli eventi ripetuti siverifichino in condizioni uniformi o presunte tali. Ma nella teoria della probabilità sonoinclusi anche fenomeni che non possono essere ricondotti a queste condizioni, perchèsono considerati eventi unici od irripetibili

Ad esempio, determinare la probabilità che ...- avvenga una catastrofe- entro la fine dell'anno scoppi la terza guerra mondiale- una specie animale o vegetale si estingua

... presuppone il giudizio di più individui o stime personali, e introduce un terzo tipo diprobabilità: la probabilità soggettiva (o bayesiana)

2001-02-2

Page 41: Prontuario Di Statistica

• si fonda sul principio che la probabilità è una stima del grado diaspettativa di un evento, secondo l'esperienza personale di unindividuo

• è una misura della convinzione circa l'esito o l’accadimento di un evento

• ha vaste ed interessanti applicazioni nelle scienze sociali ed economiche,dove l'attesa di un fenomeno o una convinzione possono influire suifenomeni reali (svalutazione, prezzi di mercato, comportamentisociali)

• aspetti controversi :- come misurare un grado di aspettativa, dato che sperimentatoridiversi attribuscono probabilità differenti allo stesso fenomeno ?

- come modificare la probabilità soggettiva di partenza indipendenza dei successivi avvenimenti oggettivi, in assenza direplicazioni ?

- se il mondo esterno è realtà oggettiva indipendente, la conoscenzanon può derivare da convinzioni personali o da preferenzeindividuali: l'approccio soggettivo non risulta attendibile, in quantonon permette la conoscenza oggettiva del reale

Nel contesto delle scienze sperimentali predominano i casi di eventi ripetibili, incondizioni almeno approssimativamente uguali o simili, ertanto di norma si fa ricorsoall'impostazione frequentista, trascurando quella soggettivistica più utile in altrediscipline

2001-02-3

Page 42: Prontuario Di Statistica

LEGGI DI PROBABILITÀ

CALCOLO COMBINATORIO DI AGGRUPPAMENTI SEMPLICI

• è strumento fondamentale nella statistica

• sebbene il risultato di ogni singolo tentativo sia imprevedibile, con unnumero elevato di ripetizioni si stabiliscono regolarità che possonoessere calcolate e, dunque, previste

• serve per collegare una scelta alla probabilità di attesa dell'eventodesiderato, nel contesto di tutti gli eventi possibili

• il risultato è sempre un valore compreso tra 0 e 1

ESEMPIO Gara di corsa tra 10 concorrenti

- quanti differenti ordini d'arrivo sono possibili ?- quale è la probabilità di indovinare i primi tre :

- nell'ordine ?- senza stabilire il loro ordine ?

- conviene scommettere 10.000 lire per guadagnarne 500.000 se si indovinerannoi primi 2 :

- nell'ordine ?- senza stabilire il loro ordine ?

Requisiti fondamentali degli eventi:- si escludono a vicenda-- sono tutti ugualmente possibili--- vengono generati da eventi puramente casuali---- avvengono in modo indipendente

Gli aggruppamenti si distinguono in :

• PERMUTAZIONI

• DISPOSIZIONI

• COMBINAZIONI

2001-02-4

Page 43: Prontuario Di Statistica

PERMUTAZIONI SEMPLICI

I sottoinsiemi che si possono formare collocando n elementi differenti

a1 a2 a3 ... an in tutti gli ordini possibili

Il numero di permutazioni di n elementi è : Pn = n!

dove : n! (n fattoriale) = 1 2 3... n⋅ ⋅ ⋅ ⋅ (*)

ESEMPIO. Le permutazioni degli elementi a b c sono : [ abc acb bca bac cba cab ]

ESEMPIO. Le permutazioni degli elementi a b c d sono : 4! = 1 2 3 4 = 24⋅ ⋅ ⋅[ abcd abdc acbd adcb cabd cdba dbac cbda .... ]

(*) I primi 25 numeri fattoriali

1! = 12! = 23! = 64! = 245! = 1206! = 7207! = 5.0408! = 40.3209! = 362.880

10! = 3.628.80011! = 39.916.80012! = 479.001.60013! = 6.227.020.80014! = 87.178.291.20015! = 1.307.674.368.00016! = 20.922.789.888.00017! = 355.687.428.096.00018! = 6.402.373.705.728.00019! = 121.645.100.408.832.00020! = 2.432.902.008.176.640.00021! = 51.090.942.171.709.440.00022! = 1.124.000.727.777.607.680.00023! = 25.852.016.738.884.976.640.00024! = 620.448.401.733.239.439.360.00025! = 15.511.210.043.330.985.984.000.000

Nel calcolo fattoriale, per definizione : 0! = 1 e 1! = 1

2001-02-5

Page 44: Prontuario Di Statistica

DISPOSIZIONI SEMPLICI

I sottoinsiemi di p elementi, tratti da un insieme di n oggetti differenti

a1 a2 a3 ap ... an

che si diversificano per almeno un elemento o per il loro ordine

Il numero di disposizioni semplici di n elementi presi p a p è :

Dnp = n!

(n − p)!

ESEMPIO. Le disposizioni di 4 elementi a b c d presi 3 a 3 sono :abc abd acd acb adb adc bac bad bcd bca bda bdccab cad cbd cba cda cdb dab dac dbc dba dca dcb

cioè :

D43 = 4!

(4 − 3)!= 24

1= 24

Un metodo alternativo per calcolare le disposizioni semplici di n elementi presi p a p :

Dnp = n(n −1)(n − 2)...(n − p +1)

Questo metodo è più pratico e più rapido quando n e p sono quantità elevate.

Infatti, le disposizioni di 4 elementi presi 3 a 3 si possono calcolare come :

D43 = 4(4 − 1)(4 − 2) = 4 ⋅ 3⋅ 2 = 24

ESEMPIO. Le disposizioni di 7 elementi presi 3 a 3 sono :

D73 = 7(7 − 1)(7 − 2) = 7⋅ 6 ⋅5 = 210

2001-02-6

Page 45: Prontuario Di Statistica

COMBINAZIONI SEMPLICI

I sottoinsiemi di p elementi, tratti da un insieme di n oggetti differenti

a1 a2 a3 ap ... an

che si diversificano per almeno un elemento, ma non per il loro ordine

Il numero di combinazioni semplici di n elementi presi p a p è :

C np =

n!(n - p)! p!

Corrisponde al numero di disposizioni di n elementi presi p a p, diviso il numero dipermutazioni di p elementi

Il numero di combinazioni risulta sempre un numero intero indicato con n \ p

ed è chiamato COEFFICIENTE BINOMIALE (si legge: “n su p”)

La sequenza dei coefficienti binomiali è data dai coefficienti del Triangolo diTartaglia ( n |v ; p –>)

Ad es., le combinazioni di a b c d presi 3 a 3 sono abc abd acd bcd, cioè :

C43 = 4!

(4 − 3)!3!= 4

N.B.Numero di combinazioni di n elementi :

- presi ad n ad n : Cnn = n

n!0!= 1 (un solo sottoinsieme formato da

tutti gli elementi)

- presi ad 1 ad 1 : Cn1 = n!

1!(n -1)!= n (n è il numero di sottoinsiemi

con un solo elemento)

- presi 0 a 0 : Cn0 = n!

0!n!= 1 (c'è un solo sottoinsieme vuoto)

2001-02-7

Page 46: Prontuario Di Statistica

ESEMPIO

In un esperimento sulla fertilità di un terreno, si vogliono esaminare in modosistematico gli equilibri binari tra : Ca, Mg, Na, N, P, K

- Quante coppie di elementi occorrerà prendere in considerazione ?- Per valutare tutti gli equilibri ternari, quanti gruppi diversi si dovranno formare ?

( Risposta: C62 =

6!(6 - 2)! 2!

= 5 ⋅62

= 15 )

( Risposta: C63 =

6!(6 - 3)! 3!

= 20 )

ESEMPIO Risposte ai cinque quesiti introduttivi

1 - In una corsa con 10 concorrenti, i possibili ordini d'arrivo sono le permutazionidi 10 elementi : P = 10! = 1 2 3 4 5 6 7 8 9 10 = 3.628.80010 ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅

2 - I possibili gruppi dei primi 3 concorrenti tra 10, tenendo conto dell'ordine d'arrivo,

sono le disposizioni di 10 elementi presi 3 a 3 : D = 10!

(10-3)! = 72010

3

Probabilità di indovinare : 1/720= 0,001389

3 - I possibili gruppi dei primi 3 concorrenti tra 10, senza distinzioni dell’ordine di

arrivo, sono le combinazioni di 10 elementi presi 3 a 3 : C = 10!

(10 -3)! 3! = 12010

3

Probabilità di indovinare : 1/120 = 0,00833 cioè 6(3!) volte piùalta di quella in cui si vuole prevedere anche l'ordine

4 - La probabilità di indovinare i primi 2 tra 10, stabilendo chi sarà primo e chi

secondo, è data dalle disposizioni di 10 elementi presi 2 a 2 : D = 10!

(10-2)! = 9010

2

Probabilità di indovinare : 1/90, meno favorevole del rapporto1/50 fissato nella scommessa (non conviene scommettere)

5 - La probabilità di indovinare i primi 2 tra 10, senza stabilire l'ordine, è data dalle

combinazioni di 10 elementi presi 2 a 2 : C = 10!

(10 -2)! 2! = 4510

2

Probabilità di indovinare : 1/45, più favorevole del rapporto 1/50fissato nella scommessa (conviene scommettere)

2001-02-8

Page 47: Prontuario Di Statistica

DISTRIBUZIONI DISCRETE

BINOMIALE tende alla gaussiana, per n ––> ∞

MULTINOMIALE

POISSONIANA tende alla gaussiana per medie elevate

IPERGEOMETRICA

BINOMIALE NEGATIVA

UNIFORME

DISTRIBUZIONI CONTINUE

NORMALE (o GAUSSIANA)PROPRIETÀ E USO DELLA NORMALE

NORMALE (o GAUSSIANA) STANDARDIZZATAUTILIZZO DELLA NORMALE STANDARDIZZATA

CORREZIONI PER LA CONTINUITA' IN PROBABILITA' DISCRETE

RETTANGOLARE (o uniforme continua)

ESPONENZIALE NEGATIVA

Tendono alla “normale:- la binomiale, per n --> ∞;

- la poissoniana, per _x >> 0

2001-02-9

Page 48: Prontuario Di Statistica

DISTRIBUZIONI DISCRETE

DISTRIBUZIONE BINOMIALE (o di BERNOULLI)

• distribuzione teorica discreta e finita

• fornisce le probabilità che un evento, con probabilità (a priori o aposteriori) p, avvenga 0, 1, 2,... r, ... n volte, nel corso di n proveidentiche ed indipendenti …… che possono essere ripartite solo in due classi A e B

- con frequenze assolute na e nb- con frequenze relative

p = n a

n q =

n b

n tali che p + q =1

• la probabilità di ottenere r volte l'evento A (n-r volte l'evento B) è :

Pr = Cnr p r qn-r

dove : Cnr =

n!r! (n - r)!

N.B. Le prove possono essere successive oppure simultanee, purchè non siinfluenzino reciprocamente

ESEMPIO

Nella specie umana nascono più maschi che femmine, con un rapporto di 105 maschiper 100 femmine

A posteriori, sulla base dei dati rilevati, si può affermare che la probabilitàfrequentista di un nato maschio è p=0,52 e di un nato femmina è di q=0,48 (=1-p)

La distribuzione binomiale calcola le specifiche probabilità di 0, 1, 2, 3, 4 nascite difigli maschi nelle famiglie con 4 figli :

2001-02-10

Page 49: Prontuario Di Statistica

P0 = C40 p0 q 4 = 1⋅1⋅ (0,48) 4 = 0,05

P1 = C41 p1 q3 = 4 ⋅ (0,52) ⋅ (0,48) 3 = 0,23

P2 = C42 p 2 q 2 = 6 ⋅ (0,52) 2 ⋅ (0,48) 2 = 0,37

P3 = C43 p3 q1 = 4 ⋅ (0,52) 3 ⋅ (0,48) = 0,28

P4 = C44 p4 q 0 = 1⋅ (0,52) 4

⋅1 = 0,07

00,05

0,10,15

0,20,25

0,30,35

0,4

0 1 2 3 4

Probabilità del numero di nascite di maschi in famiglie con 4 figli

Probabilità del numero di nascite di figli maschi in famiglie con 10 figli

x P0 0.0006491 0.0070342 0.0342893 0.0990564 0.1877935 0.2441316 0.2203967 0.1364368 0.0554279 0.01334410 0.001446

0

0,05

0,1

0,15

0,2

0,25

0 1 2 3 4 5 6 7 8 9 10

2001-02-11

Page 50: Prontuario Di Statistica

La distribuzione binomiale:

- è leggermente asimmetrica, poichè le probabilità p ≠ q- tende ad essere simmetrica all'aumentare del numero di osservazioni, anche

se p ≠ q- si utilizza anche quando le probabilità sono note a priori, come nel caso dei

dadi (ovviamente bilanciati e non truccati)

ESEMPI

Probabilità di ottenere 3 volte il numero 1 lanciando un dado 5 volte (n=5 r=3 p=1/6q=5/6) :

P3 = C53 p 3 q 2 =

5!3!2!

⋅ 16

3

⋅ 56

2

= 0,03215

Probabilità di estrarre 4 biglie tutte nere da un'urna contenente un elevato numero dibiglie per il 70% nere e per il 30% bianche (n=4 r=4 p=0,7 q=0,3) :

P4 = C44 p 4 q0 =

4!4!0!

⋅0,74 ⋅0,3 0 = 0,2401

Probabilità che 9 esperimenti di laboratorio risultino positivi e 1 negativo, se di solitogli esperimenti sono positivi nel 20% dei casi (n=10 r=9 p=0,2 q=0,8) :

P9 = C109 p9 q1 =

10!9!1!

⋅0,2 9 ⋅ 0,81 = 0,000004096

0

0,05

0,1

0,15

0,2

0,25

0 2 4 6 8 10 12 14

0

0,02

0,04

0,06

0,08

0,1

0,12

0 10 20 30 40 50 60 70 80 90 100

Distribuzione binomiale (n=15 p=0,33) Distribuzione binomiale (n=100 p=0,167)

2001-02-12

Page 51: Prontuario Di Statistica

In una distribuzione binomiale :• quando n é elevato, la forma è praticamente normale e quasi simmetrica

anche se p é sensibilmente diverso da 0,5• le probabilità associate ai diversi tipi di estrazione sono espresse dai

termini dello sviluppo del binomio (p + q)n

dove p e q sono le probabilità dei due diversi eventi semplici “A” e“B” ( “A” e “non-A”), come nel caso dei numeri che possonocomparire nel lancio dei dadi

• la media è n p• varianza è 2 = n ⋅ p ⋅q• la varianza è inferiore alla media, poichè q < 1 :

q =1 − p; 2 = n ⋅ p ⋅ (1− p)

DISTRIBUZIONE MULTINOMIALE

• rappresenta una estensione di quella binomiale• si applica a k eventi indipendenti di probabilità p1 p2 ... pi ... pk (Σ pi= 1)

che possono comparire nel corso di N prove indipendenti(successive o simultanee)

ESEMPIO

In un'urna contenente moltissime biglie :

il 10% (p1 = 0,10) sono bianche il 40% (p2 = 0,40) sono rosseil 20% (p3 = 0,20) sono gialle il 30% (p4 = 0,30) sono verdi

D.:

- su 10 biglie estratte, qual’è la probabilità che 2 siano bianche, 3 rosse, 2 gialle e 3verdi ?- su 8 biglie estratte, qual’è la probabilità di che 4 siano rosse e 4 verdi ?

R.:

Le probabilità sono determinate dallo sviluppo del multinomio :

2001-02-13

Page 52: Prontuario Di Statistica

P n1 n2 ... nk( ) = N!

n1!n2! .... n k! p1

1n p22n ..... p k

kn

P( 2b , 3r, 2g , 3v ) = 10!

2!3!2!3! ( 0,10)2 ( 0, 40)3 ( 0,20)2 ( 0,30)3 =0,011612

P(4r, 4v) =8!

0!4!0!4! (0,10)0 (0,40) 4 (0,20) 0 (0,30) 4 = 0,04587

DISTRIBUZIONE POISSONIANA

• è una distribuzione teorica discreta ed infinita, totalmente determinata daun solo parametro, la media

• è la distribuzione limite della binomiale per p --> 0

Se: n ––> e p ––> 0, in modo tale che n p sia costante, Poisson nel 1837

dimostrò che : Pi = i

i! e

-= lim

n→∞p→0

( in )pn q n −i

• la media attesa è uguale a c

• la varianza attesa 2 è uguale a

nella binomiale B2 = npq ; applicando le condizioni su enunciate :

2 = limn→∞p→0

npq = limn→∞p→0

(np)q = limn→∞p→0

c(1 − p) = c =

• è detta legge degli eventi rari, essendo assai più frequenti le classi conzero o pochi eventi rispetto alle classi con numerosi eventi

• è detta legge dei piccoli numeri, essendo la frequenza assoluta deglieventi espressa da un numero piccolo, anche con molte prove

• è molto asimmetrica per valori piccoli di µ (< 3)

• è quasi simmetrica già per ≈ 7 (si diversifica poco dalla gaussiana)

2001-02-14

Page 53: Prontuario Di Statistica

Distribuzione di Poisson, µ = .0 9

i P0 0.406571 0.3659132 0.1646613 0.0493984 0.0111155 0.0020016 0.0003007 0.0000398 0.0000049 0.00000010 0.000000

00,05

0,10,15

0,20,25

0,30,35

0,40,45

0 1 2 3 4 5 6 7 8 9 10

Distribuzione di Poisson, µ = 2

i P0 0.1353351 0.2706712 0.2706713 0.1804474 0.0902245 0.0360896 0.0120307 0.0034378 0.0008599 0.000191

10 0.000038

0

0,05

0,1

0,15

0,2

0,25

0,3

0 1 2 3 4 5 6 7 8 9 10

2001-02-15

Page 54: Prontuario Di Statistica

Distribuzione di Poisson,

i P0 0.0000061 0.0000742 0.0004423 0.001774 0.0053095 0.0127416 0.0254817 0.0436828 0.0655239 0.087364

10 0.10483711 0.11436812 0.11436813 0.1055714 0.09048915 0.07239116 0.05429317 0.03832518 0.0255519 0.01613720 0.00968221 0.00553322 0.00301823 0.00157424 0.00078725 0.000378

0

0,02

0,04

0,06

0,08

0,1

0,12

0 5 10 15 20 25

2001-02-16

Page 55: Prontuario Di Statistica

ESEMPIO

In letteratura, è famoso l'esempio di Bortkewitch, un veterinario dell'armata prussianadel XIX secolo che per 20 anni contò il numero di soldati di 10 corpi d'armata cheogni anno morivano a causa di un calcio di mulo

x : numero di decessi i 0 1 2 3 4f : eventi osservati r 109 65 22 3 1

media = 122200 = 0,6100 varianza = 0,6079

Applicando la distribuzione di Poisson, si determinano le probabilità teoriche diosservare 0 1 2 3 4 decessi ogni anno

P0 = 0,610

0!⋅ 12,710,61 =

11

⋅ 11,837

= 0,5440

P1 = 0,611

1!⋅ 12,710,61 =

0,611

⋅ 11,837

= 0,3318

P2 = 0,612

2!⋅ 1

2,710,61 = 0,3721

2⋅ 11,837

= 0,1010

P3 = 0,613

3!⋅ 1

2,710,61 = 0,2270

6⋅ 11,837

= 0,0203

P4 = 0,614

4!⋅ 1

2,710,61 = 0,1385

6⋅ 11,837

= 0,0029

numero di decessi 0 1 2 3 4eventi osservati 109 65 22 3 1frequenze relative attese 0,5440 0,3318 0,1010 0,0203 0,0029eventi attesi (su 200) 108,80 66,36 20,20 4,06 0,58

Con µ=0,61 la probabilità teorica di 0 morti è 0,544 (rapportata ai 200 eventicomporta una frequenza attesa di 108,8)

Si noti che lo scarto tra osservato ed atteso è molto piccolo

2001-02-17

Page 56: Prontuario Di Statistica

ESEMPIO

In una comunità planctonica la popolazione di Eudiaptomus vulgaris èpresente col 2% degli individui

D.:

- campionando 200 individui quale è la probabilità di non trovare Eudiaptomus ?

- campionando 100 individui quale è la probabilità di trovarlo 4 volte ?

- con una presenza del 5%, come cambierebbero le probabilità precedenti ?

R. :

Campionando 200 individui:

• media della popolazione (presenza 2%) m n p= ⋅ = ⋅ =200 0 02 4,

• probabilità di non trovare individui (2%) P e0

04

04 0 0183= − =

!,

• media della popolazione (presenza 5%) m = ⋅ = ⋅ =n p 200 0 05 10,

• probabilità di non trovare individui (5%) P e0

010

010 0 0000454= − =

!,

Campionando 100 individui:

• media della popolazione (presenza 2%) m n p= ⋅ = ⋅ =100 0 02 2,

• probabilità di trovare 4 individui (2%) P e4

42

42 0 0902= − =

!,

• media della popolazione (presenza 5%) m n p= ⋅ = ⋅ =100 0 05 5,

• probabilità di trovare 4 individui (5%) P e4

45

45 0 1755= − =

!,

2001-02-18

Page 57: Prontuario Di Statistica

DISTRIBUZIONE IPERGEOMETRICA

Quando nell’urna ci sono moltissime biglie ...ogni estrazione non altera le probabilità di quelle successive, il che equivale asupporre che ogni biglia estratta sia reintrodotta (o che il numero di bigliesia praticamente infinito),

ma quando nell’urna ci sono poche biglie ...senza reintroduzione, le probabilità di estrarre biglie di un dato colore nonsono costanti, ma dipendono dagli eventi precedenti

... tali probabilità possono essere calcolate con la distribuzione ipergeometrica

ESEMPIO

Da un'urna con N biglie, delle quali n1 bianche e N-n1 nere, si estraggono n

biglie (n N≤ ) senza reintroduzione

Determinare la probabilità P(r/n) che delle n biglie estratte r siano bianche (r n≤ )

La distribuzione delle probabilità di tutti gli eventi possibili può esseredeterminata col calcolo combinatorio :

1. delle N biglie, n possono essere estratte in (N

n) modi differenti

2. delle n1 biglie bianche, r possono essere estratte in (n

r)1 modi differenti

3. delle N-n1 biglie nere, n-r possono essere estratte in (N- n

n -r)1 modi differenti

4. ognuna delle (n

r)1 diverse possibilità di estrarre biglie bianche si combina con

ognuna delle (N- n

n -r)1 possibilità di estrarre biglie nere

Ne consegue che P(r /n ) = C n

r ⋅C N −nn1 −r

C Nn1

N intero positivon intero non negativo al massimo uguale a Nn1 intero positivo al massimo uguale a N

2001-02-19

Page 58: Prontuario Di Statistica

La distribuzione ipergeometrica è definita da tre parametri :N numero totale di individui che formano la popolazionen1 numero degli individui del gruppo considerato

n numero di individui estratti in funzione dir numero di individui estratti appartenenti al gruppo considerato

• Per N ––> la distribuzione ipergeometrica converge verso la binomiale

• Media n1

N⋅n = np essendo

n1

N= p

• Varianza n ⋅ p ⋅q ⋅ N − nN − 1

inferiore alla varianza della binomiale

ESEMPIO

In un lago sono presenti 12 pesci appartenenti a specie diverse, ma con il 50% diSalmo trutta; pescando 4 pesci a caso, qual’è la probabilità che nessuno sia trota ?

(N =12; n1

=6; n=4; r=0) P( 0 / 4 )

= 28

924 = 0,0303

Si può arrivare alla soluzione con un'altro approccio, utile a comprendere comevariano le probabilità nella distribuzione ipergeometrica :probabilità di pescare una non-trota alla prima estrazione : 6/12“ ... alla seconda estrazione : 5/11“ ... alla terza estrazione : 4/10“ ... alla quarta estrazione : 3/9“ complessiva : 6/12 ⋅ 5/11 ⋅ 4/10 ⋅ 3/9 = 360/11880 = 0,0303

r P0 0.0303031 0.2424242 0.4545453 0.2424244 0.030303

P

0

0,1

0,2

0,3

0,4

0,5

0 1 2 3 4 5 6 7 8 9 10 11 12

r/n

2001-02-20

Page 59: Prontuario Di Statistica

ESEMPIO

In una piccola riserva naturale sono presenti 9 cinghiali: 3 femmine e 6 maschi; perridurre il loro numero viene decisa una battuta di caccia, nella quale ne verrannocatturati 5 senza attenzione al sesso

D.:

Stimare i possibili effetti secondo le probabilità :a) che vengano catturate tutte le 3 femmineb) che vengano catturate 2 femminec) che venga catturata 1 femminad) che non venga catturata alcuna femmina

animali presenti N = 9animali catturati n = 5femmine presenti n

1 = 3

femmine catturate r = 3 r = 2 r = 1 r = 0animali non catturati N - nfemmine non catturate n

1 - r

R.:

a) P(3/5) =C5

3 ⋅ C9−53−3

C93

=

5!

3!2!⋅

4!

0!4!9!

3!6!

= 0,119 (11,9%)

b) P(2/5) =C5

2 ⋅C9−53− 2

C93

=

5!

2!3!⋅

4!

1!3!9!

3!6!

= 0,4762 (47,62%)

c) P(1/5) =C5

1 ⋅ C9− 53−1

C93

=

5!

1!4!⋅

4!

2!2!9!

3!6!

= 0,3572 (35, 72%)

d) P(0/5) =C5

0 ⋅C9−53− 0

C93

=

5!

0!5!⋅ 4!

3!1!9!

3!6!

= 0,0476 (4, 76%)

Probabilità di catturare 3 femmine 11,9%“ 2 femmine 47,62%“ 1 femmina 35,72%“ 0 femmine 4,76%

2001-02-21

Page 60: Prontuario Di Statistica

DISTRIBUZIONE BINOMIALE NEGATIVA

La distribuzione binomiale positiva :

• p + q =1

• con n prove, le probabilità dei diversi eventi sono determinate dallo sviluppo del binomio (p + q)n

• presenta varianza npq inferiore alla media np, essendo q < 1

La distribuzione binomiale negativa :

• è impiegata soprattutto nei conteggi di popolazioni animali (foglie con 0,1 , 2 , ... parassiti) e negli studi epidemiologici (periodi -giorni,settimane o mesi- con 0 , 1 , 2 , ... morti)

• può essere intesa come un mix di distribuzioni poissoniane

• ha varianza npq superiore alla media np

Nei fenomeni semplici- a media unica- n grande- p basso

le frequenze attese sono fornite dalla poissoniana

Nei fenomeni complessi- la distribuzione è determinata da più fattori ognuno con media diversa- la variabilità aumenta sicchè la varianza è superiore alla media- la distribuzione delle frequenze può essere stimata in modo appropriato dalla distribuzione binomiale negativa

2001-02-22

Page 61: Prontuario Di Statistica

Se un fenomeno presenta una distribuzione binomiale negativa, la probabilità Pi che

l'evento atteso si verifichi i volte (0, 1, 2, ..., k) è :

Pi =

k + i -1( )! pq

k

i! k − 1( )!qk

Parametri essenziali :- media np- esponente k (-n)

dove :

k =n ⋅ p( )2

n ⋅ p ⋅ q − n ⋅ p

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0 5 10 15 20 25 30

Distribuzione binomiale negativa (µ = . , = .6 66 0 6p )

2001-02-23

Page 62: Prontuario Di Statistica

DISTRIBUZIONE UNIFORME

• è la più semplice distribuzione discreta

• identica possibilità del verificarsi di tutti i possibili risultati (ad es., la probabilità diottenere 1 … 6 con un dado non truccato è uguale per ognuno deirisultati)

• l’impiego è limitato quasi esclusivamente all'analisi di probabilità a priori

• la probabilità del singolo evento in una variabile discreta X che segue questadistribuzione è :

P(x) = 1b − a( ) + 1

b = risultato maggiore possibile di X a = risultato minore possibile di X

Per i dadi (b=6 e a=1) è semplice verificare che P(x) = 16-1( ) + 1

= 16

• media = a + b2

• varianza =b − a( ) + 1[ ]2 −1

12

2001-02-24

Page 63: Prontuario Di Statistica

DISTRIBUZIONI CONTINUE

DISTRIBUZIONE NORMALE o DISTRIBUZIONE DI GAUSS

• è la più importante distribuzione continua

• proposta da Gauss (1809) nell'ambito della teoria degli errori, è stata attribuitaanche a Laplace (1812), che ne definì le proprietà principali in anticipo rispetto allatrattazione più completa di Gauss

• il nome deriva dalla convinzione che i fenomeni fisico-biologici solitamente sidistribuiscono con frequenze più elevate nei valori centrali e frequenzeprogressivamente minori verso gli estremi

• è detta anche CURVA DEGLI ERRORI ACCIDENTALI, in quanto, soprattuttonelle discipline fisiche, la distribuzione degli errori commessi nel misurareripetutamente la stessa grandezza, è molto bene approssimata da questa curva

• è considerata il limite della distribuzione binomiale per n ––> ∞ (mentre né pné q tendono a 0 come per la poissoniana)

• la variabile considerata, quantificata per unità discrete con pochi dati, puòessere espressa, in classi d’ampiezza sempre minore, come grandezza continua

• secondo il teorema di De Moivre (1833), quando n ––> ∞ (a condizione chené p né q tendano a 0), la probabilità Pi della binomiale è approssimata da :

P(i) =1

2 ⋅ n ⋅ p ⋅qe

−(i-n⋅p)2

2⋅n⋅p⋅q

2001-02-25

Page 64: Prontuario Di Statistica

Sostituendo- np con la media sperimentale - npq con la varianza calcolata 2

- il conteggio i con la misura x

si ottiene :

y = f(x) = 1

2 ⋅ 2− x −( )2

2 2e

espressione della funzione di densità per le frequenze f(x) della normale

Principali proprietà dela distribuzione :

• ha media µ e varianza 2 il cui variare comporta infinite curve normali• è indicata con N( )• è simmetrica rispetto alla media• ha media, moda e mediana coincidenti• cresce da −∞ a µ e decresce da µ a +∞• ha andamento asintotico rispetto all’asse x

DISTRIBUZIONE NORMALE STANDARDIZZATA

• consente di ricondurre alla stessa forma le infinite forme della distribuzione normaledeterminate dalle diverse medie e varianze

• è ottenuta mediante cambiamento di variabile x ---> X

X = x −

che consiste nel :- rendere = 0 sottraendo ad ogni valore la media- prendere come unità della nuova variabile X e quindi costruire una

distribuzione con = 1

Gli scarti x - µ si trasformano in scarti ridotti x −

• la nuova distribuzione viene indicata con N(0,1)

• dopo il cambiamento di variabile, la densità di probabilità è y =12

⋅e− x2

2

(Si evidenzia l’assenza di dipendenza da media e varianza: la distribuzione è sempre lastessa, qualunque sia la distribuzione gaussiana considerata)

2001-02-26

Page 65: Prontuario Di Statistica

Tendono alla normale:• la distribuzione binomiale p + q( )n , quando ‘n’ --> ∞• la distribuzione poissoniana, quando la media è elevata (in pratica, con

media =~ 10-12 la normalità della distribuzione è manifesta)

• Sono alla base della LEGGE DEI GRANDI NUMERI (o LEGGE DEL CASO o LEGGE

DI BERNOUILLI) che costituisce il teorema fondamentale della Statistica :

se si ripete ‘n’ volte (per ‘n’ –> ) una prova in cui la

probabilità a priori di accadimento dell’evento A è ‘p’, la

probabilità dello stesso evento A tende a ‘p’

• Danno luogo al TEOREMA DEL LIMITE CENTRALE (Laplace nel 1812) utilizzatoper la media di valori di un campione :

le MEDIE di campioni, di dimensioni ‘n’ sufficientemente grandi,

estratti da una popolazione comunque distribuita, seguono la

legge della distribuzione normale, con media ‘m’ e varianza

‘s2/n’

TRASFORMAZIONI

Quando una variabile è distribuita normalmente, l’applicazione di funzionimatematiche quali logaritmi, radici quadratiche o cubiche, funzioni esponenziali,reciproci, ecc. conduce a una variabile distribuita in modo approssimativamentenormale

ESEMPIO

Il caso più frequente è quello di x' = log x

dove :x' è distribuita normalmente

in cui si dice che x è distribuito secondo la DISTRIBUZIONE LOG-NORMALE

Tale distribuzione è frequente in tutti quei fenomeni in cui i fattori hanno traloro effetti moltiplicativi

2001-02-27

Page 66: Prontuario Di Statistica

PROPRIETÀ E USO DELLA DISTRIBUZIONE NORMALE

• relazioni tra la distanza dalla media (misurata in unità di deviazione standard)di un qualunque valore dell'asse x e la densità di probabilità sottesa dalla curva :

- frazione dei casi compresi nell’intervallo µ- ... µ+ = 68,27%

- frazione dei casi compresi nell’intervallo µ-2 ... µ+2 = 95,45%

- frazione dei casi compresi nell’intervallo µ-3 ... µ+3 = 99,73%

In pratica la quasi totalità dei dati è compresa nell'intorno µ±3

µ−3σ µ−2σ µ−σ µ µ+σ µ+2σ µ+3σ

68.27%

95.45%

99.73%

E’ pertanto possibile dedurre la distribuzione di dati quando siano noti µ e

2001-02-28

Page 67: Prontuario Di Statistica

UTILIZZO PRATICO DELLA DISTRIBUZIONE NORMALE STANDARDIZZATA

Le tabelle dei valori dell'integrale di probabilità della distribuzione normalestandardizzata forniscono le probabilità di ottenere un valore dello scartostandardizzato

z = x −

maggiore di z (o minore di z, a seconda del tipo di tabella)

ESEMPIO

In una popolazione di pesci µ = 35 (cm) e = 5 (cm)

D.:

calcolare le probabilità di pescare pesci di lunghezza :a) l ≥ 40 (a destra di z= +1)b) l < 40 (tra media e z= +1)c) l < 25 (a sinistra di z= -2)d) l ≥ 40 e l ≤ 50 (tra z=+1 e z= +3)e) l ≥ 30 e l ≤ 40 (tra z= -1 e z= +1)

ricordando che :probabilità area sottesa tra e z = 1 0,3413 (34,13%)probabilità area sottesa a sinistra di z = – 2 0,0228 ( 2,28%)

R.:

a) probabilità di pescare pesci di l ≥ 40 cm 0,1587 (15,87%)b) “ l < 40 cm 0,8413 (84,13%)c) “ l < 25 ....d) “ l ≥ 40 e l ≤ 50 (differenza 0,49865-0,3413) 0,1573 (15,73%)e) “ l ≥ 30 e l ≤ 40 (intervallo z= -1 e z=1) 0,6826 (68,26%)

2001-02-29

Page 68: Prontuario Di Statistica

ESEMPIO

In una specie di roditori adulti, femmine e maschi si distinguono per le dimensioni :femmina: µ = 37,5 cm ; = 3,8 cm maschio: µ = 34,5 cm ; = 3,2 cm

D.:

a) rispetto alle µ del loro sesso, sono più rari i maschi ≥ 40 cm o le femmine ≥ 41cm ?

b) quale è la lunghezza minima del 5% delle femmine di dimensioni > µ ?c) quale è la lunghezza massima del 5% dei maschi di dimensioni < µ ?d) tra il 30% delle femmine di dimensioni > µ, quanti maschi è possibile trovare ?e) tra il 20% delle femmine di dimensioni < µ, quanti maschi è possibile trovare ?

R.:

a) per i maschi ≥ 40 cm z=1,72 che esclude a destra un'area equivalente al 5,26%per le femmine ≥ 41 cm z=0,92 che esclude a destra un'area equivalente al

17,88%∴ i maschi ≥ 40 cm sono molto più rari delle femmine ≥ 41 cm

b) il 5% delle femmine di dimensioni > µ sono alla destra di 1,645 ⋅ equivalente a1,645 ⋅ 3,8 = 6,251 cm∴ lunghezza minima del 5% delle femmine di dimensioni maggiori :37,5 + 6,251 = 43,751 cm

c) il 5% dei maschi di dimensioni < µ sono alla sinistra di 1,645 ⋅ equivalente a 1,645 ⋅ 3,2 = 5,264 cm∴ lunghezza massima del 5% dei maschi di dimensioni minori :34,5 - 5,264 = 29,236 cm

d) il valore di z che esclude il 30% della popolazione è 0,525 corrispondente alla destra della µ alle femmine di dimensioni µ + 0,525 ⋅ pari a 37,5 + 0,525 ⋅ 3,8 = 39,495 cm∴ ai maschi di tali dimensioni minime corrisponde

z = 39,495-34,5

3,2 = 1,56 pari a una frequenza di probabilità del 5,94%

e) il valore di z che esclude il 20% della popolazione è 0,842 corrispondente alla sinistra della µ alle femmine di dimensioni µ - 0,842 ⋅ pari a 37,5 - 0,842 ⋅ 3,8 = 34,3004 cm∴ ai maschi di tali dimensioni massime corrisponde

z = 34,3004-34,5

3,2 = - 0,0623 pari ad una frequenza di probabilità del 47,5%

2001-02-30

Page 69: Prontuario Di Statistica

CORREZIONI PER LA CONTINUITA' IN PROBABILITA' DISCRETE

Come già sottolineato, molte distribuzioni discrete (binomiale, ipergeometrica,…) sono bene approssimate dalla distribuzione normale al crescere delle dimensioni delcampione

Tuttavia mentre le prime forniscono le probabilità per singoli valori dellavariabile casuale, cioè la probabilità di ottenere esattamente il numero x, con ledistribuzioni continue (tra cui la normale) si calcola l'area sottesa, cioè la densità diprobabilità

Per calcolare la probabilità di verificarsi di un singolo valore x, con ladistribuzione normale si deve calcolare l'area sottesa dall'intervallo x ±0 5.

ESEMPIO

Si supponga che, da dati di letteratura, sia noto che in una popolazionezooplanctonica lacustre, gli individui di Eudiaptomus vulgaris assommino al 10% deltotale individui. In un campionamento casuale di 120 individui quale è la probabilità ditrovare:

D.:

Con un campione casuale di 120 individui, calcolare la probabilità di trovarea) esattamente 15 individui di Eudiaptomusb) almeno 15 individui di Eudiaptomusc) meno di 15 individui di Eudiaptomus

n = 120 x = 15µ = np = 120 ⋅ 0,10 = 12

= npq = 120 ⋅ 0,10 ⋅ 0,90 = 10,8

Per valori discreti si deve aggiungere o togliere 0,5 al valore x (a seconda che ilvalore debba essere compreso od escluso), mentre per dati continui non si apportaalcuna correzione

2001-02-31

Page 70: Prontuario Di Statistica

R.:

a) Probabilità di trovare esattamente 15 individui di Eudiaptomus: 7,90 %

z1 = (x + 0,5) − = (15+ 0,5) −1210,8

= 3,53,29

= 1,06

per cui tra µ e 1,06 ⋅ è compreso il 35,54% delle osservazioni

z2 = (x − 0,5) − = (15- 0,5) −1210,8

= 2,53,29

= 0,76

per cui tra µ e 0,76 ⋅ è compreso il 27,64% delle osservazioni

➥ = 35,54 - 27,64 = 7,90%

[ Il risultato si ottiene anche con la binomiale : C12015 (0,10)15 (0,90)105

]

b) Probabilità di trovare almeno 15 individui di Eudiaptomus : 22,36 %

z = (x + 0,5) − = 15,5 − 1210,8

= 3,53,29

= 1,06

per cui l'area a destra di x = 15 esprime una probabilità del 14,46% che, sommataal 7,90% del punto (a), porta alla probabilità complessiva del 22,36%

c) Probabilità di trovare meno di 15 individui di Eudiaptomus : 77,64 %

z = (x − 0,5) − = 14,5 −1210,8

= 2,53,29

= 0,76

per cui l'area tra x– =12 e x =15 esprime una probabilità del 27,64% che,sommata al 50% a sinistra della media (prob. di x da x = 0 a x– =12), porta allaprobabilità complessiva del 77,64%

[ Il risultato si ottiene anche con la distribuzione binomiale, sommando le probabilità esatte di

trovare 0, 1, 2, 3, ..., 14 individui di Eudiaptomus:

P(x,n) = C nx ⋅ px ⋅ qn−x

x=0

n

C1200 (0,1)0 (0,9)120 + C120

1 (0,1)1(0,9)119 +⋅ ⋅ ⋅ ⋅+ C12014 (0,1)14 (0,9)106

]

2001-02-32

Page 71: Prontuario Di Statistica

DISTRIBUZIONE RETTANGOLARE

• come nelle distribuzioni discrete, anche tra le distribuzioni continue la più semplice è la distribuzione rettangolare o uniforme continua

• la densità di frequenze relativa all'intervallo x1 = a … x2 = b, è :

f(x) = 1−

con ( )α β< <x costante in tutto l'intervallo [a … b]

• nella rappresentazione grafica ha la forma di un rettangolo, da cui il nome

• media = +2

• varianza 2 = ( − )2

12

• è l'equivalente continuo della distribuzione rettangolare uniforme discreta

DISTRIBUZIONE ESPONENZIALE NEGATIVA

• la sua funzione è :

f(x) = e- x con α > 0 e x > 0

(prende il nome dall'esponente negativo che compare nella relazione)

• è una funzione positiva o nulla continuamente decrescente che tende a 0 per x ––> ∞

• nel discreto ha il suo equivalente nella D. GEOMETRICA DECRESCENTE

• media = 1

• varianza 2 = 12 = 2 (N.B..: la varianza è il quadrato della media)

2001-02-33

Page 72: Prontuario Di Statistica

APPLICAZIONI DEI MODELLI DI DISTRIBUZIONE

Le applicazioni pratiche dei modelli di distribuzione teorica sono numerose; di particolare

importanza sono quelle che riguardano la dispersione sul territorio di popolazioni animali e vegetali,

dai micro-organismi a quelli di dimensioni maggiori. Il territorio è diviso in aree di dimensioni uguali

ed entro ognuna di esse viene contato il numero di individui presenti

Trattandosi di conteggi, sono utili soprattutto le distribuzioni di variabili discrete, tra le quali si

tratta di scegliere quella più appropriata a descrivere la distribuzione osservata. Il rapporto tra la media

e la varianza è il primo e più immediato fra i criteri quantitativi di confronto o di valutazione, che

permettono al ricercatore di individuare, seppure in via preliminare ed orientativa in attesa di verifiche

ulteriori più approfondite, quale tipo di distribuzione si adatti meglio ai dati sperimentali raccolti

Quando la varianza risulta di entità simile alla media, si può supporre che la distribuzione

territoriale della popolazione segua la legge poissoniana; trattandosi di eventi casuali ed indipendenti,

l'interpretazione ecologica suggerisce che ogni individuo tenda a collocarsi nell'ambiente in modo

completamente casuale ed indipendente dal comportamento di tutti gli altri individui della stessa

specie, che non esistano né fattori che tendono ad aggregare né quelli che tendono a disperdere in

modo uniforme. Se la varianza osservata risulta minore di quella teorica, la omogeneità della

distribuzione può essere significativa: la specie in esame ha una dispersione geografica regolare, tipica

di organismi con territorialità, che è necessaria quando la ricerca del cibo o la sopravvivenza esigono

uno spazio minimo individale per la sopravvivenza, di dimensioni approssimativamente simili per ogni

individuo

Quando la varianza è maggiore dell'atteso, si può supporre cha la distribuzione territoriale sia

di tipo aggregato o contagioso, come quella degli animali con struttura sociale o delle piante e dei

microorganismi concentrati in colonie: esistono ampi spazi liberi e contemporaneamente zone con una

elevata densità di presenze

Quando variano le condizioni ambientali od aumenta la densità della specie, possono essere

applicate strategie diverse di distribuzione geografica degli individui. Dal punto di vista statistico, la

prima conseguenza è un forte aumento della varianza: un buon adattamento dei dati sperimentali alla

distribuzione binomiale negativa può essere una indicazione importante, per inferire in prima

approssimazione i fattori che regolano la dispersione

Le tecniche del campionamento rivestono un ruolo importante nella comprensione di questi

fenomeni di particolare rilevanza specifica sono le dimensioni del campione e soprattutto quelle

dell'area unitaria entro la quale sono contati gli individui presenti. E' dimostrato che variazioni nelle

dimensioni dell'area presa come unità di campionamento mutano sensibilmente la forma della

distribuzione, inducendo nel ricercatore deduzioni spesso fuorvianti

2001-02-34

Page 73: Prontuario Di Statistica

(2001)-3-1

VERIFICA DELLE IPOTESI

Poiché in statistica ogni ipotesi è fondata su un confronto tra una “verità, nota, alivello di campione” e una “verità, ignota, a livello di popolazione”, esiste sempre unapossibilità, anche se remota, che la conclusione cui porta un test (inferenza) siasbagliata

Ogni test è pertanto associato a quattro probabilità interdipendenti che “misurano”il rischio che si corre (o della sicurezza che si ha) nel formulare una conclusione :

• Errore di I^ tipo (o rischio α): [ noto come “livello di significatività p” ]probabilità che esprime il rischio di rifiutare H0 quando è vera

• Errore di II^ tipo (o rischio β):probabilità che esprime il rischio di accettare H0 quando è falsa

• Protezione del test 1- (complementare all'errore di I^ tipo):probabilità, al livello prescelto, di accettare H0 quando è vera

• Potenza del test 1- (complementare all'errore di II^ tipo):probabilità, al livello prescelto, di rifiutare H0 quando è falsa

REALTA'CONCLUSIONE

DEL TEST

H vera0 H falsa0

accetto H0statisticamente non

significativo

Esattop = 1-α

PROTEZIONE

Errore di II^ tipo

p = βrifiuto H0

statisticamentesignificativo

Errore di I^ tipo

p = α

Esattop = 1-β

POTENZA

Il concetto di errore si comprende meglio ragionando sulle due distribuzioni di p le-gate alle due ipotesi H0 e H1 mutualmente esclusive

Anche le due distribuzioni sono mutualmente esclusive: una, quella legata all'ipotesicorretta, è vera; l’altra esiste solo in forma ipotetica

Il test statistico mette a confronto la stima campionaria con le distribuzioni H0 e H1

Page 74: Prontuario Di Statistica

(2001)-3-2

L'“errore” si origina dal fatto che non è mai essere sicuri che il valore stimatodal test appartenga più di diritto all'una che all'altra delle due distribuzioni

L'area di sovrapposizione delle due curve, in relazione al valore campionariostimato, determina il rigetto o l'accettazione di H0

Ne consegue la probabilità x di commettere un errore rispettivamente di I^ tipo(rigetto il vero) o di II^ tipo (accetto il falso)

Il valore x è determinato dall'area che rimane all'esterno del punto di stimarispetto al valore medio della distribuzione H0

Nel confronto tra due frequenze, secondo H0 non esiste differenza sostanziale,

se non quella dovuta a fattori casuali. Occorre dunque stimare la probabilità p ditrovare, con esperimenti ripetuti e nel caso che H0 sia vera, un valore uguale o

superiore a quello calcolato

Se p (riportata nelle tabelle) è inferiore al valore di significatività prefissato (α=5% o α=1%), si rifiuta H0; ma se H0 è vera, nel rifiutarla si sbaglia

con probabilità p<5% (errore di I^ tipo)

Per ridurre la probabilità di commettere errori di I^ tipo si abbassa il

livello di significatività da p=5% a p=1%

La probabilità calcolata dal test si riferisce al caso in cui H0 è vera e stima la

probabilità di commettere un errore di I^ tipo

C’è “concorrenza” tra l’errore di I^ tipo e l’errore di II^ tipo : se si abbassa il livellodi significatività, cioè la probabilità di commettere un errore di I^ tipo, siaccresce quella di commettere un errore di II^ tipo e viceversa

Page 75: Prontuario Di Statistica

(2001)-3-3

INTERVALLO di CONFIDENZA di una MEDIA CON nota

Volendo conoscere il valore più probabile di un parametro incognito, la statisticainferenziale fornisce due valori che determinano l’INTERVALLO DI CONFIDENZA (oLIMITI FIDUCIALI) entro cui si colloca il valore del parametro secondo la probabilitàscelta

Specificare i limiti fiduciali è solamente un modo alternativo di inferire circa iparametri di una popolazione, sulla base di osservazioni campionarie

I limiti fiduciali della media della popolazione sono stimati dalla distribuzionenormale standardizzata :

- il 95% dell’area sottesa dalla curva si trova tra -1,96 e +1,96 dell'ascissa[ P(-1,96 ≤ Z ≤ +1,96) = 0,95 ]

- il 99% dell’area sottesa dalla curva si trova tra -2,58 e +2,58 dell'ascissa[ P(-2,58 ≤ Z ≤ +2,58) = 0,99 ]

Così come s valuta la dispersione di campionamento delle osservazioni,l'ERRORE STANDARD (ES) valuta la dispersione delle medie campionarie :

ES = s

√n

La distribuzione di campionamento di medie con media m ed ES = s

√n diventa

P Zx

n

Z P z− ≤−

≤ +

σ ( ) e può essere usata per determinare i limiti fiduciali :

- al 95% diventa P x 1,96n

x 1,96n

0,95− ≤ ≤ +

µσ

- al 99% sostituire, nella formula sopra scritta, 1,96 con 2,58

Page 76: Prontuario Di Statistica

(2001)-3-4

ESEMPIO

Da una popolazione con =3 è stato estratto un campione di 10 dati con m=25

D.: Calcolare l'intervallo di confidenza alla probabilità del 99%

R.: 25 2 583

1025 2 58 0 9487 25 2 45

22 55

27 45m m m, , , ,

,

,⋅ = ⋅ = = ⟨

Secondo le informazioni fornite da una campione di 10 misure con m=25, conprobabilità 99% si trova nell'intervallo compreso tra 22,55 e 27,45

[ ... rimane la probabilità dell’1% che si trovi fuori da questo intervallo ... ]

Intervallo di confidenza di una proporzione

Per i limiti fiduciali di una proporzione si adotta l'approssimazione della normalealla binomiale

In una proporzione, il valore di è completamente determinato dal valore della

media p, infatti con n costante ( )σ = ⋅ −p p1

0,5

0 0,5 1

σ

p

La di una proporzione si approssima a zero quando p è molto piccolo o moltogrande e presenta valore massimo quando p è prossimo al valore centrale 0,5

L'intervallo di confidenza di una percentuale è dato da p Zp q

n± ⋅

Page 77: Prontuario Di Statistica

(2001)-3-5

ESEMPIO

In un campione di 80 fumatori, il 35% ha presentato sintomi di polmonite

D.:

- Calcolare i limiti fiduciali della media al 95% e al 99% nella popolazione deifumatori con sintomi di polmonite

- Calcolare gli stessi limiti fiduciali (95% e 99%) partendo da un campione di100 fumatori anziché 80

R.:

Con un campione di 80 fumatori si ha :

Per il 95 0 35 1 960 35 0 65

800 35 0 1045

0 2455

0 4545% : , ,

, ,, ,

,

,± ⋅

⋅= ± =⟨

Per il 99 0 35 2 580 35 0 65

800 35 0 1376

0 2124

0 4876% : , ,

, ,, ,

,

,± ⋅

⋅= ± =⟨

Con un campione di 100 fumatori si avrebbe :

Per il 95 0 35 1 960 35 0 65

1000 35 0 9349

0 2565

0 4435% : , ,

, ,, ,

,

,± ⋅

⋅= ± = ⟨

Per il 99 0 35 2 580 35 0 65

1000 35 0 1231

0 2269

0 4731% : , ,

, ,, ,

,

,± ⋅

⋅= ± =⟨

Si noti che con un campione di 100 individui gli intervalli sono più strettirispetto a quelli prodotti dal campione di 80 individui

Page 78: Prontuario Di Statistica

(2001)-3-6

ANALISI DELLE FREQUENZEe

CONFRONTI TRA DISTRIBUZIONI

DISTRIBUZIONI OSSERVATE e DISTRIBUZIONI ATTESE

Nella teoria statistica e nella pratica sperimentale, sia con dati qualitativi(classificati in categorie nominali) che con dati quantitativi (distribuiti in classi diintervallo), per verificare se esiste accordo tra una distribuzione osservata e lacorrispondente distribuzione attesa si ricorre al

TEST PER LA BONTÀ DELL'ADATTAMENTO (goodness of fit)

ESEMPIO

distribuzioni di frequenze osservate di classi fenotipiche vs.distribuzioni di frequenze attese secondo le leggi di segregazione mendeliana

D.:

Verificare se la distribuzione della progenie degli ibridi rispetta :- la distribuzione teorica attesa di 3:1 per un carattere- la distribuzione teorica attesa di 9:3:3:1 per due caratteri

N.B.- tra distribuzioni osservate e distribuzioni attese non c’è mai perfetta

coincidenza, ma valori molto simili- le classi di una distribuzione osservata sono conteggi (numeri interi)- le classi di una distribuzione attesa seguono una legge teorica

(descritta da numeri frazionali)

Page 79: Prontuario Di Statistica

(2001)-3-7

R.:

Distribuzioni osservate ed attese di Pisum sativum (Mendel)

A - Segregazione di un ibridocarattere dominante recessivo totale

colore del fiore (d. oss.) rossi 705 bianchi 224 929 distribuzione attesa (3:1) 696,75 232,25lunghezza del fusto (d. oss.) alti 787 bassi 277 1064 distribuzione attesa (3:1) 798 266colore del seme (d. oss.) gialli 6022 verdi 2001 8023 distribuzione attesa (3:1) 6017,25 2005,75forma del seme (d. oss.) lisci 5474 rugosi 1850 7324 distribuzione attesa (3:1) 5493 1831

B - Segregazione di un diibridocolore e forma del seme distr. osservata d. attesa (9:3:3:1)gialli-lisci 315 9/16 = 312,75gialli-rugosi 101 3/16 = 104,25verdi-lisci 108 3/16 = 104,25verdi-rugosi 32 1/16 = 34,75totale 556 556

Il problema statistico di capire se le differenze tra osservato e atteso sonotrascurabili e quindi dovute al caso, oppure tali da fare supporre l'esistenza di fattoricausanti una distribuzione realmente diversa da quella attesa...

... è problema di INFERENZA STATISTICA per verificare l'attendibilità dell'ipotesinulla H0 (differenze casuali) o dell'ipotesi alternativa H 1 (differenze dovute a fattori

non casuali), mediante l'impiego di un test di significatività

Page 80: Prontuario Di Statistica

(2001)-3-8

IL TEST CHI QUADRO

(CHI QUADRATO, o 2 )

Proposto da Pearson nel 1900, utilizza le frequenze assolute

g.d .l .( )2 =

f ioss − f i

att( )2

f iatt

i =1

n

fioss = i-esima frequenza osservata

fiatt = i-esima frequenza attesa

gdl = n° di gruppi meno uno n-1 (in basso, tra parentesi: g.d .l .( )2 )

Σ estesa a tutti i gruppi (o classi) posti a confronto

I valori attesi, calcolati sul totale secondo la legge di distribuzione, possonoassumere qualsiasi valore, eccetto l'ultimo, la cui frequenza sommata alle precedentideve rispettare il totale

Procedimento logico nell'applicazione del 2 :

1: stabilire l'ipotesi nulla (H0 ) e l'eventuale ipotesi alternativa (H 1)

2: individuare il test più appropriato per saggiare l'ipotesi nulla H0

3: scegliere: livello di significatività, ampiezza del campione, gdl

4: trovare la distribuzione teorica del test statistico nell' H0 (fornita dalle tabelle)

5: stabilire la zona di rifiuto (solitamente fissata al 5% oppure all’ 1%)

6: calcolare il valore del test statistico sulla base dei dati sperimentali, stimando ilvalore di probabilità ad esso associato

7: se la probabilità è superiore a quella tabulata, non si può rifiutare H0 ;se la probabilità è inferiore a quella tabulata, si rifiuta H0 (implicitamente si accettaH 1)

Page 81: Prontuario Di Statistica

(2001)-3-9

ESEMPIO

Calcolare il 2 con i dati sulla segregazione del di-ibrido colore / forma del seme :

3( )2 = 315 − 312, 75( )2

312,75+ 101 −104,25( )2

104,25+ 108 − 104,25( )2

104,25+ 32 − 34,75( )2

34,75

3( )2 = 2,25( )2

312,75+ −3,25( )2

104,25+ 3,75( )2

104,25+ −2,75( )2

34,75= 0, 47

Attraverso le tavole è possibile stimare la probabilità di trovare differenze ugualio superiori a quelle riscontrate tra distribuzione osservata e distribuzione attesa,nell'ipotesi (H0 ) che le differenze siano imputabili a fattori casuali

Nella tavola della distribuzione dei valori critici del 2 :

- per 3 gdl (rif. riga) e per p=0,05 (rif. colonna) --> 2 = 7,81

Il valore calcolato (0,47) è molto minore di quello tabulato, dunque la probabilitàche le differenze siano imputabili al caso è superiore al valore prefissato del 5% (p >0,05), e non si può rifiutare H0 (le differenze sono imputabili a fattori casuali)

Ipotesi nulla H0 : le differenze tra distribuzione osservata e distribuzione attesa sono

trascurabili e quindi non significative

Ipotesi alternativa H1: le differenze tra distr. osservata e distr. attesa sono rilevanti,

non dovute al caso, ma ad un fattore che determina una segregazione diversa

Test più adatto : in base alle caratteristiche dei dati e alle ipotesi formulate, è il χ2

Livello di significatività prescelto : 5%

Valori di riferimento del 2 (livello di significatività e gdl ): sono forniti dalla tabella

Zona di rifiuto è solo da una parte della distribuzione : si tratta di test ad una sola

coda [ il 2 tende a crescere per valori osservati sia inferiori che superiori

ai valori attesi; inoltre non sono possibili valori negativi ]

Page 82: Prontuario Di Statistica

(2001)-3-10

Confronto tra 2 calcolato e 2 tabulato (3 gdl con p = 5%): 0,47 << 7,81

Probabilità di trovare scarti uguali o superiori a quello calcolato, nell'H0 : p > 5% (solo

differenze imputabili al caso tra osservato ed atteso)

Non si può concludere che esista una differenza significativa tra la distribuzione

osservata e quella attesa

Tale differenza potrebbe tuttavia esistere, ma con p < 5% (la stessa probabilità

con cui si può sbagliare affermando che la differenza non esiste)

ESEMPIO

In una popolazione lacustre di Mixodiaptomus Kupelwieseri (copepode) sonostate rilevate le frequenze di 4 alleli al locus MPI (mannoso fosfato isomerasi)

freq. oss.allele 1 26allele 2 38allele 3 62allele 4 118 totale 244

D.:

Essendo la frequenza attesa per ogni allele, secondo l’ipotesi di pura casualità,

= 2444

= 61, le differenze riscontrate fra le frequenze dei vari alleli sono casuali ?

R.:

3( )2 =

26 − 61( )2

61+

38 − 61( )2

61+

62 − 61( )2

61+

118 − 61( )2

61=

1225

61+

529

61+

1

61+

3249

61= 82,0328

• nella tabella del 2 per 3 gdl e significatività p = 0,001 il 2 calcolato è molto più

grande di quello tabulato

• la probabilità che le differenze tra i gruppi siano imputabili al caso è p < 0,001,pertanto le differenze non possono essere considerate casuali

Page 83: Prontuario Di Statistica

(2001)-3-11

LA DISTRIBUZIONE 2

La distribuzione dei valori del 2 può essere studiata empiricamente mediante ripetuti

lanci di una moneta. Ad esempio, per 100 lanci, si può ipotizzare di ottenere leseguenti frequenze assolute, che portano ai valori di 2 a fianco indicati :

testa croce χ2

51 49 0,0447 53 0,3649 51 0,0450 50 0,0042 58 2,5648 52 0,1653 47 0,36

La distribuzione di questi 2 empirici è simile a quella tabulata per 1 gdl

- 1 gdl :: distribuzione dei quadrati di n variabili casuali normali standardizzate indipendenti (in termini matematici: z 2 ≅ 1( )

2 )

- n gdl :: distribuzione della somma dei quadrati di n variabili casuali normali

standardizzate indipendenti ( z i2

i=1

n

∑ ≅ n( )2 )

[ la standardizzazione è ottenuta dividendo la differenza tra osservato ed atteso per il valore atteso ]

- il n° dei gdl è funzione dei vincoli fra le frequenze dei vari gruppi :quando tra n variabili casuali sussistono k vincoli lineari (relazioni che riducono il n° di osserv. indip.), i gdl del corrispondente 2 diminuiscono di k

Page 84: Prontuario Di Statistica

(2001)-3-12

CONDIZIONI DI VALIDITA' DEL

• solo per grandi campioni [non esiste concordanza generale su quando uncampione può essere ritenuto di grandi dimensioni]

• il n° dei gdl dipende dal n° di gruppi

• il n° totale di osservazioni deve essere N > 100 [per alcuni N > 200 o N > 500]

• richiede una correzione (Yates) quando 30 < N < 100 che consiste nel :- sottrarre 0,5 al valore assoluto dello scarto maggiore (tra freq. oss. e freq. att.)- aggiungere 0,5 al valore assoluto dello scarto minore

• perde attendibilità quando N < 30 [per alcuni questo limite è 40, per altri 25-20]

• poiché il n° totale di osservazioni è suddiviso in più classi, ogni gruppo o classedeve avere, per le frequenze attese, un n° minimo di 5 osservazioni

ESEMPIO In tre parcelle equivalenti sono stati contati 15, 21 e 24 individui di unvegetale

D.: Verificare se l'osservato si discosta in modo significativo dall'atteso teorico di20, 20 e 20, secondo l'ipotesi di distribuzione uniforme

R.:

2 senza correzione : 2( )2 = 5( )2

20+ 1( )2

20+ 4( )2

20= 2,100

2 con correzione di Yates : 2( )2 = 4,5( )2

20+ 1,5( )2

20+ 4( )2

20= 1,925

La correzione di Yates riduce il 2 in modo tanto maggiore quanto più ridotto è ilnumero di osservazioni, infatti :

• quando il numero di osservazioni è piccolo, le variazioni casuali tendono adaumentare la loro incidenza relativa: lo scarto tra osservato ed atteso non risente solamentedelle differenze realmente esistenti tra i due fenomeni a confronto, ma anche dellevariazioni casuali

• intuitivamente si comprende che 2 = 0 quando il n° di osservazioni è moltobasso, infatti le variazioni casuali tendono ad essere così elevate, da non permettere più dievidenziare in modo significativo l'esistenza di differenze reali tra osservato ed atteso,ovvero il “rumore” (le variazioni casuali) è così forte da non permettere di evidenziare lereali tendenze di fondo delle distribuzioni

Page 85: Prontuario Di Statistica

(2001)-3-13

CONFRONTO TRA FREQUENZE RELATIVE

DI DUE POPOLAZIONI INDIPENDENTI

TEST a UNA CODA - TEST a DUE CODE

Nel confronto yta osservato e atteso sono possibili due diverse impostazioniconcettuali :

test bilaterale (o test a due code) :ci si chiede se esiste una differenza nelle frequenze relative tra i due

gruppi, senza porre vincoli sul segno algebrico di tale differenza

test unilaterale (o test a una coda) :ci si chiede se un gruppo abbia una frequenza relativa significativamente

maggiore oppure minore, scartando a priori l'ipotesi alternativa

ESEMPIO Confronto tra due differenti metodi di ricattura di animali

• Quando si vuole sapere se tra i due metodi c'è differenza significativa, ed èindifferente che risulti migliore il primo metodo oppure il secondo, si tratta di untest bilaterale a due code

• Quando ad un vecchio metodo si vuole sostituire un metodo nuovo ritenuto piùefficace, e si vuole dimostrare la sua superiorità rispetto al precedente, si ha a chefare con un test unilaterale a una coda

Da tale distinzione dipende la distribuzione delle probabilità perrifiutare l'ipotesi nulla

Scegliendo la probabilità del 5% :

- in un test a due code si hanno due zone di rifiuto collocate ai due estremi,ognuna con un'area di 2,5%

- in un test a una coda si ha una sola zona di rifiuto, con un'area di 5%

Page 86: Prontuario Di Statistica

(2001)-3-14

CONFRONTO TRA DISTRIBUZIONI OSSERVATA E ATTESAIN PICCOLI CAMPIONI

Per stabilire la BONTÀ DELL'ADATTAMENTO (o BONTÀ DELLA CONFORMITÀ) di unadistribuzione osservata a una distribuzione teorica, quando

• il n° di osservazioni è molto ridotto, convenzionalmente inferiore a 30

• le frequenze attese entro ogni gruppo sono inferiori a 5

si ricorre al TEST DI KOLMOGOROV-SMIRNOV anziché al 2

Requisiti :

- i gruppi devono essere ordinati secondo una scala ordinale (con il 2

l'ordine dei gruppi è ininfluente)

- il confronto viene attuato tra le due distribuzioni cumulative, tra le quali sidetermina il valore di massima divergenza

- la distribuzione di campionamento indicherà la probabilità di trovare unadivergenza superiore a quella calcolata (H0 )

ESEMPIO

In dieci ore, dalle 7 alle 17, dal luogo di appostamento un osservatore avvista 15uccelli della stessa specie :

Orario 7-8 9-10 11-12 13-14 15-16Uccelli avvistati 0 1 1 9 4

Verificare se la distribuzione è casuale, cioè se le variazioni osservate rientranonei limiti degli errori accidentali (H 0), oppure se è più attendibile pensare ad unaincidenza dell'orario sul numero di avvistamenti (H1)

Se l'ora non incidesse, l’osservatore avrebbe dovuto avvistare un numero fissodi uccelli pari alla media (15/5) ad intervalli costanti, 3 ogni 2 ore :

Ore 7-8 9-10 11-12 13-14 15-16Distribuzione attesa 3 3 3 3 3

Page 87: Prontuario Di Statistica

(2001)-3-15

Il confronto a coppie tra le due distribuzioni cumulative permette di trovare ladifferenza massima assoluta (o scarto massimo assoluto) :

Ore 7-8 9-10 11-12 13-14 15-16Distribuzione cumulativa osservata 0 1 2 11 15Distribuzione cumulativa attesa 3 6 9 12 15Scarti assoluti (differenze, ∆) 3 5 7 1 0

^^^^• è intuitivo pensare che lo scarto massimo assoluto sia tanto più grande quanto

maggiori sono i singoli scarti tra osservato ed atteso e che questo valore dipenda anchedal numero totale di osservazioni

• per rendere lo scarto massimo assoluto indipendente dal numero totale diosservazioni si ricorre al rapporto

D deviazione massima[ ] = scarto massimo

numero totale di osservazioniD = 7

15= 0,466

• sulla tabella dei valori critici di D per un campione N = 15 al diminuire del livello disignificatività da 0,20 a 0,01 il valore critico cresce da 0,266 a 0,404

• il valore D = 0,466 è superiore a quello tabulato sia per p=0,05 che per p=0,01

• si rifiuta H0 e implicitamente si accetta H1 (le variazioni del numero di osservazioni

durante la giornata non siano casuali)

Utilizzando il 2 :

- occorrere raggruppare i dati per classi adiacenti- si perdono informazioni sulle differenze tra le varie ore- è implicita una elevata dose di soggettività- è più difficile dimostrare che esiste una differenza significativa tra osservato ed

atteso, quando fosse vera H1

Utilizzando il test di Kolmogorov-Smirnov :- aumenta la potenza rispetto al test 2

- si possono impiegare anche piccoli campioni- non si perdono informazioni per formare gruppi- si possono usare campioni di medie dimensioni suddivisi in gruppi

Page 88: Prontuario Di Statistica

(2001)-3-16

CONFRONTO TRA DUE DISTRIBUZIONI OSSERVATE

LE TABELLE 2 2× per il TEST DI INDIPENDENZA

Quando si confrontano le frequenze relative di risposte binarie (SÌ / NO) tratte da due popolazioni indipendenti, si può costruire una

TABELLA DI CONTINGENZA (a doppia entrata)

con il n° di successi e il n° di insuccessi in ognuno dei due gruppi, in modo daverificare se le proporzioni di successi e di insuccessi nei due gruppi sono indipendentidal trattamento a cui sono sottoposti

Questo 2 è chiamato TEST DI INDIPENDENZA con le ipotesi :

• H0 : c’è indipendenza tra l'appartenere al gruppo A o B e la risposta

• H1 : non c’è indipendenza tra l'appartenere al gruppo e la risposta

Se H0 non può essere respinta, poiché le frequenze tra i due gruppi

sono simili, allora non esiste un rapporto tra le due variabili

Se H0 viene respinta, allora esiste un rapporto tra le due variabili

N.B.Sia che il 2 venga utilizzato per verificare la differenza tra due frequenze

relative di due gruppi, sia che venga impiegato per saggiare l'indipendenza tradue variabili, i calcoli e i risultati sono gli stessi

Page 89: Prontuario Di Statistica

(2001)-3-17

ESEMPIO

Si vuole controllare l'effetto di due sostanze tossiche su due gruppi di animali :- l’agente A, somministrato a 70 animali, ha causato la morte di 22 individui (48 sono sopravvissuti)- l’agente B somministrato a 50 animali ha causato la morte di 24 individui (26 sono sopravvissuti)

D.:

Le due sostanze hanno gli stessi effetti sulla mortalità o sopravvivenza (H1),oppure le differenze riscontrate debbono essere ritenute casuali (H0 ) ?

Le frequenze osservate vengono poste in una tabella a due entrate :

osservati morti sopravvissuti totale

agente A 22 48 70

agente B 24 26 50

totale 46 74 120

Le frequenze attese secondo H0 possono essere calcolate dai totali marginali :

frequenza attesa = totale riga⋅ totale colonna

totale generale

attesi morti sopravvissuti totale

agente A 26,83 43,17 70

agente B 19,17 30,83 50

totale 46 74 120

Calcolata la prima frequenza attesa (26 8370 46

120, =

⋅), le altre si ottengono per

differenza dai totali rispettivi (:: la tabella di contingenza 2 × 2 ha 1 gdl):

43,17 = 70 ⋅ 74120

oppure 43,17 = 70 − 26,83

19,17 = 50 ⋅ 46

120oppure 19,17 = 46 − 26,83

( 30,83 può essere calcolata sia dai suoi due totali marginali che dal totale generale )

Page 90: Prontuario Di Statistica

(2001)-3-18

R.:

Per calcolare il valore del 2 :

• si può utilizzare la formula generale 1( )2 =

f ioss − f i

att( )2

f iatt

i=1

4

1( )2 = 22 − 26,83( )2

26,83+ 48 − 43,17( )2

43,17+ 24 −19,17( )2

19,17+ 26 − 30,83( )2

30,83=

= 23,3326,83

+ 23,3343,17

+ 23,3319,17

+ 23,3330,83

= 0,87 + 0,55 +1,24 + 0,76 = 3,42

• si può utilizzare la formula per il calcolo rapido (più veloce e sempre corretta):

1( )2 = a ⋅ d − b ⋅c( )2 ⋅ N

n1 ⋅n2 ⋅ n3 ⋅ n4

a, b, c, d : frequenze osservaten1, n2, n3, n4 : totali marginali

N : totale generale

X x totaleY a b n1

y c d n2

totale n3 n4 N

1( )2 = 22 ⋅26 − 48 ⋅24( )2 ⋅120

70 ⋅50 ⋅46 ⋅ 74= 572 −1152( )2 ⋅120

11914000= 336400 ⋅120

11914000= 40368000

11914000= 3,389

Nella tabella dei valori critici della distribuzione χ2 per 1 gdl 3,389 è inferiore a

quello tabulato per la probabilità del 5% (3,84)

Page 91: Prontuario Di Statistica

(2001)-3-19

CORREZIONE PER LA CONTINUITÀ (CORREZIONE DI YATES)

Va apportata per piccoli campioni (n° totale di osservazioni tra 30 e 100) e

consiste nel sottrarre N2 a |ad-bc| :

1( )2 =

a⋅ d − b ⋅ c − N

2

2

⋅ N

n1 ⋅n2 ⋅ n3 ⋅ n4

ESEMPIO

Per valutare gli effetti di due diserbanti, si conta il numero di piante cresciute edi quelle non cresciute nei rispettivi appezzamenti :

piante cresciute piante non cresciute totalediserbante A 12 6 18diserbante B 26 9 35

totale 38 15 53

E' un confronto tra due campioni indipendenti con un numero di osservazionisufficientemente grande per consentire l'uso del test 2 con la correzione di Yates :

1( )2 =

12 ⋅ 9 − 6 ⋅26 −53

2

2

⋅ 53

18 ⋅ 35 ⋅ 38 ⋅15=

108 −156 − 26, 5( )2 ⋅ 53

359100=

462,25 ⋅ 53

359100=

24499,25

359100= 0,0945

Il risultato è inferiore a quello tabulato per p=90% :

esiste una probabilità molto elevata di trovare scarti uguali a quelli attesi e di

conseguenza non si può rifiutare H0 (= le differenze riscontrate tra gli effetti

dei due diserbanti sono solamente dovute a variazioni casuali)

Page 92: Prontuario Di Statistica

(2001)-3-20

ESEMPIO

Confronto tra due metodi di “cattura e ricattura” per la stima della dimensionedi popolazioni animali :

animali ricatturati animali non ricatturati totalemetodo A 40 160 200metodo B 39 111 150

totale 79 271 350

D.:

Esiste una differenza significativa tra i due metodi ?

R.:

Trattandosi di un campione di grandi dimensioni è possibile usare la formula peril calcolo rapido :

1( )2 =

40 ⋅111 −160 ⋅39( )2 ⋅350

200 ⋅150 ⋅ 79 ⋅ 271=

4440 − 6240( )2 ⋅350

642270000=

3240000 ⋅350

642270000=

1134000000

642270000= 1, 765

Nella tabella del χ2 a 1,765 corrisponde una probabilità di ~ 20%

N.B.Le tabelle di contingenza 2 × 2 :

- consentono di effettuare solo test a due code- si possono usare anche per i confronti tra frequenze relative

Page 93: Prontuario Di Statistica

(2001)-3-21

METODO ESATTO (o DELLE PROBABILITÀ ESATTE) DI FISHER

• permette di stimare la specifica probabilità di ottenere una data rispostasperimentale tra tutte le possibili con il numero di dati a disposizione

• si usa quando il campione ha un basso numero di osservazioni (N < 30) e il 2

non può essere usato nemmeno nelle tabelle 2 × 2

• a condizione di mantenere costanti i totali marginali, la probabilità esatta diosservare una particolare serie di frequenze può essere calcolata dalla distribuzioneipergeometrica

• la probabilità di trovare un particolare insieme dei dati osservati è :

p =Ca+ c

a ⋅Cb+db

CNa+ b =

(a + c)!a!⋅ c!

⋅ (b + d)!b!⋅ d!

N !(a + b)!⋅ (c + d)!

= (a + b)!⋅ (c + d)!⋅ (a + c)!⋅ (b + d)!N !⋅a!⋅ b!⋅ c!⋅d!

oppure, più semplicemente, p = n1!⋅n2 !⋅ n3 !⋅n4 !a!⋅ b!⋅ c!⋅d!⋅ N !

ESEMPIO

Confronto tra gli effetti letali di due biocidi :

animali sopravvissuti animali morti totalepesticida A 7 1 8pesticida B 3 6 9

totale 10 7 17

D.:

Tra i due biocidi esiste una differenza significativa ?

R.:

La probabilità di avere, tra tutte le possibili risposte, quella osservata è :

p = 8!⋅ 9!⋅10!⋅7!7!⋅1!⋅3!⋅6!⋅17!

= 0,03 (in percentuale, 3%)

Page 94: Prontuario Di Statistica

(2001)-3-22

Per valutare la significatività delle differenze riscontrate, occorre cumulare le risposte estreme, seguendo tre passaggi :

• individuare la frequenza osservata minore• sostituire ad essa il valore 0 variando le altre 3 senza alterare i marginali• aumentare di 1 tale valore finché compare 0 in un'altra casella

Con i dati dell'esempio, tenendo costanti i totali marginali, sono otto le rispostedifferenti che si sarebbero potute ottenere :

1)8 02 7

5)4 46 3

2)7 13 6

6)3 57 2

3)6 24 5

7)2 68 1

4)5 35 4

8)1 79 0

[ Non esistono altri valori che diano gli stessi totali di riga e di colonna ]

Con il metodo esatto di Fisher :

• si calcola la probabilità di avere ognuna di queste risposte teoricamentepossibili (totale: 1 se proporzione; 100 se percentuale)

• si passa da un estremo di un effetto più marcato per B (7 morti su 9, mentrecon A sopravvivono tutti 8), all'altro estremo di un effetto più marcato per A (7 mortisu 9, mentre con B sopravvivono tutti 9)

• per stabilire se esiste una differenza significativa, alla probabilità calcolata per larisposta 2 (che coincide con quella sperimentale) si somma la probabilità di ottenere lerisposte più estreme nella stessa direzione (nell'esempio è una sola, la 1): se la sommasupera il 5%, si accetta H0

• le probabilità complessive calcolate possono essere estese in una sola direzioneper test ad una coda; possono essere estese ad ambedue le direzioni per test a due code(nel qual caso la probabilità complessiva coincide con quanto è possibile calcolare con iltest 2, che è un test a due code)

Page 95: Prontuario Di Statistica

(2001)-3-23

TABELLE M × N

Il metodo del 2 per verificare la differenza tra due proporzioni può essere

esteso al caso generale del confronto tra M popolazioni indipendenti, per saggiare :

H0 :p1 = p2 = p3 =⋅ ⋅ ⋅= pM

H1 : almeno una frequenza relativa è diversa dalle altre

La tabella di contingenza 2 × N ha N-1 gdl calcolati da (N-1) × (2-1), poiché itotali marginali sono invariabili

N.B. Evitare frequenze attese inferiori a 5, per non ridurre la potenza del test

ESEMPIO

Effetto di 5 biocidi sulla sopravvivenza di una specie animale :

DISTRIBUZIONE OSSERVATA

biocida A biocida B biocida biocida D biocida E totalemorti 8 10 14 11 7 50sopravvissuti 12 6 20 22 10 70totale 20 16 34 33 17 120

Dai totali marginali e da quello generale si calcola la distribuzione attesa secondoH0 (le percentuali di animali morti con i 5 biocidi sono uguali)

DISTRIBUZIONE ATTESA SECONDO H0

biocida A biocida B biocida C biocida D biocida E totalemorti 8,33 6,67 14,17 13,75 7,08 50sopravvissuti 11,67 9,33 19,83 19,25 9,92 70totale 20 16 34 33 17 120

Page 96: Prontuario Di Statistica

(2001)-3-24

Il valore del 2 si calcola con la formula generale

g.d.l.( )2 =

f ioss − f i

att( )2

f iatt

i=1

M⋅N

4( )2 = 8 − 833( )2

8,33+ 10 − 6,67( )2

6,67+ ⋅⋅⋅ + 10 − 9,92( )2

9,92= 3,9266

Il 2 è inferiore al valore critico del 5% e pertanto si accetta H0 : le differenze

riscontrate tra valori osservati e valori attesi sono imputabili solo a variazioni casualidi campionamento

Per una tabella di contingenza M × N, il 2 può essere utilizzato come

test per l'indipendenza con ( −1) ⋅ ( −1) gdl

H0 : non c’è associazione tra la variabile distribuita per righe e quella per colonna

N.B. Qualora comparissero frequenze attese inferiori a 5, occorrerebbe riuniredue o più gruppi di variabili tra loro simili in un'unica categoria

ESEMPIO

Verificare se in 4 diversi appezzamenti di terreno, con coltivazioni differenti,- si ha la stessa distribuzione di 5 specie d'insetti (H0 )- una o più specie sono più facilmente presenti in certe coltivazioni (H1)

DISTRIBUZIONE OSSERVATAspecie A specie B specie C specie D specie E totale

coltivazione I 12 8 5 15 10 50coltivazione II 15 10 5 20 8 58coltivazione III 9 6 10 17 11 53coltivazione IV 23 12 12 31 17 95totale 59 36 32 83 46 256

Page 97: Prontuario Di Statistica

(2001)-3-25

DISTRIBUZIONE ATTESA SECONDO H0

specie A specie B specie C specie D specie E totalecoltivazione I 11,5 7 6,3 16,2 9 50coltivazione II 13,4 8,2 7,2 18,8 10,4 58coltivazione III 12,2 7,5 6,6 17,2 9,5 53coltivazione IV 21,9 13,3 11,9 30,8 17,1 95totale 59 36 32 83 46 256

12( )2 = 12 − 11,5( )2

11,5+ 8 − 7( )2

7+ ⋅⋅⋅ + 17 −17,1( )2

17,1= 5,5999

Il 12( )2 non è significativo, dunque in tutte le coltivazioni si ha una

presenza equivalente delle 5 specie e non esiste alcuna associazione tra

tipo di coltivazione e specie

SCOMPOSIZIONE DEI GDL

• si usa quando si vogliono individuare la causa di una deviazione da H0

• fornisce informazioni dettagliate sugli effetti di ogni gruppo di dati• è resa possibile dalla proprietà additiva del 2 e dei relativi gdl

• comporta la ripartizione di una tabella M × N in tante tavelle 2 × 2 quanti sono i gdl disponibili

ESEMPIO (tabella 3 × 3)

con 3⋅3=9 dati si ha un 2 con (3-1)⋅(3-1)=4 gdl

TRATT. I TRATT. II TRATT. III Totaliblocco A a1 a2 a3 n1blocco B b1 b2 b3 n2blocco C c1 c2 c3 n3totali n4 n5 n6 N

Se il 2 risulta significativo, emerge il problema di conoscere a quali confronti

singoli 2 × 2 sia da attribuire la differenza

Page 98: Prontuario Di Statistica

(2001)-3-26

• si possono fare solo 4 confronti• la somma dei 4 2 con 1 gdl deve risultare uguale al 2 complessivo

• la partizione dei 4 gdl è attuata secondo i seguenti confronti 2 × 2 :

1)

1a 2a

1b 2b

2)

1a + 2a( ) 3a

1b + 2b( )3b

3)

1a + 1b( ) 2a + 2b( )

1c 2c

4)

1a + 2a + 1b + 2b( ) 3a + 3b( )

1c + 2c( ) 3c

TEST DI OMOGENEITA'

I test di indipendenza forniscono implicitamente una misura dell'omogeneità trale proporzioni e possono quindi servire per valutare se c'è eterogeneità tra le diverseproporzioni a confronto, rispetto ad un valore atteso generale

Con il test 2 si può saggiare H0 per ogni singolo campione : ogni 2 con 1

gdl fornisce il grado di scostamento di ciascuna osservazione

Se esistono tante piccole differenze sistematiche e nessuna deviazione moltoevidente, nessun test risulterà significativo e solo considerando simultaneamentel'insieme di tutti i dati, si potrà dimostrare uno scostamento non casuale

La somma dei singoli 1( )2 risulta più grande della deviazione media, quando le

varie percentuali sono tra loro eterogenee, poiché è somma di 2 componenti :- lo scostamento di ogni campione dal valore medio atteso- la differenza tra le singole percentuali

Pertanto, sottraendo allo scostamento complessivo tra tutti i gruppi rispetto alvalore atteso lo scostamento relativo a tutti i dati insieme, si determina l'eterogeneitàtra le varie proporzioni

Page 99: Prontuario Di Statistica

(2001)-3-27

ESEMPIO

Verificare se, fra alcune popolazioni di vegetali, c'è omogeneità per quantoriguarda la frequenza del gene A, misurato in campioni di piccole dimensioni evalutata, in una data regione, al 22%

Saggiare se 5 campioni provenienti da aree diverse possono essere consideratiappartenere alla stessa popolazione

campioni A osservati A attesi non-A osservati non-A attesi totale1( )

2

1 12 15,8 60 56,2 72 1,170852 15 17,2 63 60,8 78 0,361003 8 9,7 36 34,3 44 0,382194 17 20,2 75 71,8 92 0,649545 23 22,9 81 81,1 104 0,00055

totale 75 85,8 315 304,2 390 1,74287

Il 5( )2 determinato dalla somma dei 5 1( )

2 relativi a ogni campione, stima :

- la variabilità tra i campioni- lo scostamento di ognuno di essi dalla frequenza allelica attesa (22%)

5( )2 = 1,170 + 0,361 + 0,382 + 0,649 + 0,00055 = 2,56

Nel caso specifico, il valore non è significativo; pertanto i 5 campioni provengo-

no da una stessa popolazione con frequenza del gene A del 22%

Sottraendo al 5( )2 il 1( )

2 calcolato sulle frequenze totali osservate, si ottiene un

4( )2 che permette il confronto fra i 5 campioni e la verifica di omogeneità :

4( )2 = 5( )

2 - 1( )2 = 2,564 – 1,742 = 0,082

Il 4( )2 non è significativo e dunque i cinque campioni sono omogenei

Riassumendo, per misurare l'eterogeneità tra i 5 campioni, dopo aver rilevato le frequenzeosservate in ogni campione ed in totale, calcolare :1 i valori attesi per 5 campioni e per il totale, sulla base della frequenza generale attesa

2 la somma 5( )2

data dai χ2 di ognuno dei cinque campioni

3 il 1( )2

per la frequenza totale

4 la differenza tra 5( )2

e 1( )2

: il 4( )2

risultante misura l'eterogeneità tra i cinque campioni

Page 100: Prontuario Di Statistica

(2001)-3-28

ESEMPI PER TABELLE MxN

1 - Frequenze di tre alleli del marcatore ‘ossidasi’ in quattro popolazioni naturali di Fagus sylvatica

FREQUENZE OSSERVATEallele 1 allele 2 allele 3 totale

Abetone 7 244 49 300Pisanino 8 156 24 188Pradarena 22 231 31 284Pradaccio 143 185 116 444totale 180 816 220 1216

D.: Verificare se le frequenze dei tre alleli sono casuali

R.:

FREQUENZE ATTESE SECONDO H 0allele 1 allele 2 allele 3 totale

Abetone 44,4 201,3 54,3 300Pisanino 27,8 126,2 34,0 188Pradarena 42,0 190,6 51,4 284Pradaccio 65,8 297,9 80,3 444totale 180 816 220 1216

6( )2 = 7 − 44,4( )2

44, 4+ 244 − 201,3( )2

201,3+ 49 − 54,3( )2

54,3+ 8 − 27,8( )2

27,8+ 156 − 126,2( )2

126,2+

+ 24 − 34( )2

34+ 22 − 42( )2

42+ 231 −190,6( )2

190,6+ 31 − 51,4( )2

51, 4+ 143 − 65,8( )2

65,8+

+ 185 − 297,9( )2

297,9+ 116 − 80,3( )2

80,3= 240,571 p > 0,001

Esiste una differenza altamente significativa rispetto alla media delle 4 zone :- all'Abetone e al Pisanino : eccesso dell'allele 2 e carenza alleli 1 e 3- al Pradaccio e a Pradarena : eccesso alleli 1 e 3 e carenza allele 2

2 - Cloni di Daphnia magna sono stati sottoposti a quattro diversi trattamenti alimentari e dopo 39giorni si è controllato se il tasso di mortalità fosse uguale per i 4 diversi trattamenti

D.: Verificare se le differenze riscontrate sono dovute al caso o sono imputabili al diversotrattamento alimentare

FREQUENZE OSSERVATEcloni morti cloni sopravvissuti totale

Trattamento I 6 23 29trattamento II 2 26 28trattamento III 8 22 30trattamento IV 3 20 23totale 19 91 110

Page 101: Prontuario Di Statistica

(2001)-3-29

R.:

FREQUENZE ATTESE SECONDO H 0cloni morti cloni sopravvissuti totale

Trattamento I 5 24 29trattamento II 4,8 23,2 28trattamento III 5,2 24,8 30trattamento IV 4,0 19 23totale 19 91 110

3( )2 = 6 − 5( )2

5+ 23 − 24( )2

24+ 2 − 4,8( )2

4,8+ 26 − 23,2( )2

23,2+

+ 8 − 5,2( )2

5,2+ 22 − 24,8( )2

24,8+ 3 − 4( )2

4+ 20 − 19( )2

19= 4,02325

p > 0,25

La probabilità che sia vera H 0 è superiore al 25%, (molto elevata) e H 0 non può essere rifiutata

3 - Nella tabella sono riportati i risultati di un esperimento sulla schiusa di uova di Heterocyprisincongruens, mantenute a diverse condizioni di temperatura

FREQUENZE OSSERVATEschiuse non schiuse totale

16°c 131 32 16324°c 100 64 16428°c 90 91 181totale 320 188 508

D.: Si può affermare che le percentuali di uova schiuse alle 3 diverse temperature sonosignificativamente differenti, e che le uova mantenute a temperatura inferiore si schiudonocon frequenza maggiore ?

R.:

FREQUENZE ATTESE SECONDO H 0schiuse non schiuse totale

16°c 102,7 60,3 16324°c 103,3 60,7 16428°c 114,0 67 181totale 320 188 508

2( )2 = 131 −102,7( )2

102,7+ 32 − 60,3( )2

60,3+ 100 −103,3( )2

103,3+

+ 64 − 60,7( )2

60,7+ 90 − 114( )2

114+ 91 − 67( )2

67= 35,0145

p > 0,0001

Il valore del 2( )2

è alto e la probabilità che H 0 sia vera è molto bassa

Page 102: Prontuario Di Statistica

LA DISTRIBUZIONE t DI STUDENT

Oltre alla media , anche la varianza e, conseguentemente, la deviazionestandard della popolazione sono ignote; la varianza del campione s rappresenta lastima più logica ed attendibile della varianza della popolazione

Con ignota, la distribuzione delle probabilità non è fornita dalla distribuzionenormale, bensì è fornita dalla distribuzione del test t di Student (pseudonimo di W.S.Gosset)

Per attuare una inferenza sulla media di una popolazione partendo da daticampionari, occorre pertanto considerare sia la variazione di x– come stima di , sia lavariazione di s come stima di

Con n grande (grandi campioni) :• s è la migliore stima di (oltre 100 gdl, s e sono praticamente identici)• si ha convergenza dei valori della distribuzione t verso la distribuzione normale z

Con n piccolo (piccoli campioni) :• la differenza tra s e è rilevante• si deve utilizzare il test t

Gosset, usando campioni ridotti (n piccolo) studiò lo scarto tra la media dei campioni ela media dell'universo in rapporto all'ERRORE STANDARD e derivò una distribuzioneottenuta dalle variazioni determinate dal rapporto:

t = differenza fra due medie campionarieerrore standard della differenza di due medie campionarie

t = x 1 − x 2s d

n

Principale differenza tra la distribuzione normale e la distribuzione t :- la distribuzione normale considera la variazione di campionamento solo della media- la distribuzione t considera anche la variazione di campionamento della deviazione standard

Condizione di validità della distribuzione t :• distribuzione dei dati normale• osservazioni raccolte in modo indipendente

4-1 (2003)

Page 103: Prontuario Di Statistica

La distribuzione t è

La distribuzione t è :• il rapporto tra la differenza della media campionaria x– con la media attesa ed il

suo errore standard t n−1 = x −sn

• di area unitaria e di forma simmetrica (come la gaussiana degli Z)• una famiglia di distribuzioni (una distribuzione per ogni gdl) a differenza di quantoavviene per la gaussiana• coincidente con la gaussiana (cfr. le rispettive tabelle) per infiniti gdl (in praticaper n > 100)• sempre più dispersa (platicurtica) al diminuire dei gdl• ROBUSTA, cioè valida anche per distribuzioni di dati con marcate deviazione dallanormalità, infatti UN TEST è ROBUSTO QUANDO I RISULTATI POSSONO ESSERE

ACCETTATI ANCHE SE NON SI VERIFICANO RIGOROSAMENTE TUTTE LE

ASSUNZIONI DI VALIDITà

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

-3.5 -1.75 0 1.75 3.5

Distribuzione normale standardizzata (linea continua) e distribuzione t per 65 gdl

Abitualmente nei testi di statistica sono riportate due differenti tabelle di valoricritici della distribuzione t : quella per test unilaterali e quella per test bilaterali

In queste tabelle, la parte superiore di ogni colonna indica l'area sottesa dallerispettive code della distribuzione, mentre le righe si riferiscono ai gdl

I valori critici per l'area in una coda al rischio coincidono con quelli del rischio2 nella distribuzione a due code (per esempio, i valori per =0,05 coincidono con lacolonna di =0,025 nella tabella per test ad una coda)

4-2 (2003)

Page 104: Prontuario Di Statistica

test valore critico per 10 gdl

unilaterale 0,05 1,8125bilaterale 0,05 (somma di =0,025 nelle due code) 2,228

ESEMPIO

Nel confrontare gli effetti di due diversi inquinanti, in un test bilaterale si inferiscesolo sulle due medie : effetti uguali (H0) o effetti differenti (H1) ?

- nel test ad una coda, la zona di rifiuto è solamente da una parte delladistribuzione (a sinistra quando il segno è negativo, a destra quando è positivo)

- nel test a due code, la zona di rifiuto è distribuita dalle due parti

Il test a due code è più conservativo (vi si ricorre quando non si ha alcuna idea suipossibili risultati) mentre il test ad una coda è più potente

Test unilaterale per la differenza appaiata al livello di significatività del 5% con 10 gdl

Test bilaterale per la differenza appaiata al livello di significatività del 5% con 10 gdl

4-3 (2003)

Page 105: Prontuario Di Statistica

INTERVALLO di CONFIDENZA DI UNA MEDIA CON NOTA

Volendo conoscere il valore più probabile di un parametro incognito, la statisticainferenziale fornisce due valori che determinano l’INTERVALLO DI CONFIDENZA (oLIMITI FIDUCIALI) entro cui si colloca il valore del parametro secondo la probabilitàscelta

Specificare i limiti fiduciali è solamente un modo alternativo di inferire circa iparametri di una popolazione, sulla base di osservazioni campionarie

I limiti fiduciali della media della popolazione sono stimati dalla distribuzionenormale standardizzata :

- il 95% dell’area sottesa dalla curva si trova tra -1,96 e +1,96 dell'ascissa[ P(-1,96 ≤ Z ≤ +1,96) = 0,95 ]

- il 99% dell’area sottesa dalla curva si trova tra -2,58 e +2,58 dell'ascissa[ P(-2,58 ≤ Z ≤ +2,58) = 0,99 ]

Così come valuta la dispersione di campionamento delle osservazioni, l'ERRORE

STANDARD (ES) valuta la dispersione delle medie campionarie :

ES = n

La distribuzione di campionamento di medie con media ed ES = n

diventa

P Zx

n

Z P z− ≤−

≤ +

σ ( ) e può essere usata per determinare i limiti fiduciali :

- al 95% diventa P x 1,96n

x 1,96n

0,95− ≤ ≤ +

µσ

- al 99% sostituire 1,96 con 2,58

4-4 (2003)

Page 106: Prontuario Di Statistica

ESEMPIO

Da una popolazione con =3 è stato estratto un campione di 10 dati con m=25

D.: Calcolare l'intervallo di confidenza alla probabilità del 99%

R.: 25 2 583

1025 2 58 0 9487 25 2 45

22 55

27 45m m m, , , ,

,

,⋅ = ⋅ = = ⟨

Secondo le informazioni fornite da una campione di 10 misure con m=25, conprobabilità 99% si trova nell'intervallo compreso tra 22,55 e 27,45 [ ... resta laprobabilità dell’1% che si trovi fuori da questo intervallo ... ]

INTERVALLO DI CONFIDENZA DI UNA MEDIA CON IGNOTA

Per stimare sia la varianza s2 che la media x– dai dati campionari, lastandardizzazione è ottenuta mediante :

t n−1 = x −sn

Da essa si deriva l'intervallo di confidenza di = x ± t2

; n-1⋅ s

n

t2

; n−1valore della distribuzione per n-1 gdl al rischio

α2

Un aumento del numero di dati campionari agisce sulla riduzione dell'intervallo diconfidenza sia attraverso il valore del t, che diminuisce al crescere dei gdl, sia mediante

la riduzione dell'errore standard sn

Con campioni provenienti da popolazioni limitate (il campione ne rappresenta unafrazione non trascurabile), per ridurre l'errore standard nel calcolo dell'intervallo diconfidenza si aggiunge il

FATTORE DI CORREZIONE PER LE POPOLAZIONI FINITE N − n( )N − 1( )

N : dimensione della popolazione; n : dimensione del campione

4-5 (2003)

Page 107: Prontuario Di Statistica

ESEMPI

[1] Stimare, con probabilità 95%, l'intervallo di confidenza dell'altezza media diuna varietà di pomodoro, attraverso esemplari alti 22, 25, 21, 23, 24, 25, 21 pollici

x = 23 s=1,732 t0,025 ; 6 = 2,447 n = 7

Il valore di t può essere scelto nella distribuzione ad una coda (con =0,025) o nelladistribuzione a due code (con =0,05)

= 23 ± 2,447 ⋅1,7327

= 23 ±1,602

I limiti risultano l1 = 21,398 l2 = 24,602

[2] Stimare con probabilità 99% l'intervallo di confidenza della lunghezza media diun campione di 13 individui del parassita Aphis fabae1,21 1,39 1,21 1,21 1,21 1,21 1,20 1,18 1,23 1,21 1,23 1,24 1,33 mm

x = 1,235 s = 0,059 t0,005;12 = 3,055 n = 13

= 1,235 ± 3,0550,059

12= 1,235 ± 0,05203

I limiti risultano l1 = 1,175 l2 = 1,287

[3a] In un campione di tre individui con altezze 1,70 1,80 1,90 m calcolare l'intervallo di confidenza della media al 95%

x = 1,80 s = 0,10 t 0,025 ; 2 = 4,303 n = 3

= 1,80 ± 4,3030,10

3= 1,80 ± 0,2484

I limiti risultano l1 = 1,552 l2 = 2,048

[3b] In un campione di sei individui con altezze 1,70 1,80 1,90 1,70 1,801,90 1,90 m calcolare l'intervallo di confidenza della media al 95%

x = 1,80 s = 0,089 t 0,025 ; 5 = 2,571 n = 6

= 1,80 ± 2,5710,089

6= 1,80 ± 0,0934

I limiti risultano l1 = 1,7066 l2 = 1,8934

Il significato di intervallo di confidenza ...NON è : (o 2) hanno p=1- di essere compresa nell'intervallo stimato, perchè ilparametro della popolazione vi è o non vi è compresoMA è : campionando 100 volte dalla stessa popolazione, si stima con p=1- unintervallo che (1- )⋅100 volte conterrà (o 2) mentre ⋅100 volte non la conterrà

4-6 (2003)

Page 108: Prontuario Di Statistica

INTERVALLO DI CONFIDENZA DI UNA PROPORZIONE

Si adotta l'approssimazione della normale alla binomialeIn una proporzione, il valore di è completamente determinato dal valore della media

p, infatti con n costante ( )σ = ⋅ −p p1

0,5

0 0,5 1

σ

p

La di una proporzione si approssima a zero quando p è molto piccolo o moltogrande e presenta valore massimo quando p è prossimo al valore centrale 0,5

L'intervallo di confidenza di una percentuale è dato da p Zp q

n± ⋅

ESEMPIO

In un campione di 80 fumatori, il 35% ha presentato sintomi di polmonite

D.:

- Calcolare i limiti fiduciali della media al 95% e al 99% nella popolazione deifumatori con sintomi di polmonite

- Calcolare gli stessi limiti fiduciali (95% e 99%) partendo da un campione di 100fumatori anziché 80

R.: Con un campione di 80 fumatori si ha :

Per il 95 0 35 1 960 35 0 65

800 35 0 1045

0 2455

0 4545% : , ,

, ,, ,

,

,± ⋅

⋅= ± =⟨

Per il 99 0 35 2 580 35 0 65

800 35 0 1376

0 2124

0 4876% : , ,

, ,, ,

,

,± ⋅

⋅= ± =⟨

4-7 (2003)

Page 109: Prontuario Di Statistica

Con un campione di 100 fumatori si avrebbe :

Per il 95 0 35 1 960 35 0 65

1000 35 0 9349

0 2565

0 4435% : , ,

, ,, ,

,

,± ⋅

⋅= ± = ⟨

Per il 99 0 35 2 580 35 0 65

1000 35 0 1231

0 2269

0 4731% : , ,

, ,, ,

,

,± ⋅

⋅= ± =⟨

N.B. Con un campione di 100 individui gli intervalli sono più stretti rispetto a quelli prodotti dal

campione di 80 individui

INTERVALLO DI CONFIDENZA DI UNA VARIANZA

E’ possibile stimare la varianza della popolazione 2 partendo dai dati campionari,per verificare la precisione di uno strumento di misura, o per confrontare genotipiidentici cresciuti in situazioni ambientali differenti

In popolazioni normalmente distribuite, il calcolo dell'intervallo di confidenza puòessere ottenuto con la distribuzione 2, poichè

n−1( )2 = s2 ⋅ n − 1( )

2 o in modo equivalentex − x ( )2∑

2

Per calcolare l'intervallo di confidenza a probabilità p=1- , occorre individuare ivalori di 2 che escludono /2 da ciascuna delle due parti della distribuzioneIn una distribuzione non simmetrica è più laborioso scegliere i due valori di 2 che

permettono di dividere equamente tra le due code della distribuzione

4-8 (2003)

Page 110: Prontuario Di Statistica

Per un rischio =0,05, si scelgono i due valori di tali che uno escluda 2,5% asinistra e l'altro escluda 2,5% a destra

Intervallo di confidenza di :

2 -->s2 ⋅ n −1( )

1−2

2 > 2 > s2 ⋅ n −1( )

2

2

-->s2 n − 1( )

1−2

2 > > s2 n − 1( )

2

2

N.B.

Requisito essenziale è che i dati siano distribuiti normalmente; questa assunzione è tanto più

importante e difficile da rispettare quando n è piccolo

Quando la normalità della distribuzione campionaria non può essere dimostrata, irisultati del calcolo dell'intervallo fiduciale di una varianza vanno applicati con cautela

ESEMPIO

Determinare con p=99% l'intervallo di confidenza della varianza di composticlorurati totali (µg/m3 a 0° C e 1013 mbar) nell'atmosfera di una metropoli sulla basedi 16 prelievi con s2 = 8210,67

0,995 ; 152 = 4,605 0,005 ; 15

2 = 32,85

8210,67 ⋅1532,85

< 2 < 8210,67 ⋅154,605

3748,980 < 2 < 26743,540 = 15

4-9 (2003)

Page 111: Prontuario Di Statistica

CONFRONTO TRA DUE MEDIE

Le situazioni più ricorrenti non riguardano il confronto tra media campionaria emedia della popolazione, bensì il confronto tra due medie campionarie

H0 : 1 = 2 ( oppure H0 : 1 – 2 = 0 ), ovvero 1 e 2 sono :

- estratte dalla stessa popolazione- diverse, nelle medie campionarie x 1 e x 2 , soltanto per differenze casuali

- identiche

Attraverso il test t si determina la probabilità p di ottenere differenze maggiori di quelle sperimentalmente osservate :

• se p risulta piccola (convenzionalmente p < 5%), si rifiuta H0• se p risulta grande, si accetta H0➥ si inferisce che esiste una ragionevole evidenza per dubitare che sia vera, cioè

esiste una differenza reale tra le due medie che appartengono a popolazionidiverse

N.B. Nel confronto tra un campione di soggetti sottoposti a trattamento ed un campione di soggetti:

- utilizzati come controllo : test unilaterale (test a una coda)

- sottoposti ad un altro trattamento : test bilaterale (test a due code)

• La direzionalità del confronto è insita nella natura dell'esperimento, ma va esplicitata,poichè da essa deriva la distribuzione delle probabilità alle quali è possibilerifiutare H0 :

- test unilaterale : per dimostrare se una media è maggiore dell'altra, escludendoa priori che essa possa essere minore (esclude a priori che il confronto possafornire una parte delle risposte teoricamente possibili, in quanto prive disignificato nel caso specifico)- test bilaterale : per dimostrare se una media è maggiore dell'altra, ma senzaescludere a priori che essa possa essere minore

4-10 (2003)

Page 112: Prontuario Di Statistica

TEST t PER DUE CAMPIONI DIPENDENTI (DATI APPAIATI)

Caratteristica distintiva :• poter accoppiare ogni osservazione di un campione con una e una sola

osservazione dell'altro campione• necessariamente i due gruppi hanno sempre lo stesso numero di dati

Scopo principale dell’appaiamento dei dati:- creare il massimo di omogeneità entro ogni coppia- creare il massimo di eterogeneità tra le coppie

Situazione A : AUTO-ACCOPPIAMENTO (dati auto-appaiati)ogni soggetto serve come controllo di se stesso e i dati vengono ricavati dagli stessi

individui in momenti diversi

Per esempio:- confronto tra i livelli di pressione rilevati nello stesso gruppo di individui sia in

condizioni normali che dopo uno stress- confronti prima-e-dopo riferiti agli stessi individui

Stuazione B : OSSERVAZIONI NATURALMENTE APPAIATE

non sono tratte dagli stessi individui, ma da coppie di individui sceltiappositamente

Per esempio:- misure rilevate in coppie di animali tratti dalla stessa nidiata e sottoposti a

situazioni ambientali differenti- confronto tra il comportamento materno e paterno nella cura alla prole,

quando si dispone di dati relativi a coppie

Situazione C : APPAIAMENTO ARTIFICIALE

- studi di confronto con molte variabili, dove si rileva un parametro in unasituazione ambientale compromessa e lo stesso parametro nella situazione naturale

Il confronto tra trattamento e controllo sugli stessi individui o tra situazioni simili sipropone di eliminare alcune sorgenti di variabilità che potrebbero nascondere le realidifferenze tra le due serie di misure: esaminare le differenze fra due misurazioni riducel'effetto della variabilità intrinseca degli individui

4-11 (2003)

Page 113: Prontuario Di Statistica

Tecnicamente il confronto è semplice: l'analisi è ridotta alla sola serie risultantedalle differenze tra gli elementi di ciascuna coppia

H0 : la media dell'universo delle differenze è 0 (δ = 0)H1 è diversa nei due tipi di test :

- test bilaterale : la differenza media non è 0 (δ ≠ 0)- test unilaterale : la differenza è maggiore oppure minore di 0 (δ > 0; δ < 0)

Il test della differenza media è t n−1 = d − dsn

d media della colonna delle differenze,differenza attesa, spesso ma non necessariamente 0

s deviazione standard calcolata sulla colonna delle differenzen n° di paia di dati, corrispondente al numero delle differenze

sn

errore standard della media delle differenze

ESEMPI

[1] Ad 8 individui adulti è stata misurata la pressione (a) in condizioni normali e (b)dopo l'apprendimento di una notizia capace renderli ansiosi

Individuo normale ansia differenza dA 140 180 40B 145 175 30C 140 165 25D 160 195 35E 150 180 30F 145 180 35G 160 200 40H 145 190 45

d media = 35

D.:

Verificare se gli individui in condizioni di ansia manifestano un aumento dellapressione sistolica sanguigna mediamente superiore ai 30 mm Hg

La formulazione del problema fa capire che si tratta di un test ad una coda, con

H0 : = 30 e H1 : > 30

4-12 (2003)

Page 114: Prontuario Di Statistica

R.:

d = 2808

= 35 s = 3007

= 6,55 n = 8

t 7 = 35 − 306,55

8

= 2,16

Valore critico per 7 gdl ; test ad una coda ; = 0,05 t = 1,895

Il valore calcolato è superiore a quello tabulato e quindi la probabilità che ladifferenza tra media osservata e media attesa sia casuale è < 0,05

➥ si rifiuta H0 e si accetta H1 (l'aumento di pressione in condizioni di stress supera

30 mm Hg)

[2] Con i dati dell’esempio precedente ci si sarebbe potuti anche chiedere, piùsemplicemente, se in condizioni di stress la pressione subisce un aumento

Anche in questo caso si tratta di un test ad una coda, ma varia la differenza attesain H0 : = 0 e H1 : > 0

t 7 = 35 − 06,55

8

= 15,15

Il t calcolato è molto superiore a quello tabulato sia per = 0,01 che per = 0,005 per cui la differenza è altamente significativa

➥ si rifiuta H0 con un rischio bassissimo di commettere un errore di I^ tipo

[3] Un gruppo di 10 cavie è stato sottoposto ad una dieta diversa per cui ognisoggetto è stato pesato prima e dopo la nuova dieta

4-13 (2003)

Page 115: Prontuario Di Statistica

cavia prima dopo differenza dd − d ( )2

1 180 190 10 12 175 170 - 5 1963 150 175 25 2564 158 164 6 95 174 185 9 06 187 184 - 3 1447 172 185 13 168 157 168 11 49 164 180 16 4910 165 173 8 1

D.: La nuova dieta determina una differenza ponderale ?

Si tratta di un test a due code, con Η0 : = 0 Η1: ≠ 0

R.: d = 9010

= 9 s = 6769

= 8,66 n = 10

Per un test a due code il valore critico della distribuzione per 9 gdl e = 0,05 èt = 2,262

Il valore calcolato è superiore al valore critico e quindi la probabilità che ladifferenza riscontrata sia casuale è < 0,05 | ➥ si rifiuta H0 e si accetta H1 (la nuovadieta determina una differenza ponderale nelle cavie)

Si possono ottenere le medesime conclusioni attraverso la STIMA DELL'INTERVALLO

FIDUCIALE DELLA DIFFERENZA MEDIA che per due campioni dipendenti, in analo-gia a quanto già visto, è

d = d ± t a

2 ; n−1

⋅ sn

d per = 0,05 con t 9; 0,025 diventa

9 ± 2,262 ⋅ 7,5710

= 9 ± 5,42

d1 = 3,58 d2 = 14,42

La differenza media campionaria è d = 9L'intervallo entro cu,i con = 0,05, si trova (media reale della popolazione) è

compreso tra 3,58 e 14,42

Si osservi che espresso in termini di H0 ( Η0 : = 0 ), risulta esterno all' inter-vallo di confidenza calcolato e quindi si discosta significativamente dal valore mediosperimentale

4-14 (2003)

Page 116: Prontuario Di Statistica

TEST t PER CAMPIONI INDIPENDENTI (DATI NON APPAIATI)

In molti casi non è fattibile o conveniente formare due campioni dipendenti, poiché non si possono misurare gli effetti di due differenti trattamenti sugli

stessi individui :• misure di accrescimento somatico alla stessa età in animali o piante sottoposte

a condizioni ambientali differenti• confronto tra parametri chimici, fisici, biologici di ambienti naturali

Due gruppi di osservazioni ottenute in modo indipendente hanno il vantaggio di:- potere avere un numero differente di osservazioni ( n1 ≠ n2 )

- essere più facilmente espressivi della variabilità casuale- consentire i calcoli direttamente sulle due serie di osservazioni

(con i due campioni dipendenti i calcoli venivano effettuati sulla sola colonna delle differenze)

Il test t pone la stessa domanda dei dati appaiati, ma la forma è diversa :

t n1+n2 −2 =x 1 − x 2( ) − 1 − 2( )

s p2 ⋅ 1

n1

+ 1n2

dove :x x1 2 e medie dei due campioni

1 2 e medie attese (la loro differenza è il valore atteso in H0)n1 e n2 n° di osservazioni nei due campioni

sp2 varianza associata (POOLED) dei due gruppi :

rapporto tra la somma delle due devianze e la somma dei rispettivigdl (il procedimento è indispensabile quando n1 ≠ n2)

Η0 : 1 = 2 oppure 1 − 2 = 0

H1 per un test ad una coda : Η1 : 1 > 2 oppure 1 < 2

[o anche Η1 : 1 − 2 > 0 oppure 1 − 2 < 0 ]

H1 per un test a due code : Η1 : 1 ≠ 2 oppure 1 − 2 ≠ 0

4-15 (2003)

Page 117: Prontuario Di Statistica

Condizioni di validità del test t :• dati distribuiti normalmente (questa ipotesi di normalità può essere, sebbeno non

marcatamente, violata senza gravi effetti sulla potenza del test)• osservazioni raccolte in modo indipendente (per due campioni dipendenti)• varianze statisticamente uguali (per calcolare S2 POOLED) (l'eguaglianza delle varianze delle due popolazioni indipendenti deve essere rispettata)

Se i dati delle due popolazioni sono distribuiti normalmente, il rapporto tra le duevarianze si avvicina alla distribuzione F

La verifica dell'ipotesi Η0 : s12 = s 2

2 Η1: s 12 > s 2

2

utilizza il rapporto F n1−1( ) ; n2 −1( ) = s12

s22

s12 e s2

2 varianza maggiore e varianza minore

n1 e n2 n° dati del gruppo a varianza maggiore e a varianza minore

I valori critici della distribuzione F dipendono dai gdl del numeratore, riportati nellaprima riga della tabella, e da quelli del denominatore, riportati nella prima colonna

N.B. Se le varianze risultano statisticamente differenti, si ricorre a test di statistica non parametrica

come l'approssimazione di Cochran o a test di statistica non parametrica per due campioni indipendenti

Intervallo fiduciale della differenza tra le due medie campionarie x 1 − x 2( ) con

varianze statisticamente uguali :

1 − 2 = x 1 − x 2( ) ± t2

; n1+ n2 −2( )

⋅s p ⋅ 1n1

+ 1n 2

gdl : n1+n2-2

esd = sp2 ⋅ 1

n1

+ 1n2

4-16 (2003)

Page 118: Prontuario Di Statistica

ESEMPI

[1] Saggiare se la concentrazione algale influisce positivamente sulla crescita(valori in mm) di Daphnia magna.

In laboratorio si sono allevati 40 individui dello stesso ceppo:- 20 in una soluzione con concentrazione algale 120.000 cellule / ml- 20 in una soluzione con concentrazione algale 24.000 celle / ml

120.000/ml(x1)

24.000/ml(x2)

4,290 3,1203,900 3,1123,783 3,1203,900 2,8474,095 3,0814,056 3,0424,173 3,0424,095 3,1984,095 3,0814,056 2,9643,939 3,1203,978 2,9644,017 3,0034,251 3,0814,017 3,0423,900 2,9254,095 3,1984,173 3,1203,978 2,9644,095 3,003

Η0 : 1 = 2 Η1 : 1 > 2

x1 x2n 20 20Media x– 4,0443 3,04335Devianza SQ 0,30075 0,15326Varianza s2 0,015828 0,008066

Controllare se le due varianze, attraverso il rapporto fra quella maggiore e quellaminore, non sono statisticamente diverse :

0,0158280,008066

= 1,962

e confrontare il risultato con il valore critico, per = 0,05, F 20−1( ); 20−1( ) = 2,16

4-17 (2003)

Page 119: Prontuario Di Statistica

Essendo 1,962 < 2,16 le due varianze sono statisticamente uguali, e si possonoquindi confrontare le due medie

sp2 = 0,30075 + 0,15326

20 − 1 + 20 − 1= 0,45401

38= 0,01194

Errore standard della differenza fra medie :

esd = 0,01198 ⋅ 120

+ 120

= 0,034554

t20+20−2 = 4,0443 − 3,043550,034554

= 29,157

Si tratta di test ad una coda poiché interessa valutare solo se la maggiore concen-trazione algale produce una maggiore crescita di Daphnia

Valore critico per = 0,01 e 38 gdl : t = 2,329 [ << 29,157 ]

➥ La maggior concentrazione algale influisce in modo altamente significativo sulla crescita di Daphnia

Il calcolo dell’intervallo fiduciale della differenza fra le due medie è un modoalternativo per verificare H0 :

per = 0,05 --> x 1 − x 2( ) ± t0,05 ; n1 +n2 −2( ) ⋅ esd = 1,00095 ± 1,686 ⋅0,034554

l1 = 0,94269 l2 = 1,059208

per = 0,01 --> x 1 − x 2( ) ± t0,05 ; n1 +n2 −2( ) ⋅ esd = 1,00095 ± 2,429 ⋅ 0,034554

l1 = 0,91701 l2 = 1,08488

4-18 (2003)

Page 120: Prontuario Di Statistica

[2] Si è misurata la produzione di muffe (in termini di tempo trascorso prima dellaloro comparsa) in due formaggi da tavola di composizione similare :

- 12 trattati con polifosfati durante il confezionamento- 13 trattati con derivati dell’acido salicilico

D : La differenza media osservata dello sviluppo di colonie nei due gruppi diformaggi è statisticamente significativa ?

polifosfatix1

ac. salicilicox2

7,94 7,308,03 7,268,18 6,828,03 7,088,19 7,138,01 7,378,16 7,428,16 7,168,18 6,898,29 6,967,94 7,138,29 7,08

7,17Η Η0 1 2 1 1 2 : :µ µ µ µ= ≠

x1 x2n 12 13Media x– 8,117 7,136Devianza SQ 0,16656 0,37690Varianza s2 0,015 0,0314

Controllare che le due varianze non siano statisticamente diverse0,03140,015

= 2,093

Valore critico per =5% F13−1( ); 12−1( ) = 2,79 > 2,093 e dunque le due varianze

sono statisticamente uguali: si possono quindi confrontare le due medie

sp2 = 0,16656 + 0,37690

12 −1 + 13 − 1= 0,54346

23= 0,02362

Errore standard della differenza fra le medie: esd = 0,02362 ⋅ 112

+ 113

= 0,06152

t12+13−2 = 8,117 − 7,1360,06152

= 15,946

4-19 (2003)

Page 121: Prontuario Di Statistica

Si tratta di test a due code poichè interessa valutare la significatività della differenzafra le medie dei tempi-muffa sui due gruppi di formaggi

Valore critico per = 0,01 e 23 gdl : t =2,807 [<< 15,946]

➥ I due tipi di formaggio hanno una resistenza allo sviluppo di muffe statisticamentemolto diverso

Intervallo fiduciale della differenza fra le due medie :

per = 0,05 --> x 1 − x 2( ) ± t0,05 ; n1 +n2 −2( ) ⋅ esd = 0,981 ± 2,069 ⋅0,06152

l1 = 0,85083 l2 = 1,11116

per = 0,01 --> x 1 − x 2( ) ± t0,001 ; n1+ n2 −2( ) ⋅esd = 0,981 ± 2,807 ⋅0,06152

l1 = 0,80441 l2 = 1,15758

4-20 (2003)

Page 122: Prontuario Di Statistica

DIMENSIONI DEL CAMPIONE

Una domada che spesso si pone al ricercatore è di quale dimensione, cioè di quanteosservazioni, deve essere composto il campione

Il test t per un campione fornisce già, se si analizzano i valori critici all'aumentaredei gdl, una prima risposta: alla probabilità di 0,05 per un test a due code, il valore di tda 12,7 per 1 gdl scende a 4,3 per 2 gdl; poi a 3,1 per 3 gdl e a 2,7 per 4 gdl.Successivamente, il valore di t diminuisce molto più lentamente all'aumentare delnumero di dati. Rispetto a due soli dati (un gdl), un campione di 4-6 dati permette direndere significativa una differenza nettamente minore: quattro dati (tre gdl)permettono di rendere significativa una differenza almeno quattro volte più piccola diquanto sia possibile con due soli dati (un gdl)

Per ottenere indicazioni meno vaghe, occorre conoscere alcune informazioniindispensabili, che la stessa formula per il test t indica:- il valore della differenza minima di cui si intende saggiare la significatività- la varianza del fenomeno (σ2)- il livello di significatività (α)

Quando è noto , si ricorre alla distribuzione normale zd

n

= σ dalla quale si può

ricavare nz

d

2 2

2

ESEMPI

[1] I limiti di legge di una sostanza inquinante A sono fissati a 50 mg / litro; èdimostrato che la strumentazione utilizzata ha una varianza (σ2) uguale a 80

Quante osservazioni occorrono per dimostrare che la concentrazione della sostanza Aè significativamente maggiore - alla probabilità = 0,05 - se essa è presente con mediadoppia (100 mg / litro) rispetto ai limiti definiti della norma di legge ?

z 00521 645 80 50, ,= = =σ d

Si richiede un test ad una coda n =1,645( )2 ⋅ 80( )2

50( )2 =2,7060 ⋅6400

2500= 6,92

Con tale risultato si deduce che servono almeno 7 osservazioni

4-21 (2003)

Page 123: Prontuario Di Statistica

[2] Il primo esercizio era fondato su un test ad una coda. Se si fosse trattato di untest a due code, nel quale veniva richiesto di dimostrare una differenza significativa trauna media di 50 e una di 100, con la stessa varianza e alla stessa probabilità, occorrescegliere un valore di z = 0,025 sui due lati :

z 00521 96 80 50, ,= = =σ d

n =1,96( )2 ⋅ 80( )2

50( )2 =3,8416 ⋅ 6400

2500= 9,83

Per un test a due code, servirebbero dunque almeno 10 osservazioni

( Si sottolinea la maggiore potenza del test ad una coda: rispetto al test ad una codaquello a due code in questo caso ha una potenza di 7 / 10 = 0,7 ovvero del 70% )

[3] Un secondo ricercatore dispone di una strumentazione migliore, che nellamisurazione dimostra una varianza 2 = 60

Quante osservazioni deve effettuare, per dimostare che rispetto ad un valore medio di50 è significativamente maggiore alla probabilità 0,05 una media di 75 mg/l ?

E' un test ad una coda, dove z 00521 645 60 25, ,= = =σ d

n =1,645( )2 ⋅ 60( )2

25( )2 =2,7060 ⋅ 3600

625= 15,58

Occorrono dunque almeno 16 misurazioni

[4] Con i dati del secondo esercizio, quante osservazioni occorrono per dimostrareuna differenza significativa per un test a 2 code alla probabilità 0,01 ?

z 00122 58 80 50, ,= = =σ d

n =2,58( )2 ⋅ 80( )2

50( )2 =6,6564 ⋅ 6400

2500= 17, 04

Non servono almeno 10 come nell'esercizio 1, ma almeno 18 dati

4-22 (2003)

Page 124: Prontuario Di Statistica

Nel caso di frequenze relative (percentuali), la formula per verificare la significativitàdi una differenza è uguale alla precedente, ricordando che 2 è uguale a p(1-p),essendo totalmente determinato dal valore medio

z =p

p ⋅ 1 − p( )n

p– : differenza media p1 − p2( ) che si vuole significativa

Risolvendo per n, si ottiene n =z 2 ⋅ p ⋅ 1 − p( )

p 2

Poichè la varianza di una percentuale o frequenza relativa (p ⋅ q) è determinatadirettamente dalla frequenza media, il numero di dati necessari per dimostrare lasignificatività di un differenza dipende dalle medie (p1 e p2) a confronto p1 − p2 = p ( );esso diminuisce in modo simmetrico, quanto più ci si allontana dal 50%

p media p (1-p) 2

0,5 0,5 ⋅ 0,5 = 0,250,4 0,4 ⋅ 0,6 = 0,240,3 0,3 ⋅ 0,7 = 0,210,2 0,2 ⋅ 0,8 = 0,160,1 0,1 ⋅ 0,9 = 0,090,05 0,05 ⋅ 0,95 = 0,04750,04 0,04 ⋅ 0,96 = 0,03840,03 0,03 ⋅ 0,97 = 0,02910,02 0,02 ⋅ 0,98 = 0,01960,01 0,01 ⋅ 0,99 = 0,0099

4-23 (2003)

Page 125: Prontuario Di Statistica

ESEMPI

[1] In una popolazione animale arrivano in media all'età della riproduzione il 60%degli individui; con una nuova tecnica d'allevamento, si vuole dimostrare un migliora-mento di almeno il 7%

Quanti individui servono perchè questa differenza risulti significativa alla probabilità0,05 ?

E' un test ad una coda, dove z0,05 = 1,645 2 = p ⋅ 1− p( ) = 0,6 ⋅ 0, 4 = 0,24 p = 0,07

n =1,645( )2 ⋅0,24

0, 07( )2 =0,6494

0,0049= 132,5

Sono necessarie almeno 133 osservazioni

[2] Se la sopravvivenza è 90%, quanti dati si richiedono per valutare comestatisticamente significativo alla stessa probabilità un miglioramento del 7% ?

z 0,9 0,1=0, 09 00521 645 0 07, , ,= = ⋅ =σ p

n =1,645( )2 ⋅0, 09

0,07( )2 =0,2435

0,0049= 49,7

Si richiedono almeno 50 osservazioni.

Quando la varianza della popolazione 2 è ignota e si deve utilizzare la varianza delcampione s2, si ricorre alla distribuzione t

Poichè il valore di t varia al variare dei gdl, e quindi delle dimensioni del campione, ilcalcolo di n richiede un procedimento di iterazione

nt s

dn=

⋅−12 2

2dove d è la differenza media che si vuole sia significativa

4-24 (2003)

Page 126: Prontuario Di Statistica

[3] In 5 campioni di acqua è stata misurata la concentrazione di una sostanza: lamedia è risultata pari a 39 grammi per litro e la varianza s2 è risultata pari a 800

La differenza con il valore di 25 grammi/litro, indicato come il limite massimotollerabile non risulta significativo

t4

39 25

800

5

14

12 651 107=

−= =

,,

Per un test ad una coda con, 4 gdl alla probabilità 0,05 il valore critico di t è pari a2,1318; il valore calcolato è inferiore anche a quello tabulato alla probabilità 0,10 che èuguale a 1,5332

La probabilità di ottenere casualmente scarti uguali o maggiori di quello riscontrato trala media rilevata e quella di legge è molto elevata

➥ si accetta H0

Ma la media osservata è superiore a quella massima tollerabile; è ragionevole supporreche la differenza non sia risultata significativa a causa delle ridotte dimensioni delcampione

Quanti dati sono necessari, a parità di media e di varianza, perchè quella differenzamedia risulti significativa alla probabilità 0,05 ?

Ricordando che all'aumentare dei gdl l'errore standard tende a diminuire, si puòtentativamente scegliere t con 15 gdl alla probabilità 0,05 per un test unilateralet15 = 1,7531( )

n =⋅

= =800 1 7531

14

2458 72

19612 54

2

2

, ,,

Sono pertanto necessari almeno 13 dati.

Il numero di osservazioni stimato si è dimostrato molto vicino a quello scelto a priori.Nel caso che tra i due risultati vi fosse stata una differenza rilevante, si sarebberodovuti rifare i calcoli utilizzando il valore di un t con un numero di gdl intermedio,ripetendo il procedimento fino al valore esatto

4-25 (2003)

Page 127: Prontuario Di Statistica

ANALISI DELLA VARIANZA

Per il confronto tra le medie aritmetiche di più gruppi, non è possibile ricorrereal test t, suddividendo l'analisi in tanti confronti a coppie quante sono le combinazionidegli n gruppi 2 a 2.

Se i gruppi sono numerosi, la probabilità complessiva che almeno uno di essi siasignificativo per caso aumenta proporzionalmente (ad es., con =0,05 e 20 confronti,mediamente uno risulterà significativo per caso, pur essendo vera H0)

Nel confronto tra più medie, H0 e H1 assumono la formulazione :

H 0: 1 = 2 = 3 =... = k

le medie delle popolazioni dalle quali sono estratti casualmente i campionisono tra loro uguali

H1: non tutte le medie aritmetiche sono uguali

si possono realizzare varie situazioni, e le più estreme sono:- le medie sono tutte differenti tra loro- una sola media è diversa dalle altre, tra loro uguali

Per verificare la significatività delle differenze tra le medie aritmetiche di varigruppi si conduce un’ANALISI DELLA VARIANZA (sintetizzato in ANOVA, acronimodi ANalysis Of VAriance)

La distribuzione utilizzata è la distribuzione F in onore di Sir Ronald Aylmer Fisher (1890-1962), il più eminente statistico contemporaneo padre della statistica moderna

La metodologia attuale del test F è dovuta a Snedecor, un allievo di Fisher che ne perfezionò ilmetodo e ne semplificò la forma

Nel 1925 Fisher completò il metodo di Student per il confronto tra due medie, elaborando nelcontempo il concetto di gdl: è suo il metodo attualmente utilizzato

ANOVA è la metodologia alla base della statistica moderna : gli stessi principi si applicano dalleanalisi più semplici a quelle più complesse dell'analisi multivariata

IN ANOVA :• si posono scomporre e misurare con precisione le fonti di variazioni sui valori

osservati di due o più gruppi• la fonte di variazione è detta FATTORE SPERIMENTALE (o TRATTAMENTO)

e può essere a più livelli• ogni unità od osservazione del fattore sperimentale è detta REPLICAZIONE

5-1-(2000)

Page 128: Prontuario Di Statistica

ANOVA AD UN CRITERIO DI CLASSIFICAZIONE(COMPLETAMENTE RANDOMIZZATA)

E’ il modello più semplice di ANOVA

E’ così chiamato in quanto si confrontano due o più livelli dello stesso fattore

E' detto anche MODELLO COMPLETAMENTE RANDOMIZZATO :

- prevede un campionamento in cui gli n individui omogenei (o repliche)sono assegnati casualmente ai vari livelli del fattore (o trattamenti)

- nel gruppo di soggetti da sottoporre ai diversi trattamenti per confrontarnegli effetti, l'attribuzione di ogni soggetto ad uno specificotrattamento va effettuato per estrazione casuale

- tutto il gruppo deve essere completamente randomizzato- i vari gruppi possono non avere lo stesso n° di osservazioni o repliche (n1,

n2, …, np sono in generale diversi tra loro)

- i dati sperimentali vanno riportati secondo la tabella sottostante

LIVELLI DEL FATTORE

SPERIMENTALE

O TRATTAMENTI

T1 T2T3 ... Tp

UNITÀ' X11 X12X13 ... X1p

SPERIMENTALI X21 X22X23 ... X2p

(o REPLICAZIONI) X31 X32 X33 ... X3p

... ... ... ... ...Xn 11

Xn 22Xn 33 ... Xn pp

n1

n2

n3 ... n

p

medie dei trattamenti X •1 X •2 X •3 ... X •p

media generale X• •

5-2-(2000)

Page 129: Prontuario Di Statistica

Secondo questo semplice modello di ANOVA, ogni singola osservazione Xij

X ij = + j + ij

è composta da• MEDIA GENERALE • FATTORE j dovuto all'EFFETTO del j-esimo TRATTAMENTO misurato come

j = j - con :

j media del trattamento

media generale

• un FATTORE CASUALE ij detto RESIDUO o ERRORE SPERIMENTALE

(errore non è sinonimo di sbaglio, ma di fattore sconosciuto o non valutatoo non controllato nell'esperimento)

Gli errori ij devono :

• ESSERE TRA LORO INDIPENDENTI: la variazione casuale di ogni replica non deve essere influenzata da quella di un'altra

(è una indipendenza che può essere ottenuta solamente con unacorretta distribuzione casuale delle repliche e quindi di una lorodistribuzione secondo la normale)

• DARE VARIANZE OMOGENEE tra loro entro ogni trattamento

• ESSERE DISTRIBUITI NORMALMENTE

La metodologia di ANOVA prevede il calcolo di :

• devianza TOTALE scomposta in :• devianza TRA TRATTAMENTI (o BETWEEN) con i suoi gdl e la varianza

relativa• devianza ENTRO TRATTAMENTI (o WITHIN o ERRORE) con i suoi gdl e

la varianza relativa

5-3-(2000)

Page 130: Prontuario Di Statistica

Queste quantità abitualmente vengono presentate in uno specchietto :

devianzatotale

gdl = n-1(n = n° dati)

devianzatra trattamenti

gdl = p-1(p = n° gruppi)

“varianzatra”

devianzaentro trattamenti

gdl = n-p “varianza entro”

Devianza TOTALE (o SQ o Somma dei Quadrati degli scarti, o Sum of Squares) :

SQ tot = (X ij - X)2

i=1

n j

∑j=1

p

∑ = X ij2

i=1

n j

∑j=1

p

∑ -

( X iji=1

n j

∑j=1

p

∑ )2

n

- la prima formula, EURISTICA, definisce il significato di devianza totale- la seconda formula, ABBREVIATA, è matematicamente equivalente alla

prima, ma rende più semplici e rapidi i calcoli necessari

Devianza TRA TRATTAMENTI :

SQ tra = n j ⋅ (X j – X)2

j=1

p

∑ = i=1

nj

∑ ( (X ij )2

j=1

p

∑ / n j ) –

(i=1

nj

∑ X ij )2

j=1

p

∑n

Devianza ENTRO TRATTAMENTI :

SQentro = (X ij - X j )2

i=1

n j

∑j=1

p

Dividendo “devianza tra” e “devianza entro” per i rispettivi gdl si ottengono “varianza tra” e “varianza entro” :

- la “varianza tra” misura le differenze esistenti tra un gruppo e l'altro- la “varianza entro” misura la variabilità esistente attorno alla media

aritmetica di ogni gruppo

5-4-(2000)

Page 131: Prontuario Di Statistica

“Varianza tra” e “varianza entro” dipendono dalla variabilità esistente nei datied essendo due misure della stessa variabilità, dovrebbero avere lo stesso valore

Indice dell'uguaglianza tra queste due componenti di varianza, è il

TEST F DI FISHER fondato sul rapporto “ VARIANZA TRA”

” VARIANZA ENTRO” :

• se è vera H0 dovrebbe risultare F = 1• se è vera H1 dovrebbe risultare F > 1

- con un n° infinito di trattamenti e di repliche, è sufficiente F > 1 perrifiutare l'H0

- con un numero ridotto di repliche, può essere F > 1 per effetto dellevariazioni casuali

ESEMPIO

In un'analisi della qualità dell'aria in tre diverse zone di città, è stata misurataanche la quantità di ferro (in µg/N mc a 0°C e 1013 mbar)

D.:

Esiste una differenza significativa tra le tre zone A, B e C ?

FATTORESPERIMENTALE

A B C2,71 1,75 2,222,06 2,19 2,382,84 2,09 2,562,97 2,75 2,602,55 2,722,78

X j∑ 15,91 8,78 12,48 X∑ 37,17ni 6 4 5 n 15

X• j 2,652 2,195 2,496 X • • 2,478

5-5-(2000)

Page 132: Prontuario Di Statistica

La DEVIANZA TOTALE è data dalla somma dei quadrati degli scarti di ognunadelle 15 osservazioni rispetto alla media totale

A B C(2,71 — 2,478)2 (1,75 — 2,478)2 (2,22 — 2,478)2

(2,06 — 2,478)2 (2,19 — 2,478)2 (2,38 — 2,478)2

(2,84 — 2,478)2 (2,09 — 2,478)2 (2,56 — 2,478)2

(2,97 — 2,478)2 (2,75 — 2,478)2 (2,60 — 2,478)2

(2,55 — 2,478)2 (2,72 — 2,478)2

(2,78 — 2,478)2

Quindi, svolgendo i calcoli e sommando i risultati

A B C0,053824 0,529984 0,0665640,174724 0,082944 0,0096040,131044 0,150544 0,0067240,242064 0,073984 0,0148840,005184 0,0585640,0912040,698040 0,837456 0,156340

Devianza totale = 0, 698040 + 0,837456 + 0,156340 = 1,691836

Il metodo è lungo e produce stime non precise quando la media sia approssima-ta; per il calcolo manuale è conveniente utilizzare la formula abbreviata che comportala somma dei quadrati di ogni replica

A B C7,3441 3,0625 4,92844,2436 4,7961 5,66448,0656 4,3681 6,55368,8209 7,5625 6,76006,5025 7,39847,7284

x2 42,7051 19,7892 31,3048 93,7991

Devianza tot = Sx 2 - (Sx )2

n = 93, 7991 -

(37,17)2

15 = 1,69184

5-6-(2000)

Page 133: Prontuario Di Statistica

“ DEVIANZA TRA” :

- misura la variabilità esistente tra la media aritmetica di ogni gruppo e la media aritmetica generale, ponderata per il n° di osservazioni presenti in ciascun gruppo

- è la somma degli scarti di ogni media di gruppo rispetto alla media generale, ponderata per il n° di repliche

- ipotizza che, in assenza di variabilità d'errore, i dati sperimentali assumano i valori

A B C2,652 2,195 2,4962,652 2,195 2,4962,652 2,195 2,4962,652 2,195 2,4962,652 2,4962,652

media totale2,478

Pertanto con la formula euristica il calcolo diventa :

Devianza tra = n j(X j - X)2

J=1

P

Devianza = 6 (2, 652 - 2, 478) + 4 (2,195- 2, 478) + 5 (2, 496- 2, 478) =

= 6 0, 030276 + 4 0, 080089 + 5 0,000324 =tra

2 2 2⋅ ⋅ ⋅⋅ ⋅ ⋅

= , + , + , = ,0 181656 0 320356 0 00162 0 503632

La formula abbreviata è più rapida e precisa :

Devianza tra = (Sx) j

2

n j∑ -

(Sx)2

n

Devianza = (15,91)

6 +

(8,78)4

+ (12, 48)

5-

(37,17)15

=92, 610196 - 92,10726 = 0, 502936tra

2 2 2 2

5-7-(2000)

Page 134: Prontuario Di Statistica

“ DEVIANZA ENTRO” :

- misura la variazione tra il valore di ciascuna replica e la media aritmetica del proprio gruppo

- è la somma di queste differenze elevate al quadrato per ogni gruppo

A B C(2, 71- 2, 652)2 (1,75 - 2,195)2 (2, 22 - 2,496)2

(2, 06 - 2, 652)2 (2,19 - 2,195)2 (2, 38- 2, 496)2

(2, 84 -2, 652)2 (2, 09 - 2,195)2 (2, 56 - 2,496)2

(2, 97 -2, 652)2 (2, 75 -2,195)2 (2, 60 - 2,496)2

(2, 55 -2, 652)2 (2, 72 - 2,496)2

(2, 78 -2, 652)2

Sviluppando i calcoli e sommando si ottiene

A B C0,003364 0,198025 0,0761760,350464 0,000025 0,0134560,035344 0,011025 0,0040960,101124 0,308025 0,0108160,010404 0,0501760,015376

Devianza entro 0,516076 0,517100 0,154720

- con la formula euristica (somma degli scarti al quadrato) risulta

Devianza = 0, 516076 + 0, 517100 + 0,154720 = 1,187896entro

- può essere ottenuta sottraendo la “devianza tra” dalla devianza totale

Devianza Devianza Devianzaentro totale tra= − = − =1 69184 0 502936 1 188904, , ,

5-8-(2000)

Page 135: Prontuario Di Statistica

Per riassumere i calcoli effettuati, si imposta una tabella che riporta le tre devianze con i rispettivi gdl :

- totale : n° di repliche meno 1- “tra” : n° di trattamenti meno 1- “entro” : n° di repliche meno il n° di trattamenti, equivalente ai gdl della

devianza totale meno quelli della “devianza tra”

DEVIANZE GDL VARIANZEtotale 1,69184 14

“devianza tra” (between) 0,502936 2 0,251468“devianza entro” (within) 1,188904 12 0,0990753

Dividendo “varianza tra” per “varianza entro”, si calcola il rapporto F(2, 12)

F = 0, 251468

0, 0990753= 2, 538

(2,12)

- il valore critico di F (2 gdl al numeratore; 12 gdl al denominatore) per =0,05 è 3,89

- il valore calcolato di F è inferiore a quello tabulato: la probabilità che H0 sia vera è p>5% e di conseguenza si accetta H0 (i tre campioni

sono stati estratti dalla stessa popolazione)

5-9-(2000)

Page 136: Prontuario Di Statistica

CONFRONTO TRA ANOVA CON DUE TRATTAMENTIE TEST t PER DUE CAMPIONI INDIPENDENTI

ANOVA può essere applicata anche a due soli trattamenti, in alternativa allametodologia mediante test t

Test t e test F sono due modi solo apparentemente differenti per fare la stessacosa: il test t è un caso speciale di ANOVA applicata a due gruppi

Tra t ed F esiste la precisa relazione matematica :

F(1, n) = t (n)2

ovvero, il valore F (un gdl al numeratore e n gdl al denominatore) è uguale al quadrato di t con n gdl

ESEMPIO

Due gruppi di 10 uova di Daphnia magna, estratte casualmente dallo stessoclone, sono stati allevati in due diverse concentrazioni di cromo esavalente

Dopo un mese sono stati misurati gli individui sopravvissuti: 7 nel gruppo A e 8nel gruppo B

A B2,7 2,22,8 2,12,9 2,22,5 2,32,6 2,12,7 2,22,8 2,3

2,6

D.:

Verificare se le loro dimensioni sono statisticamente diverse

5-10-(2000)

Page 137: Prontuario Di Statistica

1- Medie:media del gruppo A = 2, 714

media del gruppo B = 2, 250

2- Verifica di omogeneità delle due varianze, mediante il calcolo di devianze, gdl erapporto F tra varianza maggiore e varianza minore

A Bdevianze 0,10857 0,18000

gdl 6 7varianze 0,018095 0,02571

F( , ) = ,

,= ,

7 6

0 02571

0 0180951 42

Con 7 gdl della varianza maggiore e 6 della varianza minore, per =0,05 l’F criticoè 4,21 > 1,42 (F calcolato): dunque le varianze sono omogenee

3 - Varianza “pooled” = , + ,

+ = ,s

p

20 10825 0 18000

6 70 022173

4 - t con 13 gdl t13 =2, 714 − 2,250

0,022173 ⋅1

7+

1

8

= 6,02

5 - Controllo della probabilità sulle tabelle dei valori critici: p << 0,001

6 - Prospetto di ANOVA

devianze gdl varianze

totale 1,093333 14

tra 0,804762 1 0,804761

entro 0,288571 13 0,022198

7 - F con 1 e 13 gdl F( ,13) = , 04761

,= 6, 251

0 8

0 0221983

8 - Verifica che a tale valore corrisponde alla stessa probabilità, inferiore a 0,001

9 - Verifica che t = F2 infatti = , = ,t2 26 02 36 24

5-11-(2000)

Page 138: Prontuario Di Statistica

ANOVA A DUE CRITERI DI CLASSIFICAZIONE(BLOCCHI RANDOMIZZATI)

Nella pratica sperimentale, spesso è utile prendere in considerazione più di unfattore di variabilità quando si intende analizzare gli effetti di due o più causecontemporaneamente, oppure ridurre la varianza d'errore isolando gli effetti dovuti adaltre cause note

L'estensione più semplice è rappresentata da due criteri di classificazione, unastruttura che si evidenza nel disegno sperimentale a blocchi randomizzati, dove unaclassificazione riguarda i trattamenti e l'altra i blocchi

p TRATTAMENTI

k BLOCCHI 1 2 3 ... p medie

1 X11 X12X13 ... X1p X

1 •

2 X21 X22X23 ... X2p X

2 •

... ... ... ... ... ... ...

k Xk1 Xk 2Xk3 ... Xkp X

k •

medie X• 1

X• 2

X• 3 ... X

• pX

• •

Nel caso più semplice si ha con una sola osservazione xij ad ogni intersezione

della i-esima riga (blocco) per la j-esima colonna (trattamento)

Il modello lineare additivo, che considera l’effetto del trattamento e del blocco suogni osservazione, è rappresentato da

Xij = µ + αj + βi + Rij con

- media generale- j effetto del trattamento stimato come differenza della sua media

rispetto alla media generale j =X • j

-X

- i effetto del blocco stimato come differenza della sua media risptto

alla media generale i

= X i • - X- Rij quota residua che ingloba, oltre a quelli considerati nei blocchi e

nei trattamenti, altri fattori non considerati e la loro interazione insieme con gli effetti di campionamento o di errore ij

5-12-(2000)

Page 139: Prontuario Di Statistica

La metodologia ANOVA a due criteri di classificazione (p fattori e k blocchi) conuna sola osservazione per casella prevede il calcolo delle seguenti quantità:

• devianza totale, con p•k – 1 = n - 1 gdl• devianza tra trattamenti, con p - 1 gdl, e rispettiva varianza• devianza tra blocchi, con k - 1 gdl, e rispettiva varianza• devianza d'errore, con (p-1)⋅(k-1) = (n-1) – (p-1) – (k-1) = p•k–p-k+1 gdl, erispettiva varianza

Devianze e gdl godono della proprietà additiva :

- Devianza tot = Devianza tra tratt + Devianza tra blocchi + Devianza errore - gdl tot = gdltra tratt + gdltra blocchi + gdlerrore

devianza totale gdl: n - 1 = p•k - 1

devianza tra trattamenti gdl: p - 1 varianza tra trattamenti

devianza tra blocchi gdl: k - 1 varianza tra blocchi

devianza d'errore gdl: (p - 1)⋅(k - 1) varianza d'errore

DEVIANZA TOTALE : variazione totale tra le osservazioni

(X ij − X )2 = X ij2

i=1

k

∑j=1

p

∑i=1

k

∑j=1

p

∑ −

( X iji=1

k

∑j=1

p

∑ )2

n

DEVIANZA TRA TRATTAMENTI : variazione tra le medie dei trattamenti

k ( X .jj=1

p

∑ − X )2 = (

X .j2

i=1

k

∑k

) −

( X ij )2

j=1

p

∑i=1

k

∑nj=1

p

DEVIANZA TRA BLOCCHI : variazione tra le medie dei blocchi

p(X i.i=1

k

∑ − X )2 = (

X i.2

j=1

p

∑p

) −

( X ij )2

j=1

p

∑i=1

k

∑ni=1

k

5-13-(2000)

Page 140: Prontuario Di Statistica

DEVIANZA D'ERRORE (RESIDUO) : variazione di ogni osservazione dopo avere toltol'effetto dovuto alla media generale, alla media del trattamento e alla media delblocco

Devianza err = Devianza tot - Devianza tra tratt - Devianza tra blocchi

Le varianze (tra trattamenti, tra blocchi, errore) si ottengono dividendo lerispettive devianze per i loro gdl

Il test F consiste nel confrontare sia la varianza tra trattamenti che quella trablocchi separatamente con la varianza d'errore

• tra trattamenti : F(p-1) , (p-1)•(k-1)

= varianza tra trattvarianza d' errore

• tra blocchi : F(k-1) , (p-1)•(k-1)

= varianza tra blocchi

varianza d' errore

ESEMPIO

Confrontare la quantità di Pb in sospensione nell'aria di 5 zone urbane, sapendoche esistono differenze durante la giornata; a distanza di 6 ore (alle 6, 12, 18 e 24) èstata fatta una rilevazione in ogni zona

D.:

C’è differenza tra ore e tra zone considerando i due fattori contemporaneamente?

TRATTAMENTI (ZONE) Xij

BLOCCHI (ORE) 1 2 3 4 5 totali medie

ore 6 28 25 30 22 26 131 26,2

ore 12 34 32 37 31 30 164 32,8

ore 19 22 21 24 20 19 106 21,2

ore 24 36 31 40 33 29 169 33,8

totali 120 109 131 106 104 570

medie 30,00 27,25 32,75 26,50 26,00 28,50

5-14-(2000)

Page 141: Prontuario Di Statistica

DEVIANZA TOTALE con 19 gdl :

(28- 28, 5) + (34 -28, 5) + (22- 28, 5) + ...+ (29- 28, 5) = 683, 02 2 2 2

oppure (28 + 34 + 22 + 36 + 25 + 32 +...+ 29 ) -570

20 = 683, 02 2 2 2 2 2 2

2

La quantità ( )SX

n

2

= 570

20

2

compare sia nel calcolo della devianza totale che

nelle due “devianze tra” è detta TERMINE DI CORREZ. GENERALE (TCG)

DEVIANZA TRA TRATTAMENTI (zone) con 4 gdl :

4 (30, 00 - 28, 5) + 4 (27, 25- 28, 5) +...+ 4 (26, 00 - 28, 5) = 128, 52 2 2⋅ ⋅ ⋅

oppure120

4 +

109

4 +

131

4 +

106

4 +

104

4 -

570

20 = 128, 5

2 2 2 2 2 2

DEVIANZA TRA BLOCCHI (ore) con 3 gdl :

5 (26, 2 - 28, 5) + 5 (32, 8 - 28,5) +...+ 5 (33, 8 - 28, 5) = 525, 82 2 2⋅ ⋅ ⋅

oppure131

5 +

164

5 +

106

5

169

5 -

570

20 = 525, 8

2 2 2 2 2

+

DEVIANZA D'ERRORE e relativi gdl : ottenuti per differenza

683,0 - 128,5 - 525,8 = 28,7 con 19 - 4 - 3 = 12 gdl

DEVIANZE GDL VARIANZE

totale 683,0 19

tra trattamenti (zone) 128,5 4 32,125

tra blocchi (ore) 525,8 3 175,266

errore 28,7 12 2,39

5-15-(2000)

Page 142: Prontuario Di Statistica

La significatività della differenza tra zone è verificata con F =32, 125

2,39=13, 444,12

La significatività della differenza tra ore è verificata con F =175, 266

2,39= 73, 333,12

Poiché i valori ottenuti superano quelli critici per =0,05[ F4, 12 = 3,26 F3, 12 = 3,49 ]

le differenze tra le zone e le differenze tra le ore sono significative

Per comprenderne più esattamente il significato, è utile vedere quanto di ogniosservazione sia imputabile agli effetti congiunti [media generale, media di riga, mediadi colonna] e quanto ai rimanenti effetti espressi dal residuo

Conoscendo le medie marginali e totale, è possibile calcolare per ogni casellaquale sarebbe il valore atteso se agissero solo i tre effetti noti :

media di riga + media di colonna - media generale

TRATTAMENTI

BLOCCHI 1 2 3 4 5 medie

I 27,70 24,95 30,45 24,20 23,70 26,20

II 34,30 31,55 37,05 30,80 30,30 32,80

III 22,70 19,95 25,45 19,20 18,70 21,20

IV 35,30 32,55 38,05 31,80 31,30 33,80

medie 30,00 27,25 32,75 26,50 26,00 28,50

Utilizzando questi dati per calcolare le devianze, si avrebbero valori identici aquelli dell'esempio per la devianza totale, per quella tra trattamenti e per quella trablocchi, mentre la devianza d'errore risulterebbe 0, infatti …

… la devianza d'errore calcolata precedentemente è la somma dei quadrati degliscarti tra questi valori stimati e quelli precedenti osservati

In questa tabella, ogni valore è la somma degli effetti + j + i mentre è

privo dell'effetto Rij determinato da fattori di interazione e da variazioni casuali

5-16-(2000)

Page 143: Prontuario Di Statistica

CONFRONTO TRA ANOVA A DUE CRITERI DI CLASSIFICAZIONEE TEST t PER DUE CAMPIONI DIPENDENTI

In una tabella 2 x N, l'ANOVA a due criteri di classificazione fornisce i medesimirisultati del test t per due campioni dipendenti, in riferimento al fattore che definisce idue gruppi a confronto; inoltre essa offre il vantaggio di analizzarecontemporaneamente anche gli effetti dell'altro fattore

ESEMPIO

Durante una giornata lavorativa, in una stazione di rilevamento sono statemisurate le quantità di inquinamento in quattro ore differenti, mentre il successivogiorno festivo, sono state ripetute le misure alle stesse ore per verificare se esiste unadifferenza significativa tra i due giorni

Per utilizzare il test t per due campioni dipendenti, vanno calcolate le differenzetra i due gruppi e si opera esclusivamente su di esse

I^ giorno II^giorno differenze

ore 6 150 120 30ore 10 172 151 21ore 14 193 165 28ore 18 175 150 25

d = 104 / 4 = 26

Devianza diff. (30 - 26)2 + (21- 26)2 (28 - 26)2 + (25 - 26)2 = 16 + 25 + 4 + 1 = 46

s = 46

3 = 15, 332 s = 3, 916 t 3 =

263,916

4

= 13, 28

I^ giorno II^ giorno totali medie

ore 6 150 120 270 135,0ore 10 172 151 323 161,5ore 14 193 165 358 179,0ore 18 175 150 325 162,5

totali 690 586 1276medie 172,5 146,5 159,5

5-17-(2000)

Page 144: Prontuario Di Statistica

Devianza TOTALE con 7 gdl :

(-9, 5) +(-39, 5) +(12, 5) +(-8, 5) +(33, 5) +(5, 5) +(15, 5) +(-9, 5) =

= 90, 25+1560, 25 +156, 25+72, 25 +1122, 25 +30, 25+240, 25 +90, 25 = 3362

2 2 2 2 2 2 2 2

Devianza TRA GIORNI con 1 gdl :

4(172, 5 - 159, 5) + 4(146, 5 - 159, 5) = 4x169 + 4x169 = 13522 2

Devianza TRA ORE con 3 gdl :

2 (135-159, 5) + 2 (161,5 -159, 5) + 2 (179-159, 5) + 2 (162, 5-159, 5) =

= 2 600, 25 + 2 4 + 2 380, 25 + 2 9 = 1200, 50 + 8 + 760, 5 + 18 = 1987

2 2 2 2⋅ ⋅ ⋅ ⋅⋅ ⋅ ⋅ ⋅

Devianza d'ERRORE con (7 - 1 - 3) = 3 gdl :

3362 - 1352 - 1987 = 23

DEVIANZA GDL VARIANZA

totale 3362 7tra giorni 1352 1 1352

tra ore 1987 3 662,333errore 23 3 7,666

Per la differenza tra giorni F = 1352

7,666= 176, 361,3

E' possibile verificare che t = F : (13, 28) = 176, 3632

1,32

Non solo si elimina dalle differenze tra giorni l'effetto delle differenze tra ore,ma si verifica anche se queste ultime siano statisticamente significative

F = 662, 33

7, 666= 86, 403,3

5-18-(2000)

Page 145: Prontuario Di Statistica

QUADRATI LATINI

- TRE CRITERI DI CLASSIFICAZIONE

- DOPPIO DISEGNO A BLOCCHI

Analizzare contemporaneamente due fattori di variazione a p livelli nel disegno ablocchi randomizzati richiede p2 osservazioni, mentre, con le stesse modalità diprogrammazione, un esperimento con tre fattori di variazione a p livelli nerichiederebbe p3

I quadrati latini furono applicati per la prima volta in esperimenti di agraria, dove la

suddivisione in righe e colonne di un appezzamento di terreno erano visualizzate in strisce di terreno

tra loro perpendicolari; da qui il nome, per la somiglianza del frazionamento dell'area in una figura

tipica dell'accampamento romano

Il disegno a quadrati latini permette di analizzare contemporaneamente tre fattoria p livelli con p2 osservazioni solamente

Al vantaggio di un risparmio di materiale si contrappone lo svantaggio di unanotevole rigidità, infatti tutti i tre criteri (“trattamenti”, “blocchi”, “fattore principale”)devono avere lo stesso n° di livelli

In un esperimento con 3 criteri, due sono rappresentati da righe e da colonne (ifattori secondari), mentre il terzo (il fattore principale) è distribuito entro lo schemadella tabella in modo casuale ma bilanciato, e compare una volta sola sia in ogni riga ein ogni colonna

Indicando con A, B, C, D i 4 livelli di un fattore principale, la rappresentazionegrafica bidimensionale dell'esperimento può essere :

COLONNE

RIGHE 1 2 3 4

1 D B C A

2 C D A B

3 B A D C

4 A C B D

5-19-(2000)

Page 146: Prontuario Di Statistica

Così come in un disegno a due criteri di classificazione, la randomizzazione èattuata assegnando a caso i livelli dei trattamenti entro ciascun blocco, in un quadratolatino, la randomizzazione è attuata permutando i diversi livelli del fattore principalenello schema ordinato di righe e colonne

Sono state costruite tabelle di distribuzione casuale, da utilizzare nel caso di piùesperimenti a quadrati latini con schemi differenti

Il limite più pesante a questo modo di programmare l'esperimento è dato dallasua rigidità: ad esempio, volendo analizzare un fattore a 5 livelli, occorrerà un n°uguale di livelli anche negli altri due criteri organizzati per righe e colonne

Il modello additivo lineare di ANOVA in un disegno sperimentale a quadratolatino richiede che la generica osservazione Xijk appartenente al i-esimo “blocco”, al j-

esimo “trattamento” e al k-esimo fattore, sia data da

X ijk = + j + i + k + ijk con:

- µ media generale - αj effetto medio del “trattamento” i-esimo - βi effetto medio del “blocco” j-esimo - γk effetto medio del fattore k-esimo - εijk variabilità residua

Il calcolo delle devianze è semplice: la devianza totale, la devianza tra righe equella tra colonne sono calcolate con la stessa metodologia utilizzata nel disegno ablocchi randomizzati; la devianza tra trattamenti viene calcolata rispetto alla somma ealla media dei vari trattamenti

5-20-(2000)

Page 147: Prontuario Di Statistica

ESEMPIO

Confrontare la produttività di 5 (A, B, C, D, E) varietà di sementi in rapporto altipo di concime (1,2,3,4,5) e ad un diverso trattamento del terreno (I, II, III, IV, V)

Si è diviso l’appezzamento in 5 strisce equivalenti e in ognuna è stata condottaun'aratura di profondità differente; perpendicolarmente a queste strisce sono statetracciate altre 5 strisce concimate in modo diverso; nei 25 quadrati sono state seminatele 5 varietà di sementi secondo lo schema

TRATTAMENTO DEL TERRENO

CONCIME I II III IV V totali medie

1 A 42 C 47 B 55 D 51 E 44 239 47,8

2 E 45 B 54 C 52 A 44 D 50 245 49,0

3 C 41 A 46 D 57 E 47 B 48 239 47,8

4 B 56 D 52 E 49 C 50 A 43 250 50,0

5 D 47 E 49 A 45 B 54 C 46 241 48,2

totali 231 248 258 246 231 1214

medie 46,2 49,6 51,6 49,2 46,2 48,56

sementi A B C D E

totali 220 267 236 257 234

medie 44,0 53,4 47,2 51,4 46,8

I risultati di ANOVA sono

DEVIANZE GDL VARIANZE

totale 480,16 24

tra sementi 286,16 4 71,54

tra concimi 109,36 4 27,34

tra arature 17,76 4 4,44

errore 66,88 12 5,57

5-21-(2000)

Page 148: Prontuario Di Statistica

Si possono calcolare tre F, tutti con 4 e 12 gdl :

• tra sementi: F4, 12 =71,545, 57

= 12, 84

• tra concimi: F4, 12 =27, 345,57

= 4, 91

• tra arature: questa varianza è minore della varianza d'errore e pertanto è inutilecalcolare il rapporto F per verificare se gli sia significativamentesuperiore

Per 4 e 12 gdl la tabella dei valori critici per =0,05 fornisce il valore 3,26, per cui risultano significative :

- la differenza tra sementi (F = 12,84)- la differenza tra concimi (F = 4,91)

ma non quella tra i diversi tipi di aratura (F < 1)

ESEMPIO

Tra le numerose applicazioni, con i quadrati latini si possono analizzare gli effettidi diversi farmaci (“fattore principale”) da somministrare ad alcune persone(“blocchi”) in giorni diversi (“trattamenti”), e accertare se l'effetto di un farmacodipenda anche dal tempo in cui è somministrato

Si sperimentano gli effetti di 4 diversi farmaci (A, B, C, D) somministrati in 4giorni diversi a 4 diverse persone :

GIORNI

PERSONE 1 2 3 4

I A 48 C 35 D 40 B 51

II D 37 B 50 C 33 A 45

III B 42 D 64 A 53 C 39

IV C 31 A 40 B 42 D 37

5-22-(2000)

Page 149: Prontuario Di Statistica

I risultati di ANOVA sono

DEVIANZE GDL VARIANZE

totale 1098 15

tra farmaci 389 3 129,7

tra giorni 125 3 41,7

tra persone 303 3 101,0

errore 281 6 46,8

Il disegno sperimentale a quadrati latini impone che le sue dimensioni nonpossano essere nè troppo piccole, né troppo grandi :

• il limite minimo è imposto dai gdl della varianza d'errore [= n2 - (n-1) ⋅ 3 - 1]:

- un quadrato latino 2x2 avrebbe in totale 3 gdl: 1 per il fattore principale,1 per le colonne e 1 per le righe, senza più gdl per la varianza d'errore

- un quadrato latino 3x3, avrebbe la varianza d'errore con solo 2 gdl,troppo pochi per rendere significative differenze tra medie non molto grandi

• il limite massimo è determinato dalla complessità dell'esperimento e vieneabitualmente fissato per un quadrato 12x12

La replica di un esperimento a quadrati latini determina i quadrati greco-latini,che sono la sovrapposizione di due quadrati latini; con più repliche si parla diQUADRATI CON PIÙ ALFABETI

A parte la crescente complessità dell'esperimento, un punto importante daricordare è il n° di gdl della varianza d'errore che diminuisce proporzionalmente

5-23-(2000)

Page 150: Prontuario Di Statistica

DATI MANCANTI

Nel disegno a blocchi randomizzati e in quello a quadrati latini :

• la mancanza di una osservazione pone un problema di elaborazione dei dati

• si richiede un numero prefissato di osservazioni, a differenza di quanto avvienenel disegno sperimentale ad un criterio di classificazione, dove la validità di ANOVA

non dipende dall'eguaglianza del n° di repliche

I dati possono mancare per :

• selezioni contro determinati valori (ad es. quelli molto grandi o molto piccoli) che uno strumento può non registrare perché troppo differenti dalla scala su cui è tarato

--> il campione raccolto è viziato in modo irrimediabile

• cause accidentali--> è possibile rimpiazzare i dati mancanti

In una tabella a due fattori o a due entrate senza replicazioni (come nel disegno ablocchi randomizzati) il dato da stimare dipende dagli effetti di riga e di colonnacalcolati dagli altri dati

Si stima un valore X’ij che dipende dalla media generale µ, dall'effetto riga αi e

dall'effetto colonna β j , che sarà privo della variazione casuale ε ij

X’ij = µ + αj + βi

In un disegno con r righe e c colonne, indicando con Ri il totale di riga, con Cj iltotale di colonna e con T il totale generale, calcolati senza il dato mancante, Xij puòessere sostituito con X’ij

X ' ij =r ⋅ R i + c ⋅ C j − T

( r − 1) ⋅ (c − 1)

5-24-(2000)

Page 151: Prontuario Di Statistica

Se manca l'osservazione del trattamento ZONA 3 e blocco ORA II

TRATTAMENTIBLOCCHI ZONA 1 ZONA 2 ZONA 3 ZONA 4 ZONA 5 TOTALI

ORA I 28 25 30 22 26 131ORA II 34 32 ? 31 30 127ORA III 22 21 24 20 19 106ORA IV 36 31 40 33 29 169

TOTALI 120 109 94 106 104 533

il valore con cui sostituire tale osservazione è Xij'

( ) ( ),=

⋅ + ⋅ −− ⋅ −

=4 127 5 94 533

4 1 5 137 08

La sostituzione del dato mancante permette di eseguire i calcoli di ANOVA nelmodo abituale: cambiano i gdl totale e i gdl della varianza d'errore, che sarannodiminuiti di 1 (restano immutati quelli tra trattamenti e tra blocchi)

L'operazione di sostituzione ha il solo scopo di permettere di effettuare i calcolidi ANOVA in modo corretto, ma non aggiunge alcuna informazione che non fosse giàcontenuta nei dati osservati

Se manca più di un dato:• si sostituiscono i dati mancanti meno uno con dati inventati, anche se logici• il dato non sostituito viene stimato con la modalità su illustrata• si stima un altro dato in sostituzione di un dato inventato• si itera il procedimento per tutti i dati originariamente mancanti, finchè i valori stimati restano stabili

Nel caso di un disegno a quadrati latini NxN, il dato mancante nella i-esima riga,j-esima colonna e k-esimo fattore può essere sostituito da

Xn R C T G

n nijki j k'

( )

( ) ( )=

⋅ + + −− ⋅ −

2

1 2con :

n : dimensione del quadrato latinoRi Cj Tk : totali riga, colonna, trattamento cui appartiene il dato mancante

G : totale generale

Anche qui la varianza tra trattamenti e l'errore standard della differenza tra duetrattamenti andrebbero ridotti

5-25-(2000)

Page 152: Prontuario Di Statistica

EFFICIENZA RELATIVA DI UN TEST

Il disegno sperimentale a blocchi randomizzati o a quadrati latini èindubbiamente molto vantaggioso quando si intende analizzare contemporaneamente 2o 3 fattori di variazione:

• in un quadrato latino 5x5, i gdl di ognuno dei 3 test F per verificare lasignificatività delle differenze tra le medie di ogni fattore sono 4 e 12

• se si facesse un esperimento ad un criterio di classificazione per esaminare unsolo fattore, per avere un test con la medesima potenza servirebbero in totale 17 dati:16 gdl per la devianza totale, suddivisi in 4 gdl per la devianza tra trattamenti e 12 perquella d'errore

• se si analizzassero separatamente i 3 fattori con 3 esperimenti diversi,sarebbero richiesti gli stessi gdl per ogni esperimento: un totale di 51 dati, più deldoppio di quelli utilizzati nel quadrato latino

Lo scopo di allestire un disegno sperimentale più complesso è quello di renderepiù significativo il test F, mediante il controllo delle maggiori fonti di variazione e lariduzione della varianza d'errore

In una ANOVA a blocchi randomizzati o a quadrati latini, rispetto all'analisi ad uncriterio di classificazione si ha sempre un abbassamento sia della devianza d'errore siadei gdl

•• non sempre la varianza d'errore, determinata dal loro rapporto, diminuisce: sela devianza d'errore diminuisce meno dei gdl, la varianza aumenta

•• al vantaggio derivante dall'eventuale abbassamento della varianza d'errore siassocia sempre lo svantaggio dovuto alla perdita di gdl, per cui il valore di F richiestoper dimostrare la significatività del test aumenta

•• quando i gdl sono pochi, lo svantaggio derivante dal calo dei gdl dellavarianza d'errore può essere grave

5-26-(2000)

Page 153: Prontuario Di Statistica

ESEMPIO

Supponiamo che un’ANOVA a blocchi randomizzati abbia fornito il risultato:

DEVIANZE GDL VARIANZE

totale 3362 7

tra giorni 1352 1 1352

tra ore 1987 3 662,333

errore 23 3 7,666

Con i medesimi dati è sempre possibile condurre un'ANOVA completamenterandomizzata, calcolando solo la devianza tra giorni; la devianza tra ore ed i suoi gdlsono cumulati con quelli d'errore, con il seguente risultato:

DEVIANZE GDL VARIANZE

totale 3362 7

tra giorni 1352 1 1352

errore 2010 6 335

Nel primo caso, per verificare la differenza tra giorni si ottiene un test F1,3

F =1352

7, 666=176, 361,3

risulta altamente significativo, essendo il valorecritico, per α=0,05, uguale a 10,13

Nel secondo caso la differenza tra giorni è verificata con F1,6

F =1352

335= 4, 0351,6

non risulta significativo, essendo il valore critico,per α=0,05 e per gli stessi gdl, uguale a 5,99

5-27-(2000)

Page 154: Prontuario Di Statistica

La convenienza ad utilizzare lo schema a blocchi rispetto a quellocompletamente randomizzato, misurata in termini di EFFICIENZA RELATIVA, è datada

E Rn n s

n n se

e

. .( ) ( )

( ) ( )=

+ ⋅ + ⋅+ ⋅ + ⋅

1 2 12

1 2 22

3 1

1 3dove :

n1 n° di gdl della varianza d'errore nell'analisi ad un criterio di

classificazione o a disegno completamente randomizzaton2 n° di gdl della varianza d'errore nell'analisi a 2 criteri di

classificazione o a blocchi randomizzatise1

2 varianza d'errore nell'analisi ad un criterio di classificazionese2

2 varianza d'errore nell'analisi a due criteri di classificazione

Con i dati su riportati, l'efficienza relativa del disegno a blocchi randomizzatirispetto a quello completamente randomizzato è

E. R.=(6 +3) (3+1) 335

(6 +1) (3 +3) 7, 666

⋅ ⋅⋅ ⋅

= =12060

391 9730 77

,,

In questo caso, l'esperimento a due criteri di classificazione risulta circa 31 voltepiù efficace di quello ad un solo criterio (ovvero: per ottenere la stessa potenza del testa blocchi randomizzati, con il test a disegno completamente randomizzato occorronoquasi 31 volte più dati: non 8 osservazioni, bensì 248)

5-28-(2000)

Page 155: Prontuario Di Statistica

E' possibile calcolare l'efficienza di un quadrato latino sia rispetto al disegno ablocchi randomizzati che a quello completamente randomizzato

Supponiamo che un’ ANOVA a quadrati latini abbia fornito i risultati :

DEVIANZE GDL VARIANZE

totale 480,16 24

tra sementi 286,16 4 71,54

tra concimi 109,36 4 27,34

tra arature 17,76 4 4,44

errore 66,88 12 5,57

Con gli stessi dati sarebbe stato possibile ignorare la differenza tra arature; irisultati di ANOVA sarebbero diventati :

DEVIANZE GDL VARIANZE

totale 480,16 24

tra sementi 286,16 4 71,54

tra concimi 109,36 4 27,34

errore 84,64 16 5,29

Sarebbe stato possibile stimare solamente due F:

tra sementi: F416

71 54

5 2913 52,

,

,,= =

tra concimi: F416

27 34

5 295 17,

,

,,= =

che risultano ancor più significative sia per la riduzione della varianza d'erroresia per aumento dei gdl che abbassa il livello del valore critico: per α=0,05 da 4 e 12gdl a 4 e 16 gdl il valore di F diminuisce da 3,26 a 3,01 e per α=0,01 da 5,41 a 4,77

5-29-(2000)

Page 156: Prontuario Di Statistica

Dopo avere verificato con i quadrati latini che non esiste differenza significativatra arature, è più opportuno, per dimostrare la significatività delle differenze trasementi e tra concimi, presentare i risultati con lo schema a blocchi randomizzati,anche se l'esperimento è stato condotto con lo schema più complesso dei Q.L.

Il fattore principale può essere o il tipo di semente (A) o il concime (B)

CASO A:DEVIANZA GDL VARIANZA

totale 480,16 24

tra sementi 286,16 4 71,54

errore 194 20 9,7

F4 20

71 54

9 77 38,

,

,,= =

CASO B:DEVIANZA GDL VARIANZA

totale 480,16 24

tra concimi 109,36 4 27,34

errore 370,80 20 18,54

F4 20

27 34

18 541 47,

,

,,= =

Le differenze tra sementi rimangono significative, ma con un valore di F assaiminore; le differenze tra i concimi non risultano più significative, poiché nella varianzad'errore è stata cumulata anche la grande variabilità tra specie di sementi

L'efficienza relativa di uno specifico esperimento a quadrati latinirispetto al corrispondente disegno a blocchi randomizzati può essere stimata conuna formula analoga a quella presentata precedentemente

E Rn n s

n n se

e

. .( ) ( )

( ) ( )=

+ ⋅ + ⋅+ ⋅ + ⋅

2 3 22

2 3 32

3 1

1 3dove :

se22 e se3

2 varianze d'errore rispettiven3 gdl della varianza d'errore a 3 criteri di classific.n2 gdl della varianza d'errore a 2 criteri di classific.

5-30-(2000)

Page 157: Prontuario Di Statistica

REGRESSIONE LINEARE SEMPLICE

Nell'analisi della varianza a due o a più criteri di classificazione sono consideraticontemporaneamente più fattori, come i vari trattamenti e blocchi con le lorointerazioni, ma relativi sempre alla medesima ed unica variabile

Quando si considerano due o più variabili quantitative oltre alle precedentianalisi su ognuna di esse, si possono esaminare anche il tipo e l'intensità delle relazioniche sussistono tra loro

Nel caso in cui per ogni individuo si rilevino congiuntamente due variabili, èpossibile verificare se esse variano simultaneamente e quale relazione matematicasussiste tra queste due variabili. Allora è possibile ricorrere all'analisi della regressione ea quella della correlazione, di norma considerate tra loro alternative

- analisi della regressione : per sviluppare un modello statistico che può essereusato per prevedere i valori di una variabile, detta dipendente o più raramente predettaed individuata come l'effetto, sulla base dei valori dell'altra variabile, detta indipendenteo esplicativa, individuata come la causa

- analisi della correlazione : per misurare l'intensità dell'associazione tra duevariabili quantitative, di norma non legate direttamente da causa-effetto, facilmentemediate da almeno una terza variabile, ma che comunque variano congiuntamente

Quando per ciascuna unità di un campione o di una popolazione si rilevano duecaratteristiche, si ha una DISTRIBUZIONE DOPPIA e i dati possono essere riportati informa tabellare o grafica :

unità carattere X carattere Y1 X1 Y1

2 X2 Y2

3 X3 Y3

... ... ...n Xn Yn

cap.6 - pag. 1 (aa 2000)

Page 158: Prontuario Di Statistica

• se il numero di dati è ridotto, la distribuzione doppia può riguardare una tabellache riporta tutte le variabili relative ad ogni unità od individuo misurato

• se il numero di dati è grande, si ricorre ad una sintesi tabellare chiamataDISTRIBUZIONE DOPPIA DI FREQUENZE in cui si suddividono le unità del collettivo inclassi per i due caratteri (Xi e Yj) e poi

- si riporta la prima (X) nella TESTATA

- si riporta la seconda (Y) nella COLONNA MADRE- si contano le unità che hanno contestualmente entrambe le MODALITÀ (n ij)

X1 X2X3 ... Xi ... Xn Totali

Y1 a11 a12a13 ... a i1 ... a n1 N1

Y2 a21 a22a23 ... a i2 ... a n2 N2

Y3 a31 a32 a33 ... a i3 ... a n3 N3

... ... ... ... ... ... ... ... ...Yj a j1 a j2 a j3 ... a ji ... a jn N j

... ... ... ... ... ... ... ... ...Ym am1 am2

am3 ami amn Nm

Totali M1 M2M3 ... Mi ... Mn T

I totali delle righe e delle colonne rappresentano due distribuzioni semplici esono dette DISTRIBUZIONI MARGINALI della distribuzione doppia

Le frequenze riportate in una colonna o in una riga sono dette DISTRIBUZIONI

PARZIALI della doppia distribuzione : ad esempio, nello schema tabellare qui soprasono presenti due distribuzioni marginali e 10 distribuzioni parziali (5 per riga e 5 percolonna)

Una distribuzione doppia può essere rappresentata graficamente con :

• ISTOGRAMMI : si riportano le frequenze dei raggruppamenti in classicome nelle distribuzioni di conteggi con dati qualitativi (tabelle m n× )

• DIAGRAMMI DI DISPERSIONE : si riportano le singole coppie di misureosservate considerando ogni coppia della distribuzione come coordinatecartesiane di un punto del piano, sicché :

- è possibile rappresentare ogni distribuzione doppia nel piano cartesiano- si ottiene una NUVOLA DI PUNTI, che descrive in modo visivo la relazione tra le

due variabili

cap.6 - pag. 2 (aa 2000)

Page 159: Prontuario Di Statistica

ESEMPIO

Lo studio e la classificazione tassonomica di specie di Macrobiotidi si fonda siasu aspetti qualitativi sia sui rapporti tra gli arti e di loro segmenti e, di norma, si ha unabassa variabilità intraspecifica e una forte variabilità interspecie

Per 45 animali della stesso gruppo Macrobiotus hufelandi, ma con forti dubbisull'attribuzione della specie a causa delle difficoltà di classificazione dovute allacompresenza di giovani ed adulti, sono state misurate al microscopio le dimensioni (inµm) di parti dello scheletro, tra cui le dimensioni di prima e seconda placca

animali prima placca seconda placca1 31 222 31 213 28 204 33 24… … …45 32 23

Per evitare pagine di numeri di difficile interpretazione, l'elevato numero diosservazioni impone il ricorso ad una rappresentazione più sintetica, ottenuta con unatabella

Per ogni coppia di valori diversi della prima variabile (testata) e della secondavariabile (colonna madre), si formano le distribuzioni di frequenza, con modalitàanaloghe a quelle della statistica univariata

dimensione prima placca

27 28 29 30 31 32 33 34 totali

19 1 2 1 0 0 0 0 0 4

dimen- 20 0 1 3 2 0 0 0 0 6

sione 21 0 1 1 5 3 1 1 0 12

seconda 22 0 0 3 4 4 2 0 0 13

placca 23 0 0 0 1 2 2 0 0 5

24 0 0 0 0 0 0 1 2 3

25 0 0 0 0 0 1 0 1 2

totali 1 4 8 12 9 6 2 3 45

cap.6 - pag. 3 (aa 2000)

Page 160: Prontuario Di Statistica

19 2

0 21 2

2 23 2

4 25

DIMENSIONE SECONDA PLACCA

2728

2930

31

32

33

34

DIMENSIONEPRIMA PLACCA

0

1

2

3

4

5

19

20

21

22

23

24

25

DIMENSIONE SECONDA PLACCA

27

28

29

3031

3233

34

DIMENSIONEPRIMA PLACCA

0

1

2

3

4

5

Quando le caselle sono troppe per essere riportate in una tabella di dimensionimedie, si ricorre al raggruppamento in classi di una sola o di entrambe le variabili

Quando i dati sono espressi in una scala continua, conviene darne unarappresentazione grafica mediante DIAGRAMMA DI DISPERSIONE :

- i dati di ogni individuo sono riportati su un diagramma bidimensionale edindicati da un punto, le cui coordinate corrispondono ai valori X sull'asse delle ascisse eai valori Y sull'asse delle ordinate

- più ricorrenze sono espresse da punti di dimensioni maggiori

individui 1 2 3 4 5 6 7

peso (Y) 52 68 75 71 63 59 57

altezza (X) 160 178 183 180 166 175 162

PESO

ALTEZZA

50

55

60

65

70

75

80

155 165 175 185

cap.6 - pag. 4 (aa 2000)

Page 161: Prontuario Di Statistica

MODELLI DI REGRESSIONE

Il diagramma di dispersione fornisce una descrizione visiva espressa in modosoggettivo, per quanto precisa, della relazione esistente tra le due variabili

La funzione matematica che la può esprimere in modo oggettivo è dettaEQUAZIONE DI REGRESSIONE o FUNZIONE DI REGRESSIONE della variabile Y sullavariabile X

Il termine REGRESSIONE fu introdotto verso la metà dell'ottocento da Galton nei suoi studi di

eugenica in cui si prefisse di verificare se la statura dei genitori influisse sulla statura dei figli e se

questa corrispondenza potesse essere tradotta in una legge matematica

Galton confrontò anche l'altezza dei padri con quella dei figli ventenni e osservò che padri

molto alti hanno figli alti, ma più vicini alla media dei loro genitori; parimenti egli osservò che i padri

più bassi hanno figli maschi bassi, ma un pò più alti, piu vicini alla media del gruppo, rispetto ai loro

genitori (se egli avesse osservato l'altezza dei padri in rapporto ai figli avrebbe ugualmente trovato che i

figli più bassi e quelli più alti hanno genitori con un'altezza più vicina alla media dei genitori)

Galton fu colpito da questo fenomeno, è affermò che la statura tende a “regredire” da valori

estremi verso la media; nacque così il termine, che dal suo significato originario di "ritornare indietro"

assunse quella della funzione che esprime matematicamente la relazione esistente tra la variabile attesa

(o predetta o teorica) e la variabile empirica (o attuale)

La forma più generale di una equazione di regressione è

Y = a + b ⋅X + c ⋅X2 + d ⋅ X3 +...

dove il secondo membro è un polinomio intero di X

L'approssimazione della curva teorica ai dati sperimentali è tanto maggiorequanto più elevato è il numero di termini del polinomio :

- è frequente il caso di teorie che spiegano come, all'aumentare della variabileindipendente, si abbia una diminuzione o un aumento della variabile dipendente

- è raro il caso in cui si può definire una teoria biologica o ambientale che spieghiuna relazione più complessa (curva di terzo ordine o di ordine superiore)

cap.6 - pag. 5 (aa 2000)

Page 162: Prontuario Di Statistica

X

Y

o

o

o o

o

o

o

o

o

o

o

o

o

X

Y

o o

oo o

o

o

o

oo

oo

o

relazione lineare positiva relazione lineare negativa

X

Y

o

o

o o

o

o

o

o

o

o

o

o

o

X

Y

o

o

o

o

oo

oo

o

o

o

o

o

relazioni quadratiche

X

Y

o

o

o

o

o

o

o

o o

o

o

o

o

X

Y o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

relazione cubica nessuna relazione

cap.6 - pag. 6 (aa 2000)

Page 163: Prontuario Di Statistica

REGRESSIONE LINEARE SEMPLICE

La forma di relazione matematica più semplice tra due variabili è la regressionelineare semplice, rappresentata dalla retta di regressione

ˆ Y i = a + b ⋅ X i dove :

• $Yi valore stimato di Y per l'osservazione i-esima• Xi valore empirico di X per l'osservazione i-esima• a intercetta della retta di regressione• b coefficiente angolare della retta di regressione

Yi

Y

$Yi

X

Y

(intercetta)

Xa

L'unica reale incognita è il valore del coefficiente angolare b, essendo l'intercettaa stimata da b e dai valori medi di Y e di X

a = Y − b ⋅ X

Per calcolare la retta che meglio approssima la distribuzione dei punti, si puòpartire considerando che ogni punto osservato Yi si discosta dalla retta di una certaquantità i detta errore o RESIDUO

Yi = a + b ⋅ X i + i

Ogni valore εi può essere positivo o negativo:

- positivo quando il punto Y sperimentale è sopra la retta- negativo quando il punto Y sperimentale è sotto la retta

cap.6 - pag. 7 (aa 2000)

Page 164: Prontuario Di Statistica

La retta migliore per rappresentare la distribuzione dei punti nel diagramma didispersione è quella stimata con il METODO DEI MINIMI QUADRATI (V. PAGINA A

FINE CAPITOLO)

Indicando con Yi i valori osservati (o empirici) e con $Yi i corrispondenti valori

stimati sulla retta, con un metodo analogo al calcolo della devianza si stima la miglioreretta interpolante, cioè quella che minimizza la somma dei quadrati degli scarti deivalori osservati Yi rispetto a quelli stimati $Yi

(Yi − ˆ Y ii=1

n

∑ )2

Essendo

i = Yi − (a + b ⋅ X i )

per il principio dei minimi quadrati si stimano a e b in modo che

i2∑ = (Yi − (a + b ⋅ X i ))

2∑ = minimo

Eguagliando a zero le derivate parziali rispetto ad a e a b, si trova che b èuguale al rapporto della codevianza XY con la devianza di X

b =Codevxy

Devx

La CODEVIANZA :

- stima come X e Y variano congiuntamente, rispetto al loro valore medio

- è definita come la sommatoria dei prodotti degli scarti di X rispetto alla sua media e di Y rispetto alla sua media :

Codevxy = ((X − X ) ⋅∑ (Y − Y ))

- si può esprimere con una formula empirica per un calcolo più rapido

cap.6 - pag. 8 (aa 2000)

Page 165: Prontuario Di Statistica

Codevxy = (x ⋅ y) −∑ x ⋅ y∑∑n

cap.6 - pag. 9 (aa 2000)

Page 166: Prontuario Di Statistica

In conclusione, il coefficiente angolare b è calcolato dalle coppie dei datisperimentali X e Y come

b =((X − X ) ⋅∑ (Y − Y ))

(X − X )2∑

oppure con l’equivalente formula rapida o empirica

b =(x ⋅y) −∑ x ⋅ y∑∑

n

x2 −∑ ( x)2∑n

L’intercetta a si calcola come a = Y − b ⋅ X

e poi si procede alla rappresentazione grafica, ricordando che :

- la retta passa sempre dal baricentro del grafico, individuato dal punto d'incontro delle due medie campionarie X e Y

- è sufficiente calcolare il valore di $Y corrispondente ad un qualsiasi valore di X per tracciare la retta che passa per questo punto calcolato e per il

punto d'incontro tra le due medie

ESEMPIO

Per sette giovani è stato misurato il peso (Y) e l'altezza (X), allo scopo di stimarela retta che definisce la relazione media tra le due variabili

individui 1 2 3 4 5 6 7 peso (Y) 52 68 75 71 63 59 57 altezza (X) 160 178 183 180 166 175 162

variabile indipendente (DETERMINISTICA) : altezzavariabile dipendente (STOCASTICA) : peso

∑ (X ⋅ Y ) = 76945 X = 1204 Y = 445∑∑ X2 = 207598 n = 7∑

cap.6 - pag. 10 (aa 2000)

Page 167: Prontuario Di Statistica

b =(x ⋅y ) −∑ x ⋅ y∑∑

n

x 2 −∑ ( x )2∑n

=76945 − 1204 ⋅ 445

7

207598 − 12042

7

= 0,796

a = Y − b ⋅ X = 63,571 − 0,796 ⋅172 = −73,354

PESO

ALTEZZA

50

55

60

65

70

75

80

155 165 175 185X

Y

VALORE PREDITTIVO DELL'ANALISI DELLA REGRESSIONE

La semplice rappresentazione grafica dei valori osservati e della retta diregressione fornisce alcune indicazioni importanti per l'interpretazione delle relazioniesistenti tra le due variabili

Il valore del coefficiente angolare indica quanto aumenta in media la variabiledipendente Y all'aumento di una unità della variabile indipendente X

Se si cambia la scala della variabile indipendente o predittiva X (per esempiol'altezza misurata in mm o in m e non più in cm) lasciando invariata quella dellavariabile dipendente o predetta Y, muta proporzionalmente anche il valore delcoefficiente angolare b

cap.6 - pag. 11 (aa 2000)

Page 168: Prontuario Di Statistica

Nell'analisi della regressione :- è frequente, specialmente negli utilizzi predittivi, il ricorso al tempo come variabile indipendente- viene spesso dimenticato che qualsiasi previsione o stima di Y derivata dalla

retta è valida solo entro il campo di variazione della variabile indipendente X- non è dimostrato che la relazione esistente tra le due variabili sia dello stesso

tipo anche per valori minori o maggiori di quelli sperimentali rilevati

SIGNIFICATIVITÀ' DELLA RETTA DI REGRESSIONE

Il metodo dei minimi quadrati permette di avere sempre la retta che meglio siadatta ai dati rilevati, indipendentemente dalla loro dispersione intorno alla retta

Tuttavia la retta potrebbe indicare :- sia l'esistenza di una relazione reale tra le due variabili, se il valore di b è alto e la dispersione dei punti intorno ad essa è ridotto- sia di una relazione inesistente o non significativa, se i punti intorno ad essa

sono dispersi in modo non differente rispetto alla media

Y

X

Y

X

oo

o

oo

oo

o oo

o o

(A) reale cambiamento di Y al variare di X

Y

X

Y

X

o

o

o

o

o

o o

oo

o

o

o

Y

X

Y

X

o

o

o

o

o

o

o

o

o

o

o

o

cap.6 - pag. 12 (aa 2000)

Page 169: Prontuario Di Statistica

(B) caso incerto (C) non c’è alcuna regressione

cap.6 - pag. 13 (aa 2000)

Page 170: Prontuario Di Statistica

Il coefficiente angolare b della retta di regressione, che determina la quantità divariazione di Y per ogni unità aggiuntiva di X, è calcolato da osservazioni sperimentali

Ma ciò che interessa al ricercatore è la relazione esistente nella popolazione, esebbene il valore di b sia differente da zero, non è detto che nella popolazione alvariare di X si abbia una variazione di Y

La significatività del coefficiente di regressione nella popolazione (β ) può esseresaggiata mediante la verifica dell'H0 : β = 0

Accettando H0 si assume che il valore reale del coefficiente angolare sia β = 0

--> al variare di X, Y resta costante e uguale al valore dell'intercetta a--> non esiste alcun legame tra X e Y

Rifiutando H0, si accetta H1

--> al variare di X si ha una corrispondente variazione sistematica di Y

Un metodo per la verifica della significatività della retta calcolata è il test F, chesi basa sulla scomposizione delle devianze

Yi

Y

$Yi YYi

X

Y

(A)

Yi

Y

$Yi

Yi$Yi

Y$Yi

X

Y

(B)

cap.6 - pag. 14 (aa 2000)

Page 171: Prontuario Di Statistica

La somma dei quadrati delle distanze tra i tre punti Y, Y$ e Y definiscono le tredevianze: devianza totale, devianza della regressione o devianza dovuta allaregressione, devianza d'errore o devianza dalla regressione o residui:

Devianza totale (Y Y)2= −∑ con gdl n-1 (A)

Devianza della regressione (Y Y) 2= −∑ $ con gdl 1 (B, parte inferiore)

Devianza d errore Y (Y )2' $= −∑ con gdl n-2 (B, parte superiore)

Queste formule richiedono calcoli lunghi e danno risultati approssimati quando ivalori delle tre Y sono arrotondati, per cui si utilizzano le formule seguenti :

Devianza totale = Y2 −∑ ( Y)2∑n

Devianza dalla regressione =Codevxy

2

Devx

ricordando che Cod x yx y

nx y( , ) ( )= ⋅ −⋅∑∑∑ Dev X

X

nx = −∑ ∑2

2( )

Devianza d'errore (per differenza)

Devianza d' errore Devianza totale Devianza della regressione = −

Dal rapporto della devianza dovuta alla regressione e quella d'errore con irispettivi gdl si stimano la varianza dovuta alla regressione e la varianza d'errore il cuirapporto determina il valore del test F con 1 e n-2 gdl

F (1, n−1) = Varianza dalla regressioneVarianza d' errore

Se l’F calcolato è inferiore a quello tabulato per la probabilità prefissata e i gdlcorrispondenti, si accetta H0 (non esiste regressione lineare statisticamente significativa)

Se l’F calcolato supera quello tabulato si rifiuta l'H0 e si accetta H1 (la

regressione lineare tra le due variabili è significativa)

cap.6 - pag. 15 (aa 2000)

Page 172: Prontuario Di Statistica

Se β = 0, la varianza dovuta alla regressione e quella della regressione o d'errore

sono stime indipendenti e non viziate della variabilità dei datiSe β ≠ 0, la varianza d'errore è una stima non viziata della variabilità dei dati,

mentre la varianza dovuta alla regressione è stima di una grandezza maggioreDi conseguenza, il rapporto tra le varianze con rispettivamente 1 e n-2 gdl è da

ritenersi utile alla verifica dell'ipotesi β = 0

Rifiutare H0 :

- non significa che non esiste relazione tra le due variabili, ma solamente che nonesiste una relazione di tipo lineare

- significa che potrebbe esistere una relazione di tipo differente, come quellacurvilinea di secondo grado o di grado superiore

La TRASFORMAZIONE di uno o di entrambi gli assi è spesso sufficiente perricondurre una relazione di tipo curvilineo a quella lineare

• la crescita esponenziale di una popolazione nel tempo, generata da tassicostanti, diviene lineare con la trasformazione logaritmica del tempo, di normariportato sull'asse delle ascisse

• la relazione curvilinea tra lunghezza e peso di individui della stessa speciediviene lineare con la trasformazione mediante radice cubica del peso, correlatolinearmente al volume

• l'analisi statistica permette qualsiasi tipo di trasformazione che determini unarelazione lineare tra due variabili

ESEMPIO

Con le misure di peso ed altezza rilevati su 7 individui è stata calcolata la retta diregressione $ , ,Y X= − +73 354 0 796

Dopo aver costruito il diagramma di dispersione delle 7 coppie di osservazioni èstata rappresentata la retta :

- non è quella che passa più vicino ai punti, ma quella che rende minima lasomma dei quadrati delle distanze tra la retta e i punti

- una retta con tale proprietà può essere sempre calcolata per qualsiasi gruppo didati

- non è detto che tale retta sia rappresentativa o indice della reale esistenza di unrapporto lineare tra le due serie di dati

cap.6 - pag. 16 (aa 2000)

Page 173: Prontuario Di Statistica

Pertanto, con le tecniche dell'inferenza, occorre verificare :

- se la retta può essere assunta come rappresentativa di un rapporto lineare tra le due variabili

- se è corretto affermare che, nella popolazione dei soggetti dalla quale è stato estratto il campione, ad una variazione in altezza corrisponde un cambiamento lineare nel peso

- se, mediante test F, H0 0: = β oppure H1 0: β ≠

( )X Y⋅ =∑ 76945 X =∑ 1204 X2 207598∑ = Y =∑ 445 Y2 28693∑ =

Devianza totale = 28693 −4452

7 = 28693 − 28289,285 = 403, 715

Devianza della regr. =(76945 − 1204 ⋅445

7)2

207598 −12042

7

=(76945 − 76540)2

207598 − 207088=

164025

510= 321,618

Devianza d' errore = 403,715 − 321,618 = 82,097

Tabella riassuntiva

Devianze gdl Varianzetotale 403,715 6 321,62regressione 321,618 1 16,42errore 82,097 5

F( , )

,

,,1 5

321 62

16 4219 59= =

- i valori critici riportati nelle tavole degli F per 1 e 5 gdl sono: 6,61 per α = 0,05 e 16,26 per α = 0,01- il valore calcolato è superiore a quello tabulato per α=0,01 - con p < 0,01 (di commettere un errore di I^ tipo, si rifiuta H0 : esiste un

rapporto lineare tra le variazioni in altezza e quelle in peso

La stima della significatività della retta o verifica dell'esistenza di una relazionelineare tra le due variabili può essere condotta anche con il test t, con risultatiequivalenti al test F

cap.6 - pag. 17 (aa 2000)

Page 174: Prontuario Di Statistica

Analogamente all'analisi della varianza ad uno e a due criteri di classificazione, ilt con n-2 gdl (n = n° di osservazioni o coppie di dati) è

t Fn n( - ) ( , - )2 1 2=

Il test t è :• fondato su calcoli didatticamente meno evidenti di quelli del test F, ma offre il

vantaggio di poter essere applicato sia in test unilaterali (β > 0 ? oppure β > 0 ?) che intest bilaterali (β ≠ 0 ?)

• fondato sul rapporto tra il valore del coefficente angolare b (che rappresenta larisposta media di Y ai diversi valori di X entro il suo intervallo di variazione) ed il suoerrore standard sb

• t (n-2) = b − bSb

dove β : valore atteso

Nella verifica della significatività della regressione si haβ = 0

ma la formula può essere utilizzata per verificare la significatività dello scostamento da qualunque valore atteso

Un test relativamente frequente consiste nel verificare se b si discostasignificativamente da 1, quando è atteso che all'aumentare di una unità di X si abbia uncorrispondente aumento di una unità anche nel valore di Y, qualunque siano le unità dimisura delle due variabili

Il valore di Sb è determinato dalla radice quadrata del rapporto tra la dispersione

dei dati sperimentali Y intorno alla retta $Y e la devianza totale di X

sb = sb2 dove:

sb2 = Varianza d' errore della retta

Devianza totale della X = se

2

(X i − X )2∑

La varianza d'errore di b ( sb2 ) diminuisce, e quindi il suo grado di precisione

cresce, all'aumentare della devianza degli X

La varianza d'errore della retta s2e chiamata anche ERRORE STANDARD DELLA

STIMA è data da se2 =

(Yi − ˆ Y i )2∑

n − 2

cap.6 - pag. 18 (aa 2000)

Page 175: Prontuario Di Statistica

dove la devianza d'errore (al numeratore) è ottenuta in modo rapido perdifferenza dopo il calcolo della devianza totale e di quella dovuta alla regressione

se2 =

Devianza totale di Y - Devianza dalla regressione

n − 2

Per la devianza dovuta alla regressione sono state proposte anche altre formuleche permettono calcoli più rapidi

Un metodo al quale si ricorre con frequenza utilizza parte dei calcoli necessarialla stima della retta

Devianza dalla regressione = Yi2∑ − a ⋅ Yi∑ - b ⋅ (X i ⋅Yi )∑

ESEMPIO

Con le stesse 7 misure di peso ed altezza degli esercizi precedenti, si vuolestimare la significatività della regressione mediante il test t

In questo caso :- si potrebbe ricorrere ad un test unilaterale (verificare solamente se il peso aumenti, oppure diminuisca, in modo significativo al crescere dell'altezza)

H H oppureH0 1 10 0 0: ; : > : <β β β=

- si dovrebbe ricorrere ad un test bilaterale (verificare l'esistenza di una relazione lineare tra le due variabili senza indicarne il segno)

Ricordando cheb = 0 796, Varianza d' errore= 16,42 n = 7 Devianza di X = 510

Sb2 16 42

510=

,sb = 0 1794,

si ha

t50 7960 1794

= =,,

4,437

F15 19 59, ,= corrisponde a t5 19 59= =, 4,426

La pendenza della retta è l'informazione più importante sulla relazione tra X e Y:fornisce la quantità di variazione media di Y per unità di variazione di X

cap.6 - pag. 19 (aa 2000)

Page 176: Prontuario Di Statistica

Il test di significatività risponde solamente al quesito se essa si discosta da 0

cap.6 - pag. 20 (aa 2000)

Page 177: Prontuario Di Statistica

Un caso che ricorre con frequenza è quando X e Y sono il risultato di duemetodi differenti per stimare la stessa quantità di una sostanza, per cui al valore nullodi Y dovrebbe corrispondere un valore nullo anche per X

- per X = 0 si dovrebbe avere una risposta media che non si discosta significativamente da Y = 0

- la significatività dell'intercetta (H0 0: α = ) può essere verificata sia con un

test unilaterale che con un test bilaterale

ta

sna

( )− = −2

αcon Sa errore standard dell'intercetta a stimato come

s sn

X

X Xa ei

= ⋅ +−∑

22

2

1(

( ))

Se non è possibile rifiutare H0 relativa a b (la retta campionaria non può essere

assunta come significativa di una relazione lineare tra le due variabili), può essererichiesta la conoscenza della varianza sY

2 e della deviazione standard sY della media Y ,

che sono

ss

nYe22

= e ss

nYe=

ESEMPIO

Utilizzando i dati degli esempi precedenti, si stimi la significatività di a

Con a =−73 357, var. err. : se2 = 16,101 n = 7 dev. X : 510 X = 172

- errore standard di a sa = 16,101 ⋅1

7+

1722

510

= 30,599

- t t5

73 357

30 5992 397=

−= −

,

,,

inferiore sia a t5 025, . (2,571) che a t5 005, . (4,032)

--> l'intercetta a non è significativamente diversa da zero né all'1% né al 5%

cap.6 - pag. 21 (aa 2000)

Page 178: Prontuario Di Statistica

LIMITI DI CONFIDENZA DI RETTA E INTERCETTA

Per verificare l'esistenza di una relazione lineare tra le variabili un altro metodo,equivalente al test t, è calcolare una stima per intervalli di confidenza di β : si rifiuta H0

se il valore atteso (di solito, ma non obbligatoriamente come nel test per la media,β = 0) è compreso nell'intervallo di confidenza

stima per l'intervallo di confidenza di β : b t sn b± ⋅−( , )2 2 α

stima per l'intervallo di confidenza di α : a t sn a± ⋅−( , )2 2 α

dove sa è l'errore standard dell'intercetta α

ESEMPIO

Ricorrendo agli stessi dati degli esercizi in cui sono stati calcolati la retta e la suasignificatività, si ha

b s t t

a sb

a

, ; = , ; ;

, , ,= = =

= − =0 796 0 1794 2 571 4 032

73 357 30 5995 0 025 5 0005, ,, ,

,

Stima dell' intervallo di confidenza per il coefficiente angolare β

con p = 95%0 796 2 571 0 1794 0 796 2 571 0 1794, , , , , ,− ⋅ ≤ ≤ + ⋅β 0 335 1 257, ,≤ ≤β

con p = 99%0 796 4 032 0 1794 0 796 4 032 0 1794, , , , , ,− ⋅ ≤ ≤ + ⋅β 0 727 1 519, .≤ ≤β

Sima dell'intervallo di confidenza per l'intercetta α

con p = 95%− − ⋅ ≤ ≤− + ⋅73 357 2 571 30 599 73 357 2 571 30 599, , , , , ,α − ≤ ≤152 027 5 313, ,α

con p = 99%− − ⋅ ≤ ≤ − + ⋅73 357 4 032 30 599 73 357 4 032 30 599, , , , , ,α − ≤ ≤196 732 50 018, ,α

cap.6 - pag. 22 (aa 2000)

Page 179: Prontuario Di Statistica

LIMITI DI CONFIDENZA PER I VALORI MEDI DEGLI Y STIMATI

La retta di regressione può essere utilizzata anche per previsioni sul valoremedio di Y, corrispondente ad valore di X prescelto

E' una stima puntuale del valore medio effettivo del campione; anche in questocaso, può essere applicato il concetto di intervallo di confidenza quale stima del valorereale della popolazione

L'intervallo di confidenza per il valore previsto $Yl è dato da

$ ( )

( )( , )Y t sn

X X

X Xl n bl

i

± ⋅ ⋅ +−

−− ∑2 2

2

2

1 α

dove$Yl valore previsto di Y per un dato valore di Xsb errore standard della retta b

n dimensione del campioneX l valore dato di X a cui corrisponde $Yl

( )X Xi −∑ 2 devianza di X

La lettura dell'equazione spiega come l'ampiezza dell'intervallo di confidenzadipenda da vari fattori

Per una data probabilità:• aumenta al crescere della varianza d'errore;• diminuisce all'aumentare del numero n di coppie di osservazioni per l'effetto

congiunto del valore di tn −2 2, α e del il rapporto 1/n;

• varia secondo i valori di X, con valori minimi quando X l è vicino alla sua media emassimi quando X l ha distanza massima,

• diminuisce al crescere della devianza di X

L'intervallo di stima della vera media aritmetica varia come una funzioneiperbolica della vicinanza di X alla sua media

Quando si fanno previsioni su valori di X molto distanti dalla media, si stima unintervallo di confidenza molto più grande

cap.6 - pag. 23 (aa 2000)

Page 180: Prontuario Di Statistica

Di conseguenza, i limiti della zona di confidenza non sono paralleli alla retta diregressione, ma se ne discostano progressivamente avvicinandosi agli estremi delvalore di X

ESEMPIO

Consideriamo i 7 dati dell'esempio precedente; nella tabella sono riportati gliintervalli di confidenza degli Y stimati

Altezza Peso Valori attesi di Y con il loro intervallo di confidenza

X Y (α = .0 05) (α = .0 01)

160 52 47 291 54 018 60 495, ,≤ ≤, 43 468 54 018 64 568, ,≤ ≤,

178 68 63 582 68 348 73 114, ,≤ ≤, 60 873 68 348 75 823, ,≤ ≤,

183 75 65 968 72 328 78 688, ,≤ ≤, 62 353 72 328 82 303, ,≤ ≤,

180 71 64 596 69 940 75 284, ,≤ ≤, 61 560 69 940 78 321, ,≤ ≤,

166 63 54 029 58 795 63 561, ,≤ ≤, 51 320 58 795 66 270, ,≤ ≤,

175 59 61 827 65 960 70 093, ,≤ ≤, 59 478 65 960 72 442, ,≤ ≤,

162 57 49 605 55 611 61 617, ,≤ ≤, 46 192 55 611 65 030, ,≤ ≤,

PESO

40

50

60

70

80

160 165 170 175 180 185

cap.6 - pag. 24 (aa 2000)

Page 181: Prontuario Di Statistica

LIMITI DI CONFIDENZA PER SINGOLI VALORI DI Y STIMATI

Un'altra esigenza presente nella ricerca è la previsione dell'intervallo di confidenza peruna singola risposta di Y

L'intervallo di confidenza ha una forma simile a quella del valore medio, ma è moltopiù ampio; ha infatti lo scopo di stimare un valore individuale e non un parametro

I valori stimati di Y per i singoli valori individuali di X, rispetto al valore medio checondidera tutta la retta, sono soggetti ad una sorgente addizionale d'errore, cioè alladispersione intorno alla retta di regressione

I limiti della zona di confidenza per singoli valori di X sono paralleli ai limiti della zonadi confidenza della retta di regressione e sono più esterni ai precedenti

L'intervallo di previsione per un singolo valore di Y^i per un dato valore xi è dato da

$ ( )

( )( , )Y t sn

X X

X Xl n bl

i

± ⋅ ⋅ + +−

−− ∑2 2

2

211

α

E' una espressione simile alla precedente; l'unica differenza è un 1 sommato all'argo-mento della radice quadrata

Altezza Peso Valori attesi di Y con il loro intervallo di confidenza

X Y (α = .0 05) (α = .0 01)

160 52 41 702 54 018 66 334, ,≤ ≤, 34 703 54 018 73 332, ,≤ ≤,

178 68 56 984 68 348 79 712, ,≤ ≤, 50 526 68 348 86 170, ,≤ ≤,

183 75 60 208 72 328 84 447, ,≤ ≤, 53 321 72 328 91 335, ,≤ ≤,

180 71 58 322 69 940 81 558, ,≤ ≤, 51 719 69 940 88 161, ,≤ ≤,

166 63 47 431 58 795 70 159, ,≤ ≤, 40 973 58 795 73 617, ,≤ ≤,

175 59 54 846 65 960 77 074, ,≤ ≤, 48 531 65 960 83 389, ,≤ ≤,

162 57 43 674 55 611 67 548, ,≤ ≤, 36 890 55 611 74 332, ,≤ ≤,

cap.6 - pag. 25 (aa 2000)

Page 182: Prontuario Di Statistica

PESO

ALTEZZA

30

40

50

60

70

80

90

160 170 180

Intervalli di confidenza per gli Y stimati al 5% (punteggiato) e all'1% (tratteggiato)

PESO

ALTEZZA

30

40

50

60

70

80

90

160 165 170 175 180 185

PESO

ALTEZZA

30

40

50

60

70

80

90

160 165 170 175 180 185

Intervalli di confidenza delle medie (linee punteggiate) e dei singoli valori di Y stimato(linee tratteggiate), per α = 0.05 (a sinistra) e per α = 0.01 ( a destra)

cap.6 - pag. 26 (aa 2000)

Page 183: Prontuario Di Statistica

COEFFICENTE DI DETERMINAZIONE

Per una regressione lineare semplice, ma più in generale per qualsiasi regressioneda quella curvilinea a quella lineare multipla, il coefficiente di determinazione r2 è laproporzione di variazione spiegata dalla variabile dipendente sulla variazione totale:

r2 = Devianza dalla regressione Devianza totale

=( ˆ Y i − Y )2∑(Yi − Y )2∑

Espresso a volte in percentuale ed indicato in alcuni testi con R oppure R2 serveper misurare quanto la variabile indipendente X in media preveda la variabiledipendente Y

E' una misura che ha scopi prevalentemente descrittivi

La sua accettabilità non è legata ad inferenze statistiche, ma soprattutto agliscopi pratici, specifici dell'uso della regressione come metodo per prevedere Yconoscendo X

Il suo valore è tanto più elevato quanto più la retta passa vicino ai punti, fino araggiungere 1 (oppure 100 se espessa in percentuale) quando i punti sperimentali sonocollocati esattamente sulla retta e quindi ogni Yi può essere predetto con precisionetotale, senza alcun margine d'errore, quando sia noto il corrispondente valore di Xi

Nell'esempio con le 7 osservazioni su peso e altezza, è

,

,,r 2 321 618

403 7150 797= =

Ciò significa che, noto il valore dell'altezza, quello del peso è stimato mediante laretta di regressione con una approssimazione di circa l'80 per cento; il restante 0,2(rapportato a 1) oppure 20% è determinato dalla variabilità individuale di scostamentodalla retta

cap.6 - pag. 27 (aa 2000)

Page 184: Prontuario Di Statistica

IPOTESI PER LA REGRESSIONE E LA CORRELAZIONE

Le ipotesi necessarie o condizioni di validità per l'analisi della regressione e dellacorrelazione, che verra trattata dei seguito, sono analoghe a quelle già evidenziate perl'analisi della varianza e del test t di Student: normalità, omoschedasticità, indipendenzadall'errore

La condizione di normalità richiede che il valore di Y sia normalmente distribuito perogni valore di X

E' una ipotesi facilmente comprensibile nel caso delle Y ripetute per lo stesso valore diX

Anche l'analisi della regressione è robusta, nel caso di deviazione dalla normalità:fino a quando la distribuzione dei valori di Y per lo stesso valore di X non si differenziain modo estremo dalla normale, sia l'inferenza sulla regressione che quella sullacorrelazione non sono eccessivamente distorte

La condizione di omoschedasticità richiede che le varianze delle disposizioni sianocostanti per tutti i valori di X: i valori di Y devono variare nello stesso modo perqualunque valore di X

Sovente succede che all'aumentare delle X si abbia un aumento della varianza delle Y;come già esposto nell'analisi della varianza, le trasformazioni dei dati possonoricostruire questa ipotesi necessaria all'inferenza

La condizione di indipendenza dell'errore richiede che la distanza tra Y osservato edY previsto dalla regressione sia costante su tutto il campo di variazione della X

cap.6 - pag. 28 (aa 2000)

Page 185: Prontuario Di Statistica

X

Y

Yij

Yij

^

Y_

Yij(c)^

. . . . .

r = 1

A

. . .. .

.. . ....

r = 0.8

B

. . .. .

.. . ......

. ... ...

. ..r = 0.4

C

. . ....

. . . ..

.

D

r = 0

... .

... . . ..

.r = 0

E

..

.

. ..... .

...

... .

... . .

r = 0.4

F

cap.6 - pag. 29 (aa 2000)

Page 186: Prontuario Di Statistica

Metodo dei minimi quadrati - Impianto analitico

Q = ∑(yi - µ)2 = ∑(yi - β0 - β1x i)2 =

= ∑(yi2 + β0

2 + β12x i

2 - 2β0yi - 2β1yix i+ 2β0β1x i) =

= ∑yi2 + nβ0

2 + β12∑x i

2 -- 2β0∑yi - 2β1∑x iyi + 2β0β1∑x i

∂Q∂β0 = 2 nβ0 + 2β1∑x i - 2∑yi

∂Q∂β1 = 2 β1∑x i

2 + 2β0∑x i - 2∑x iyi

uguagliando a zero i due risultati si ottiene un sistema di due equazioni a due incognite …

β0n + β1∑x i = ∑yi

β0∑x i + β1∑x i

2 = ∑x iyi

dalla prima equazione del sistema si ricava β0 come :

β0 =

∑yi

n - β1 ∑x in = y - β1 x

e per sostituzione nella seconda equazione si ricava β1 come :

∑yi

n - β1 ∑x in ∑x i

+ β1∑x i2 = ∑x iyi …

β1

∑x i2 -

(∑x i)2

n = ∑x iyi - ∑x i

∑yin … = codev (xy)

dev (x)

cap.6 - pag. 30 (aa 2000)

Page 187: Prontuario Di Statistica

cap. 7 - 1 (2000)

METODI NON PARAMETRICI PER UNO E DUE CAMPIONI

Il test t, l'analisi della varianza, la correlazione, la regressione, insieme con gli altritest di statistica multivariata sono parte dei metodi di inferenza detti “classici” o“parametrici”.

Prima della loro applicazione, è fondamentale che vengano verificati e soddisfattialcuni assunti che riguardano la popolazione d'origine:

Primo assunto : indipendenza dei gruppi campionariLe osservazioni di ogni gruppo dovrebbero essere formate per estrazione casuale

da una popolazione, in cui ogni soggetto abbia la stessa probabilità di essere incluso inqualsiasi gruppo. In questo modo, i fattori aleatori o non controllati dovrebbero esserecasualmente distribuiti e non generare distorsioni od errori sistematici.

Secondo assunto : normalità delle distribuzioniDa essa deriva la relazione tra popolazione e campioni, secondo il teorema del

limite centrale: se, da una popolazione con media µ e varianza σ2 normalmentedistribuita, si estraggono casualmente alcuni campioni di dimensione n, le loro medie si

distribuiranno normalmente con media generale µ e varianza della media σ2

n. La non-

normalità è indice serio di estrazione non casuale

Terzo assunto : omoscedasticità o omogeneità delle varianzeSe sono formati per estrazione casuale dalla medesima popolazione, i vari gruppi

devono avere varianze eguali

Quando, per la verifica delle ipotesi, non si possono applicare i metodi classici, siricorre a test di statistica non parametrica che:

• non dipendono dalla forma di distribuzione della popolazione

• non prevedono il calcolo della media, bensì della mediana come misura dellatendenza centrale

• permettono inferenze anche su dati qualitativi o di rango

Page 188: Prontuario Di Statistica

cap. 7 - 2 (2000)

I metodi non parametrici presentano

vantaggi:

• semplice applicazione, con risposte rapide quando i campioni sono piccoli

• ipotesi meno rigorose, in numero minore, più facilmente verificate nella realtà

• estesamente applicabili, con conclusioni più generali e difficilmente confutabili

• permettono analisi non possibili con i metodi classici, poiché non esistono testparametrici equivalenti (in certe condizioni hanno potenza maggiore, in particolarequando gli assunti di validità del test parametrico non sono rispettati rigorosamente)

e svantaggi:

• sfruttano in modo meno completo l'informazione contenuta nei dati (hannouna potenza minore, in particolare quando riducono l'informazione da scale d'intervallio di rapporti a scale qualitative o di rango)

• per campioni di dimensioni non piccole richiedono metodologie più lunghe espesso sofisticate, impossibili da attuare senza calcolatore

• per molti test è complesso valutare la significatività delle ipotesi, poiché èdifficile disporre delle tavole dei valori critici

• La statistica classica forma una struttura unica che ricorre ai medesimi presupposti ed elabora,in modo organico e con complessità crescente, una quantità di informazioni sempre maggiore, dal test tall'analisi della varianza, dalla regressione lineare alla statistica multivariata

• La statistica non parametrica è formata per semplice accumulo di una serie innumerevole ditest, ognuno proposto per risolvere una o poche situazioni particolari, anche se molti si rifanno aglistessi principi. In questa frammentarietà diventa difficile una loro organizzazione logica, che nei testi èrisolta non sull'analogia dei metodi, ma sulla base degli argomenti trattati: test per un campione, perdue campioni dipendenti o indipendenti, per più campioni dipendenti o indipendenti, misure diassociazione e di correlazione

Il test χ2 , il metodo esatto di Fisher e quello di Kolmogorov-Smirnov per distribuzioni difrequenza con piccoli campioni, sovente sono trattati separatamente dagli altri test non parametrici,perché utili a presentare in modo semplice la procedura dell'inferenza e in quanto fondamentali amotivo delle loro numerose applicazioni. Tuttavia, essi sono parte integrante ed essenziale dellastatistica non parametrica: in alcuni casi forniscono le procedure inferenziali, i valori critici e ladistribuzione delle probabilità di altri test non parametrici

Page 189: Prontuario Di Statistica

cap. 7 - 3 (2000)

TESTS PER UN CAMPIONE

Quando si dispone di un solo campione, i quesiti che ricorrono con maggiorefrequenza riguardano la verifica di accordo della distribuzione osservata con unadistribuzione teorica od attesa.

Quando le osservazioni sono classificate in categorie nominali o qualitative, siricorre al test χ2 , utile pure nel confronto di distribuzioni di frequenza in intervalli discale di rapporti per campioni sufficientemente grandi (per campioni piccoli si ricorre altest di Kolmogorov-Smirnov)

Il test χ2 è valido anche per confronti tra due distribuzioni osservate di dati binari,organizzate in tabelle 2 x 2 (per campioni piccoli, si deve ricorrere al metodo delleprobabilità esatte di Fisher)

TEST DELLE SUCCESSIONI - Runs test

(o Test di Wald-Wolfowitz per la casualità di un campione)

Un quesito che spesso ci si pone nella ricerca sperimentale è verificare se i risultatipositivi e negativi di una serie di esperimenti, o se i valori alti o bassi di una serie diosservazioni si succedono con casualità

• Permette di saggiare se, in riferimento all'ordine, alla sequenza, successione oserie, i dati campionari sono casuali.

• Non ha alternative nella statistica parametrica; esso infatti non serve per laverifica d'ipotesi di nessun parametro, né per la tendenza centrale, né per la variabilitào forma della distribuzione dei dati osservati

• Può essere applicato sia per dati binari (processo binomiale : successo odinsuccesso), sia per dati continui (scale d'intervalli o di rapporti : confronto rispetto adun valore stimato o prefissato, come la mediana della distribuzione o un valore sogliaanche arbitrario)

Page 190: Prontuario Di Statistica

cap. 7 - 4 (2000)

[ Esempio 1 ]

Si supponga di lanciare una moneta 15 volte e che si ottenga 8 volte testa (T) e 7volte croce (C), con la seguente serie T C T C T C T C T C T C T C T

E' evidente la sua non casualità, che si riferisce non al numero di T e di C, la cuiprobabilità può essere calcolata con il test binomiale, ma al regolare alternarsi deglieventi

Parimenti non casuale sarebbe stata una serie, identica come numero di datialternativi T e C, ma in sequenza differente, T T T T T T T T C C C C C C C

La verifica degli effetti sistematici o periodici può essere evidenziata dal conteggiodelle successioni, definite come il numero di simboli identici preceduti o seguiti dasimboli differenti o da nessun simbolo.

Nel primo caso il n° delle successioni

T C T C T C T C T C T C T C T

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 è 15, mentre nel secondo caso

T T T T T T T T C C C C C C

C

21è solamente 2

E' intuitivo che un campione può essere ritenuto davvero casuale soltanto quandoil numero delle successioni non è né troppo grande né troppo piccolo in rapporto alnumero di eventi dei due tipi alternativi

Per essere casuale, il numero di successioni deve tendere ad una frequenza media( r), che dipende dal numero dei due eventi e può essere calcolata da

r

n nN

211 2

r : media aritmetica attesa delle successionin1 : n° di eventi di un tipo n2 : n° di eventi dell'altro tipo ( )N n n1 2

Il rapporto tra la differenza del numero di successioni osservate (R) ed il numeroatteso ( r) con la sua deviazione standard ( r), nell'ipotesi di totale casualità deglieventi, permette di calcolare la probabilità di ottenere il numero di successioniosservato

Page 191: Prontuario Di Statistica

cap. 7 - 5 (2000)

Per piccoli campioni la significatività è fornita da tabelle che riportano lefrequenze critiche massime e minime, di solito limitatamente alla probabilità 0,05

Per grandi campioni la distribuzione delle successioni tende ad essere normale

zR r

r

R : n° di successioni (runs) osservate

r : media aritmetica attesa di successioni nell'H0

r : deviazione standard della media che può essere calcolata come

r =2 ⋅ n1 ⋅ n2 ⋅ 2 ⋅ n1 ⋅ n2 − N( )

N 2 ⋅ N −1( )

Il test può essere unilaterale o bilaterale

Per piccoli campioni (n e n 20),1 2 ≤ i testi a maggior diffusione forniscono lefrequenze critiche per test bilaterali a livello di α = 0, 05 in due differenti tabelle:

• la prima tabella fornisce i valori minimi per ogni coppia di n1 e n2: qualunque

valore osservato (R) che sia uguale o minore a quello riportato ha una probabilità α =0,025 o minore di verificarsi con H0 vera

• l'altra tabella fornisce i valori massimi alle stesse condizioni: qualunque valoreosservato (R) sia eguale o maggiore di quello riportato corrisponde a una probabilità α= 0,025 o minore di essere casuale.

Nel caso di test unilaterale, vengono utilizzati gli stessi valori critici: la primatabella, se H1 (H : R < 1 rµ ) prevede poche successioni; la seconda tabella, se H1(H : R > 1 rµ ) prevede molte successioni.

Quando le successioni tendono alla frequenza media e sono pertanto compresinell'intervallo fra frequenza minima e massima della tabella, con esclusione dei valoririportati, si accetta H0 che la sequenza dei due eventi sia casuale.

Per campioni di grandi dimensioni, si ricorre alla distribuzione normale: i valoricritici alla probabilità 0,05 sono rispettivamente 1,96 per un test bilaterale (α = 0,025nelle due code della distribuzione) e 1,645 per un test unilaterale (α = 0,05 in una solacoda della distribuzione).

Page 192: Prontuario Di Statistica

cap. 7 - 6 (2000)

[ ESEMPIO 2 ]

In laboratorio si esegue una serie di 16 misurazioni di una sostanza sciolta in undiluente. Nell'ordine, sono state ottenuti i seguenti valori di concentrazione espressi ingrammi per litro:

25 36 27 45 18 76 89 73 57 44 21 32 85 67 78 85

Si ha il timore che le analisi non siano corrette, ma che ognuna sia influenzata daquella precedente. Dopo una concentrazione alta, lo strumento non perfettamentepulito tenderebbe a dare ancora un valore oltre la media; dopo una concentrazionebassa, lo strumento pulito dal diluente tenderebbe a dare ancora un valore basso.

Per classificare i valori in bassi (-) e alti (+), si può fare il confronto con la mediana.(51) La sequenza delle risposte tradotte in valori bassi (-) e alti (+) diventa

- - - - - + + + + - - - + + + +

1 2 3 4

e risulta formata da 4 successioni. Sulla base dell'ipotesi formulata, trattasi di test aduna coda

Secondo Η0 : R r=µ il numero medio di successioni osservate (R) non si discostain modo significativo da quello atteso (µ r). Con n1 = 8 e n2 = 8 la media attesa (µ r) è

uguale a 9.

µ r =⋅ ⋅

+ =2 8 8

161 9

Secondo Η1: R r<µ il numero osservato di successioni è inferiore a quello atteso.

Per verificare l'ipotesi sulla casualità della sequenza delle analisi, occorre quindiconoscere la probabilità di trovare 4 quando la media attesa è 9.

La tavola dei valori critici inferiori, per n1 = 8 e n2 = 8, riporta la frequenza di 4,

uguale al valore di R osservato.

Di conseguenza, si rifiuta H0 (casualità del numero di successioni osservate) e siconclude che lo strumento risente del valore di concentrazione precedente.

Page 193: Prontuario Di Statistica

cap. 7 - 7 (2000)

[ ESEMPIO 3 ]

Un gruppo di animali in cattività, composto da 18 femmine (n1) e 12 maschi adulti(n2), deve percorrere uno stretto corridoio dove passa un solo individuo alla volta, per

accedere al cibo. Si vuole verificare se, in riferimento al sesso, l'accesso al cibo avvengain un ordine che può essere ritenuto casuale, oppure se si può ipotizzare un ordinedifferente.

L'ordine osservato è stato:

M FF M FFF MMM F M F M FFFFF MMM F M F M FFFF

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

con R = 16 successioni.

Per verificare se il numero osservato di successioni è maggiore o minore, è utilealla comprensione dell'esperimento il calcolo della media attesa in H0:

µ r =⋅ ⋅

+ =2 18 12

301 15 4,

Il numero osservato di successioni (R=16) è superiore alla media attesa (µ r = 15 4, )

Il test è bilaterale; ma la verifica della significatività utilizza le stesse tabelle del testunilaterale. Per due gruppi di 12 e 18 dati, il valore critico inferiore è 9 mentre il valorecritico superiore è 21.

Il numero di successioni osservato è compreso in questo intervallo e quindi siaccetta H0 : in riferimento al sesso, l'accesso al cibo nel gruppo di animali inosservazione è avvenuto in ordine casuale

Page 194: Prontuario Di Statistica

cap. 7 - 8 (2000)

[ ESEMPIO 4 ]

In un laboratorio di chimica, ogni analisi è attuata in contemporanea da due tecnici:l'analisi è ritenuta corretta quando i due risultati coincidono, mentre è ritenuta errataquando sono differenti. In una giornata sono state effettuate 50 analisi delle quali 34esatte (+) e 16 errate (-) con la seguente sequenza:

+ + + + + - + + - - - + + + + + + - + + - + + + + + - + + + + + - - - - + + + + + + - - + + + - - -

1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6

Si vuole verificare se gli errori sono casualmente mescolati alle analisi corrette(H0), oppure se tendono a concentrarsi a causa di momenti di disattenzione dei duetecnici (H1)

E' un test ad una coda, poiché ci si chiede se le successioni osservate sono innumero significativamente minore dell'atteso. Secondo H0, il numero medio atteso è

µ r =⋅ ⋅

+ =2 16 34

501 22 76,

e la deviazione standard è

r =2 ⋅16 ⋅ 34 ⋅ 2 ⋅16 ⋅34 − 50( )

502 ⋅ 50 −1( ) = 3, 036

Trattandosi di campione grande, la significatività della differenza tra il numero disuccessioni osservato ed il numero medio atteso è fornita dalla distribuzione normale

z =−

=−16 22 76

3 0362 226

,

,,

Lo Z ottenuto (2,226) è superiore in valore assoluto a quello critico (1,645) delladistribuzione normale per un test ad una coda alla probabilità α=0,05: la probabilitàche il numero di successioni osservato sia casuale è pertanto inferiore a 0,05 e diconseguenza si rifiuta H0 : gli errori tendono a concentrarsi

Page 195: Prontuario Di Statistica

cap. 7 - 9 (2000)

TEST DI WILCOXON(o Test DEI SEGNI PER RANGHI)

E’ analogo al calcolo dell'intervallo fiduciale di una media.

Nel caso di un solo campione, può essere applicato per verificare l'ipotesi rispettoalla tendenza centrale di una serie di dati, quando non è possibile ricorrere agli usualitest parametrici perché mancano le condizioni di validità o la misura è ordinale

Quando non è rispettata la normalità della distribuzione, oppure è utilizzata unascala di rango, le ipotesi su un valore medio o una differenza media significativadevono essere verificate non in riferimento alla media, ma alla mediana, come misurapiù appropriata della tendenza centrale.

[ Esempio ]

In un'area molto ampia, sono stati campionati 13 lotti di terreno con caratteristicheambientali molto differenti ed è stata misurata la quantità unitaria di sostanze azotate

235 230 180 250 280 330 440 430 260 225 240 255 215

Si vuole verificare se la media della zona può essere 300, oppure significativamenteminore. Si tratta di un test a una coda (H0 : mediana=300; H1: mediana < 300)

1 - Calcolare le differenze d con relativo segno, rispetto al valore dell’H0 e scartarele differenze uguali a 0 (d = x - mediana)

- 65 - 70 - 120 - 50 - 20 + 30 + 140 + 130 -4 0 - 75 - 60 - 5 - 85

2 - Calcolare i ranghi dei valori assoluti delle differenze d, ordinando gli n valoriassoluti dal minore al maggiore (se esistono valori che hanno lo stesso rango, assegnaread ognuno un punteggio dato dalla media dei loro ranghi)

6,5 8 11 4 1 2 13 12 3 9 5 6,5 10

3 - Attribuire ad ogni rango, il segno. della differenza cui corrisponde

Page 196: Prontuario Di Statistica

cap. 7 - 10 (2000)

- 6,5 - 8 -11 - 4 -1 + 2 +13 +12 - 3 - 9 - 5 - ,5 -10

4 - Sommare i ranghi di segno positivo (R+), per calcolare

T R= + = + + =∑ 2 12 13 27

5 - Stimare il valore della media dei ranghi

T =n ⋅ n +1( )

4=

13 14

445 5

⋅= ,

6 - Se il valore di tendenza centrale espresso nell'H0 (nell'esempio=300) fosse lamedia vera della popolazione, la somma dei ranghi di segno positivo (T = 27) nondovrebbe essere significativamente differente dalla media dei ranghi attesa (µT = 45 5, )

7 - Con piccoli campioni (n < 20), la significatività è fornita dalla tavola cheriporta il valore critico inferiore. Con n=13 e α=0,05 per un test ad una coda, il valoremassimo significativo riportato nella tavola è 21,7. Il T calcolato (T=27) è superiore : laprobabilità di ottenere una somma uguale o inferiore, se H0 è vera, è > 0,05. Pertantosi accetta H0: la tendenza centrale dei dati può essere 300.

8 - Con grandi campioni (n > 20), la somma dei ranghi di segno positivo si

approssima alla distribuzione normale ZT t

T

≅−µσ

(µT è calcolato con la formula

precedente e σT è la deviazione standard di T, determinata solamente da n:

T =n ⋅ n +1( ) ⋅ 2n +1( )

24

La formula di approssimazione per grandi campioni fornisce buoni risultati giàquando n è maggiore di 8-10 osservazioni. E' quindi possibile applicare le formuleall'esercizio (n=13), per calcolare prima la deviazione standard σT

σT =⋅ ⋅

=13 14 27

2414 31, e successivamente Z: Z =

−= −

27 45 5

14 311 29

,

,,

Z=1,29 definisce una probabilità uguale a 0,0985 in una coda della distribuzione. Siaccetta H0: 300 può essere la media aritmetica della popolazione di tutta l'area dallaquale sono stati campionati i dati rilevati

Page 197: Prontuario Di Statistica

cap. 7 - 11 (2000)

TEST PER 2 CAMPIONI DIPENDENTI (DATI APPAIATI)

Spesso non è possibile misurare con precisione ed oggettività la differenza tra"prima e dopo" l'evento causale per ogni individuo; è possibile solamente dire se unsoggetto è migliorato o peggiorato, se tra i due elementi della coppia il primo èmaggiore o minore, di una quantità che resta imprecisata o soggettiva.

Tra i test più diffusi per inferire sulla tendenza centrale di due campioni dipendentivi sono:

- test di McNemar - quando le variabili sono espresse su scala nominale; i datisono frequenze classificate in tabella 2 x 2 secondo la differenza qualitativa tra "primae dopo"

- test dei segni - quando entro ogni coppia si ha una misura di rango

- test T di Wilcoxon - quando si ha una misura di rango non solo entro coppiema anche tra coppie

- test di casualizzazione (o di permutazione) - quando si hanno scaled'intervalli o di rapporti, limitatamente a piccoli campioni

L’elenco è in ordine crescente per potenza (si richiedono dati sempre menoapprossimati)

Page 198: Prontuario Di Statistica

cap. 7 - 12 (2000)

TEST DI McNEMAR(o Test per la significatività dei cambiamenti)

Può essere utilizzato quando si disponga di dati appaiati, o per due campionidipendenti in esperimenti "prima e dopo", e gli esiti sono misurati su una scalanominale, o qualitativa. E' noto anche come test per la significatività dei cambiamenti,poiché l'analisi utilizza solamente le risposte cambiate tra "prima e dopo" l'evento.

Il procedimento del test, da non confondere con il χ2 per tabelle 2 x 2, può esserespiegato con un esempio

[ Esempio ]

A 184 giovani è stato chiesto se sono favorevoli all'energia nucleare, annotando larisposta di ognuno. Dopo la presentazione di filmati sui pericoli ed i vantaggi dellecentrali nucleari e tradizionali, si chiede di votare ancora, per un confronto individualecon il voto precedente. Sia tra i favorevoli (+) che tra i contrari (–), alcuni sono rimastidello stesso parere, mentre altri hanno cambiato idea. Domanda: c’è mutamentosignificativo nella distribuzione delle opinioni? I risultati sono riassunti in tabella 2x2

PRIMA+ –

DOPO + 48 35

– 74 27

La tabella è formalmente identica a quella di contingenza 2 x 2, la procedurad'analisi inferenziale è parzialmente simile, per la significatività si utilizza la stessadistribuzione dei valori critici; ma...

- il test χ2 si applica a due campioni indipendenti- il test di McNemar si applica quando righe e colonne non sono

indipendenti, in quanto rappresentano le risposte degli stessi individui. Utilizza solo idue gruppi che hanno cambiato segno, ignorando gli altri due

Se è vera H0 (il trattamento non determina un mutamento nella risposta), chi hacambiato la sua risposta ha scelto a caso. Di conseguenza, il numero di chi è passatodal positivo al negativo dovrebbe equivalere al numero di chi ha cambiato nell'altradirezione, dal negativo al positivo.

Page 199: Prontuario Di Statistica

cap. 7 - 13 (2000)

Con la consueta simbologia

PRIMA+ –

DOPO + A B

– C D

si calcola il numero atteso di coloro che dovrebbero passare da – a + eguale al numero

di coloro dovrebbero passare da + a – EB C

2Il numero atteso di cambiamenti nelle due caselle e calcolato dalla media aritmetica

dei due gruppi.

La significatività del cambiamento è determinata con il χ2 con un gdl. Per leridotte dimensioni dei due gruppi utili all'analisi, è vantaggioso includere la correzionedi Yates per la continuità:

1( )2 =

B − E − 0,5( )2

E+

C − E − 0,5( )2

E e, in formula abbreviata, 1( )

2 =B − C −1( )2

B + C

Il valore di 1( )2 ottenuto deve essere confrontato con i valori critici della

distribuzione corrispondente. Utilizzando i dati dell'esempio riportato,

B C E= = =+

=35 7435 74

254 5; ; , ;

si possono applicare indifferentemente le due formule matematicamente equivalenti

1( )2 =

35 − 54,5 − 0,5( )2

54,5+

74 − 54,5 − 0,5( )2

54,5= 13,25 1( )

2 =35 − 74 −1( )2

35 + 74= 13,25

Il valore calcolato (13,25) supera ampiamente il valore critico per la probabilità0,05 con un gdl (3,84). Si rifiuta H0 : il cambiamento è stato significativo.

Il confronto tra osservati ed attesi evidenzia come il numero di coloro che hannocambiato opinione dal meno al più (35) è significativamente minore di quelli che hannocambiato nel senso opposto da più a meno (74).

Page 200: Prontuario Di Statistica

cap. 7 - 14 (2000)

TEST DEI SEGNI

Quando è possibile stabilire con poche eccezioni la direzione della differenza traogni coppia di osservazioni, ma è impossibile definirne una misura quantitativa anchesolo di rango, si utilizza il test dei segni. L'unico postulato è che il fenomeno analizzatoabbia una distribuzione continua, per cui risulta relativamente semplice stabilire il segnodella differenza tra le misure di due campioni dipendenti, formati in modo correttorispetto alla variabile analizzata. Anche in questo caso, la modalità più semplice di datiappaiati è il confronto tra "prima e dopo" il trattamento sui medesimi soggetti, quellain cui ognuno è il controllo di se stesso.

Se è vera l'H0 che il trattamento non determina effetti sistematici e le rispostepertanto sono casuali, il numero di miglioramenti dovrebbe essere uguale al numero dipeggioramenti. I segni + e i segni – (da cui il nome di test dei segni) dovrebberoequivalersi; in termini matematici, indicando con X1 il primo valore di ogni coppia econ X2 in secondo valore,

P(X > X ) = P(X < X ) = 1

21 2 1 2

Si conteggiano i segni e si utilizza il numero di quello che compare con frequenzaminore. Il problema statistico assume quindi la seguente forma: se è vera H0, lafrequenza del segno più raro tende al valore medio (n / 2); se è vera H1, tende a 0.

Il test può essere sia unilaterale che bilaterale, in dipendenza dell'H1 sullamaggioranza di segni positivi o negativi.

Nel caso di piccoli campioni, la distribuzione delle probabilità è determinata

mediante la distribuzione binomiale: P = (n

x) px q n-x

• p = q = 1

2

• n = numero di coppie di dati differenti• x = frequenza del segno raro

Trattandosi di una distribuzione discreta, per l'inferenza occorre sommare laprobabilità di ottenere la risposta osservata con quella delle eventuali risposte piùestreme. Le tabelle abitualmente forniscono queste probabilità cumulate.

Page 201: Prontuario Di Statistica

cap. 7 - 15 (2000)

[ ESEMPIO 1 ]

Dopo un anno di interventi per il risanamento ambientale di 12 laghi, si sonomisurati alcuni parametri chimici e biologici che hanno permesso una valutazionecomplessiva: in 9 casi la situazione è migliorata; in 2 risulta peggiorata; per 1 caso nonsembra mutata. E' possibile sostenere che la situazione è migliorata in modostatisticamente significativo?

Si tratta di un test ad una coda. Escludendo il caso in cui non si è avuto uncambiamento, si tratta di sapere se 9 + e 2 – possono essere ritenuti una variazionecasuale di 4,5 + e altrettanti –, oppure se la differenza deve essere ritenuta casuale.Per n uguale a 11 con p e q uguali a 1/2, la probabilità di avere 2 –, cumulata con laprobabilità di avere 1 – e quella di 0 –, risulta uguale a 0,033. La probabilitàcomplessiva di ottenere la risposta osservata e quelle più estreme nella stessa direzionerisulta bassa, inferiore a 0,05: si rifiuta H0 : la situazione è migliorata in modostatisticamente significativo

Per grandi campioni, in pratica per un numero di osservazioni (n) superiore a 20o a 25 (il numero massimo riportato nelle tabelle per piccoli campioni) si ricorre alla

distribuzione normale Zx x

x

=−µσ

x : numero di segni con frequenza minore

µx : media attesa µx = np = n

2

σx : deviazione standard calcolata da σx n p q n= ⋅ ⋅ =1

2

Trattandosi di conteggi (e quindi di una variabile discreta), si introduce una

correzione per la continuità Z = x ± 0,5( ) − x

x

viene usato x + 0,5 quando x è inferiore alla mediaviene usato x – 0,5 quando x superiore alla media

La formula di calcolo abbreviata di uso abituale diventa Zx n

n=

+ −2 1

ricordando che n è il numero di dati utili ed x è la frequenza del segno più raro.

Page 202: Prontuario Di Statistica

cap. 7 - 16 (2000)

[ ESEMPIO 2 ]

Su 80 coppie di osservazioni rilevate prima e dopo il trattamento, 5 non hannomostrato differenze, 44 sono migliorate e 31 sono peggiorate. Si può affermare che lasituazione è migliorata in modo significativo?

Si tratta di un test ad una coda, con x=31 (il segno meno frequente) e n=75 (44+31)da cui

Z =2 ⋅ 31( ) + 1( ) − 75

75= −1,39

Ad un valore di Z = 1,39 in un test a una coda nella tavola della distribuzionenormale corrisponde una probabilità di 0,0823, che è superiore al valore soglia di 0,05per cui si accetta H0.

Con i dati dell'esempio, trattandosi di un campione abbastanza numeroso, èpossibile utilizzare il test di McNemar

1( )2 =

44 − 31 − 1( )2

44 + 31= 1,92

Un valore di χ2 = 1,92 con un gdl corrisponde approssimativamente al valore diZ2 cioè a Z2 = (1,39)2

Z21

2 21 39 1 92= =χ( ) : ( , ) ,

Ovviamente anche il livello di significatività dei due diversi procedimenti coincide,ricordando che la distribuzione dei valori critici del χ2 è per un test bilaterale. Nellatavola della distribuzione Z ad una coda la probabilità risulta approssimativamenteuguale a 0,08; nel test χ2 , bilaterale, la probabilità stimata dalla tavola èapprossimativamente uguale a 0,16.

Page 203: Prontuario Di Statistica

cap. 7 - 17 (2000)

TEST “T” DI WILCOXON

E’ noto soprattutto nella sua applicazione per due campioni dipendenti:

- sia nel caso di un test ad una coda che a due code- come sostituto del test t- può essere più potente degli omologhi test parametrici, quando le condizioni

di validità non sono rispettate in modo rigoroso

[ ESEMPIO ]

Dalle ore 6 alle ore 20, ogni 60 minuti nella stessa zona di una città viene rilevato iltasso di inquinamento atmosferico in due giorni differenti. Si vuole verificare se è statariscontrata una differenza significativa tra i due giorni, eliminando la variabiltà tra ore

ora giornoX

giornoY

differ.X-Y

rango

6 120 140 - 20 - 3,5 7 145 160 - 15 - 2 8 305 295 + 10 +1 9 200 230 - 30 - 7 10 160 200 - 40 -10 11 135 185 - 50 -12 12 170 150 +20 +3,513 285 515 -230 -14 14 290 220 + 70 +13 15 200 225 - 25 -5 16 150 180 - 30 -7 17 160 190 - 30 -7 18 115 115 0 19 105 140 - 35 - 9 20 105 150 - 45 -11

E' un test bilaterale: Η0 0: δ = ; Η1 0: δ ≠

Page 204: Prontuario Di Statistica

cap. 7 - 18 (2000)

Il procedimento del test può essere spiegato facilmente descrivendo i vari passaggi:

1 - Calcolare la colonna delle differenze con il loro segno: d = X - Y (riportate ingrassetto nella IV colonna)

2 - Eliminare dal campione le differenze nulle; la numerosità sarà proporzionalmenteridotta (n da 15 diventa 14 ; cfr. 5.a colonna)

3 - Trasformare le differenze, considerate in valore assoluto, nel loro rango.Nel caso di due o più valori uguali, assegnare valori uguali dati dalla media dei

ranghi. Nell'esempio sono presenti due differenze (X-Y) uguali in valore assoluto (+20e -20) che occupano la 3a e la 4a posizione: il rango è 3,5. Vi sono altre tre differenze(-30) uguali (6a, 7a e 8a posizione): ad ognuna è assegnato rango 7

L'attribuzione della media dei ranghi alle differenze identiche in valore assoluto (ties) ha effetti

trascurabili sul successivo valore di T, quando le differenze hanno segno diverso; l'effetto è addirittura

nullo quando le differenze hanno lo stesso segno. E' una procedura abituale in molti test non

parametrici ed è spesso essenziale ad un uso corretto dei test

4 - Attribuire ad ogni rango il segno che aveva nella differenza.Sommare i ranghi con lo stesso segno e scegliere il totale minore: è il valore di T.

Nell'esempio, T è dato dai ranghi con segno positivo: T = 1+3,5+13=17,5.

Nell'H0, la differenza tra le due serie di osservazioni appaiate dovrebbe essereuguale a zero: nella colonna delle differenze, la somma dei ranghi con segno positivo ela somma dei ranghi con segno negativo dovrebbero essere uguali. Di conseguenza, iltotale minore dovrebbe tendere ad un valore medio atteso µT determinato da n, ilnumero di differenze o ranghi, secondo la relazione

1( )2 =

44 − 31 − 1( )2

44 + 31= 1,92

Con i dati dell'esempio,

µT =⋅

=14 15

452 5,

5 - La significatività della differenza media tra le due serie di dati appaiati è tradottanella significatività della differenza tra T e µT. Nell'esempio tra 17,5 e 52,5.

Page 205: Prontuario Di Statistica

cap. 7 - 19 (2000)

Per piccoli campioni (n 20), la tavola riporta i valori massimi accettabili di T aivari livelli di significatività, secondo la dimensione n del campione delle differenze.

Con n = 14 e α = 0,05 in un test bidirezionale, il valore critico è 21,84. Il valore diT (17,5) è minore e quindi si rifiuta H0 della significatività della differenza: nel giorno Yil tasso medio d'inquinamento è stato significativamente maggiore.

Per grandi campioni, il valore della somma dei ranghi T è distribuitoapprossimativamente in modo normale: la significatività della differenza può esseresaggiata con la distribuzione Z

zT T

T

=−µσ

dove σT è dato da

T =n ⋅ n +1( ) ⋅ 2n +1( )

24

La distribuzione normale per grandi campioni sembra una approssimazione validagià quando n è almeno 10. Con i dati dell'esempio

σT =⋅ ⋅

=14 15 29

2415 93,

e

z =−

=17 5 52 5

15 932 20

, ,

,,

Nella distribuzione normale standardizzata a Z=2,20 corrisponde una probabilitàα= 0 028, nell'area a due code. Viene rifiutato H0: esiste una differenza significativa.

Quando viene utilizzata una scala discreta ed i valori delle differenze sonodistribuiti in un intervallo ristretto, si possono avere molti punteggi uguali ovalutazioni ex-aequo (ties), in particolare in grandi campioni.

La media attesa µT resta invariata; ma la varianzaσT2 è più ridotta rispetto ad una

scala continua, che permette di attribuire ogni rango con precisione. Si impone unacorrezione di T

2 per queste valutazioni ex-aequo (ties).

La correzione consiste in una riduzione della varianza σT2 pari a

− ⋅ − ⋅ +=∑ t t ti ii

g

i( ) ( )1 11

g : numero di gruppi di ranghi identicit : numero di dati con lo stesso rango entro ogni gruppo

Page 206: Prontuario Di Statistica

cap. 7 - 20 (2000)

[ Esempio ]

Calcolo di T2 con la correzione per ties dalla seguente distribuzione di ranghi

1 2 4 4 –4 6 –8,5 8,5 8,5 –8,5 11 12 13,5 13,5 –15 16 17 19 19 19 –21 –22

Con n=22 il valore di σT2 senza correzione è

σT2 22 23 45

24948 75=

⋅ ⋅= ,

Ma sono presenti 4 gruppi col medesimo rango che possono essere riassunti in:1 gruppo con 2 valori uguali (13,5)2 gruppi con 3 valori uguali (4 e 19)1 gruppo con 4 valori identici (8,5)

Pertanto la varianza deve essere ridotta di una quantità

( ) ( ) ( )2 1 3 2 3 2 4 4 3 5 6 48 60 114⋅ ⋅ + ⋅ ⋅ ⋅ + ⋅ ⋅ = + + =

e σT corretta diventa

σT = − = =948 75 114 834 75 28 89, , ,

Senza correzione, il valore di σT sarebbe stato 948 75 30 80, , .=

Con la diminuzione del valore di σT, aumenta proporzionalmente il valore di Z, che pertanto

risulterà più facilmente significativo.

E' utile ricordare che se una differenza media risulta significativa senza la correzione per i valori

identici, risulterà ancor più significativa con la correzione; una differenza media non significativa per

probabilità prossime al valore critico può diventare significativa, con la correzione della varianza per i

ties.

Disponendo degli stessi dati, invece del test T di Wilcoxon si potrebbe utilizzare iltest dei segni, che considera solamente il segno delle differenze, trascurando il lororango. Questo test è meno potente del test T di Wilcoxon, ma se si devono analizzaredistribuzioni di differenze con probabilità che risultano prossime al rifiuto dell'H0, lascelta di un test al posto dell'altro può determinare il superamento dei valori critici.

Page 207: Prontuario Di Statistica

cap. 7 - 21 (2000)

TEST DI CASUALIZZAZIONE (o DI PERMUTAZIONE)PER DUE CAMPIONI DIPENDENTI

Tra tutti i test non parametrici, questo risulta il più utile per piccoli campioni, siadal punto di vista didattico che pratico. E' chiamato anche test di permutazione, anchese in realtà si fonda su disposizioni con replicazione.

• Per scale di rapporti o d'intervallo è il più potente, in molti casi è preferibileallo stesso test t, in particolare in campioni con 6-10 coppie di dati

• Fornisce direttamente le probabilità esatte, senza il ricorso a tavole didistribuzione dei valori critici

• Non richiede nessuna condizione sulla forma della distribuzione dei dati, né lanormalità della distribuzione né l'omoscedasticità (omogeneità della varianza).

• I limiti alla sua utilizzazione derivano dall'estensione del calcolo manuale, quandole dimensioni del campione superano le 12-14 osservazioni

[ Esempio ]

Dal confronto tra due campioni dipendenti si sono ottenute 10 differenze, con lequali si intende valutare la significatività della loro tendenza centrale

+10 +25 +7 +8 +2 +71 –5 +4 +15 –3

E' un test bidirezionale: H0 : = 0 H1 : ≠ 0

Il presupposto fondamentale per la comprensione della metodologia del test è che,dal confronto tra le due serie di dati appaiati, si possa ottenere solamente il risultatonumerico osservato. Restano fissi i valori assoluti delle differenze, ma può variare illoro segno. Se l’H0 è vera, il segno di ogni differenza (+ o –) può variare solo a caso.

I passaggi metodologici del test possono essere così riassunti :

1 - Calcolare il numero di possibili risposte.Con n dati, il numero di possibili risposte binarie è 2n. Nell'esempio, le possibili

risposte sono 210=1024, che devono anche essere ugualmente probabili

2 - Definire la zona di rifiuto, secondo la direzionalità del test (a una coda o a duecode) e il livello di significatività desiderato.

Con 1024 possibili risposte, per una significatività α = 0,05 la zona di rifiutoesclude i 52 risultati (1024x0,05=51,2) possibili più estremi; è un test a due code equindi l'area di rifiuto è data dalle 26 risposte più estreme da una parte e 26 dall'altra

Page 208: Prontuario Di Statistica

cap. 7 - 22 (2000)

3 - Individuare i risultati più estremi, ordinando i valori ottenuti sulla base della lorosomma, al variare progressivo dei segni. La risposta più estrema in una direzione èquella in cui tutti i valori hanno segno +; la più estrema nell'altra direzione è quella incui tutti i valori hanno segno. Le due risposte più estreme sono:

+10 +25 +7 +8 +2 +71 +5 +4 +15 +3 = +150–10 –25 –7 –8 –2 –71 –5 –4 –15 –3 = –150

4 - Verificare se la serie dei dati osservati rientra nella zona di rifiuto. Poiché la sommadei dati è positiva, si può limitare la verifica ai soli 26 risultati positivi più estremi.

1) +10 +25 +7 +8 +2 +71 +5 +4 +15 +3 = +1502) +10 +25 +7 +8 -2 +71 +5 +4 +15 +3 = +1463) +10 +25 +7 +8 +2 +71 +5 +4 +15 -3 = +1444) +10 +25 +7 +8 +2 +71 +5 -4 +15 +3 = +1425) +10 +25 +7 +8 +2 +71 -5 +4 +15 +3 = +1406) +10 +25 +7 +8 -2 +71 +5 +4 +15 -3 = +1407) +10 +25 +7 +8 -2 +71 +5 -4 +15 +3 = +1388) +10 +25 -7 +8 +2 +71 +5 +4 +15 +3 = +1369) +10 +25 +7 +8 +2 +71 +5 -4 +15 -3 = +13610) +10 +25 +7 +8 -2 +71 -5 +4 +15 +3 = +13611) +10 +25 +7 -8 +2 +71 +5 +4 +15 +3 = +134

12) +10 +25 +7 +8 +2 +71 -5 +4 +15 -3 = +134

13) +10 +25 +7 +8 +2 +71 -5 -4 +15 +3 = +13214) +10 +25 -7 +8 -2 +71 +5 +4 +15 +3 = +13215) -10 +25 +7 +8 +2 +71 +5 +4 +15 +3 = +13016) +10 +25 -7 +8 +2 +71 +5 +4 +15 -3 = +13017) +10 +25 +7 +8 -2 +71 -5 +4 +15 -2 = +130

5 - La risposta ottenuta nell'esperimento occupa la 12a posizione tra le risposte positivepiù estreme. La sua somma è uguale alla 11a risposta e quindi il rango della suaposizione è 11,5. La serie osservata di differenze rientra tra le 26 risposte collocatenella zona positiva di rifiuto, per un test a due code. Di conseguenza, alla probabilità0,05 si rifiuta H0 : esiste una differenza significativa tra le mediane (la misura dellatendenza centrale nella statistica non parametrica), delle due serie di dati appaiati.

All'aumentare del numero di osservazioni, il test diventa inapplicabile. Con 20 differenze, il

numero di possibili risposte è 220 = 1.048.576. Anche limitando l'analisi al 5% delle risposte più

estreme in una sola coda per un test bidirezionale, si tratta di 26.214 serie di dati.

Nel caso di grandi campioni, se non è possibile utilizzare il test “t”, si può ricorrereal test “T” di Wilcoxon, con una perdita di potenza-efficienza inferiore al 5%.

Page 209: Prontuario Di Statistica

cap. 7 - 23 (2000)

TEST PER DUE CAMPIONI INDIPENDENTI

La non-normalità di una distribuzione ha conseguenze rilevanti sulle probabilitàche vengono calcolate con un test parametrico. Quando si dispone di piccoli campioni,è difficile, se non praticamente impossibile, determinare la forma della distribuzione: lascelta del tipo di approccio inferenziale, se parametrico o non parametrico, non èquindi fondata su elementi rigorosi ma sulla intuizione o addirittura sulle preferenzepersonali.

Le opinioni sui criteri di scelta divergono:• alcuni ritengono che sia più utile utilizzare sempre i metodi parametrici, quando

non si dimostra che i dati sono tratti da una popolazione distribuita non normalmente• altri preferiscono i test non parametrici: mentre forniscono risultati nettamente

più attendibili anche in caso d'incertezza sulla forma di distribuzione, hanno una perditadi potenza-efficienza trascurabile, prossima al 5%, quando i test sono scelti in modoappropriato.

Alcuni test non parametrici, detti anche “test liberi da distribuzione” per 2 campioni indipendenti

sono già stati presentati nell'esposizione dei metodi di confronto tra 2 distribuzioni osservate:

- il χ2 in tabelle di contingenza 2 x 2 per grandi campioni ed il metodo delle probabilità esatte di

Fisher per piccoli campioni

- il χ2 in tabelle 2 x n e il test di Kolmogorov-Smirnov.

Tra i test per 2 campioni indipendenti più frequentemente utilizzati per inferenzesulla tendenza centrale, è importante conoscere il test della mediana, il test U di Mann-Whitney, il test di permutazione o di casualizzazione. Essi possono essere ritenutiequivalenti ai test per 2 campioni dipendenti già presentati: il test dei segni, il test T diWilcoxon, il test di permutazione o casualizzazione. Come nel caso precedente, la sceltadipende dal tipo di scala utilizzata: da essa infatti deriva la possibilità di ordinare i datisenza avere molti ranghi identici o quella di servirsi di misure d'intervalli o di rapporti.

Con due campioni indipendenti sono possibili anche confronti tra altri parametridella distribuzione, come la variabilità e la forma, per i quali sono stati proposti alcunitest non parametrici.

Page 210: Prontuario Di Statistica

cap. 7 - 24 (2000)

TEST DELLA MEDIANA

Il test della mediana è utile per verificare la tendenza centrale di due campioniindipendenti, che ovviamente possono essere di dimensioni differenti.

H0 : i due gruppi di osservazioni appartengano alla stessa popolazione o a duepopolazioni con la stessa mediana [H0 : Me 1 = Me2]

H1 (può essere bilaterale o unilaterale) : la mediana di una popolazione è differentedall'altra (test a due code); la mediana di una popolazione specificata è maggioredell'altra (test ad una coda) H1 : Me 1 ≠ Me2 (test bilaterale), ecc.

1 - Disporre in un gruppo unico, in ordine crescente, i dati dei due gruppi, che a talfine vanno misurati almeno con una scala di rango. L'ordine prende in considerazionele grandezze algebriche, per cui i ranghi inferiori sono attribuiti agli eventuali valorinegativi maggiori; associare ad ogni valore l'indicazione del suo gruppo d'appartenenza

2 - Calcolare la mediana del gruppo unico.Se è vera H0, i dati dei due gruppi sono casualmente mescolati. Rispetto alla

mediana, i dati di ognuno dei due gruppi sono equi-ripartiti alla sua destra e sinistra.Se è vera H1 (la tendenza centrale di un gruppo è più elevata o diversa da quella

dell'altro gruppo), i due gruppi non sono mescolati: prima della mediana sono presentiin prevalenza i valori di un gruppo e dopo la mediana i valori dell'altro

3 - Costruire una tabella 2 x 2 per sintetizzare la distribuzione dei valori dei duegruppi rispetto alla mediana: quante misure di ognuno dei due gruppi si trovano primadella mediana e quante dopo. Se la mediana coincide con uno o più valori, suddividerein due gruppi: nel secondo gruppo i valori superiori alla mediana; nel primo gli altri

M E D I A N A<= >

Gruppo 1Gruppo 2

4 - La distribuzione delle frequenze dei valori inferiori/uguali e di quelli superiorialla mediana, relative ai due gruppi a confronto, segue la distribuzione ipergeometrica.

Per l'inferenza :• il test χ2 per tabelle 2 x 2 (grandi campioni)

• il test χ2 con correzione di Yates (campioni di dimensioni inferiori)• metodo esatto di Fisher (piccoli campioni)

Page 211: Prontuario Di Statistica

cap. 7 - 25 (2000)

[ ESEMPIO ]

Nella zona di una città, per l'analizzare la qualità dell'aria sono state rilevate lequantità di solventi aromatici (Benzene, Toluene, Etilbenzene, Xileni in microg/mc) ingiorni festivi (A) e feriali (B). Verificare se nei giorni festivi la quantità èsignificativamente minore.

PERIODO A PERIODO B92 156114 12382 198164 83167 242110 176135 185

217

Si ordinano i valori in ordine crescente e si individua la mediana: con 15 dati è ilvalore che occupa rango 8 (156)

82 83 92 110 114 123 135 156 164 167 176 185 198 217 242A B A A A B A B A A B B B B B

Si contano le osservazioni di ogni gruppo che sono inferiori od uguali alla medianae le osservazioni che sono superiori, costruendo una tabella 2x2.

M E D I A N A<= >

Periodo A 5 2 7Periodo B 3 5 8

8 7 15

Si tratta di un test ad una coda e la significatività della distribuzione può essereverificata con il metodo esatto di Fisher (numero di osservazioni è troppo ridotto per iltest χ2 , anche apportando la correzione per la continuità)

Si calcola la probabilità di ottenere la distribuzione osservata e le risposte piùestreme; queste sono facilmente identificabili variando verso 0 la frequenza osservataminore (2). La probabilità totale risulta 0,315. E' molto elevata, per cui si accetta H0.

Page 212: Prontuario Di Statistica

304

Valori critici della distribuzione t di Student per un test bilaterale

Gradidi

α

libertà 0,500 0,400 0,200 0,100 0,050 0,025 0,010 0,005 0,001

1 1.000 1.376 3.078 6.314 12.706 25.452 63.6572 .816 1.061 1.886 2.920 4.303 6.205 9.925 14.089 31.5983 .765 0.978 1.638 2.353 3.182 4.176 5.841 7.453 12.9414 .741 .941 1.533 2.132 2.776 3.495 4.604 5.598 8.6105 .727 .920 1.476 2.015 2.571 3.163 4.032 4.773 6.8596 718 .906 1.440 1.943 2.447 2.969 3.707 4.317 5.9597 .711 .896 1.415 1.895 2.365 2.841 3.499 4.029 5.4058 .706 .889 1.397 1.860 2.306 2.752 3.355 3.832 5.0419 .703 .883 1.383 1.833 2.262 2.685 3.250 3.690 4.781

10 .700 .879 1.372 1.812 2.228 2.634 3.169 3.581 4.58711 .697 .876 1.363 1.796 2.201 2.593 3.106 3.497 4.43712 .695 .873 1.356 1.782 2.179 2.560 3.055 3.428 4.31813 .694 .870 1.350 1.771 2.160 2.533 3.012 3.372 4.22114 .692 .868 1.345 1.761 2.145 2.510 2.977 3.326 4.14015 .691 .866 1.341 1.753 2.131 2.490 2.947 3.286 4.07316 .690 .865 1.337 1.746 2.120 2.473 2.921 3.252 4.01517 .689 .863 1.333 1.740 2.110 2.458 2.898 3.222 3.96518 .688 .862 .330 1.734 2.101 2.445 2.878 3.197 3.92219 .688 .861 1.328 1.729 2.093 2.433 2.861 3.174 3.88320 .687 .860 1.325 1.725 2.086 2.423 2.845 3.153 3.85021 .686 .859 1.323 1.721 2.080 2.414 2.831 3.135 3.81922 .686 .858 1.321 1.717 2.074 2.406 2.819 3.119 3.79223 .685 .858 1.319 1.714 2.069 2.398 2.807 3.104 3.76724 .685 .857 1.318 1.711 2.064 2.391 2.797 3.090 3.74525 .684 .856 1.316 1.708 2.060 2.385 2.787 3.078 3.72526 .684 .856 1.315 1.706 2.056 2.379 2.779 3.067 3.70727 .684 .855 1.314 1.703 2.052 2.373 2.771 3.056 3.69028 .683 .855 1.313 1.701 2.048 2.368 2.763 3.047 3.67429 .683 .854 1.311 1.699 2.045 2.364 2.756 3.038 3.65930 .683 .854 1.310 1.697 2.042 2.360 2.750. 5.030 3.64635 .682 .852 1.306 1.690 2.030 2.342 2.724 2.996 3.59140 .681 .851 1.303 1.684 2.021 2.329 2.704 2.971 3.55145 .680 .850 1.301 1.680 2.014 2.319 2.690 2.952 3.52050 .680 .849 1.299 1.676 2.008 2.310 2.678 2.937 3.49655 .679 .849 1.297 1.673 2.004 2.304 2.669 2.925 3.47660 .679 .848 1.296 1.671 2.000 2.299 2.660 2.915 3.46070 .678 .847 1.294 1.667 1.994 2.290 2.648 2.899 3.43580 .678 .847 1.293 1.665 1.989 2.284 2.638 2.887 3.41690 .678 .846 1.291 1.662 1.986 2.279 2.631 2.878 3.402100 .677 .846 1.290 1.661 1.982 2.276 2.625 2.871 3.390120 .677 .845 1.289 1.658 1.980 2.270 2.617 2.860 3.373∞ .6745 .8416 1.28161 1.6448 1.9600 2.2414 2.5758 2.8070 3.2905

Page 213: Prontuario Di Statistica

305

Valori critici della distribuzione t di Student per un test unilaterale (prima parte)

GradiDi

Aree della coda superiore

Libertà 0.25 0.10 0.05 0.25 0.01 0.005

1 1.0000 3.0777 6.3138 12.7062 31.8207 63.65742 0.8165 1.8856 2.9200 4.3027 6.9646 9.92483 0.7649 1.6377 2.3534 3.1824 4.5407 5.84094 0.7407 1.5332 2.1318 2.7764 3.7469 4.60415 0.7267 1.4759 2.0150 2.5706 3.3649 4.03226 0.7176 1.4398 1.9432 2.4469 3.1427 3.70747 0.7111 1.4149 1.8946 2.3646 2.9980 3.49958 0.7064 1.3968 1.8595 2.3060 2.8965 3.35549 0.7027 1.3830 1.8331 2.2622 2.8214 3.2498

10 0.6998 1.3722 1.8125 2.2281 2.7638 3.169311 0.6974 1.3634 1.7959 2.2010 2.7181 3.105812 0.6955 1.3562 1.7823 2.1788 2.6810 3.054513 0.6938 1.3502 1.7709 2.1604 2.6503 3.012314 0.6924 1.3450 1.7613 2.1448 2.6245 2.976815 0.6912 1.3406 1.7531 2.1315 2.6025 2.946716 0.6901 1.3368 1.7459 2.1199 2.5835 2.920817 0.6892 1.3334 1.7396 2.1098 2.5669 2.898218 0.6884 1.3304 1.7341 2.1009 2.5524 2.878419 0.6876 1.3277 1.7291 2.0930 2.5395 2.860920 0.6870 1.3253 1.7247 2.0860 2.5280 2.845321 0.6864 1.3232 1.7207 2.0796 2.5177 2.831422 0.6858 1.3212 1.7171 2.0739 2.5083 2.818823 0,6853 1.3195 1.7139 2.0687 2.4999 2.807324 0.6848 1.3178 1.7109 2.0639 2.4922 2.796925 0.6844 1.3163 1.7081 2.0595 2.4851 2.787426 0.6840 1.3150 1.7056 2.0555 2.4786 2.778727 0.6837 1.3137 1.7033 2.0518 2.4727 2.770728 0.6834 1.3125 1.7011 2.0484 2.4671 2.763329 0.6830 1.3114 1.6991 2.0452 2.4620 2.756430 0.6828 1.3104 1.6973 2.0423 2.4573 2.750031 0.6825 1.3095 1.6955 2.0395 2.4528 2.744032 0.6822 1.3086 1.6939 2.0369 2.4487 2.738533 0.6820 1.3077 1.6924 2.0345 2.4448 2.733334 0.6818 1.3070 1.6909 2.0322 2.4411 2.728435 0.6816 1.3062 1.6896 2.0301 2.4377 2.723836 0.6814 1.3055 1.6883 2.0281 2.4345 2.719537 0.6812 1.3049 1.6871 2.0262 2.4314 2.715438 0.6810 1.3042 1.6860 2.0244 2.4286 2.711639 0.6808 1.3036 1.6849 2.0227 2.4258 2.707940 0.6807 1.3031 1.6839 2.0211 2.4233 2.704541 0.6805 1.3025 1.6829 2.0195 2.4208 2.701242 0.6804 1.3020 1.6820 2.0181 2.4185 2.698143 0.6802 1.3016 1.6811 2.0167 2.4163 2.695144 0.6801 1.3011 1.6802 2.0154 2.4141 2.692345 0.6800 1.3006 1.6794 2.0141 2.4121 2.689646 0.6799 1.3002 1.6787 2.0129 2.4102 2.687047 0.6797 1.2998 1.6779 2.0117 2.4083 2.684648 0.6796 1.2994 1.6772 2.0106 2.4066 2.682249 0.6795 1.2991 1.6766 2.0096 2.4049 2.680050 0.6794 1.2987 1.6759 2.0086 2.4033 2.677851 0.6793 1.2984 1.6753 2.0076 2.4017 2.675752 0.6792 1.2980 1.6747 2.0066 2.4002 2.673753 0.6791 1.2977 1.6741 2.0057 2.3988 2.671854 0.6791 1.2974 1.6736 2.0049 2.3974 2.670055 0.6790 1.2971 1.6730 2.0040 2.3961 2.668256 0.6789 1.2969 1.6725 2.0032 2.3948 2.666557 0.6788 1.2966 1.6720 2.0025 2.3936 2.664958 0.6787 1.2963 1.6716 2.0017 2.3924 2.663359 0.6787 1.2961 1.6711 2.0010 2.3912 2.661860 0.6786 1.2958 1.6706 2.0003 2.3901 2.6603

(segue)

Page 214: Prontuario Di Statistica

306

Valori critici della distribuzione t di Student per un test unilaterale (seconda parte)

Gradidi

Aree della coda superiore

libertà 0.25 0.10 0.05 0.25 0.01 0.005

61 0.6785 1.2956 1.6702 1.9996 2.3890 2.6589

62 0.6785 1.2954 1.6698 1.9990 2.3880 2.6575

63 0.6784 1.2951 1.6694 1.9983 2.3870 2.6561

64 0.6783 1.2949 1.6690 1.9977 2.3860 2.6549

65 0.6783 1.2947 1.6686 1.9971 2.3851 2.6536

66 0.6782 1.29.45 1.6683 1.9966 2.3842 2.6524

67 0.6782 1.2943 1.6679 1.9960 2.3833 2.6512

68 0.6781 1.2941 1.6676 1.9955 2.3824 2.6501

69 0.6781 1.2939 1.6672 1.9949 2.3816 2.6490

70 0.6780 1.2938 1.6669 1.9944 2.3808 2.6479

71 0.6780 1.2936 1.6666 1.9939 2.3800 2.6469

72 0.6779 1.2934 1.6663 1.9935 2.3793 2.6459

73 0.6779 1.2933 1.6660 1.9930 2.3785 2.6449

74 0.6778 1.4931 1.6657 1.9925 2.3778 2.6439

75 0.6778 1.2929 1.6654 1.9921 2.3771 2.6430

76 0.6777 1.2928 1.6652 1.9917 2.3764 2.6421

77 0.6777 1.2926 1.6649 1.9913 2.3758 2.6412

78 0.6776 1.2925 1.6646 1.9908 2.3751 2.6403

79 0.6776 1.2924 1.6644 1.9905 2.3745 2.6395

80 0.6776 1.2922 1.6641 1.9901 2.3739 2.6387

81 0.6775 1.2921 1.6639 1.9897 2.3733 2.6379

82 0.6775 1.2920 1.6636 1.9893 2.3727 2.6371

83 0.6775 1.2918 1.6634 1.9890 2.3721 2.6364

84 0.6774 1.2917 1.6632 1.9886 2.3716 2.6356

85 0.6774 1.2916 1.6630 1.9883 2.3710 2.6349

86 0.6774 1.2915 1.6628 1.9879 2.3705 2.6342

87 0.6773 1.2914 1.6626 1.9876 2.3700 2.6335

88 0.6773 1.2912 1.6624 1.9873 2.3695 2.6329

89 0.6773 1.2911 1.6622 1.9870 2.3690 2.6322

90 0.6772 1.2910 1.6620 1.9867 2.3685 2.6316

91 0.6772 1,2909 1.6618 1.9864 2.3680 2.6309

92 0.6772 1.2908 1.6616 1.9861 2.3676 2.6303

93 0.6771 1.2907 1.6614 1.9858 2.3671 2.6297

94 0.6771 1.2906 1.6612 1.9855 2.3667 2.6291

95 0.6771 1.2905 l.6611 1.9853 2.3662 2.6286

96 0.6771 1.2904 1.6609 1.9850 2.3658 2.6280

97 0.6770 1.2903 1.6607 1.9847 2.3654 2.6275

98 0.6770 1.2902 1.6606 1.9845 2.3650 2.6269

99 0.6770 1.2902 1.6604 1.9842 2.3646 2.6264

100 0.6770 1.2901 1.6602 1.9840 2.3642 2.6259

110 0.6767 1,2893 1.6588 1.9818 2.3607 2.6213

120 0.6765 1.2886 1.6577 1.9799 2.3578 2.6174

130 0.6764 12881 1.6567 1.9784 2.3554 2.6142

140 0.6762 1.2876 1.6558 1.9771 2.3533 2.6114

150 0.6761 1,2872 1.6551 1.9759 2.3515 2.6090

∞ 0.6745 1.2816 1.6449 1.9600 2.3263 2.5758

Page 215: Prontuario Di Statistica

307

Confronto dei valori critici della distribuzione t tra un test bilaterale e un test unilaterale

Area nelle due code

0,10 0,05 0,02 0,01 0,01

Area in una coda

g.l. 0,05 0,025 0,01 0,005 0,0005

1 6.314 12.706 31.821 63.657 636.6192 2.920 4.303 6.965 9.925 31.5983 2.353 3.182 4.541 5.841 129414 2.132 2.776 3.747 4.604 8.6105 2.015 2.571 3.365 4.032 6.8596 1.943 2.447 3.143 3.707 5.9597 1.895 2.365 2.998 3.499 5.4058 1.860 2.306 2.896 3.355 5.0419 1.833 2.262 2.821 3.250 4.781

10 1.812 2.228 2.764 3.169 4.58711 1.796 2.201 2.718 3.106 4.43712 1.782 2.179 2.681 3.055 4.31813 1.771 2.160 2.650 3.01 4.22114 1.761 2.145 2.624 2.977 4.14015 1.753 2.131 2.602 2.947 4.07316 1.746 2.120 2.583 2.921 4.01517 1.740 2.110 2.567 2.898 3.96518 1.734 2.101 2.552 2.878 3.92219 1.729 2.093 2.539 2.861 3.88320 1.725 2.086 2.528 2.845 3.85021 1.721 2.080 2.518 2.831 3.81922 1.717 2.074 2.508 2.819 3.79223 1.714 2.069 2.500 2.807 3.76724 1.711 2.064 2.492 2.797 3.74525 1.708 2.060 2.485 2.787 3.72526 1.706 2.056 2.479 2.779 3.70727 1.703 2.052 2.473 2.771 3.69028 1.701 2.048 2.467 2.763 3.67429 ì.699 2.045 2.462 2.756 3.65930 1.697 2.042 2.457 2.750 3.64640 1.684 2.021 .423 2.704 3.55160 1.671 2.000 2.390 2.660 3.460120 1.658 1.980 2.358 2.617 3.373

∞ 1.645 1.960 2.326 2.576 3.291

Page 216: Prontuario Di Statistica

128

La parte annerita rappresenta l’area sottostante la distribuzione normale standardizzata dalla media aritmetica a z.

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 00000 00399 00792 01197 01595 01994 02392 02790 03188 035860,1 03983 04380 04776 05172 05567 05962 06356 06749 07142 075350,2 07926 08317 08706 09095 09483 09871 10257 10642 11026 114090,3 11791 12172 12552 12930 13307 13683 14058 14431 14803 151730,4 15542 15910 16276 16640 17003 17364 17724 18082 18439 187930,5 19146 19497 19847 20194 20540 20884 21226 21566 21904 222400,6 22575 22907 23237 23565 23891 24215 24537 24857 25175 254900,7 25804 26115 26424 26730 27035 27337 27637 27935 28230 285240,8 28814 29103 29389 29673 29955 30234 30511 30785 31057 313270,9 31594 31859 32121 32381 32639 32';94 33147 33398 33646 338911,0 34134 34375 34614 34849 35083 35314 35543 35769 35993 362141,1 36433 36650 36864 37076 37286 37493 37698 37900 38100 382981,2 38493 38686 38877 39065 39251 39435 39617 39796 39973 401471,3 40320 40490 40658 40824 40988 41149 41309 41466 41621 417741,4 41924 42073 42220 42364 42507 42647 42786 42922 43056 431891,5 43319 43448 43574 43699 43822 43943 44062 44179 44295 444081,6 44520 44630 44738 44845 44950 45053 45154 45254 45352 454491,7 45543 45637 45728 45818 45907 45994 46080 46164 46246 463271,8 46407 46485 46562 46637 46712 46784 46856 46926 46995 470621.9 47128 47193 47257 47320 47381 47441 47500 47558 47615 476702,0 47725 47778 47831 47882 47932 47982 48030 48077 48124 481692,1 48214 48257 48300 48341 48382 48422 48461 48500 48537 485742,2 48610 48645 48679 48713 48745 48778 48809 48840 48870 488992,3 48928 48956 48983 49010 49036 49061 49086 49111 49134 491582,4 49180 49202 49224 49245 49266 49286 49305 49324 49343 493612,5 49379 49396 49413 49430 49446 49461 49477 49492 49506 495202,6 49534 49547 49560 49573 49585 49598 49609 49621 49632 496432,7 49653 49664 49674 49683 49693 49702 49711 49720 49728 497362,8 49745 49752 49760 49767 49774 49781 49788 49795 49801 498072,9 49813 49819 49825 49831 49836 49841 49846 49851 49856 498613,0 49865 49869 49874 49878 49882 49886 49889 49893 49897 499003,1 49903 49906 49910 49913 49916 49918 49921 49924 49926 499293,2 49931 49934 49936 49938 49940 49942 49944 49946 49948 499503,3 49952 49953 49955 49957 49958 49960 49961 49962 49964 499653,4 49966 49968 49969 49970 49971 49972 49973 49974 49975 499763,5 49977 49978 49978 49979 49980 49981 49981 49982 49983 499833,6 49984 49985 49985 49986 49986 49987 49987 49988 49988 499893,7 49989 49990 49990 49990 49991 49991 49991 49992 49992 499923,8 49993 49993 49993 49994 49994 49994 49994 49995 49995 499953,9 49995 49995 49995 49996 49996 49996 49996 49996 49997 49997

Valori dell’integrale di probabilità della distribuzione normale standardizzata

Page 217: Prontuario Di Statistica

129

L’area annerita rappresenta la probabilità di ottenere un valore dello scarto standardizzato minore di z.

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.535860,1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.575350,2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.614090,3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.651730,4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.687930,5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.722400,6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.754900,7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.785240,8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.813270,9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.838911,0 0.84134 0.84375 0.84614 0.84850 0.85083 0.85.314 0.85543 0.85769 0.85993 0.862141,1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.882981,2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.901471,3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91309 0.91466 0.91621 0.917741,4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92786 0.92922 0.93056 0.931891,5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.944081,6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.954491,7 0.95543 0.95637 0.95.728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.963271,8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.970621,9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.976702,0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.981692,1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.985742,2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.988992,3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.991582,4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.993612,5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.995202,6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.996432,7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.997362,8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.998072,9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.998613,0 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99897 0.999003,1 0.99903 0.99906 0.99910 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.999293,2 0.99931 0.99934 0.99936 0.99938 0.99940 0.99942 0.99944 0.99946 0.99948 0.999503,3 0.99952 0199953 0.99957 0.99957 0.99958 0.99960 0.99961 0.99962 0.99964 0.999653,4 0.99966 0.99968 0.99969 0.99970 0.99971 0.99972 0.99973 0.99974 0.99975 0.99976

Area nelle due code della distribuzione normale standardizzata

Page 218: Prontuario Di Statistica

130

La tabella riporta le probabilità nelle aree annerite.

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 1.000 0.992 0.984 0.976 0.968 0.960 0.952 0.944 0.936 0.9280,1 0.920 0.912 0.904 0.897 0.889 0.881 0.873 0.865 0.857 0.8490,2 0.841 0.834 0.826 0.818 0.810 0.803 0.795 0.787 0.779 0.7720,3 0.764 0.757 0.749 0.741 0.734 0.726 0.719 0.711 0.704 0.6970,4 0.689 0.682 0.674 0.667 0.660 0.653 0.646 0.638 0.631 0.6240,5 0.617 0.610 0.603 0.596 0.589 0.582 0.575 0.569 0.562 0.5550,6 0.549 0.542 0.535 0.529 0.522 0.516 0.509 0.503 0.497 0.4900,7 0.484 0.478 0.472 0.465 0.459 0.453 0.447 0.441 0.435 0.4300,8 0.424 0.418 0.412 0.407 0.401 0.395 0.390 0.384 0.379 0.3730,9 0.368 0.363 0.358 0.352 0.347 0.342 0.337 0.332 0.327 0.3221,0 0.317 0.312 0.308 0.303 0.298 0.294 0.289 0.285 0.280 0.2761,1 0.271 0.267 0.263 0.258 0.254 0.250 0.246 0.242 0.238 0.2341,2 0.230 0.226 0.222 0.219 0.215 0.211 0.208 0.204 0.201 0.1971,3 0.194 0.190 0.187 0.184 0.180 0.177 0.174 0.171 0.168 0.1651,4 0.162 0.159 0.156 0.153 0.150 0.147 0.144 0.142 0.139 0.1361,5 0.134 0.131 0.129 0.126 0.124 0.121 0.119 0.116 0.114 0.1121,6 0.110 0.107 0.105 0.103 0.101 0.099 0.097 0.095 0.093 0.0911,7 0.089 0.087 0.085 0.084 0.082 0.080 0.078 0.077 0.075 0.0731,8 0.072 0.070 0.069 0.067 0.066 0.064 0.063 0.061 0.060 0.0591,9 0.057 0.056 0.055 0.054 0.052 0.051 0.050 0.049 0.048 0.0472,0 0.046 0.044 0.043 0.042 0.041 0.040 0.039 0.038 0.038 0.0372,1 0.036 0.035 0.034 0.033 0.032 0.032 0.031 0.030 0.029 0.0292,2 0.028 0.027 0.026 0.026 0.025 0.024 0.024 0.023 0.023 0.0222,3 0.021 0.021 0.020 0.020 0.019 0.019 0.018 0.018 0.017 0.0172,4 0.016 0.016 0.016 0.015 0.015 0.014 0.014 0.014 0.013 0.0132,5 0.012 0.012 0.012 0.011 0.011 0.011 0.010 0.010 0.010 0.0102,6 0.009 0.009 0.009 0.009 0.008 0.008 0.008 0.008 0.007 0.0072,7 0.007 0.007 0.007 0.006 0.006 0.006 0.006 0.006 0.005 0.0052,8 0.005 0.005 0.005 0.005 0.005 0.004 0.004 0.004 0.004 0.0042,9 0.004 0.004 0.004 0.003 0.003 0.003 0.003 0.003 0.003 0.0033,0 0.003