72
1 Università degli studi di Sassari Facoltà di Agraria Sede di Oristano CORSO DI LAUREA IN TECNOLOGIE ALIMENTARI CORSO DI LAUREA IN VITICOLTURA ED ENOLOGIA DISPENSE DEL CORSO DI STATISTICA Docente NICOLO’ MACCIOTTA DIPARTIMENTO DI SCIENZE ZOOTECNICHE ANNO ACCADEMICO 2003/2004

STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/statistica1.pdf · 4 Scopo fondamentale della statistica è quello di aumentare la parte

  • Upload
    others

  • View
    26

  • Download
    0

Embed Size (px)

Citation preview

1

Università degli studi di Sassari

Facoltà di Agraria

Sede di Oristano

CORSO DI LAUREA IN TECNOLOGIE ALIMENTARI

CORSO DI LAUREA IN VITICOLTURA ED ENOLOGIA

DISPENSE DEL CORSO DI

STATISTICA

Docente

NICOLO’ MACCIOTTA

DIPARTIMENTO DI SCIENZE ZOOTECNICHE

ANNO ACCADEMICO 2003/2004

2

INTRODUZIONE

La statistica è un settore della matematica applicata che si occupa dell’analisi e dell’interpretazione

dei dati numerici. Nel linguaggio comune, la statistica è solitamente associata all’idea di indagini di

tipo sociologico, politico o economico, che mirano ad esempio a valutare la frazione di italiani che

sono impiegati in un particolare settore o che votano per un determinato partito politico o che fanno

uso di un particolare prodotto e così via. In realtà l’esame accurato dei dati numerici e l’estrazione

delle informazioni in essi contenute è una esigenza prioritaria di molti settori del mondo della

ricerca e del lavoro. Ad esempio, al responsabile della produzione di un caseificio capita spesso di

esaminare i referti delle analisi chimiche condotte sul latte proveniente da diversi allevamenti: da

questi dati egli può trarre delle informazioni utili per valutare eventuali differenze tra i contenuti in

grasso e proteine nelle varie zone di produzione oppure per mettere in relazione la composizione

chimica del latte con la resa alla caseificazione nei vari tipi di formaggi che il caseificio produce.

Una tale interpretazione dei dati originari viene realizzata attraverso i metodi della statistica che

consentono di riassumere i dati, di analizzarli e di rappresentare i risultati dell’analisi in maniera

sintetica ma altamente informativa.

La statistica viene solitamente suddivisa in Statistica descrittiva e Statistica Inferenziale.

La statistica descrittiva comprende i metodi atti a fornire una descrizione più efficace dei dati, in

maniera da renderli più immediatamente leggibili e più facilmente interpretabili: a tale scopo si

avvale di misure riassuntive, di rappresentazioni tabulari e grafiche.

La statistica inferenziale parte dai risultati osservati su un limitato numero di unità sperimentali allo

scopo di trarne delle considerazione di carattere generale. Di solito quando si conduce un

esperimento o anche una indagine, i dati che si registrano hanno una numerosità limitata. Ad

esempio, un’industria mangimistica che vuole produrre un nuovo mangime per ovini da latte, può

fare riferimento ad un gregge di 500 pecore, che viene suddiviso in due gruppi di 250 pecore

ciascuno: uno alimentato con il nuovo mangime l’altro con il mangime tradizionale dell’azienda. Su

tutti i 500 animali viene misurata la produzione di latte (variabile di risposta) per verificare se gli

animali alimentati con il nuovo mangime producono di più rispetto a quelli alimentati con il

prodotto tradizionale. Ciascun animale costituisce una unità sperimentale e l’insieme dei 500

animali costituisce il campione. E’ ovvio che la ditta che ha organizzato l’esperimento non è

interessata a produrre un mangime che determini una maggiore produzione solamente in quelle 250

pecore coinvolte nell’esperimento (campione). Il suo scopo è invece quello di mettere a punto un

prodotto valido per l’alimentazione degli ovini da latte in generale (popolazione). A tal fine i

risultati ottenuti sul campione debbono servire per trarre delle conclusioni che siano generalizzabili,

cioè estendibili alla popolazione.

3

VARIABILI

Per variabile si intende una qualsiasi grandezza, relativa ad un particolare fenomeno che si esprime

attraverso un valore numerico e che può assumere valori diversi: il peso di un animale, il contenuto

in proteina del latte prodotto da una bovina, il contenuto glucosio dell’uva, la positività ad un test

per la ricerca di contaminanti in un prodotto alimentare etc. Una variabile è detta casuale quando i

valori che essa può assumere dipendono unicamente dal caso. Un esempio classico di variabile

casuale è il punteggio che si totalizza quando si lancia una coppia di dadi (non truccati!). La

variabile invece è detta deterministica quando il fenomeno da essa rappresentato segue delle leggi

che consentono di prevederne con esattezza i valori. Nella realtà tanto la completa casualità quanto

il completo determinismo sono delle idealizzazioni e tutte le variabili di interesse scientifico e

tecnologico sono un misto di casualità e determinazione. Un esempio di tale mescolanza di caso e

determinazione è riportato nella tabella 1.

Tabella 1. Fattori che influenzano una variabile biologica

Peso di un bovino Età

Sesso Parte

Razza Deterministica

Tipo di alimentazione

Altri fattori che non conosciamo parte casuale

Il peso di un bovino è una tipica variabile biologica e presenta un ampio campo di variazione: si va

da vitelli alla nascita che pesano 30 kg sino a tori adulti di razze da carne che possono

tranquillamente pesare kg 1200. Alcune delle cause che determinano questa variabilità sono note:

animali adulti sono di solito più pesanti di quelli giovani, i maschi pesano più delle femmine, i

bovini di razze specializzate per la produzione della carne sono più pesanti di quelli appartenenti a

razze da latte, un bovino ben alimentato pesa di più di un altro alimentato in maniera inadeguata etc.

Questo elenco di fattori costituisce la parte deterministica della variabilità del fenomeno. Il peso

però è anch’esso una variabile in parte deterministica ma in parte casuale: se infatti si prendono

della due bovini della stessa razza, sesso, età, tipo di alimentazione, difficilmente avranno

esattamente lo stesso peso. Questo perché esiste però un’altra serie di fattori che influenzano il peso

del bovino ma che noi non conosciamo. Essi costituiscono la parte casuale della variabilità del

fenomeno.

4

Scopo fondamentale della statistica è quello di aumentare la parte deterministica, o spiegata, di un

fenomeno, riducendo nel contempo la quota della variabilità casuale (non spiegata o residua).

Ritornando all’esempio precedente sul peso del bovino, il risultato della statistica può essere

riassunto nei due seguenti punti:

1) Aumento della capacità esplicativa relativamente al fenomeno in esame

Aumentano le conoscenze sui fattori che fanno variare il peso nei bovini;

2) Aumento del potere previsionale.

Possibilità di prevedere il peso che un bovino può avere quando non lo si può

misurare direttamente ma si conoscono i fattori che lo condizionano

In base alla modalità di espressione del fenomeno di cui sono espressione, le variabili si distinguono

in variabili continue e variabili discontinue.

Una variabile si dice continua o quantitativa quando può essere misurata in una scala graduata

(metri, centimetri etc.) e può assumere tutti i valori possibili tra gli estremi della scala. Ad esempio

il peso di una pecora di razza Sarda (figura 1)

35 40 45 50 55 60 65

↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑

37,5 52,4

Se si considera un intervallo di peso che va da 35 a 65 kg, è possibile trovare animali che hanno uno

qualunque degli innumerevoli valori di peso compresi fra questi estremi. Rifacendoci a quanto

riportato in figura 1, accanto alla pecora che pesa 37,5 kg è possibile trovarne una che pesa 37,6, e

tra queste due si può trovarne un’altra che pesa 37,55 etc. Quindi una caratteristica importante di

questo tipo di variabili è proprio la variazione continua, cioè per quantità infinitesime e non solo

per bruschi salti. Molte delle variabili di interesse del settore agro-alimentare sono di tipo continuo:

la produzione giornaliera di latte, il contenuto in grasso del latte, il grado zuccherino di un mosto

etc.

Una variabile discreta o qualitativa invece è quella che assume valori discontinui, che consentono

solamente la classificazione della unità sperimentali in categorie. Ciò che solitamente si fa con

questo tipo di variabili infatti è il conteggio delle unità sperimentali che presentano un determinato

valore del carattere, cioè la determinazione delle frequenze. Un esempio è il caso della positività o

5

meno di un animale ad un test che diagnostica una determinata malattia: il risultato può essere

positivo o negativo, non esistono altre possibilità. Pertanto, se il test viene eseguito su 100 animali

si potranno contare il n. di animali positivi (ad es. 10) e di quelli negativi (90).

Ai fini dell’elaborazione statistica, la differenza tra tipi di variabili ha profonde conseguenze e le

metodologie adottate per sono talvo lta molto differenti fra loro.

6

TECNICHE DI STATISTICA DESCRITTIVA

Misure di centro di un insieme di dati

Come detto in precedenza, la statistica descrittiva comprende tutte le tecniche che consentono di

descrivere in maniera più strutturata, sintetica ed efficace i dati originari. Un esempio classico di

rappresentazione dei dati è quello tabulare. Nella tabella seguente sono riportate le produzioni totali

per lattazione (espresse in quintali) di 40 bovine suddivise in due mandrie di 20 bovine ciascuna. .

Tabella 2. Produzione di latte (quintali/lattazione) di due mandrie di bovine (da Grasselli)

Vacca MANDRIA A Vacca MANDRIA B

1 60,1 21 77,3

2 52,6 22 67,8

3 64,6 23 79,1

4 68,8 24 64,4

5 67,7 25 78,5

6 59,5 26 53,0

7 74,9 27 83,6

8 64,2 28 69,2

9 60,2 29 54,1

10 54,3 30 82,4

11 61,3 31 54,7

12 47,4 32 76,2

13 78,4 33 73,0

14 67,3 34 45,6

15 84,4 35 54,6

16 74,9 36 49,8

17 63,6 37 48,7

18 58,1 38 77,9

19 59,4 39 46,5

20 69,5 40 54,9

La rappresentazione tabulare, cioè la semplice registrazione ordinata dei dati, è difficilmente

leggibile però nel caso di insiemi di dati di numerosità elevata: già nel caso sopra riportato di 40

dati la tabella si presenta molto fitta e di non agevole leggibilità.

7

Un primo passo verso una rappresentazione più sintetica dell’insieme di dati riportato nella tabella 1

è quello del calcolo di una misura di tendenza centrale, cioè del centro di gravità della distribuzione

dei dati. Tra le misure di centro possono essere ricordate la mediana, la moda e la media aritmetica.

La moda di un insieme di dati è quel valore che si presenta con la maggiore frequenza. Nel caso

delle due mandrie riportate nella tabella 1, si può notare come nella mandria A il valore 74,9 sia

presente due volte mentre gli altri valori sono presenti tutti una sola volta; pertanto la moda della

mandria A è pari a 74,9. Nel caso della mandria B invece, i 20 valori sono tutti uno diverso

dall’altro, hanno perciò la stessa frequenza e pertanto non esiste una moda. Un insieme di dati

potrebbe avere più mode (ad esempio, nella prima mandria poteva esserci un altro numero che,

come 74,9, si ripeteva due volte): si possono avere pertanto distribuzioni bimodali, trimodali etc. In

campo scientifico la moda non è una misura di centro molto utile. Il concetto di moda, al contrario,

è usato diffusamente nel linguaggio comune in senso qualitativo: un modello di auto “di moda” è un

modello molto venduto e quindi risulta molto frequente vederlo sulle strade. La moda è una misura

che può essere utilizzata sia per variabili quantitative che qualitative, ed influenzata da valori

cosiddetti outliers, cioè che i discostano notevolmente dagli altri (ad esempio se nella mandria A ci

fosse una bovina che producesse 110 quintali).

La mediana di un insieme di dati ordinato in maniera crescente è quel dato che si trova esattamente

nel mezzo dell’insieme. Nel caso il numero dei dati sia dispari, la mediana è esattamente in valore

centrale, mentre nel caso sia pari, la mediana è data dalla media dei due valori centrali. Tornando

all’esempio delle vacche, se si ordinano i dati in maniera crescente (tabella 3) si nota come la

mediana della prima mandria sarà 63,9 (cioè il valore medio tra l ‘11° ed il 10° valore,

(63,6+64,2)/2) mentre quella della seconda 66,1 ((64,4+67,8)/2). La mediana è abbastanza usata

come misura del punto centrale di grandi insiemi di dati, può essere applicata solamente alle

variabili quantitative.

8

Tabella 3. Produzione di latte (quintali/lattazione) di due mandrie di

bovine (da Grasselli), con dato ordinati in maniera crescente.

Vacca MANDRIA A Vacca MANDRIA B

12 47,4 34 45,6

2 52,6 39 46,5

10 54,3 37 48,7

18 58,1 36 49,8

19 59,4 26 53,0

6 59,5 29 54,1

1 60,1 35 54,6

9 60,2 31 54,7

11 61,3 40 54,9

17 63,6 24 64,4

8 64,2 22 67,8

3 64,6 28 69,2

14 67,3 33 73,0

5 67,7 32 76,2

4 68,8 21 77,3

20 69,5 38 77,9

7 74,9 25 78,5

16 74,9 23 79,1

13 78,4 30 82,4

15 84,4 27 83,6

La media aritmetica o semplicemente media di un insieme di dati è data dalla somma dei valori dei

dati (xi) divisa per la loro numerosità (n).

∑=nx

Xi

Solitamente la media di un campione viene indicata con le lettere barrate in alto. Continuando con

l’esempio delle bovine, la media della mandria A sarà 64,56 mentre quella della mandria B sarà

64,56. La media aritmetica è probabilmente la statistica descrittiva di uso più comune. Essa ha un

9

grande potere esplicativo sulla struttura dei dati. La media aritmetica può essere utilizzata solo per

le variabili quantitative ed è sensibile, soprattutto per insiemi di dati di numerosità ridotta, alla

presenza di outliers.

Riassumendo la situazione delle due mandrie rispetto alle misure di centro è:

Tabella 4. Misure di centro dei dati riportati nelle tabelle 1 e 2.

Mandria A Mandria B

Mediana 63,9 66,1

Moda 74,9 -

Media 64,56 64,56

Il fatto che le due mandrie presentino la stessa media porterebbe a trarre la conclusione che i due

insiemi di dati sono molto simili fra di loro. In realtà, se si osservano con attenzione i dati della

tabella 2, si può notare come nella mandria A i valori delle produzione delle 20 vacche siano

abbastanza simili fra di loro e vicini al valore medio, mentre nella mandria B siano piuttosto

differenti fra loro e anche distanti dalla media. Le due mandrie presentano pertanto una uguale

misura di centro (la media aritmetica) ma hanno una diversa dispersione dei dati intorno al centro.

Ciò significa che la media sintetizza solo una parte dell’informazione relativa alla struttura dei dati.

La diversa struttura dei due ins iemi dei dati considerati nell’esempio può essere evidenziata

utilizzando una rappresentazione grafica, l’istogramma di frequenza.

Un istogramma di frequenza è solitamente un grafico a barre verticali che presenta sull’asse delle

ordinate delle frequenze (relative oppure assolute) e sull’asse delle ascisse gli intervalli di ampiezza

delle classi in cui viene suddiviso il campo di variabilità della variabile oggetto di studio.

L’istogramma si costruisce attraverso questi passi:

• Ordinamento dell’insieme di dati in maniera crescente;

• Suddivisione dell’intervallo compreso tra il valore più alto e quello più basso (cioè il campo

di variabilità) in una serie di classi (a seconda dei casi non meno di 5 e non più di 20);

• Conta delle frequenze entro ciascuna classe;

• Rappresentazione delle frequenze su un grafico a barre.

10

Continuando l’esempio delle due mandrie, riprendiamo i dati riportati nella tabella 2 e poniamo di

suddividerli in otto classi a partire da quella che comprende valori di produzione inferiori ai 50

quintali sino alla classe con produzione superiore agli 80 quintali. La tabella 5 riporta le frequenze

assolute (cioè il numero di vacche presenti in ogni classe) per ciascuna delle due mandrie.

Tabella 5. Frequenze assolute per classi di produzione nelle due mandrie

Classe Frequenze

Mandria A Mandria B

Meno di 50 1 4

Tra 50 e 55 2 5

Tra 55 e 60 3 0

Tra 60 e 65 6 1

Tra 65 e 70 4 2

Tra 70 e 75 2 1

Tra 75 e 80 1 5

Più di 80 1 1

L’osservazione della tabella evidenzia come la distribuzione delle bovine nelle diverse classi di

produzione sia nettamente diversa nelle due mandrie. Tale conclusione è confermata in maniera

immediata dagli istogrammi delle frequenze assolute delle due mandrie riportati nelle figure 1a e

1b.

01234567

<50 50-55

55-60

60-65

65-70

70-75

75-80

>80

0

1

2

3

4

5

6

<50 50-55

55-60

60-65

65-70

70-75

75-80

>80

Figura 1a. Istogramma di frequenza dei dati della

mandria A.

Figura 1b. Istogramma di frequenza dei dati

della mandria B.

11

Nella mandria A infatti l maggior parte della bovine si trova nella classe che contiene la media

(quella centrale, che va da 60 a 65 quintali) o in quelle vicine. Nella mandria B invece la classe

centrale comprende 1 sola bovina e addirittura quella tra 55 e 60 nessuna. La due mandrie quindi,

pur avendo medie uguali, presentano una distribuzione dei valori intorno alla media, o dispersione

dei dati intorno alla media, decisamente differente. Questo tipo di informazione sulla struttura dei

dati non ci viene data dalle misure di centro ma bisogna ricorrere a misure di variabilità o

dispersione.

Misure di dispersione

La misura di dispersione più immediata è il campo di variabilità o range, dato dalla differenza fra il

valore più alto e quello più basso dell’insieme di dati. Nel caso della mandria A il campo di

variabilità è 37 (84,4 - 47,4) nella mandria B è 38 (83,6 – 45,6). Si può notare da questo esempio

come il campo di variabilità sia una misura di scarsa rilevanza pratica: nelle due mandrie esso è

infatti pressoché simile e pertanto non permette di cogliere le differenze strutturali dei due insiemi

di dati.

Una altra misura di variabilità è rappresentata dal percentile. Il p-esimo percentile di un insieme di

dati ordinato in maniera crescente è quel valore che ha il p% di dati al di sotto. Ad esempio, il 25°

percentile della mandria A è il valore che lascia al di sotto di sé il 25% dei dati (in questo caso 5

dati) ordinati in maniera crescente: in particolare il suo valore è pari 59,475. Come si nota il valore

del percentile non è un valore che compare nell’insieme dei dati ma viene calcolato con delle

apposite formule. Il 50° percentile di un insieme di dati è la mediana. Il percentile è una misura

molto utilizzata in campo medico. I percentili di interesse sono solitamente il 25°, il 50° ed il 75° e

sono denominati quartile inferiore, quartile mediano e quartile superiore rispettivamente. Il range

interquartile (IQR) di un insieme di dati è la differenza fra il percentile superiore (75°) e quello

inferiore (25°). Nel caso della mandria A, il range interquartile sarà 68,25 (75°) – 59.475(25°)=

8,775. L’IQR viene utilizzato per paragonare la variabilità di due insiemi di dati. Nel caso delle due

mandrie, quello della mandria A è 8,775 mentre quello della mandria B è 22,925. Quindi questa

misura di variabilità inizia ad evidenziare la differenza nella dispersione di dati che esiste fra le due

mandrie.

Dalla combinazione delle mediana con il range interquartile si ottiene una rappresentazione grafica

dei dati molto efficace nota come Box-Whiskers Plot. In questa rappresentazione (Figure 2a e 2b)

viene infatti indicata sia una misura di centro che una di variabilità. Il rettangolo (o quadrato nel

caso della figura 2b) rappresenta il range interquartile mentre la linea orizzontale interna è la

12

mediana delle due mandrie. La maggiore dimensione del rettango lo nella figura 2b evidenzia la

maggiore dispersione dei dati attorno alla mediana.

Figura 2a. Rappresentazione Whiskers Plot dei dati

della mandria A

Figura 2b. Rappresentazione Whiskers Plot dei

dati della mandria B

Tuttavia, la misura più utilizzata per la descrizione della variabilità di un insieme di dati è

certamente la varianza. Intuitivamente, una maniera immediata per verificare quale sia la

dispersione di ogni singolo dato (xi) rispetto alla media ( x ) è quella del calcolo dello scarto del dato

da quest’ultima. Cioè ritornando al caso della mandria si dovrebbe fare (60,1-64.56), quindi (52,6-

64,56) e così via. Sfortunatamente però se si sommano tutti gli scarti dalla media, per la definizione

stessa della media, alla fine si otterrà zero. Questo ostacolo viene superato elevando ciascuno scarto

al quadrato. Alla fine si giunge al calcolo della varianza, o scarto quadratico medio, che è dato dalla

somma degli scarti al quadrato di ciascun dato (xi) dalla media (x ), diviso per il numero di dati (n)

meno uno.

( )∑ −−

=1

22

nxx

Si

[1]

Nello schema seguente è riportato per esteso il calcolo della varianza per la mandria A.

13

Mandria A Media Scarti Scarti al quadrato

60,1 64,56 -4,46 19,8916

52,6 64,56 -11,96 143,0416

64,6 64,56 0,04 0,0016

68,8 64,56 4,24 17,9776

67,7 64,56 3,14 9,8596

59,5 64,56 -5,06 25,6036

74,9 64,56 10,34 106,9156

64,2 64,56 -0,36 0,1296

60,2 64,56 -4,36 19,0096

54,3 64,56 -10,26 105,2676

61,3 64,56 -3,26 10,6276

47,4 64,56 -17,16 294,4656

78,4 64,56 13,84 191,5456

67,3 64,56 2,74 7,5076

84,4 64,56 19,84 393,6256

74,9 64,56 10,34 106,9156

63,6 64,56 -0,96 0,9216

58,1 64,56 -6,46 41,7316

59,4 64,56 -5,16 26,6256

69,5 64,56 4,94 24,4036

Somma degli scarti al quadrato =1546,068

Varianza = 1546,068/19 =81,372

Analogamente si può calcolare la varianza della mandria B, che è pari a 176,494. Si può notare

quindi come la varianza della seconda mandria è pari a più del doppio di quella della prima. Quindi

questa nuova misura di variabilità è in grado di cogliere la differente dispersione dei dati attorno

alla media nelle due mandrie (cosa che ad esempio non riusciva a fare il range) e indica come tale

dispersione sia maggiore nella mandria B rispetto alla A. Infatti, maggiore è la varianza di un

insieme di dati, maggiore è la sua dispersione attorno ad un valore centrale.

Un inconveniente della varianza è dato dal fatto che essa è una misura quadratica per cui, ad

esempio, nel caso del latte essa deve essere espressa in quintali al quadrato. Per ricondurla alla

stessa unità di misura dei dati si estrae la radice quadrata e si ottiene la deviazione standard.

14

( )∑ −−

=1

2

nxx

Si

[2]

I valori della deviazione standard nelle due mandrie sono rispettivamente 9,02 e 13.28 e sono

espressi in quintali, cioè nella stessa unità di misura dei dati originari, in cui risulta espressa anche

la media. A questo punto abbiamo gli elementi di statistica descrittiva che ci possono permettere di

caratterizzare i due insiemi dei dati. Una indicazione corretta dei risultati è questa:

MANDRIA A MANDRIA B

64,56 ± 9,02 64,56 ± 13,28

questa dicitura sta ad indicare come le due mandrie abbiano la stessa media ma diversa variabilità,

espressa dalla deviazione standard, che per consuetudine viene rappresentata subito dopo la media

preceduta dal segno ±.

Se si ritorna alle figure 2a e 2b, si nota come la media rappresenta effettivamente il centro

dell’insieme dei dati soprattutto nei casi in cui questi hanno una struttura simile a quella della

madria A. Esistono però delle variabili che hanno una struttura notevolmente diversa e per le quali

la media aritmetica non ha molto significato. Un caso tipico è rappresentato dal contenuto in cellule

somatiche del latte (CCS), parametro essenziale per la valutazione della qualità del latte e dello

stato sanitario dell’animale, che presenta solitamente una distribuzione fortemente asimmetrica. In

figura 3 è riportata la distribuzione del cellule somatiche del latte di 88 pecore di razza Sarda,

raggruppati in classi di ampiezza di 400000. Si può notare come la distribuzione sia fortemente

asimmetrica, con la grande maggioranza dei dati concentrati nelle classi di minor valore, ma

assieme alla presenza di dati anche nelle classi di valore elevato.

15

0

5

10

15

20

25

30

35

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

classi di CCS (da 0 a 8.800.000)

n. i

nd

ivid

ui

media=1.752.000

Figura 3. Distribuzione dei dati del CCS di pecore Sarde, raggruppati in classi di ampiezza di

400000

Questa particolare distribuzione fa sì che la rappresentatività della media come valore centrale

dell’insieme di dati venga meno: la media aritmetica infatti è pari a 1,752,000 cellule per millilitro

di latte ed è rappresentata con la linea verticale sottile nel grafico ma è distante dalla zona dove

sono localizzati la maggioranza dei dati. Questo perché i dati delle classi elevate, pur non essendo

molti, hanno il potere di trascinare la media verso un valore superiore, distante dal reale centro

dell’insieme dei dati. In questi casi possono essere adottate due soluzioni: la trasformazione dei dati

o l’utilizzo di misure di centro diverse dalla media aritmetica.

La trasformazione dei dati consiste nel trasformare mediante operazioni semplici la variabile

originaria in modo da modificarne la distribuzione e renderla più simile a quella della figura 2a. Nel

caso dei dati raffigurati in figura 3, la trasformazione della variabile (numero di cellule per millilitro

di latte) nel suo logaritmo in base 10, comporta la modificazione della distribuzione, rappresentata

in figura 4. Si nota come la struttura dei dati, pur rimanendo ancora irregolare sia nettamente

diversa da quella della variabile non trasformata e come in questo caso la media (2,87) sia

effettivamente un indice abbastanza fedele del centro dell’insieme di dati.

16

02468

1012141618

1,75< 1,75-2 2-2,25 2,25-2,5 2,5-2,75 2,75-3 3-3,25 3,25-3,5 3,5-3,75 3,75-4

LOG CCS

n. i

nd

ivid

ui

media=2,87

Figura 4. Distribuzione del logaritmo in base 10 dei dati riportati in figura 3.

Per quanto riguarda invece l’adozione di misure di centro diverse dalla media aritmetica, una

misura utilizzata spesso proprio nel caso delle cellule somatiche è la media geometrica. La media

geometrica di un insieme di n dati è data dalla radice n-esima del prodotto degli n dati

Media geometrica = nnxxx ⋅⋅⋅ .......21 [3]

ad esempio, la media geometrica dei numeri

8

15

22

24

sarà 4 2422158 ××× = 15,8655

Un’altra misura alternativa alla media aritmetica è quella della media tronca, che si ottiene

calcolando la media aritmetica dell’insieme dei dati oggetto di studio escludendo però i valori

estremi (outliers).

17

PROBABILITA’ E DISTRIBUZIONI DI PROBABILITA’

Definizione della probabilità.

Il concetto di probabilità è alla base di tutta la statistica, tanto è vero che esso è gia stato utilizzato

nel capitolo precedente, sia pure in modo implicito. In termini espliciti, la probabilità del verificarsi

di un evento A, è definita come il rapporto tra il numero di uscite favorevoli all’evento A (nA) ed il

numero totale di uscite possibili (N).

Nn

ApA=)( [4]

Un esempio classico è quello del lancio di una moneta: quale è la probabilità che lanciando una

moneta venga testa? L’uscita favorevole è pari ad uno (una moneta ha solo una testa, anzi gli euro

nemmeno quella!) mentre il numero di uscite possibili è pari a due (testa o croce), quindi p(testa) =

1/2 = 0,5.

Questa definizione classica, o matematica, della probabilità ha però scarsa rilevanza nelle scienze

empiriche. Nella pratica scientifica, infatti, si utilizza la definizione frequentista di probabilità: un

esperimento viene compiuto N volte (per ricollegarci all’esempio precedente, una moneta viene

lanciata in aria N = 100 volte) ed n volte (n = 45) si registra un determinato risultato (croce). In

questo caso, il rapporto:

45.010045

)( ===lanci

croci

Nn

crocef [5]

rappresenta la frequenza relativa dell’evento “croce” osservata nel nostro esperimento. Si può

notare come il valore appena calcolato sia simile a quello teorico previsto dalla prima definizione.

Infatti la probabilità intesa in senso frequentistico costituisce una approssimazione della probabilità

teorica

f(croce) ˜ p(croce)

Tale approssimazione è tanto migliore quanto maggiore è il numero di volte in cui si compie

l’esperimento. Il rapporto fra i due concetti di probabilità verrà chiarito con l’esempio seguente (da

L. Ott…, 1993).

18

Si ipotizzi di lanciare in aria contemporaneamente due monete, una con la mano destra e l’altra con

la mano sinistra. Le uscite possibili sono 4:

CC 2 croci

CT croce con la dx e testa con la sx

TC testa con la dx e croce con la sx

TT 2 teste

La domanda che ci poniamo è la seguente: quale è la probabilità di ottenere il risultato di una testa

dal lancio delle due monete? Se utilizziamo la definizione classica della probabilità, poiché il

numero di eventi favorevo li (cioè in cui si ha esattamente una sola testa) è 2 (testa a dx e croce a sx

oppure croce a dx e testa a sx), la probabilità sarà:

p(1 testa) 5,021

42

==

Passiamo ora al concetto frequentistico. Ipotizziamo di compiere 2000 lanci delle due monete

contemporaneamente e di registrare i risultati.

Tabella 6. Frequenze assolute e relative dei risultati di 2000 lanci di due monete.

Uscita Frequenza Frequenza relativa

CC 474 474/2000 = 0,237

CT 502 502/2000 = 0,251

TC 496 496/2000 = 0,248

TT 528 528/2000 = 0,264

Se calcoliamo la probabilità in senso frequentistico di avere un sola testa applicando la formula [5]

otteniamo:

p(1 testa) 499,02000

496502=

+

Questo risultato è molto vicino a quello teorico di 0,5.

19

Come si è detto in precedenza, il valore teorico della probabilità e quello frequentistico tendono a

coincidere quando il numero di volte in cui viene ripetuto l’esperimento (nel nostro esempio il

numero di lanci) è molto grande. In termini formali si può dire che la p(teorica) è uguale al limite

della p(frequentistica) per n che tende all’infinito.

Una conseguenza importante della definizione di probabilità è che essa può assumere valori

compresi fra 0 e 1. Se un evento non si verifica mai nel corso della sequenza degli esperimenti la

sua probabilità è zero, mentre se si verifica sempre la sua probabilità sarà pari ad 1.

Cenni di calcolo delle probabilità

Le due operazioni di base che si fanno con le probabilità sono la somma e la moltiplicazione.

Due eventi sono detti mutuamente esclusivi quando il realizzarsi di uno esclude che, nello stesso

esperimento, possa verificarsi anche l’altro. Consideriamo, ad esempio, il risultato del lancio di un

dado ed in particolare due risultati:

A = 3

B = 2

è chiaro che se in un singolo lancio si ottiene 3 non si può ottenere 2 e viceversa. Se il dado è

perfetto la probabilità che si verifichi 3 è pari a 1/6 e quella che si verifichi 2 è anch’essa pari a 1/6.

Allora se vogliamo calcolare la probabilità che in un lancio esca o 3 o 2, questa è data dalla somma

delle due probabilità:

p(3 o 2 con un lancio)=p(3)+p(2)=1/6+1/6=2/6=1/3

cioè nel lanciare un dado si ha una probabilità di circa il 33% che esca 3 oppure 2.

In termini generali

p(A o B) = p(A) + p(B) [6]

Questa regola vale solamente se i due eventi sono mutuamente esclusivi.

Ipotizziamo di prendere l’elenco degli studenti che frequentano il corso di statistica: la percentuale

degli studenti maschi è pari al 60% mentre quella degli studenti che provengono dalla provincia di

Oristano è del 70%. I due eventi non sono mutuamente esclusivi in quanto uno studente maschio

può anche essere della provincia di Oristano e viceversa. Se ci volessimo calcolare quale è la

20

probabilità che uno studente preso a caso dall’elenco sia o maschio o della provincia di Oristano,

facendo la somma otterremmo

p(studente maschio o della Provincia di Oristano) = 0,6+0,7=1,3

che è un risultato errato in quanto si è detto in precedenza che la probabilità non può assumere

valori superiori ad 1.

L’errore deriva dal fatto che gli studenti maschi della provincia di Oristano vengono considerati sia

nella probabilità di essere maschi che nella probabilità di essere di essere della provincia di

Oristano. Pertanto la formula completa della somma è la seguente:

p(studente maschio o della Provincia di Oristano) = p(studente maschio) + p(studente provincia di

Oristano) – p(studente maschio e della provincia di Oristano)

quindi se si ipotizza che gli studenti maschi della provincia di Oristano rappresentino il 40% del

totale degli studenti del corso di Statistica, applicando la formula precedente si avrà:

p(studente maschio o della Provincia di Oristano) = 0,6 + 0,7 – 0,4 = 0,9

In termini più generali:

p(A o B o entrambi) = p(A) + p(B) – p(A e B) [7]

E ovvio che quando due eventi sono mutuamente esclusivi (come l’esempio del lancio del dado

fatto in precedenza), il termine p(A e B) diventa uguale a zero (nel lancio di un singolo dado non si

possono ottenere due e tre contemporaneamente) e la formula [7] ritorna alla forma [6].

Gli esempi sopra riportati riguardano tutti l’unione di due eventi A e B, cioè l’insieme di tutte le

uscite che includono A o B (o entrambi). In termini matematici l’unione di due eventi A e B è

indicata con A ∪ B.

Passiamo ora alla moltiplicazione tra probabilità. Ipotizziamo di lanciare due monete

contemporaneamente, una con la mano destra e l’altra con la mano sinistra. Che probabilità

abbiamo di ottenere due croci? La regola della moltiplicazione delle probabilità dice:

21

p(croce mano dx e croce mano sx) = p(croce mano dx) x p(croce mano sx) = 1/2 x 1/2 = 1/4 = 0,25

Nel nostro esempio il fatto che sia uscita croce nella mano destra non influenza minimamente la

probabilità che esca croce sulla mano sinistra, cioè i due eventi sono tra loro indipendenti. Pertanto,

quando due eventi sono tra loro indipendenti:

p(A e B) = p(A) x p(B) [8]

Esistono però dei casi in cui gli eventi non sono fra loro indipendenti., cioè che la p(B) una volta

che si è verificato l’evento A, sia diversa dalla p(B) in assenza di A.

Ad esempio consideriamo i risultati di uno studio sulle relazioni fra colore degli occhi e colore dei

capelli riassunto nella tabella seguente:

Tabella 7. Frequenze relative di colore di capelli e colore degli occhi in un

dato campione di individui (Pilla, 1985)

Colore capelli

Colore occhi Neri Biondi

Marroni 0,64 0,16

Azzurri 0,04 0,16

La percentuale di individui con i capelli neri è del 68% mentre quella che ha gli occhi azzurri è del

20%. La domanda che ci poniamo è: se prendiamo un individuo con i capelli neri, che probabilità

abbiamo di trovarlo con gli occhi azzurri? Se i due eventi fossero tra loro indipendenti basterebbe

fare

p(occhi azzurri e capelli neri) = p(occhi azzurri) x p(capelli neri)

In realtà i due eventi non sono indipendenti. I dati riportati nella tabella 7 mostrano chiaramente

l’esistenza di un legame tra colore dei capelli e quello degli occhi, con gli individui con capelli neri

che tendono ad avere in massima parte occhi marroni. In questo caso bisogna applicare la formula

più generale che dice

p(A e B) = p(B) x p(A¦ ?B) [9]

22

dove p(A¦ ?B) è la probabilità che si verifichi A dato che si è verificato B, cioè è la probabilità

condizionata dell’evento A in relazione all’evento B. Nel caso del nostro esempio la frequenza

degli individui con gli occhi azzurri entro quelli che hanno i capelli neri è:

p(occhi azzurri ?¦ capelli neri) = p(capelli neri e occhi azzurri)/ capelli neri = 0,04/0,68 = 0,06

una volta trovata la probabilità condizionale, si passa alla risoluzione del quesito:

p(occhi azzurri e capelli neri) = p(capelli neri) x p(occhi azzurri ?¦ capelli neri) = 0,68 x 0,06 = 0,04

Se i due eventi fossero invece tra loro indipendenti (come il caso del lancio delle due monete)

p(A¦ ?B) = p(A) per cui la formula [9] ritorna alla forma [8]. L’insieme di uscite che contengono sia

A che in B costituiscono l’intersezione dei due eventi e si indicano con A∩B.

Il seguente esempio mostra come l’applicazione delle diverse formule per il calcolo delle

probabilità al medesimo caso porti allo stesso risultato.

Poniamo di dover calcolare la probabilità di estrarre un fante di cuori da un mazzo di 52 carte. Le

probabilità semplici dei due eventi sono:

p(fante) = 4/52 = 0,076923

p(cuori) = 13/52 = 0,25

I due eventi sono tra loro indipendenti, perché il fatto che io prenda dal mazzo una carta di cuori

non modifica la probabilità di estrarre un fante e viceversa. Un primo modo intuitivo di rispondere

al quesito che ci siamo posti, basato sul fatto che esiste un solo fante di cuori su 52 carte, è fare il

rapporto

p(fante e cuori) = 1/52 = 0,019231

Trattandosi di due eventi indipendenti, però, si può fare anche il prodotto delle probabilità semplici

23

p(fante e cuori) = p(fante) x p(cuori) = 0,076923 x 0.25 = 0,019231

Ma si può anche applicare la formula generale dell’intersezione fra due eventi [9]

p(fante e cuori) = p(cuori) x p(fante ?¦ cuori)

ma p(fante ?¦ cuori) = p(fante) per cui la precedente diventa

p(fante e cuori) = p(cuori) x p(fante¦ ?cuori) = p(cuori) x p(fante) = 0,076923 x 0.25 = 0,019231

Come si vede il risultato rimane sempre lo stesso.

Distribuzioni di probabilità.

Nel capitolo sulla statistica descrittiva si è visto come la rappresentazione grafica dei dati in forma

di istogramma (figure 1a e 1b) consenta di evidenziarne la diversa struttura nelle due mandrie.

Riprendiamo ora l’istogramma dei dati delle bovine della mandria A, questa volta espresso

intermini di frequenze relative:

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

<50 50-55 55-60 60-65 65-70 70-75 75-80 >80

Figura 5. Istogramma di frequenza relativa dei dati della mandria A.

24

Questo istogramma rappresenta la distribuzione delle probabilità (intese in senso frequentista) dei

diversi valori della variabile produzione di latte nella mandria A. Se prendo a caso una bovina dalla

mandria A, che probabilità ho di trovare un animale che produce tra 55 e 60 quintali? Dalla

osservazione della figura 5 si nota come la classe che comprende gli animali che producono fra 55

e 60 quintali abbia una frequenza del 15% (3 vacche su 20) per cui la risposta alla domanda è 0,15.

La distribuzione di probabilità di una variabile casuale è data dall’insieme delle probabilità che la

variabile ha di assumere tutti i valori possibili. Lo studio delle distribuzioni di probabilità

rappresenta uno dei settori più importanti (anche se forse meno attraenti!) della statistica in quanto

fornisce gli elementi indispensabili per l’applicazione delle tecniche della statistica inferenziale. Il

primo compito dello statistico è infatti scegliere, tra i vari modelli teorici di distribuzione di

probabilità, quello che meglio si adatta alla distribuzione della variabile oggetto di studio.

Ritornando all’esempio della mandria A, si può notare come la distribuzione della variabile

produzione di latte sia caratterizzata da elevate frequenze nelle classi centrali, cioè gran parte dei

valori si collocano nelle vicinanze della media, mentre le frequenze per valori molto elevati o molto

ridotti sono piuttosto basse. Numerose variabili di interesse tecnico-scientifico presentano una

distribuzione di questo tipo, a collinetta (Mound-Shaped in inglese). La distribuzione teorica di

probabilità che meglio si adatta a queste forme è la distribuzione Normale, nota anche come

distribuzione a campana o di Gauss.

La distribuzione Normale

La distribuzione Normale è forse la più conosciuta distribuzione di probabilità per le variabili di

tipo quantitativo. Come detto in precedenza, molte variabili di interesse scientifico come l’altezza

nella specie umana, la produzione di latte nei bovini, il contenuto di grasso del latte nelle pecore etc.

presentano una distribuzione che può essere ricondotta a quella normale.

Per ciascuna distribuzione di probabilità di variabili di tipo quantitativo esiste la funzione di densità

di probabilità che consente di calcolare le probabilità teoriche corrispondenti a ciascun valore della

variabile y (alcuni software come excel la definiscono probabilità di massa). La funzione di densità

di probabilità della distribuzione Normale è la seguente:

( )2

2

2

21

)( σ

µ

πσ

−−

=y

eyf [10]

25

e la sua rappresentazione grafica sotto forma di istogramma produce una curva smussata con forma

di campana (figura 6).

y

f(y)

Figura 6. Istogramma di frequenza della Distribuzione Normale.

Sull’asse delle ascisse sono riportati i valori della variabile oggetto di studio (y) mentre sull’asse

delle ordinate le frequenze relative (o densità relative) dei diversi valori di y. I parametri

fondamentali della distribuzione Normale sono la media (µ) e la deviazione standard (σ). In realtà,

come si vedrà in seguito, parlare di probabilità di un singolo valore per una variabile continua che

può assumere infiniti valori non ha molto senso, mentre ha maggiore rilevanza pratica parlare di

intervalli di valori.

La funzione di distribuzione cumulativa di probabilità, consente invece di calcolare la probabilità

cumulativa che la variabile continua y ha di assumere valori minori o uguali ad un determinato

valore k. L’andamento della funzione di probabilità cumulativa della distribuzione Normale è

riportato nella figura 7.

26

y

f(y)

Figura 7. Grafico della probabilità cumulativa della Distribuzione Normale.

Vediamo ora alcune interessanti proprietà della distribuzione Normale.

Essa è una distribuzione simmetrica rispetto alla media, in cui media, mediana e moda coincidono.

L’area totale racchiusa sotto la curva è pari ad 1. La cosiddetta regola empirica della distribuzione

normale dice che nell’area compresa tra la media e ± 1 volta la deviazione standard ricade il 68%

dell’area totale racchiusa dalla curva, mentre tra µ ± 2 σ è compreso circa il 95% dell’area totale ed

infine tra µ ± 3 σ è compreso circa il 99% dell’area.

Come detto in precedenza, i parametri fondamentali della distribuzione normale sono la media e la

deviazione standard: esisteranno pertanto infinite distribuzioni normali in base al valore che

assumeranno questi due parametri. Ad esempio, dall’osservazione della figura 8 si può notare come

all’aumentare del valore della deviazione standard la curva Normale tenda ad abbassarsi.

0.2 1.8 3.4 5 6.6

y

f(y)

Figura 8. Istogramma di frequenza di due distribuzioni di tipo Normale, con uguale media (4) e

diversa deviazione standard: 2 (- - - ) o 1(- ¦ - ).

27

Ai fini di una utilizzazione pratica però occorre avere una unica distribuzione teorica di riferimento.

Per questo fatto si ricorre alla distribuzione normale della variabile standardizzata z, che ha media 0

e deviazione standard 1. Qualunque variabile quantitativa y può essere ricondotta alla z attraverso

una standardizzazione, cioè sottraendo al valore della variabile la sua media e dividendo il tutto per

la deviazione standard:

σyyz −= [11]

I valori tabulati delle frequenze della distribuzione z sono riportati nella tabella A-1, in appendice a

queste dispense. Nella prima colonna sono riportati i valori di z sin al primo decimale, mentre nella

prima riga i valori del secondo decimale di z. I valori interni al bordo rappresentano invece l’area

della curva che si trova a destra del corrispondente valore di z.

Passiamo ora ad alcune applicazioni pratiche della distribuzione normale. Nell’esempio precedente,

in cui ci si chiedeva quale fosse la probabilità di trovare una bovina nella mandria A che producesse

tra 55 e 60 quintali, implicitamente si è introdotto il concetto di intervallo di valori. Per le variabili

continue non ha infatti grande interesse pratico conoscere la probabilità puntuale di un singolo

valore (ad es. che probabilità ho di trovare una vacca che produca esattamente 55,178 quintali?)

mentre ha maggior interesse pratico ragionare per intervalli: che probabilità ho di trovare un

animale che produca tra 60 e 65 quintali? Oppure che probabilità ho di trovare una bovina che

produca più di 50 quintali? Cioè nel calcolo della probabilità delle variabili continue con una

distribuzione riconducibile a quella Normale, i valori tabulati della distribuzione Normale della

variabile z sono utilizzati per il calcolo delle aree.

La statura degli esseri umani è una variabile di tipo quantitativo ed ha una distribuzione simile a

quella normale: ipotizziamo che statura media degli uomini italiani sia pari a 170 cm con una

deviazione standard di 15. Che probabilità ho di trovare degli italiani più alti di 190 cm?

Prima di tutto bisogna standardizzare il valore che mi interessa, cioè 190 cm, con la formula [11].

Quindi si osserva nelle tabella della distribuzione Normale standardizzata z (tabella A-1) e si vede

che in corrispondenza del valore di z =1,33, l’area lasciata a destra da tale valore è pari a 0,0918

(Figura 9). Quindi si può concludere che la probabilità di trovare italiani di altezza superiore ai 190

cm è pari a circa il 9,2%. Analogamente potrei chiedermi che probabilità ho di trovare italiani alti

più di 180 cm: il valore di z in questo caso è pari a circa 0,67. a cui corrisponde un valore di

probabilità pari a circa il 25,1%. Infine, se volessi sapere quale è la probabilità di trovare italiani di

altezza compresa i fra 180 e 190 cm dovrei fare la sottrazione 25,1-9,2=15,9%.

28

y

f(y)

z=1,33z=0,67

15,9%

9,2%

Figura 9. Esempio di calcolo di aree con la distribuzione Normale standardizzata.

Una distribuzione di probabilità per le variabili discrete: la distribuzione binomiale

Nella sezione introduttiva abbiamo visto come alcuni fenomeni non si esprimano attraverso delle

grandezze misurabili con una scala metrica (cioè delle variabili di tipo quantitativo) ma si

manifestino attraverso risposte di tipo qualitativo, come ad esempio una positività ad una malattia, il

genotipo ad un particolare locus etc. In questi casi gli esperimenti sono costituiti da una serie di

tentativi (ad esempio il numero di animali sui quali viene eseguito un test diagnostico) nel corso dei

quali viene realizzato un certo numero di successi (animali trovati positivi alla presenza della

malattia). A differenza di quanto detto per le variabili continue, nel caso delle variabili discrete la

conoscenza della probabilità che ha un dato valore della variabile di verificarsi riveste un certo

interesse. Per il calcolo di tale probabilità occorre però conoscere la probabilità media che ha

l’evento cercato di verificarsi in ogni singolo tentativo.

La distribuzione binomiale consente di calcolare le probabilità associate a i diversi valori che può

assumere una variabile discreta che abbia una manifestazione del tipo 0 e 1, cioè positivo o

negativo.

Esempio: la mastite è una infezione che colpisce l’apparato mammario degli animali in lattazione.

Poniamo che la prevalenza della forma subclinica della mastite negli ovini in Sardegna sia del 30%.

In queste condizioni, se nel corso di un’indagine sanitaria 15 pecore vengono sottoposte ad un test

capace di individuare la mastite, che probabilità ci sono di trovare 10 animali infetti?

Se facciamo questo calcolo usando la funzione DISTRIB.BINOM di excel, i valori che occorrono

sono:

29

n. di successi, cioè il valore della variabile per il quale vogliamo calcolarci la probabilità, nel nostro

caso 10

prove: sono 15 poiché esaminiamo 15 animali;

probabilità di successo per ciascuna prova: 0,3 poiché il valore medio della prevalenza della

mastite subclinica in Sardegna è pari al 30%, quindi per ogni pecora che prendiamo

abbiamo in media una probabilità del 30% di trovarla positiva al controllo per la

mastite

cumulativo: FALSO, perché vogliamo la probabilità puntuale di 10 successi e non quella

cumulativa.

Nel nostro esempio, il valore è pari a 0,00298; cioè se prendiamo 15 pecore a caso in un

allevamento ubicato in Sardegna, dove la mastite clinica ha una prevalenza del 30%, e su queste

conduciamo un test in grado di individuare gli animali affetti da mastite, abbiamo una probabilità di

circa lo 0,3% di trovarne esattamente 10 positivi. Nella figura 10 è riportato l’istogramma delle

probabilità di trovarne positivi da 1 a 5.

0

0.05

0.1

0.15

0.2

0.25

1 2 3 4 5

n. animali positivi

Prob

abili

Figura 10. Distribuzione Binomiale per una probabilità di successo pari a 0,3 ed un numero di prove

pari a 15.

Va ricordato infine che quando il numero di prove è superiore a 30, la distribuzione binomiale può

essere approssimata dalla distribuzione normale.

30

INFERENZA STATISTICA

Quando si esegue un esperimento, la quantità di dati di cui si dispone è solitamente limitata, in

ragione della complessità e dei costi di realizzazione dell’esperimento stesso. Le ricerche

sperimentali, però, hanno lo scopo di trovare risposte che abbiano una validità di carattere generale,

non limitata all’insieme delle unità sperimentali sulle quali si è effettivamente indagato. Queste

ultime rappresentano un campione che è stato estratto da una popolazione, la quale costituisce il

reale obiettivo conoscitivo dello sperimentatore (figura 11).

Figura 11. Relazioni tra popolazione e campione in statistica.

Un esempio chiarirà meglio questi concetti.

Ipotizziamo che una casa automobilistica intenda costruire una vettura da mettere in commercio in

Sardegna. Per dimensionare correttamente l’abitacolo, la ditta ha necessità di conoscere l’altezza

media dei sardi adulti. E’ chiaro che misurare l’altezza di tutti i sardi adulti (circa un milione)

sarebbe un’impresa ardua e costosissima, se non impossibile. La ditta pertanto decide di svolgere

un’indagine su un campione di 1500 Sardi, la cui altezza media risulta essere 172 cm. La macchina

però non deve essere costruita solamente per quelle 1500 persone, per le quali è stato possibile

misurare l’altezza, ma deve essere adatta per tutti i Sardi (o almeno per la maggior parte). La casa

automobilistica deve quindi partire dall’osservazione fatta sul campione (i 1500 individui misurati)

per arrivare ad un’idea abbastanza precisa dell’altezza media della popolazione. Questa operazione

Insieme di tutte le unità

sperimentali

POPOLAZIONE

Unità sperimentali selezionate della

popolazione

CAMPIONE

Inferenza statistica

Campionamento

31

configura un caso tipico di inferenza statistica: se nella fase dell’indagine sperimentale si estrae un

campione dalla popolazione (freccia con linea intera nella figura 11), nell’inferenza si compie il

percorso opposto (linea tratteggiata), cioè si parte dai risultati ottenuti sul campione per arrivare ad

una conoscenza induttiva valida per la popolazione.

A partire dai 1500 valori di altezza misurati sul campione si possono calcolare delle misure di

centro (media, mediana, etc.) e delle misure di variabilità (deviazione standard, varianza). Queste

sono dette statistiche e vengono convenzionalmente indicate con le lettere dell’alfabeto latino. I

valori delle stesse grandezze riferite alla popolazione si chiamano invece parametri e vengono

indicati convenzionalmente con le lettere dell’alfabeto greco. I parametri, ovviamente, non possono

essere calcolati (perché non disponiamo dei dati relativi a tutta la popolazione). I loro valori

debbono invece essere stimati. Sostanzialmente l’inferenza statistica parte dalle statistiche calcolate

sul campione e le utilizza per stimare i parametri relativi alla popolazione. Tali concetti possono

essere così riassunti.

CAMPIONE ? STATISTICHE

media = Y

varianza = s2

deviazione standard = s

? ? INFERENZA STATISTICA

POPOLAZIONE ? PARAMETRI

media = µ

varianza = σ2

deviazione standard = σ

Il fatto che il valore di un parametro debba essere stimato (e non calcolato) comporta che tale valore

sia, in qualche misura, incerto, cioè soggetto ad un possibile errore. Anche nel linguaggio corrente

peraltro il termine stima si accompagna solitamente all’idea di incertezza: se si stima una

grandezza, vuol dire che non la si misura direttamente ma se ne induce un valore che è soggetto ad

un errore più o meno elevato. L’errore costituisce un elemento fondamentale della inferenza

statistica la quale non giunge mai a delle conclusioni esatte in misura assoluta, ma solo a risultati a

32

cui è associato un certo margine di incertezza (i cui limiti lo statistico può decidere di fissare

preliminarmente alla elaborazione dei dati).

Stima della media di una variabile continua.

Vediamo ora come l’inferenza statistica affronta il problema della stima di un parametro di una

popolazione, riferendoci in particolare al parametro media. Il processo di inferenza, in questo caso,

si fonda su una proprietà delle distribuzioni probabilistiche, enunciata dal così detto Teorema del

Limite Centrale.

Se campioni casuali di numerosità n sono estratti da una popolazione con media µ e deviazione

standard σ, quando n è grande, l’istogramma di frequenza delle medie di tali campioni sarà

approssimativamente normale (forma a campana) con media µ e deviazione standard (o errore

standard della media) σx= n

σ

Ritorniamo all’esempio della casa automobilistica alla prese con l’altezza dei Sardi. Poniamo che

l’altezza media e la deviazione standard della popolazione siano µ=170 cm e σ=8. Se si estraggono

casualmente dalla popolazione un certo numero di campioni (ad es. 300), ciascuno costituito da n

Sardi (n = 2000), e si calcola per ciascun campione l’altezza media, le 300 medie risultano diverse

fra loro e diverse da µ. La loro distribuzione però (detta distribuzione delle medie campionarie) è

Normale, con media = 170 cm e deviazione standard (errore standard della media)

σx= 179,020008

==n

σcm.

Nel paragrafo dedicato alla distribuzione Normale, si è visto che nell’intervallo µ ± 2 σ (per la

precisione 1,96σ) è compreso il 95% dell’area racchiusa dalla curva. Quindi, anche nel caso della

distribuzione delle medie campionarie, tra µ ± 1,96σx si trova il 95% dei valori delle medie

campionarie. Di conseguenza, ogniqualvolta la media del campione (Y ) è compresa tra µ ± 1,96σx

(cioè nel 95% dei casi), l’intervallo Y ± 1,96n

σ conterrà il vero valore della media di

popolazione. L’intervallo Y ± 1,96σx è definito come intervallo di confidenza al 95% della media

della popolazione, nel senso che esso contiene la vera media della popolazione con una probabilità

del 95%.

33

Concetto di Intervallo di confidenza

Un intervallo al (1-α) di confidenza di una media rappresenta un intervallo di valori che contiene

al suo interno il vero valore cercato della media di popolazione al (1-α) di probabilità. Di

conseguenza, il valore α è la probabilità di errore, cioè la probabilità che il parametro che ci

interessa ricada al di fuori dell’intervallo stimato.

La formula generale per il calcolo dell’intervallo di confidenza di una media è.

Y ± zα/2 σx [12]

dove:

Y è la media del campione

nx

σσ = è l’errore standard della media. Si può notare come la formula contenga σ, cioè la

vera deviazione standard della popolazione che, essendo un parametro, è per

definizione inconoscibile. Tuttavia, quando la numerosità del campione (n) è

abbastanza elevata (maggiore di 30), la deviazione standard del campione (s)

rappresenta una stima ragionevolmente affidabile della deviazione standard della

popolazione (σ) e quindi può essere utilizzata al posto di questa per il calcolo

dell’errore standard della media. Per numerosità inferiori, si utilizza al posto di z

un’altra variabile standardizzata (t), come vedremo nel paragrafo seguente.

zα/2 è il valore della variabile normale standardizzata z che lascia alla sua destra un’area

pari ad α/2 (vedi tabella A-1 nell’appendice)

α è la probabilità di errore.

Torniamo all’esempio delle altezze. Si ipotizzi di prendere un campione di 2000 Sardi, misurarne le

altezze e calcolarne la media (ad esempio, cm168) e la deviazione standard (6). Come dobbiamo

fare ora per stimare la vera altezza media dei sardi?

34

Dovremo stimare un intervallo con la formula [12]. Gli elementi che occorrono per l’applicazione

della formula sono:

Y = 168

13464,020006

===n

σ

Il livello di confidenza (1-α) dell’intervallo dipenderà dall’errore (α) che siamo disposti ad

accettare: poniamo di fissare tale valore al 5%, per cui l’intervallo sarà al 95% di confidenza. Se

α = 0,05, α/2 sarà 0,025. Per trovare il valore di zα/2, la tabella dei valori teorici della distribuzione

Normale (tabella A-1) va utilizzata in maniera differente rispetto a quanto fatto nei paragrafi

precedenti. Infatti ora non si dispone del valore di z, ma di α/2, cioè dell’area che si trova a destra

del valore di z che si vuole trovare. Pertanto bisogna cercare dentro i margini della tabella A-1 il

valore di 0,025. Si può notare come a tale valore corrisponda un valore di z pari a 1,96.

Riassumendo:

Calcolo di un intervallo di confidenza al 95% per una media a partire da un campione di 2000

individui applicando la formula [12].

n = 2000 α=0,05 Y = 168 s = 6 zα/2, = 1,96 σx = 0,13464

limite superiore = Y + zα/2 σx=168 + 1,96 x 0,13464 = 168 + 0,26292 = 168,263

limite inferiore = Y - zα/2 σx=168 - 1,96 x 0,13464 = 168 - 0,26292 = 167,737

Quindi, in base ai risultati ottenuti dalla misurazione dell’altezza del campione di 2000 sardi, la

vera altezza media della popolazione sarda è compresa, al 95% di probabilità, tra 167,737 e 168,263

cm.

La funzione statistica CONFIDENZA di Excel consente di calcolare metà dell’ampiezza

dell’intervallo di confidenza. I parametri richiesti dalla funzione sono:

alfa che rappresenta la probabilità di errore. Nel nostro caso, con un intervallo di

confidenza al 95%, sarà pari al 5%, cioè 0,05

35

dev_standard la deviazione standard della popolazione. In base a quanto detto in

precedenza, poiché la numerosità del campione è sufficiente, noi utilizzeremo

la deviazione standard del campione, cioè 6

dimensioni la numerosità del campione nel nostro caso 2000.

Il risultato fornito da Excel con questi dati è 0,262957. Il lettore potrà facilmente constatare che

questo numero rappresenta (con una minima approssimazione) il temine zα/2 σx, cioè la quantità da

aggiungere (o da togliere) alla media del campione per il calcolo del limite superiore (o inferiore)

dell’intervallo di confidenza.

L’intervallo di confidenza della media calcolato nell’esempio sopra riportato ha una ampiezza

abbastanza limitata, cioè gli estremi sono molto ravvicinati. Quindi la stima ha fornito un risultato

piuttosto preciso. La ragione di ciò sta nella numerosità molto elevata del campione utilizzato per

l’indagine. Nella formula dell’errore standard della media

=

nx

σσ , infatti, la numerosità del

campione è al denominatore e pertanto al suo aumentare σx diminuisce, con conseguente

diminuzione dell’ampiezza dell’intervallo di confidenza ( si veda la formula [12]). A titolo di

esempio, si riportano i limiti inferiore e superiore dell’intervallo di confidenza al 95% calcolato per

media=18, deviazione standard=6 e tre valori di numerosità del campione: 2000, 200, 50.

Numerosità (n) errore standard limite superiore limite inferiore

2000 0,134164 18,263 17,737

200 0,424264 18,832 17,168

20 0,848528 19,663 16,337

E’ evidente come, al diminuire della numerosità del campione, aumenta l’ampiezza dell’intervallo

di confidenza e quindi la stima diventa meno precisa. La numerosità del campione riveste pertanto

un’importanza fondamentale ai fini della affidabilità dei risultati ottenibili da esperimenti ed

indagini scientifiche. E’ inoltre necessario tener presente che la teoria statistica presuppone che i

campioni, di qualsiasi dimensione, siano estratti casualmente dalla popolazione alla quale

appartengono. Venendo all’esempio delle altezze, se tutti i 2000 sardi del campione fossero stati

presi da un’unica zona, ad esempio la Gallura (dove gli uomini sono solitamente più alti che in

altre regioni dell’Isola) il campione, ancorché numericamente rilevante, sarebbe poco

36

rappresentativo dell’altezza di tutti i sardi o, come si dice in gergo statistico, sarebbe un campione

distorto.

Come si è visto, il secondo fattore che influenza l’ampiezza dell’intervallo di confidenza è l’errore

che lo sperimentatore è disposto a tollerare quando sviluppa l’inferenza. Minore è l’errore (quindi

maggiore è la prudenza dello sperimentatore) maggiore sarà l’ampiezza dell’intervallo. Nello

schema seguente sono riportati i calcoli dell’intervallo di confidenza per media=18, deviazione

standard=6, numerosità del campione 200 e tre livelli di coefficiente di confidenza (1-α): 90%, 95%

e 99%..

Coefficiente di confidenza

(1-α)

α α/2 zα/2 Limite superiore Limite inferiore

0,90 0,10 0,05 1,645 18,69791 17,30209

0,95 0,05 0,025 1,96 18,83156 17,16844

0,99 0,01 0,005 2,575 19,09248 16,90752

A conferma di quanto detto, l’esempio mostra come al diminuire dell’errore che si è disposti a

tollerare aumenta l’ampiezza dell’intervallo di confidenza della media. Questo risultato non

dovrebbe meravigliarci, visto che lo utilizziamo intuitivamente nella logica di tutti i giorni: se

facciamo una scommessa con un amico sulla posizione in classifica che avrà la squadra di calcio

del Cagliari alla fine dell’attuale campionato di calcio di serie B (2003-2004), quando la posta è una

pizza (15 euro, ndr) possiamo anche sbilanciarci e dire: entro le prime 4. Se però l’amico vuole

giocarsi una cena a base di pesce in un ristorante chic, allora siamo disposti a sbagliare di meno (α

più piccolo) e quindi andiamo più cauti: entro le prime 8. Se infine il nostro amico si vuole giocare

lo stipendio, allora cerchiamo di andare sul sicuro e diciamo entro le prime 12. In definitiva, minore

è il rischio (la probabilità di errore) che siamo disposti a correre, maggiore è l’intervallo di valori

che proponiamo, cioè maggiore è l’incertezza della stima.

Infine l’ultimo fattore che fa variare l’ampiezza dell’intervallo di confidenza è la deviazione

standard del campione: all’aumentare di questa aumenta l’ampiezza dell’intervallo.

Di seguito è riportato un altro esempio di calcolo di intervallo di confidenza al 95% della media di

popolazione. Esso si riferisce al contenuto di grasso del latte di pecora stimato in base ai dati rilevati

su un campione di 50 pecore di razza Sarda.

37

Dati.

Pecora Grasso (%) 1 5 2 7.7 3 4.5 4 5.2 5 6.1 6 6.7 7 7.9 8 5.4 9 6.5

10 4 11 3.4 12 6.6 13 6.5 14 6.7 15 4.7 16 4.7 17 6.5 18 6 19 9.1 20 8 21 7 22 7.1 23 6.2 24 9.3 25 6.8 26 6.9 27 5 28 3.4 29 7.1 30 3.4 31 8.5 32 5.1 33 3 34 6.6 35 4.7 36 5.2 37 4.3 38 7.6 39 8 40 6.3

38

41 5.9 42 9 43 7 44 3 45 8.5 46 4.4 47 7 48 4.6 49 3.3 50 7

n = 50 α=0,05 Y = 6,048 s = 1,679 zα/2, = 1,96 σx = 0,237

limite superiore = Y + zα/2 σx=6,048 + 1,96 x 0,237 = 6,512

limite inferiore = Y + zα/2 σx=6,048 - 1,96 x 0,237 = 5,583

(n.b. i risultati sono approssimati alle prime tre cifre decimali)

Gli esempi sinora riportati di stima dell’intervallo di confidenza di una media di popolazione

presuppongono la conoscenza della deviazione standard della popolazione (σ). Si è visto che

quando la numerosità del campione è elevata (n>30) la deviazione standard del campione può

essere considerata una stima attendibile di σ e quindi utilizzata al posto di questa nel calcolo

dell’errore standard della media. Nei casi però in cui non si conosce σ e la numerosità del campione

è ridotta (n<30), per il calcolo dell’intervallo di confidenza non si usa la variabile z ma la variabile

t, nota come t di Student. Analogamente alla z, la t è una variabile standardizzata, presenta una

distribuzione molto simile alla curva Normale (leggermente più stretta e con le code più allungate).

A differenza della z che ha un’unica distribuzione, la t presenta però numerose distribuzioni in

funzione della numerosità dei campioni esaminati, riassunta nei gradi di libertà. Si può osservare

infatti dalla tabella A-2 riportata in appendice a queste dispense come esistano diversi valori di t al

variare dei gradi di libertà. Comunque, al crescere delle numerosità del campione (n>30) la

distribuzione t tende a coincidere con la z.

39

Test di ipotesi su variabili quantitative: uso del test t per il confronto fra le medie di due

gruppi

Spesso uno studio scientifico si sviluppa a partire da un’ipotesi, che gli sperimentatori formulano in

base alle loro precedenti conoscenze sull’argomento. In questi casi si presenta frequentemente

l’esigenza di confrontare i valori che un parametro assume in due popolazioni differenti: ad

esempio, il confronto tra il contenuto in grasso e proteina del latte prodotto da due diverse razze

ovine oppure la gradazione alcolica di un vino ottenuto dallo stesso vitigno ma con due differenti

tecniche di allevamento della vite. In tali situazioni, il ricercatore dispone dei dati rilevati sui

campioni anche se l’interesse è volto al confronto fra i valori del parametro nelle due popolazioni da

cui i campioni sono stati estratti. L’inferenza statistica si sviluppa, allora, attraverso degli opportuni

test statistici, la cui applicazione permette di asserire se, e in quale misura, i dati sperimentali

confermano l’ipotesi di lavoro, oppure la contraddicono.

Dal punto di vista logico, un test statistico si articola in 5 punti fondamentali:

1. Ipotesi nulla (H0)

2. Ipotesi alternativa o di ricerca (Ha)

3. Statistica del test

4. Regione di rigetto

5. Conclusione del test

L’esempio pratico seguente consentirà di illustrare in maniera semplice la struttura di un test

statistico.

Una casa farmaceutica intende immettere sul mercato un nuovo farmaco per il quale si ipotizza che

sia in grado di combattere un parassita gastrico degli ovini. Per verificarne l’efficacia di azione sul

campo, viene organizzato un esperimento con 14 pecore, divise in due gruppi di 7 animali ciascuno.

Un gruppo viene trattato per un certo numero di giorni con il farmaco (gruppo trattato) mentre

l’altro non subisce alcun trattamento (gruppo di controllo). Alla fine dell’esperimento gli animali

vengono macellati e, per ciascuno di essi, viene rilevato il numero di parassiti presenti nello

stomaco. I risultati sono i seguenti:

Gruppo n. parassiti gastrici Trattato 18 43 28 50 16 32 13 Controllo 40 54 26 63 21 37 39

40

Ovviamente, la casa farmaceutica si aspetta che il numero medio di parassiti sia minore nelle pecore

del gruppo trattato rispetto a quelle del gruppo di controllo. L’osservazione delle medie dei due

campioni (statistiche) sembrerebbe confermare questa ipotesi, infatti, dato che

Trattato 28,57

Controllo 40

il valore medio dei parassiti gastrici del gruppo delle pecore trattate è decisamente inferiore a quello

del gruppo di controllo. In precedenza si è visto però come il semplice raffronto dei valori medi non

consenta di evidenziare in maniera precisa le differenze fra due insiemi di dati. Nel caso in esame,

anche se le medie dei due gruppi di pecore sono piuttosto diverse, esiste una variabilità elevata

entro ciascun gruppo: si può notare infatti come nel gruppo trattato ci siano alcune pecore (ad

esempio la quarta) con un numero di parassiti gastrici notevolmente elevato (50), addirittura molto

più alto della media del gruppo di controllo. Tale forte variabilità entro gruppi può essere

evidenziata con l’uso del coefficiente di variabilità, il cui valore risulta elevato in entrambi i gruppi:

50% per il trattato e 37% per il controllo. Da ciò si evince come la semplice comparazione delle

medie dei campioni non sia sufficiente ad affermare che le medie delle due popolazioni da cui i

campioni sono stati estratti siano differenti in maniera statisticamente significativa. Occorre infatti

sempre ricordare che l’interesse della ricerca non è volto ai campioni ma alle popolazioni da cui essi

provengono: la casa farmaceutica non ha alcun interesse a produrre un farmaco in grado di ridurre il

numero dei parassiti gastrici in quelle particolari sette pecore del gruppo trattato (campione), ma

vuole produrre un farmaco che sia efficace per gli ovini in genere (popolazione).

Vediamo ora come un test statistico affronta il problema.

1. Ipotesi nulla (H0): Il numero medio dei parassiti gastrici nel gruppo di pecore trattate con il

farmaco( )trattX non è inferiore a quello del gruppo delle pecore di controllo

( )tontrX . Espresso in termini formali:

0=− contrtratt XX

41

Nella logica dei test statistici, l’ipotesi nulla è quella che viene assunta come valida a priori e che

rimane tale, a meno che i risultati dell’esperimento non consentano di rigettarla a favore dell’ipotesi

di ricerca. Nell’esempio, l’ipotesi nulla afferma che il farmaco che stiamo testando non è in grado di

ridurre il numero medio di parassiti gastrici (cioè non funziona).

2. Ipotesi alternativa (Ha) Il numero medio di parassiti gastrici nel gruppo di pecore trattate

con il farmaco è inferiore a quello del gruppo delle pecore di

controllo. Espresso in termini formali:

0<− contrtratt XX

Come detto in precedenza, questo è il risultato che la casa farmaceutica si aspetta ed è l’idea per

verificare la quale è stato progettato l’esperimento. Poiché l’ipotesi di ricerca può essere accolta

solamente se quella nulla viene rigettata, il problema fondamentale del test è quello di decidere se

rigettare o meno H0. Gli elementi per prendere questa decisione li fornisce la statistica del test.

3. Statistica del test Valore numerico ricavato dai dati del campione, sulla base del quale

si decide se accettare l’ipotesi nulla o rigettarla a favore dell’ipotesi

di ricerca.

Esistono diverse statistiche del test. Quella più comunemente usata per il confronto fra medie

utilizza nuovamente la distribuzione t di Student.

Nel caso della differenza fra le medie di due gruppi, 1 e 2, la statistica t viene calcolata con la

formula:

21

21

11nn

St

p +

−=

XX [13]

dove

1X e 2X sono le medie dei due gruppi

n1 e n2 sono le numerosità dei due gruppi

42

Sp è la deviazione standard comune dei due gruppi (p sta per pooled, che in inglese vuol

dire raggruppato) calcolata con la formula:

( ) ( )

211

21

22

212

1

−+−+−=

nnsnsnSp [14]

dove S21 e S2

2 sono le varianze dei due gruppi.

Il termine n1+ n2 -2 rappresenta i gradi di libertà dell’esperimento.

L’utilizzo della formula [13] per il calcolo della statistica t con i dati del nostro esempio presuppone

che l’esperimento abbia alcune caratteristiche ben precise:

• I campioni debbono essere indipendenti. Nel nostro caso tale ipotesi è rispettata in quanto le

7 pecore del gruppo trattato sono diverse dalle 7 del gruppo di controllo. Ma vi possono

essere situazioni in cui questa condizione non è rispettata: ad esempio nel caso di un

farmaco che controlla l’ipertensione, la pressione viene misurata sugli stessi pazienti prima

(controllo) e dopo (trattato) la somministrazione del farmaco. In questi casi i campioni si

dicono appaiati e la verifica di ipotesi si sviluppa in modo diverso, come vedremo.

• I campioni debbono essere estratti da popolazioni di varianza identica (test omoscedastico)

Come regola pratica si può dire che, calcolate le varianze dei due campioni, si fa il rapporto

fra la varianza maggiore e que lla minore. Se questo rapporto è minore di tre, le varianze

delle popolazioni corrispondenti possono considerarsi identiche. Altrimenti il test si dirà

eteroscedastico. Nell’esempio le varianze dei due gruppi sono 198,62 e 215,33 per cui il test

si può considerare omoscedastico.

Vediamo ora i dati del nostro esempio. Prima si calcola deviazione standard comune ai due gruppi

con la formula [14].

( ) ( ) 39,14

21433,2151762,19817 =

−−+−=pS

Sostituiamo ora il valore trovato nella [13]

43

49,1

71

71

39,14

4057,28−=

+

−=t

Il valore -1,49 rappresenta il test calcolato sulla base del nostro esperimento. Come va interpretato

questo numero? Dice che H0 può essere rigettata e quindi Ha accettata, oppure che non si hanno

elementi sufficienti per rigettare H0? La risposta a questa domanda viene dal punto successivo.

4, Regione di rigetto Zona della distribuzione di probabilità della statistica del test dove

ricadono i valori che consentono di rigettare l’ipotesi nulla a favore

di quella di ricerca

Nel paragrafo precedente si è visto come l’errore rappresenti un elemento fondamentale

dell’inferenza statistica. Nel condurre un test statistico si possono commettere due tipi di errore:

Errore di tipo I Rigettare l’ipotesi nulla quando questa è vera. La sua probabilità è indicata con α

Errore di tipo II Accettare l’ipotesi nulla quando questa è falsa e quella di ricerca è

vera. La sua probabilità è indicata con β Possibilità Decisione

Accettare H0 Rifiutare H0 Se H0 è vera Decisione corretta

La probabilità 1 – α corrisponde al “livello di fiducia”

Errore di tipo I La probabilità α è anche chiamata “livello di significatività” del test

Se H0 è falsa (e Ha vera)

Errore di II tipo Probabilità β

Decisione corretta La probabilità 1 – β è anche chiamata “potenza” del test

Nella maggioranza delle applicazioni dei test statistici viene tenuto in considerazione solamente

l’errore di tipo I, in quanto si ritiene che la cautela maggiore debba essere quella di evitare di

affermare che l’ipotesi di ricerca è vera quando invece è falsa. A tale scopo si fissa preliminarmente

la probabilità dell’errore di tipo I, cioè α, che si è disposti ad accettare: i valori solitamente

considerati come limite massimo di errore tollerabile sono 5% o, nel caso di una maggiore severità,

44

l’1%. Una volta fissato α , bisogna cercare tra i valori tabulati di t, quello che lascia alla sua destra

un un’area pari ad α. La tabella A-2 va letta in maniera differente da quella relativa alla

distribuzione Normale: la prima colonna riporta i gradi di libertà, mentre le altre 6 contengono i

valori di t che lasciano a destra un’area pari al 10% (la prima) sino al 0.01% (l’ultima). Se, per

l’esempio considerato, si fissa α al 5%, allora si dovrà cercare nella colonna di α = 0,05 in

corrispondenza della riga di 12 gradi di libertà. Il valore cercato è 1,782. Il valore trovato nella

tabella rappresenta il valore critico di t e deve essere messo a confronto con il valore di t calcolato

sul campione per pervenire al punto finale del test statistico.

5. Conclusione del test In base al valore della statistica del test calcolata a partire dai dati

del campione ed al valore critico si decide se rigettare o meno

l’ipotesi nulla a favore dell’ipotesi di ricerca

Il confronto tra i due valori dipende da come è stata formulata l’ipotesi di ricerca. Nel caso del

confronto fra due medie infatti esistono 3 possibili alternative

1. 021 ≠− XX

2. 021 >− XX

3. 021 <− XX

Per i tre casi, considerando una probabilità di errore di tipo I pari ad α e gradi di libertà pari n1+ n2 -

2, la regole per arrivare alla conclusione del test sono:

1. 021 ≠− XX rigettare H0 se ¦ t¦ > tα/2

2. 021 >− XX rigettare H0 se t > tα

3. 021 <− XX rigettare H0 se t < - tα

dove t è il valore di t calcolato sui dati del campione mentre tα e tα/2 rappresentano il valore critico

di t, cioè quello riportato in tabella. Nell’esempio, l’ipotesi di ricerca è 0<− contrtratt XX , per cui

siamo nel caso n. 3. Quindi dobbiamo confrontare il t calcolato, -1,49, con quello teorico con il

meno davanti. Poiché la condizione t < - tα non è rispettata, in quanto -1,49 non è minore di -1,782,

45

sulla base dei risultati dell’esperimento non è possibile rigettare l’ipotesi nulla e accogliere l’ipotesi

di ricerca. La conclusione del test statistico sarà pertanto:

Il numero medio dei parassiti gastrici nel gruppo di pecore trattate con il farmaco non è inferiore

a quello del gruppo delle pecore di controllo, almeno per un livello di significatività statistica del

5%.

Riassumendo brevemente il test

Ipotesi nulla (H0) 0=− contrtratt XX

Ipotesi alternativa o di ricerca (Ha) 0<− contrtratt XX

Statistica del test 49,1

71

7139,14

4057,28 −=+

−=t

Regione di rigetto Per α = 0,05 , t critico = 1,782

Conclusione del test Poiché -1,49 non è minore di -1,782 l’ipotesi nulla non può

essere rigettata

E’ importante che nelle conclusioni di un test sia riportato il livello di significatività statistica.

Come detto in precedenza, nella stragrande maggioranza degli studi scientifici che riportano delle

elaborazioni statistiche, i livelli di errore solitamente tollerati sono l’1% o al massimo il 5%. E’

però buona norma che chi compie l’elaborazione statistica fissi il margine di errore non secondo le

consuetudini, ma ragionando sul tipo di esperimento di cui si sta occupando. Nel nostro esempio

abbiamo posto il limite massimo di errore pari al 5%: questo perché, se avessimo trovato che la

media delle pecore trattate era inferiore a quella delle pecore di controllo volevamo sbagliare al

massimo del 5%. In termini probabilistici un po’ grossolani, un errore del 5% vorrebbe dire che

trattando con il farmaco 100 pecore, in media questo sarebbe efficace su 95 di esse. Se però il

parassita che stiamo trattando è molto dannoso per gli ovini e la sua presenza causa perdite

economiche rilevanti agli allevatori, il farmaco che vogliamo proporre è l’unico sinora prodotto

contro quel parassita, è economico, facile da somministrare, allora potremmo accontentarci anche di

46

un margine di sicurezza minore, ed essere disposti a tollerare un errore di tipo I anche sino al 10%.

In questo caso il t critico è pari a 1.356. Allora poiché -1,49 è più piccolo di -1,356 la conclusione

del test sarebbe:

Il numero medio dei parassiti gastrici nel gruppo di pecore trattate con il farmaco( )trattX è

inferiore a quello del gruppo delle pecore di controllo ( )tontrX , almeno per un livello di

significatività statistica del 10% (P<0,10).

Lo sviluppo dell’esempio sull’esperimento del farmaco negli ovini è stato piuttosto lungo ma ha

permesso di descrivere la logica (un po’ bizantina per la verità) di funzionamento di un test

statistico. Questo sforzo ne risparmierà però degli altri perchè la gran parte dei test statistici segue la

medesima logica.

La funzione TEST.T di Excel consente di sviluppare il confronto fra medie. La finestra del test

chiede:

matrice 1 bisogna selezionare l’intervallo che contiene i dati del primo gruppo (ad es. le pecore

trattate)

matrice 2 bisogna selezionare l’intervallo che contiene i dati del secondo gruppo (ad es. le

pecore di controllo)

coda un test statistico può essere ad una o a due code, a seconda di come è formulata

l’ipotesi di ricerca. Se è del tipo 021 ≠− XX allora il test è a due code, mentre per

gli altri due casi, 021 >− XX e 021 <− XX il test è a una coda. Quindi nel

nostro esempio il test è a una coda.

tipo ci sono tre possibilità. Il nostro esempio è quello contrassegnato con il numero 2

cioè due campioni estratti da popolazioni con uguali varianze.

Il risultato che produce Excel è 0,0815. Questo risultato è il valore di α, cioè è la esatta probabilità

di errore associata al valore di t calcolato sui dati del campione (nel nostro caso -1,49). E’ ovvio che

se ci si era ripromessi di non sbagliare più dello 0,05, essendo l’errore 0,08 concluderemo che

47

l’ipotesi nulla non può essere rigettata a favore di quella di ricerca. I softwares statistici non

mostrano lo sviluppo della complessa sequela di punti, qui seguita per scopi essenzialmente

didattici, ma forniscono direttamente il valore della probabilità di errore di tipo I (α) o livello di

significatività statistica del test, associata al valore della statistica del test calcolato sulla base dei

dati del campione.

Seguono altri due esempi di confronto fra medie di due gruppi.

Confronto tra il contenuto proteico medio del latte di due razze bovine, Frisona e Bruna. Due gruppi

di 25 vacche ciascuno

Bruna Frisona 3,44 3,14 3,67 3,08 3,57 3,25 3,45 3,33 3,61 3,22 3,53 3,13 3,89 3,32 3,47 3,22 3,31 3,26 3,48 2,99 3,51 3,19 3,49 3,21 3,67 3,28 3,67 3,16 3,45 3,12 3,82 3,22 3,33 3,22 3,55 3,37 3,48 3,10 3,51 3,19 3,49 3,00 3,67 2,59 3,67 2,99 3,45 3,14 3,82 3,29

Media Deviazione standard

Bruna 3,6 0,14

Frisona 3,20,15

48

Domanda: il contenuto medio in proteina del latte della Bruna è maggiore di quello della Frisona?

Riassumendo brevemente il test

Ipotesi nulla (H0) 0=− FrisonaBruna XX

Ipotesi alternativa o di ricerca (Ha) 0>− FrisonaBruna XX

Statistica del test 43,9

251

251

0229,0

2,36,3=

+

−=t

Regione di rigetto Per α = 0,01 , e 48 gradi di libertà, t critico = 2,406

Conclusione del test Poiché 9,43 è notevolmente maggiore di 2,406, l’ipotesi nulla

può essere rigettata e quella di ricerca può essere accolta.

Quindi il contenuto medio in proteina del latte di Bruna è

superiore a quello del latte di Frisona

Esempio di un test appaiato

E’ stato condotto un esperimento per verificare l’effetto della benzedrina sul battito cardiaco dei

cani. Si ritiene che tale sostanza abbia il potere di aumentare la frequenza del battito: è stato

misurato il battito cardiaco di 14 cani sia prima che dopo la somministrazione del farmaco.

Domanda: la frequenza media del battito cardiaco dopo la somministrazione di benzedrina è

superiore a quella che gli animali avevano prima della somministrazione del farmaco?

49

In questo caso si deve applicare un test t per dati appaiati poiché le unità sperimentali dei due gruppi

sono le stesse (sono gli stessi 14 cani prima e dopo la somministrazione del farmaco).

Utilizzando la funzione TEST.T di Excel

matrice 1. colonna che contiene i dati del gruppo prima ;

matrice 2. colonna che contiene di dati del gruppo dopo;

coda una coda poiché l’ipotesi è che la media prima della somministrazione del farmaco

sia inferiore alla media dopo la somministrazione, cioè 0<− dopoprima XX

Tipo appaiato, cioè 1;

Risultato 0,011. Questa è la probabilità di errore di tipo I (a). Quindi possiamo dire che la

frequenza media del battito cardiaco dopo la somministrazione di benzedrina è

superiore a quella di prima con un livello di significatività di 0,011%.

Test di ipotesi su variabili qualitative: uso del test χ2 per il confronto fra le frequenze di due

gruppi

Consideriamo una situazione per certi versi analoga all’esempio del farmaco contro il parassita

gastrico degli ovini riportato nel paragrafo precedente. Anche in questo caso si vuole verificare

l’efficacia di un nuovo farmaco su una malattia e a tal fine si costituiscono due gruppi di 20 pecore

ciascuno, uno trattato con il farmaco (gruppo trattato) e l’altro non trattato (controllo). La presenza

(o l’assenza) della malattia non è però rilevata in forza del conteggio dei parassiti gastrici presenti

nello stomaco di ciascun animale (come nel caso precedente), ma con un esame diagnostico che può

essere eseguito sugli animali vivi e che fornisce una risposta dicotomica del tipo POSITIVO o

Cane Prima Dopo 1 250 258 2 271 285 3 243 245 4 252 250 5 266 268 6 272 278 7 293 280 8 296 305 9 301 319 10 298 308 11 310 320 12 286 293 13 306 305 14 309 313

50

NEGATIVO. I risultati dell’esperimento sono espressi in termini di frequenze assolute (cioè di

numero di animali che risultano affetti dalla parassitosi in ciascun gruppo) (tabella 8).

Tabella 8 . Tavola di contingenza delle frequenze osservate nell’esperimento.

Gruppo Diagnosi Trattato Controllo Totale Negativo 15 7 22 Positivo 5 13 18 Totale 20 20 40

La tabella, che riporta il numero degli animali positivi e negativi rilevati nei due gruppi

sperimentali, cioè le frequenze osservate, ed anche i totali di riga, di colonna ed il totale generale è

conosciuta come Tavola di contingenza.

Poiché la variabile misurata nell’esperimento (positività, negatività) è di tipo qualitativo il test t

(valido solo per le variabili di tipo quantitativo) non è applicabile. Il test specifico è invece il

cosiddetto test di indipendenza del χ2 (chi-quadrato), fondato direttamente sul calcolo delle

probabilità. Si analizza il problema in termini di eventi: il primo evento è il trattamento

sperimentale che può avere due uscite (trattato o controllo), il secondo è l’esito all’esame

parassitologico, anch’esso con due uscite possibili (positivo e negativo).

Ipotesi nulla (H0) Il fatto che un animale sia risultato positivo o negativo all’esame

parassitologico non dipende dal fatto che sia stato trattato o meno dal

farmaco. Cioè l’esito all’esame diagnostico ed trattamento con il

farmaco sono due eventi tra loro indipendenti.

Ipotesi di ricerca (Ha) Il fatto che un animale sia risultato positivo o negativo all’esame

parasitologico dipende dal fatto che sia stato trattato o meno dal

farmaco. In particolare, la frequenza degli animali negativi al test è

maggiore per quelli del gruppo trattato rispetto a quello di controllo,

pertanto l’esito all’esame diagnostico ed il trattamento con il farmaco

sono due eventi tra loro collegati (non indipendenti).

Statistica del test ( )∑

−=ij ij

ijij

AtteseAtteseOsservate 2

2χ [15]

51

Dove

Osservate sono le frequenze osservate, cioè i numeri di animali effettivamente conteggiati in

ciascuna cella della tavola di contingenza.

Attese sono le frequenze teoriche, che ci si sarebbe attesi in ciascuna cella della tavola di

contingenza, nel caso in cui l’ipotesi nulla fosse valida (risultato dell’esame

diagnostico indipendente dal trattamento col farmaco).

Vediamo ora come si calcolano le frequenze attese. Bisogna riprendere il concetto della probabilità

in senso frequentista ed applicarlo al caso in esame. Ci troviamo di fronte a 40 pecore, 20 trattate

con il farmaco e 20 no. Quale è la frequenza (e quindi la probabilità) delle pecore trattate?

5,04020

)( ==trattatef t

Quale è la frequenza delle non trattate (o gruppo di controllo)?

5,04020

)( ==controllof c

Alla fine dell’esperimento è stato fatto il test parassitologico. Quale è la frequenza delle positive? su

45,04018

)( ==positivef p

Quale è stata la frequenza delle negative?

55,04022

)( ==negativef n

Le frequenze attese sono quelle che ci si aspetterebbe nel caso in cui i due eventi fossero tra loro

indipendenti (come nel caso del lancio di due monete, una con la mano destra e l’altra con la mano

sinistra). La regola per il calcolo delle frequenze attese di una tavola di contingenza dice che:

Due variabili rappresentate in una tavola di contingenza sono dette indipendenti se la probabilità

che una misura sia classificata in una cella della tavola è pari al prodotto della probabilità di

52

essere classificata in quella riga per il prodotto di essere classificata in quella colonna. Ciò deve

essere valido per tutte le celle della tavola .

Quindi per il loro calcolo possiamo utilizzare la formula [8]. Ad esempio la frequenza attesa delle

pecore negative del gruppo di controllo sarà:

fa (negative del gruppo di controllo) = f(negative) x f(controllo) =

27,04020

4022

=×=

Per il calcolo della statistica chi-quadrato con la formula [15] occorrono le frequenze assolute (cioè

il numero di animali) mentre nella tabella sopra riportata sono state ottenute le frequenze relative

(espresse cioè in %). Per passare dalle frequenze relative a quelle assolute dovremmo moltiplicare

quelle relative per la numerosità totale, cioè 40. Così, ad esempio, la frequenza attesa assoluta delle

negative trattate diventa

1120*4022

40*4020

*4022

)( ===attatenegativetrf

Per semplicità espositiva, il calcolo delle frequenze attese si illustra direttamente all’interno della

tavola di contingenza

Tabella 9. Tavola di contingenza delle frequenze attese nell’esperimento.

Una volta ottenute le frequenze assolute bisogna calcolare il valore della statistica del test con la

formula [15]

Gruppo Diagnosi Trattato Controllo Totale Negativo 1120*

4022

)(*)( ==trattatefnegativef

1120*4022

)(*)( ==controllofnegativef 22

Positivo 920*4018

)(*)( ==trattatefpositivef

920*4018

)(*)( ==controllofpositivef 18

Totale 20 20 40

53

( ) ( ) ( ) ( )465,6777.1777,1454.1454,1

9913

995

11117

111115 2222

2 =+++=−+−+−+−=χ

Regione di rigetto Bisogna cercare sulle tabelle della distribuzione del χ2 il valore critico

per la probabilità di errore di tipo I che ci si è prefissata. Anche per il

χ2 esistono diverse distribuzioni in base ai gradi di libertà. Il calcolo

dei gradi di libertà viene fatto con la formula:

(numero righe della tavola di contingenza-1) x(numero colonne della tavola di contingenza-1)

nel nostro caso sarà

(2-1) x (2-1) = 1

Ponendo α=0,05, per 1 grado di libertà, il valore critico di χ2 è 3,841.

Conclusione del test Poiché il valore di χ2calcolato sui dati del campione è maggiore del χ2

tabulato, possiamo rigettare l’ipotesi nulla ed accettare l’ipotesi di

ricerca con un livello di confidenza del test minore del 5% (P<0,05):

l’esito del test sierologico ed il trattamento con il farmaco non sono

due eventi indipendenti. Il farmaco quindi funziona.

La funzione TEST.CHI di excel permette di svolgere un test del chi quadrato: gli input richiesti

Int_effettivo sono le frequenze osservate

Int_previsto sono le frequenze attese

Il risultato che fornisce excel è 0.01154., Come visto in precedenza nel caso del test t, il programma

fornisce direttamente il valore dell’errore associato al valore della statistica calcolato suo campione.

54

Infatti si nota anche dalla tabella come il valore del calcolato sul campione è di pochissimo inferiore

al t critico per α=0,01.

Altro esempio di test del chi-quadrato.

E’ stato condotto un esperimento per studiare la relazione esistente tra la coagulabilità del latte,

caratteristica tecnologica di grande importanza ai fini della trasformazione casearia, ed età degli

animali. Su 168 campioni individuali di latte ovino, 84 provenienti da pecore di 2 anni e 84 di

pecore di 3 anni, è stata misurata la capacità di coagulazione, con uno strumento che consente di

stabilire se il latte coagula entro un determinato tempo dall’aggiunta del caglio oppure no. I risultati

sono riportati nella seguente tavola di contingenza,.

2 anni 3 anni Totale non coagula 3 22 25coagula 81 62 143Totale 84 84 168

Domanda: esiste una relazione fra coagulabilità del latte ed età degli animali?

Calcolo delle frequenze attese 2 anni 3 anni Totale

non coagula 5.12168

2584 =× 5.12

1682584 =×

25

coagula 5.71168

14384 =× 5.71

16814384 =×

143 Totale 84 84 168 Calcolo della statistica del test

( ) ( ) ( ) ( ) 964,16262,1262,122,722,175,71

5,71625,71

5,71815,12

5,12225,125,123 2222

2 =+++=−+−+−+−=χ

gradi di libertà

(nrighe-1) x (ncolonne-1)=(2-1)x(2-1)=1

55

Per α=0,01 e 1 grado di libertà il valore critico di χ2 è 6,635.

Conclusione del test Poiché 16,694>6,635, si può concludere che la coagulabilità del latte e

l’età degli animali non sono dei fattori tra loro indipendenti. Esiste

infatti una relazione fra i due con un livello di significatività statistica

minore dell’1% (P<0,01).

La funzione TEST.CHI di excel fornisce direttamente la probabilità di errore associata al valore di

χ2 calcolato ( 6,635), che è 0,0000038.

56

STUDIO DELLE RELAZIONI FRA DUE VARIABILI

Le tecniche di analisi statistica trattate nei capitoli precedenti sono dette di tipo univariato, in

quanto sviluppano lo studio di una singola variabile. Nella pratica scientifica, però, è frequente il

caso in cui sulle unità sperimentali vengono misurate più variabili contemporaneamente: su un

bovino si può misurare la produzione di latte, ma anche il peso o la concentrazione ematica di

glucosio; sul latte si può determinare il contenuto in grasso ma anche il pH, l’indice crioscopico; su

un vino il grado alcolico ma anche il contenuto in tannini, etc. Il poter disporre di più variabili

misurate sulle stesse unità sperimentali può rappresentare un notevole vantaggio ai fini della

comprensione del processo che si sta studiando. Ciò dipende dal grado di relazione che esiste tra le

variabili in esame.

Due variabili si dicono statisticamente correlate quando la variazione dell’una non è indipendente

dalla variazione dell’altra, cioè quando esse in qualche misura covariano.

Il termine correlazione, ampiamente utilizzato anche nel linguaggio comune per indicare l’esistenza

di una relazione fra più aspetti degli stessi oggetti, assume quindi nel campo statistico un significato

ben preciso ed introduce al concetto di una variazione comune a due variabili cioè della loro

covariazione. Nella tabella seguente sono riportati i valori di due variabili somatiche, peso corporeo

e altezza al garrese, misurate su 20 pecore di razza Gentile di Puglia.

Tabella 10. Peso corporeo e altezza al garrese di 20 pecore di razza Gentile di Puglia

Pecora Peso (cm) Altezza al garrese (cm) 1 52 85 2 47 85 3 51 89 4 49 84 5 39 75 6 48 83 7 43 80 8 53 85 9 52 85 10 48 85 11 55 86 12 47 85 13 40 80 14 57 89 15 42 79 16 52 87 17 45 84 18 44 80 19 53 85 20 50 87

57

Una prima valutazione, qualitativa ma efficace, del grado di relazione esistente tra due variabili

viene fornita dalla loro rappresentazione grafica. A tale riguardo, nel grafico seguente vengono

riportati i dati della tabella 10, ponendo in ascisse il peso corporeo degli animali ed in ordinate

l’altezza al garrese. Ogni punto rappresenta una pecora.

74

76

78

80

82

84

86

88

90

35 40 45 50 55 60

peso corporeo (kg)

alte

zza

al g

arre

se(c

m)

Figura 12. relazione fra peso corporeo ed altezza al garrese in pecore di razza Gentile di Puglia.

L’osservazione della figura 12 suggerisce immediatamente l’esistenza di una relazione tra le due

variabili considerate: in particolare, all’aumentare del peso corporeo aumenta l’altezza al garrese

degli animali. Cioè le due variabili almeno in parte variano assieme. Nel caso in esame, la natura di

tale relazione è ben nota ed ha un fondamento biologico: individui più alti tendono pesare di più

perchè, a parità di costituzione, hanno una mole maggiore. E’ sempre buona norma, però, una volta

evidenziata l’esistenza di una correlazione fra due variabili, verificare se questa ha una

giustificazione razionale o se è semplicemente frutto del caso. Altrimenti si corre il rischio di

incappare in conclusioni errate come quella che aveva messo in relazione il consumo di liquori con

lo stipendio dei professori universitari, e che i testi di statistica citano spesso come esempio di

assurdità.

Tornando alla figura 12, si nota come la variazione del peso e dell’altezza al garrese avvengano

nello stesso senso: all’aumentare dell’una cresce anche l’altra. Si possono avere casi in cui alla

variazione di una variabile l’altra risponda con una variazione opposta. Un esempio classico è la

relazione che esiste tra quantità di latte prodotto e contenuto lipidico (figura 13).

58

2

3

4

5

6

7

8

9

10

11

400 900 1400 1900 2400

produzione di latte (g)

Con

tenu

to li

pidi

co (%

)

Figura 13. Relazione fra produzione di latte e contenuto lipidico in pecore di razza Valle del Belice

Anche se la tendenza è meno netta di quella evidenziata nella figura precedente, si nota chiaramente

come all’aumento della produzione di latte corrisponda una diminuzione del suo contenuto lipidico.

Questa relazione ha anch’essa una spiegazione biologica, nota come effetto di diluizione: l’aumento

della produzione del latte è dovuto in massima parte alla maggior quantità di acqua secreta

dall’animale per cui il grasso presente nel latte, che aumenta anch’esso ma in minor misura meno

rispetto all’acqua, risulta maggiormente diluito.

Nel capitolo che trattava le misure di variabilità di una singola variabile abbiamo visto come questa

potesse essere espressa dalla varianza [1]. Per la descrizione della variazione comune di due

variabili esiste una misura analoga, la covarianza.

La covarianza tra due variabili x e y, che si indica con il simbolo Sxy, viene calcolata con la

formula:

( ) ( )1−

∑ −⋅−=

nyyxx

Sxy [16]

Essa esprime la quota di variabilità comune che presentano due variabili. Maggiore è la covarianza

tra le due variabili, più stretta sarà la relazione fra le due. Di seguito è riportato lo schema di

calcolo della covarianza per le due variabili riportate in tabella 10.

59

x y x- x y- y (x- x ) x (y- y ) 52 85 3,65 1,1 4,015 47 85 -1,35 1,1 -1,485 51 89 2,65 5,1 13,515 49 84 0,65 0,1 0,065 39 75 -9,35 -8,9 83,215 48 83 -0,35 -0,9 0,315 43 80 -5,35 -3,9 20,865 53 85 4,65 1,1 5,115 52 85 3,65 1,1 4,015 48 85 -0,35 1,1 -0,385 55 86 6,65 2,1 13,965 47 85 -1,35 1,1 -1,485 40 80 -8,35 -3,9 32,565 57 89 8,65 5,1 44,115 42 79 -6,35 -4,9 31,115 52 87 3,65 3,1 11,315 45 84 -3,35 0,1 -0,335 44 80 -4,35 -3,9 16,965 53 85 4,65 1,1 5,115 50 87 1,65 3,1 5,115 media 48,35 83,9 somma 287,7 covarianza 287,7/19 = 15,142

La covarianza può essere calcolata anche con la funzione COVARIANZA di Excel. Il risultato

trovato è però diverso, 14,385. Ciò è dovuto al fatto che Excel nell’applicare la formula 16 non

divide per n-1 ma per n. Tale differenza, all’aumentare della numerosità del campione diventa

trascurabile.

Paradossalmente, la grandezza fondamentale è la covarianza, perché la varianza altro non è che a

covarianza di una variabile con sé stessa: il lettore potrà infatti facilmente verificare come

sostituendo y con x nella formula [16] si ottiene la formula del calcolo della varianza [1].

IL COEFFICIENTE DI CORRELAZIONE

Analogamente a quanto detto per la varianza, anche la covarianza, essendo un prodotto di

differenze, ha la caratteristica di non essere immediatamente interpretabile. Una misura di più facile

lettura che esprime l’intensità con la quale due variabili x e y sono legate è il coefficiente di

correlazione (r)

yx

xy

xy

SSS

r22 ⋅

= [17]

60

dove

Sxy = covarianza di x e y

Sx2 = varianza di x

S y2 = varianza di y

Il coefficiente di correlazione può assumere valori compresi tra –1 e 1. Il significato dei diversi

intervalli di valori del coefficiente di correlazione è riportato nello schema seguente.

r > 0 → Relazione lineare positiva fra le

due variabili

→ Al variare dell’una l’altra varia nello stesso

senso

Esempio: Altezza al garrese e peso corporeo

r < 0 → Relazione lineare negativa fra

le due variabili

→ Al variare dell’una l’altra varia in senso

opposto

Esempio: Produzione di latte e contenuto %

in grasso

r = 0 Assenza di relazione fra le due

variabili

→ La variazione dell’’una è indipendente dalla

variazione dell’altra

Esempio: Produzione di latte e lunghezza

della coda

Nel caso dei dati riportati in tabella 10, il coefficiente di correlazione è:

8655,011,69*23,6275

385,1422

==⋅

=hgpeso

pesohgpesohg

SSS

r

Il coefficiente di correlazione può essere calcolato con la funzione CORRELAZIONE di Excel.

Esiste una classificazione di riferimento per i valori del coefficiente di correlazione. In generale se

r < 0,4 La correlazione è detta debole

61

0,4 < r < 0,6 La correlazione è detta media

r > 0,6 La correlazione è detta forte

Nel paragrafo precedente si è detto che un’eventuale correlazione fra variabili potrebbe essere

anche frutto del caso. Al fine di prevenire conclusioni errate, si può applicare un test statistico che

consente di dire se il coefficiente di correlazione trovato è statisticamente diverso da zero, cioè se la

relazione che è stata trovata tra le variabili oggetto di studio esiste realmente. Vediamo come si

sviluppa il test.

Ipotesi nulla r = 0, cioè non esiste relazione fra le due variabili Ipotesi alternativa r ≠ 0, cioè esiste relazione fra le due variabili Statistica del test ( )

( )( )21

02

−−−

=

nr

rt

[18]

Nel caso dei dati della tabella 10

( )( )

33,7

18749182,01

8655,0=

−=t

Poiché il valore di t trovato è maggiore del valore tabulato di t (tabella A-2) per un valore di α =

0,001 e 18 gradi di libertà, il coefficiente di correlazione è diverso da zero con un livello di

significatività di 0,001.

62

REGRESSIONE

Come si è detto nel paragrafo precedente, il fatto di avere di avere più variabili misurate sulla stessa

unità sperimentale può rappresentare un vantaggio ai fini della comprensione del fenomeno oggetto

di studio. Vediamo ora come questa opportunità può essere sfruttata in pratica.

La tabella 11 riporta i risultati di un esperimento in cui sono stati misurati il peso corporeo e

l’ingestione alimentare (quantità di alimento ingerita nelle 24 ore espressa in kg di sostanza secca)

di 20 pecore di razza Sarda nel periodo di asciutta.

Tabella 11. Peso corporeo e ingestione alimentare di 20 pecore di razza Sarda in asciutta

Peso corporeo (kg) Ingestione alimentare (kg)

45,0 1,189

44,0 1,151

35,0 0,915

41,0 0,944

42 1,127

43,4 1,031

46,9 1,223

45,2 1,129

39,8 0,888

50,1 1,193

49,2 1,194

45,3 1,095

46,2 1,146

44,2 1,189

41,2 1,045

52,1 1,308

47,7 1,185

48,2 1,202

38,1 0,843

49,0 1,270

La relazione esistente tra queste due variabili può essere desunta dall’osservazione della figura 14,

che riporta i dati della tabella 11: all’aumentare del peso corporeo aumenta l’ingestione alimentare.

Le due variabili quindi sono positivamente correlate, come confermato dal valore del coefficiente di

63

correlazione (r = 0,894). Questa relazione ha una grande importanza dal punto di vista pratico.

L’ingestione alimentare è infatti una variabile di notevole interesse tecnico per chi si occupa della

formulazione della razione degli animali di interesse zootecnico ma presenta il grosso problema di

essere molto difficile da misurare nelle condizioni normali di allevamento. Poiché invece il peso

può essere misurato in maniera relativamente semplice, può essere assai utile un modello statistico

che, sfruttando la correlazione esistente fra le due variabili, consenta di stimare l’ingestione sulla

base del peso corporeo degli animali.

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

35 40 45 50 55

peso corporeo (kg)

inge

stio

ne a

limen

tare

(kg)

Figura 15. Relazione fra peso corporeo e ingestione alimentare in pecore di razza Sarda.

La tecnica statistica che consente di arrivare ad una tale relazione è nota come Regressione.

Il modello matematico più semplice per la previsione del valore di una variabile dipendente (y)

sulla base del valore di una variabile indipendente (x) è l’equazione di una retta :

y = bx + a

Nel nostro caso però non è possibile prevedere esattamente il valore dell’ingestione alimentare (y)

corrispondente ad un determinato valore di peso corporeo (x) poiché i punti non giacciono su una

retta (figura 15). Quindi i valori della y sono legati ai valori di x da una relazione più complicata,

del tipo:

y = bx + a + ε [19]

dove:

64

a è l’intercetta della retta, cioè il valore di y in corrispondenza del quale la retta di regressione

interseca l’asse delle ordinate

b è il coefficiente angolare o di regressione (fornisce la pendenza della retta) ed esprime la ù

variazione della variabile dipendente (y) al variare di una unità della variabile indipendente

(x)

ε è il residuo, cioè la differenza fra il valore di y stimato dall’equazione della retta ed il valore

di y realmente osservato.

I parametri della retta di regressione possono essere calcolati con le formule seguenti

X

yxy

SS

rb = [20]

dove rxy è il coefficiente di correlazione fra le due variabili, Sx e Sy sono le rispettive deviazioni

standard

xbya −= [21]

dove x e y sono le medie delle variabile x e y rispettivamente

Applichiamo ora le formule [20] e [21] per il calcolo dei parametri della retta di regressione

all’esempio del peso corporeo e della ingestione alimentare:

027,026,413,0

894,0 =×=b

a = 1,113 – 0,027*(44,68) = -0,0934

Quindi l’equazione della retta di regressione sarà:

65

y = 0,027x + 0,0934 + e [22]

o, in altri termini

ingestione (kg) = 0,027 x peso corporeo (kg) + 0,0934 + ε

In precedenza si è detto che il coefficiente di regressione rappresenta la variazione della variabile

dipendente al variare di una unità della variabile indipendente. Nel caso specifico della retta che ci

siamo calcolati, quindi, il valore del coefficiente di regressione indica che l’ingestione alimentare

aumenta di 27 grammi (0,027 kg) all’aumentare di 1 kg di peso corporeo.

L’equazione [22] può essere adesso utilizzata per la stima dei valori dell’ingestione a partire dal

peso corporeo. I valori della variabile dipendente stimati con la retta di regressione si indicano

convenzionalmente y

Ad esempio, il valore stimato dell’ingestione alimentare per un animale che pesa 49 kg sarà

y = 0,027*(49) - 0,0934 = 1,23

Poiché però il vero valore di ingestione misurato sulla pecora che pesava 49 kg è di 1,27 (tabella

11), la differenza

y -y = 1,23-1,27 = 0,04

rappresenta il residuo dalla retta di regressione (ε) e, graficamente, costituisce la distanza dal punto

sperimentale dalla retta di regressione.

Allo stesso modo, utilizziamo l’equazione [22] per calcolare l’ingestione stimata delle 20 pecore del

gruppo sperimentale:

66

Peso corporeo (kg) Ingestione vera Ingestione stimata Residuo

45,0 1,189 1,1216 -0,0674

44,0 1,151 1,0946 -0,0564

35,0 0,915 0,8516 -0,0634

41,0 0,944 1,0136 0,0696

42 1,127 1,0406 -0,0864

43,4 1,031 1,0784 0,0474

46,9 1,223 1,1729 -0,0501

45,2 1,129 1,127 -0,002

39,8 0,888 0,9812 0,0932

50,1 1,193 1,2593 0,0663

49,2 1,194 1,235 0,041

45,3 1,095 1,1297 0,0347

46,2 1,146 1,154 0,008

44,2 1,189 1,1 -0,089

41,2 1,045 1,019 -0,026

52,1 1,308 1,3133 0,0053

47,7 1,185 1,1945 0,0095

48,2 1,202 1,208 0,006

38,1 0,843 0,9353 0,0923

49,0 1,270 1,2296 -0,0404

Si possono ora aggiungere i dati dell’ingestione stimata al grafico riportato in figura 15

67

0.7

0.8

0.9

1

1.1

1.2

1.3

30 35 40 45 50 55

Peso corporeo (kg)

Inge

stio

ne a

limen

tare

(kg)

Figura 16. Valori dell’ingestione osservata (♦) e stimata con la retta di regressione () [22].

Si può notare come i valori dell’ingestione stimata si trovino sulla retta di regressione. Le distanze

fra i rombi (che rappresentano il valore realmente osservato dell’ingestione) ed il corrispondente

valore sulla retta, rappresentano i residui.

La retta di regressione è nota anche con il nome di retta dei minimi quadrati. Questo perché, dato

un insieme di punti, la retta di regressione è quella retta che soddisfa la condizione matematica di

minimizzare la somma dei quadrati delle distanze dei punti reali da essa. In altre parole, è la retta

che passa più vicina a tutti i punti dell’insieme di dati.

68

APPENDICE

Tabella A-1. Valori dell’integrale della distribuzione Normale (generata con la

funzione distrib.norm di excel)

z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641

0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247

0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859

0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483

0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121

0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776

0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451

0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148

0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867

0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611

1 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379

1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170

1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985

1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823

1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681

1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559

1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455

1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367

1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294

1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233

2 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183

2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143

2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110

2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084

2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064

2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048

2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036

2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026

2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019

69

2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014

3 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010

3.5 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002

4 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

4.5 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

5 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

70

Tabella A-2. Valori critici del t di Student

g.l. α = 0.10 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.001

1 3.078 6.314 12.706 31.821 63.657 318.313

2 1.886 2.920 4.303 6.965 9.925 22.327

3 1.638 2.353 3.182 4.541 5.841 10.215

4 1.533 2.132 2.776 3.747 4.604 7.173

5 1.476 2.015 2.571 3.365 4.032 5.893

6 1.440 1.943 2.447 3.143 3.707 5.208

7 1.415 1.895 2.365 2.998 3.499 4.782

8 1.397 1.860 2.306 2.896 3.355 4.499

9 1.383 1.833 2.262 2.821 3.250 4.296

10 1.372 1.812 2.228 2.764 3.169 4.143

11 1.363 1.796 2.201 2.718 3.106 4.024

12 1.356 1.782 2.179 2.681 3.055 3.929

13 1.350 1.771 2.160 2.650 3.012 3.852

14 1.345 1.761 2.145 2.624 2.977 3.787

15 1.341 1.753 2.131 2.602 2.947 3.733

16 1.337 1.746 2.120 2.583 2.921 3.686

17 1.333 1.740 2.110 2.567 2.898 3.646

18 1.330 1.734 2.101 2.552 2.878 3.610

19 1.328 1.729 2.093 2.539 2.861 3.579

20 1.325 1.725 2.086 2.528 2.845 3.552

21 1.323 1.721 2.080 2.518 2.831 3.527

22 1.321 1.717 2.074 2.508 2.819 3.505

23 1.319 1.714 2.069 2.500 2.807 3.485

24 1.318 1.711 2.064 2.492 2.797 3.467

25 1.316 1.708 2.060 2.485 2.787 3.450

26 1.315 1.706 2.056 2.479 2.779 3.435

27 1.314 1.703 2.052 2.473 2.771 3.421

28 1.313 1.701 2.048 2.467 2.763 3.408

29 1.311 1.699 2.045 2.462 2.756 3.396

30 1.310 1.697 2.042 2.457 2.750 3.385

40 1.303 1.684 2.021 2.423 2.704 3.307

60 1.296 1.671 2.000 2.390 2.660 3.232

120 1.289 1.658 1.980 2.358 2.617 3.160

240 1.285 1.651 1.970 2.342 2.596 3.125

1.282 1.645 1.960 2.326 2.576 3.090

71

Tabella A – 3. Valori critici della distribuzione del chi-quadrato

g.l α=0.10 α=0.05 α=0.025 α=0.01 α=0.001

1 2.706 3.841 5.024 6.635 10.828

2 4.605 5.991 7.378 9.210 13.816

3 6.251 7.815 9.348 11.345 16.266

4 7.779 9.488 11.143 13.277 18.467

5 9.236 11.070 12.833 15.086 20.515

6 10.645 12.592 14.449 16.812 22.458

7 12.017 14.067 16.013 18.475 24.322

8 13.362 15.507 17.535 20.090 26.125

9 14.684 16.919 19.023 21.666 27.877

10 15.987 18.307 20.483 23.209 29.588

11 17.275 19.675 21.920 24.725 31.264

12 18.549 21.026 23.337 26.217 32.910

13 19.812 22.362 24.736 27.688 34.528

14 21.064 23.685 26.119 29.141 36.123

15 22.307 24.996 27.488 30.578 37.697

16 23.542 26.296 28.845 32.000 39.252

17 24.769 27.587 30.191 33.409 40.790

18 25.989 28.869 31.526 34.805 42.312

19 27.204 30.144 32.852 36.191 43.820

20 28.412 31.410 34.170 37.566 45.315

21 29.615 32.671 35.479 38.932 46.797

22 30.813 33.924 36.781 40.289 48.268

23 32.007 35.172 38.076 41.638 49.728

24 33.196 36.415 39.364 42.980 51.179

25 34.382 37.652 40.646 44.314 52.620

26 35.563 38.885 41.923 45.642 54.052

27 36.741 40.113 43.195 46.963 55.476

28 37.916 41.337 44.461 48.278 56.892

29 39.087 42.557 45.722 49.588 58.301

30 40.256 43.773 46.979 50.892 59.703

31 41.422 44.985 48.232 52.191 61.098

32 42.585 46.194 49.480 53.486 62.487

33 43.745 47.400 50.725 54.776 63.870

34 44.903 48.602 51.966 56.061 65.247

35 46.059 49.802 53.203 57.342 66.619

72

36 47.212 50.998 54.437 58.619 67.985

37 48.363 52.192 55.668 59.893 69.347

38 49.513 53.384 56.896 61.162 70.703

39 50.660 54.572 58.120 62.428 72.055

40 51.805 55.758 59.342 63.691 73.402

50 63.167 67.505 71.420 76.154 86.661

60 74.397 79.082 83.298 88.379 99.607

70 85.527 90.531 95.023 100.425 112.317

80 96.578 101.879 106.629 112.329 124.839

90 107.565 113.145 118.136 124.116 137.208

100 118.498 124.342 129.561 135.807 149.449