120
Università degli Studi di Sassari Facoltà di Agraria DIPARTIMENTO DI SCIENZE ZOOTECNICHE Corso di laurea in Scienze Zootecniche APPUNTI DI STATISTICA Prof. Giuseppe Pulina Variabilità e regolarità sono due leggi di Natura anno accademico 2003/2004

APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

Embed Size (px)

Citation preview

Page 1: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

Università degli Studi di Sassari

Facoltà di Agraria DIPARTIMENTO DI SCIENZE ZOOTECNICHE

Corso di laurea in Scienze Zootecniche

APPUNTI DI STATISTICA

Prof. Giuseppe Pulina

Variabilità e regolarità sono due leggi di Natura

anno accademico 2003/2004

Page 2: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

2

Caso e Necessità La vita è breve ma i conti possono essere molto, molto lunghi. J. Barrow Una fredda mattina di marzo il signor Caso incontrò la signorina Necessità. Appena riconosciutola, egli si esibì in un perfetto inchino, Buongiorno Signorina, che piacere incontrarla, squillò con un largo sorriso. Buongiorno a lei, ribatté ella niente affatto sorpresa, A dirle la verità mi aspettavo questo incontro. Eh, fece con fare ammiccante lui, Da quando la conosco lei ha sempre previsto i nostri incontri che per me restano, mi lasci dire, così sorprendentemente aleatori. Scusi, aggiunse facendosi serio, Dove starebbe il piacere della sorpresa nel vedere un conoscente se tutto fosse sempre rigidamente programmato? La signorina tacque quasi rapita dall'abbigliamento disarmante del suo interlocutore. Per quanto si sforzasse di ricordare, non l'aveva mai visto conciato con un minimo di raziocinio. Le scarpe spaiate facevano letteralmente a botte con la cravatta indossata in barba ai più elementari principi di accostamento dei colori e delle forme. Non solo quest'uomo non ha uno stile ben definito, pensò turbata, Ma semplicemente non ha uno stile. Sinceramente, mi riuscirebbe difficile formulare gli accostamenti strampalati che ogni volta gli ho visto indossare. Da parte sua lei sembrava l'immagine della perfezione. Non un ciuffo fuori posto, non un filo negli abiti, non un colore che non fosse perfettamente intonato con gli altri. Del modo di essere dell’uomo ciò che lei sopportava meno era quel suo vizio di giocare perennemente con una monetina, lanciandola per aria e costernandosi ogni volta per la faccia che questa mostrava nel ricadergli sul palmo della mano. E la smetta un attimo! sbotto. Le ho detto tante volte che mi innervosisce... Scusi, davvero... rispose il signor Caso, riponendo velocemente la moneta nelle ampie tasche del soprabito. Ma anche la sua manìa di giocare a scacchi non appena si trova sotto mano una scacchiera non è meno fastidiosa. Tanto, sa, anche in un gioco così rigorosamente determinato c’è un minimo di casualità. E quale sarebbe? ribatté piccata. Ma la scelta del colore con cui giocare, naturalmente, esattamente come per la faccia della mia moneta. La differenza è che io poi non perdo altro tempo per sapere come va a finire! concluse ridacchiando. La signorina ammutolì. Era inutile continuare a discutere con costui o sarebbe andata come le altre volte, cioè male. Due corvi schioccarono l’aria rincorrendosi fra i tetti. Necessità si scosse da questi pensieri e decise di cambiare discorso, Cosa diceva a proposito dell’incontro? Non ci sarebbe gusto? Lei, nel suo sommo disordine mentale e materiale che io paragono soltanto a quello di cui è capace suo cugino il signor Caos che conosco bene, non capisce che questo mondo funziona soltanto perché siamo capaci di formulare previsioni certe circa il futuro. Cosa succederebbe se dato un appuntamento ci si scordasse sistematicamente ora e luogo da parte dei convenienti? Sarebbe il caos, appunto, concluse mentre scorgeva un'ombra sinceramente interrogativa sul volto di lui. Ah, mi scusi, aggiunse, Dimenticavo che lei non rispetta mai un appuntamento, ma si sa che lei è un gran smemorato... Il silenzio si impadronì della strada, mentre un grappolo di nuvole nere frastagliava il cielo in sprazzi di sole e di piovaschi. I due camminarono per un lungo tratto in silenzio riparandosi sotto i balconi per sfuggire agli improvvisi scrosci di pioggia. La signorina Necessità prese l'uomo sottobraccio, quasi per proteggersi dalle improvvise intemperie, e lui la vide per la prima volta, bellissima nella sua perfezione e, quasi, si vergognò del suo aspetto vagamente trasandato. Gli vennero in mente le parole della madre Alea, Figlio mio, tu hai bisogno di una donna ordinata. Cercala subito, altrimenti finirai come tuo cugino che è tanto disordinato che non gli si avvicina più nessuna ragazza per bene. Avrei bisogno di una donna, sussurrò quasi fra se, e lei, che lo aveva già scelto, gli strinse l'avambraccio. Finirono in un caffè, a raccontarsi due vite diversissime e a capire come potesse vivere uno senza aspettarsi nulla dal futuro e l'altra sapendo esattamente quello che sarebbe successo comunque, ma l'amore unisce gli impossibili e finirono per sposarsi, non senza che lei producesse uno sforzo straordinario anche per averlo all'altare il giorno convenuto. Ebbero una figlia bellissima, alla quale misero il nome di Statistica .

Page 3: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

3

LEZIONE n. 1 LA STATISTICA

1. Cosa é la statistica e a cosa serve.

Uno degli aspetti più rilevanti di un corso di statistica di base é quello di definire in modo

comprensibile l’oggetto dello studio e l’utilizzo dello strumento che si va ad acquisire.

La mancata o imprecisa risposta a queste due domande porta ineluttabilmente da un lato a costruire

una disciplina su un terreno paludoso (la non comprensione dei fondamenti della statistica) e

dall’altro alla disaffezione degli studenti (la non finalizzazione dello studio).

In questo nostro corso dedicheremo molto spazio alla discussione su cosa sia e a cosa serva la

statistica. Innanzitutto cerchiamo di non confondere le due cose: non é sufficiente sapere a cosa

serve un oggetto per sapere che cosa é l’oggetto.

Per questo motivo iniziamo da capo (proprio da capo).

Gli oggetti fondamentali di cui si occupa la statistica sono le entità. Queste sono le cose che

popolano il mondo esterno e il mondo esterno é ciò che é fuori di noi e che possiamo osservare. Di

solito non facciamo distinzioni fra entità che popolano il mondo esterno e quello interno, ma le

entità della nostra mente di solito ci servono per riconoscere quelle del mondo esterno. Il concetto

di entità é appreso di solito nella prima infanzia quando organizziamo gli stimoli che entrano dal

mondo esterno nella nostra testa classificandoli in differenti tipi. Ad esempio, il bambino impara

molto precocemente a conoscere entità che hanno due occhi, un naso, una bocca, dei capelli e che le

entità “madre”, “padre”, “fratello” e altre simili hanno le stesse caratteristiche. Il bambino classifica

così tutte le entità simili per queste caratteristiche nel tipo “persone” e questa capacità di classificare

(riconoscere) entità con tali caratteristiche non lo abbandonerà per tutta la vita. Questo processo é

analogo per tutte le entità e rappresenta il livello più profondo della capacità di apprendimento

dell’uomo (e in parte anche degli animali superiori). Raggruppare le entità entro tipi, infatti,

semplifica enormemente la vita in quanto siamo capaci di riconoscere che tutte le entità

appartenenti allo stesso tipo hanno molte cose (proprietà) in comune.

Le entità non sono solo oggetti (o soggetti) materiali. Possono essere anche manifestazioni di

fenomeni (febbre, file di internet, tempo metereologico, ecc) oppure qualsiasi altra cosa a cui possa

essere attribuito un “nome”.

L’insieme delle entità classificate entro lo stesso “tipo” prende il nome di popolazione. Questo

termine é molto importante: la statistica infatti si occupa non della singola entità, ma dell’insieme

delle entità raggruppate per tipo, cioè della popolazione.

Page 4: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

4

Ma come facciamo a classificare le entità entro le popolazioni?

A ciascuna entità é associato un insieme di proprietà. Ad esempio, a ciascuna persona sono

associate migliaia di proprietà, due delle quali sono “il peso” e “l’altezza”.

Per ogni particolare entità, ciascuna delle sue proprietà ha un valore. Ad esempio, all’entità

Giuseppe Pulina, della popolazione uomini italiani, sono, tra le molte, associati i valori di 176 cm

per la proprietà altezza e di 74 kg per la proprietà peso corporeo. Il valore di una proprietà può

essere espresso in numeri, in parole oppure in simboli. Ad esempio, l’entità succitata G.P. presenta i

valori delle seguenti proprietà: 43 per la misura di scarpe, Sardo per l’appartenenza regionale,

0RH+ per il gruppo sanguigno. Noi possiamo individuare una entità mediante i valori delle sue

proprietà: maggiore é la popolazione per ciascuna proprietà, maggiori sono le proprietà che

dovremo considerare nel processo di individualizzazione di una entità.

I valori delle proprietà delle entità di solito variano da una entità all’altra, ma a volte anche nella

stessa entità con il passare del tempo. Se una proprietà non presenta valori che variano (sono

costanti) essa non é di alcun aiuto nel processo di individualizzazione dell’entità.

Un esempio (semiserio): una monaca si reca a trovare un monaco in un monastero, ma non ricorda

il nome. Il padre portinaio le chiede di descrivere il soggetto per poterlo individuare. La monaca ci

pensa e risponde che veste una tonaca bruna, ma il padre replica che “tutti “ i monaci vestono una

tonaca bruna (proprietà costante)! Allora la monaca aggiunge che il monaco ha una cintura di

corda, ma anche in questo caso non é possibile individuarlo perché tutti i monaci portano cinture

di corda. Anche le altre proprietà via via riportate dalla monaca (capelli tagliati con la chierica,

breviario in mano, barbetta rada sotto il mento) non sono utili, in quanto tutto i monaci presentano

gli stessi valori di queste proprietà. Alla fine, spazientita, la monaca sbotta “ha 28 nei sulla

schiena!!”. A quel punto il padre portinaio si illumina: “Ma é padre Febbraio! Con 28 ce n’é uno,

tutti gli altri ne hanno 31!”.

Questa storiella dimostra che ai fini delle conoscenza (in tal caso anche biblica) é importante che le

proprietà delle entità oggetto di studio siano variabili.

La determinazione del valore delle proprietà viene eseguita mediante rilevazione empirica con gli

“strumenti di misura”. Se lo strumento funziona correttamente, esso ci darà una stima del valore

della proprietà di una determinata entità al tempo della misurazione. Ad esempio se noi volessimo

conoscere il (valore del) peso (proprietà) di una persona (entità), noi applichiamo alla persona uno

strumento di misura del peso (bilancia) e lo strumento ci restituisce il valore che (in kg) rappresenta

la stima del peso della persona. Anche nel caso di proprietà esprimibile come categorie (proprietà

categoriali) si applica uno strumento per ottenere una stima del valore. Ad esempio, nella

“misurazione” del genere di una persona, si applica lo strumento “vista” e, dall’insieme delle

Page 5: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

5

caratteristiche osservabili, si ottiene la risposta “maschio” o “femmina”. Ma anche in questo caso vi

può essere un (seppure remoto) errore, come dimostra una sterminata aneddotica sui travestiti.

La conoscenza scientifica del mondo e la sua applicazione tecnologica, sono basate sulla ricerca

empirica.

La ricerca empirica é ciascuna attività in cui i valori delle proprietà delle entità oggetto di studio,

sono raccolti mediante l’esperienza (esperimento) e le cui conclusioni sono tratte esclusivamente

dai dati raccolti in quell’area di esperienza.

La ricerca empirica usa gli strumenti per determinare i valori delle proprietà. L’insieme dei valori

raccolti per ciascuna proprietà, chiamati anche dati (ossia ciò che é prima di qualsiasi

manipolazione), appartiene ad una variabile. Una variabile é allora definibile come la

rappresentazione formale di una proprietà di entità.

Ad esempio, la proprietà “altezza” delle persone é una variabile detta appunto “variabile altezza”; la

proprietà “genere” di una parte degli esseri viventi é la “variabile genere” (anche se assume solo 2

valori, maschio o femmina); la proprietà “colore della facciata” delle case é la “variabile colore

della facciata delle case” che può assumere infiniti valori nominali (tanti quanti sono i colori e le

loro sfumature).

Le variabili sono costituite da valori: esse sono definite “continue” se possono assumere qualsiasi

valore nel campo della loro esistenza, discrete se possono assumere solo valori discontinui. Ad

esempio, la variabile “altezza di una persona adulta” può assumere qualsiasi valore nel campo della

sua esistenza (da 50 ai 250 cm), ma non il valore di 1000 cm! La variabile “appartenenza regionale

di un italiano” può assumere solo uno dei 20 valori corrispondenti alle regioni d’Italia, ma nessun

valore intermedio. Gli statistici amano denominare variante il “singolo valore” di una variabile: il

dato 176 cm di (misura della ) altezza (proprietà) di Giuseppe Pulina (entità) é una variante della

variabile “altezza”.

Ogni ricerca sperimentale produce dati. I dati possono essere utilizzabili se sono organizzati in

tabelle. Ciascuna riga della tabella é associata con una entità del tipo che stiamo studiando.

Ciascuna colonna della tabella é associata a una proprietà delle entità costituenti la popolazione.

Ad esempio, se stiamo studiando la produzione giornaliera di latte e il contenuto di grasso e

proteine allo scadere del terzo mese di lattazione delle pecore di compare Bastiano (ovini di razza

Sarda), possiamo programmare un esperimento in cui andiamo a rilevare la produzione individuale

di ciascuna mungitura (raccogliamo il latte di ciascuna pecora in un contenitore a tara nota e lo

pesiamo) e preleviamo un campione di latte su cui eseguiamo le analisi chimiche in laboratorio.

Page 6: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

6

Pecora Latte g Grasso % Proteine %

1 1015 6,54 5,18 2 1105 7,44 5,75 3 1365 7,62 5,69 4 1085 8,55 5,42 5 840 7,57 5,77 6 960 5,81 5,26 7 1130 8,34 5,78 8 1185 7,11 6,09 9 1270 6,46 5,16

10 1385 6,59 5,23 11 1545 7,53 5,24 12 1475 6,97 5,34 13 1350 5,98 4,82 14 1145 6,39 5,3 15 1195 7,49 6,04 16 1185 7,4 5,24 17 1000 7,16 6,11 18 795 7,41 6,24 19 1105 8,56 5,69 20 1560 7,76 5,73 21 1340 6,41 5,45 22 1005 8,05 5,04 23 1260 6,43 5,03 24 1035 6,99 5,66 25 1300 7,17 5,46

Possiamo facilmente notare che la popolazione di 25 pecore (il gregge di compare Bastiano) e

definita dalle proprietà produzione di latte, grasso e proteine in % al terzo mese di parto degli

animali.

La tabella ci da una prima visione del fenomeno, ma ci informa anche sul “piano sperimentale”

usato: il piano sperimentale, in questo caso, é consistito nel rilevare le produzioni di latte, grasso e

proteine di ciascuna pecora (vi sembrerà banale, ma vedremo in seguito che non lo é affatto).

A questo punto possiamo dare una risposta alla domanda “a che cosa serva la statistica?”

Lo scopo principale di una ricerca empirica é quello di predire e controllare il valore delle variabili

di determinate entità. Ad esempio, uno degli scopi dell’alimentazione animale é prevedere e

controllare l’ingestione alimentare di una determinata specie e categoria per poter formulare la più

idonea razione alimentare. Ora, l’ingestione, per ciascuna popolazione animale, riflette un insieme

di proprietà (variabili) zootecniche quali il peso corporeo dell’animale, il livello produttivo, la

qualità delle produzioni e altre misure dello stato degli animali. Se si capisce come prevedere e

controllare lo stato degli animali che influenza l’ingestione alimentare, allora possiamo anche

Popolazione di entità

variabili = valori delle proprietà della popolazione

Valori delle proprietà della entità n. 1

Page 7: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

7

formulare razioni alimentari corrette (con risultati notevoli in termini di economia gestione

dell’allevamento e di benessere degli animali allevati).

Una volta giunti al controllo e alla possibilità di prevedere un fenomeno possiamo anche capirlo e

spiegarlo: il primo scopo é proprio della tecnologia, il secondo é proprio della scienza.

Ma, come recita la frase di Peter Van Soest (uno dei massimi esponenti dell’alimentazione animale)

riportata nel sito del nostro Dipartimento, utilizzare senza capire é un’eresia..

La statistica allora é uno strumento per capire, spiegare, controllare e prevedere un fenomeno.

In altri, e definitivi, termini, il principale scopo di una ricerca empirica é quello di scoprire come

prevedere e controllare (con la massima accuratezza possibile) i valori delle variabili (proprietà) di

entità di una popolazione ed essere in grado di spiegare e capire il fenomeno che esse

rappresentano.

2. La relazione fra variabili é la chiave per la previsione ed il controllo di un fenomeno.

Una volta stabilito che il principale scopo della ricerca empirica é quello di controllare e prevedere

il valore delle variabili, dobbiamo ora capire come fare ciò. La risposta é: noi possiamo controllare

e prevedere i valori delle variabili studiando le relazioni fra le variabili.

Nella relazione fra variabili una (detta variabile risposta) dipende da una o da più altre variabili

(dette variabili predittrici). Tutta la statistica “gira” intorno a questa semplice idea: trovare (se

esistono) le relazioni fra le variabili che stiamo studiando.

Ma cosa significa “relazione fra variabili?”. Una semplice risposta è: esiste una relazione se la

variabile dipendente si muove in accordo (cresce o decresce al crescere o decrescere) con la (le)

variabile(i) predittrice(i). La variabile predittrice é anche chiamata “variabile indipendente” mentre

quella risposta é anche detta variabile dipendente. In matematica la prima é anche contrassegnata

con la lettera y, e le seconde con la lettera x (x1, x2,x3, ecc..).

Riprendiamo l’esempio delle pecore di compare Bastiano. Esiste una relazione fra produzione di

latte e contenuto in grasso o in proteine del latte?

Per capirlo iniziamo a disporre i dati su un piano cartesiano. La variabile “grasso” e quella

“proteina” sono entrambi “risposta” e il latte é “predittrice”. In questo caso, ciascuna coppia di dati

(latte/grasso e latte/proteine) ha una coppia di valori associati a ciascuna entità. Ogni pecora, infatti

é identificata da due valori di tale coppia (la pecora 1, ad esempio, ha prodotto 1015 g/d di latte con

il 6,54% di grasso ed il 5,18% di proteine).

Vediamo ora i grafici che ne derivano.

Page 8: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

8

Vediamo subito che per il grasso non c’é una “tendenza” evidente, mentre per le proteine possiamo

scorgere una leggera tendenza di queste a diminuire quando il latte aumenta.

Quando siamo interessati allo studio delle relazioni fra le variabili di solito non tendiamo a

sottoporre a misura tutte le entità della popolazione perché ciò può essere impossibile o comportare

Relazione fra produzione e grasso delle pecore di Bustiano

55,5

66,5

77,5

88,5

9

500 700 900 1100 1300 1500 1700

Produzione di latte (g/d)

Con

tenu

to d

i gra

sso

(%)

Relazione fra produzione e proteine delle pecore di Bustiano

4

4,5

5

5,5

6

6,5

500 700 900 1100 1300 1500 1700

Produzione di latte (g/d)

Con

tenu

to d

i pro

tein

e (%

)

Page 9: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

9

enormi spese (ricordiamo SEMPRE che la rilevazione di un dato ha un costo e più dati raccogliamo

più spese sosteniamo). Per questo motivo i ricercatori sottopongono a studio una porzione della

popolazione chiamata campione che varia in entità da un minimo di 6 ad un massimo di 2000 unità.

Tuttavia, per quanto riguarda la variabile altezza della popolazione di italiani, esiste una notevole

eccezione. Infatti l’altezza dei maschi italiani é nota per (quasi) tutta la popolazione attraverso la

misurazione effettuata con la visita della leva militare, mentre per le donne questa variabile può

essere rilevata solo su un (per quanto ampio) campione. Lo scopo dei ricercatori é allora quello di

generalizzare quanto osservato sul campione alla popolazione a cui il campione appartiene

(popolazione target).

Affinché la generalizzazione sia valida, cioè perché il controllo e la predizione del comportamento

della variabile studiata possa essere esteso all’intera popolazione, il campione impiegato per

eseguire le misure deve essere rappresentativo della popolazione stessa.

Per assicurasi che il campione sia rappresentativo occorre tenere presenti due aspetti: esso deve

essere casuale (esso può potenzialmente contenere “ogni” entità della popolazione) e deve essere

numericamente consistente.

Esportare alla popolazione le conclusioni che traiamo su un campione é detto, in linguaggio

statistico, compiere una inferenza dal campione alla popolazione. Ad esempio, se tentassimo di

generalizzare le osservazioni compiute sulle pecore di compare Bastiano all’intera popolazione

delle pecore di razza Sarda (4 milioni di capi) dovremo tenere conto che si tratta innanzitutto di un

campione non casuale (nel campione non possono capitare per caso le pecore di zio Pasquale, o di

cugino Giacomo) e numericamente molto ridotto (solo 25 pecore).

Quando non sono osservate queste due condizioni, il campione é detto non rappresentativo e le

stime che si fanno su esso sono distorte, valgono cioè solo per il campione e non possono essere

estese, se non con molta cautela, alla popolazione. Le tecniche statistiche, se applicate

correttamente (cioé ad un campione “buono” della popolazione) ci rivelano con quale “fiducia”

possiamo estendere le stime ottenute sul campione (stime campionarie) alla popolazione a cui il

campione appartiene: questo aspetto é denominato dagli statistici accuratezza della stima e può

essere misurato. La gran parte del nostro corso sarà impiegata ai problemi della stima e della sua

accuratezza.

In definitiva, la statistica ci aiuta a studiare una variabile e i suoi rapporti con altre variabili in un

campione di una popolazione al fine di estendere i risultati ottenuti dal campione (stime

campionarie) all’intera popolazione con un certo grado di accuratezza.

Arrivati a questo punto, tentiamo di riassumere: se qualche passaggio non vi é chiaro, tornate

indietro e cercate di capirlo prima di proseguire.

Page 10: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

10

Dunque: la statistica si occupa di entità, in buona sostanza di tutto ciò le cui proprietà possono

essere misurabili in qualche modo. Le misure delle proprietà sono i valori i quali, se variano fra una

entità ed un’altra, costituiscono una variabile. La statistica studia le variabili per controllare e

predire il loro comportamento e per spiegare e capire il fenomeno rappresentato dalle entità

studiate. Lo scopo della ricerca empirica é ottenere delle informazioni da una variabile (stime) e

studiare le relazioni fra le variabili. Normalmente i dati sono raccolti su una parte della

popolazione che é detta campione. Le stime ottenute sul campione possono essere estese alla

popolazione con il procedimento dell’inferenza. Esse sono affidabili solo se il campione é

rappresentativo della popolazione target, altrimenti sono distorte.

Siamo giunti ,infine, a poter formulare una risposta alla seconda: cosa é la statistica?

La Statistica é un set di tecniche generali ottimali che aiutano i ricercatori empirici nello studio

delle variabili e delle relazioni fra variabili di campioni di entità, principalmente come mezzo per

prevedere accuratamente e controllare i valori delle variabili (proprietà) nelle entità delle

popolazioni (D. Macnaughton).

Page 11: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

11

Lezione n. 2

PROBABILITA’

1. Perché ci interessa la probabilità

In ogni corso di statistica che si rispetti, ad un certo punto compare la probabilità. In molti casi é un

argomento che é trattato all’inizio del corso come propedeutico agli altri, in altri costituisce uno dei

capitoli principali di studio. Quale aspetto lega il calcolo delle probabilità con lo studio delle

variabili così come descritte nella lezione precedente?

Diamo subito una prima risposta: poiché una variabile (insieme di dati della proprietà di una

entità) può assumere diversi valori, tali valori possono essere raggruppati in classi di frequenza

relativa (le volte che i valori della variabile ricadono in quella classe) e la frequenza con cui una

determinata classe di valori compare nella variabile segnala la probabilità con cui posso trovare tale

valore nel campione (o nella popolazione) che ho in studio.

Il calcolo delle probabilità nacque circa tre secoli fa per analizzare certe situazioni inerenti al gioco

d’azzardo.

Attualmente è una delle discipline più diffuse negli insegnamenti universitari e trova molte

applicazioni nelle scienze biologiche, mediche, fisiche, sociali. Tra le applicazioni a noi più vicine

possiamo ricordare la valutazione dei risultati di esperimenti condotti su un campione di animali (

esperimenti di alimentazione, di tecnica di allevamento, ecc..); la previsione dell’andamento di un

fenomeno legato alla biologia degli animali quale la curva di lattazione o la curva di accrescimento,

lo studio delle relazioni fra i caratteri misurabili direttamente sugli animali (fenotipi) ed il loro

determinismo genetico (genotipi), lo studio delle modalità con cui si diffonde una infezione o una

parassitosi fra gli animali (epidemiologia).

In genere, il calcolo delle probabilità rappresenta lo strumento che consente di rendere razionale il

comportamento dell’uomo di fronte all’incertezza. Esso viene infatti applicato in tutte quelle

situazioni in cui gli sviluppi di un dato fenomeno non sono euristicamente prevedibili oppure

quando occorre prendere decisioni in base ad ipotesi riguardanti eventi futuri.

Page 12: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

12

2. La definizione classica di probabilità

Se mescoliamo un mazzo da 52 carte e ne estraiamo 1, stiamo facendo una scelta casuale. Nessuna

delle 52 carte ha (teoricamente = secondo un ragionamento) una probabilità maggiore rispetto alle

altre di essere scelta. Un esperimento casuale dà origine a più risultati e quindi a più eventi casuali.

Un evento casuale può essere:

♦ Certo: è il caso dell’estrazione da un’urna piena di palline nere una pallina nera

♦ Impossibile: è il caso dell’estrazione da un’urna che contiene solo palline nere una pallina

bianca

♦ Possibile: è il caso dell’estrazione da un’urna piena di palline bianche e nere di una pallina

bianca.

Tutti gli eventi possibili costituiscono lo spazio campionario: nel lancio di un dado gli eventi

possibili sono 6, per cui lo spazio campionario è composto da 6 eventi.

La probabilità associata ad un evento esprime il grado di aspettativa circa il suo verificarsi e può

essere espresso da un numero compreso tra zero ed uno:

10 ≤≤ p

Ciò porta alla definizione classica di probabilità: la probabilità di un evento è il rapporto tra il

numero di eventi favorevoli e il numero di casi possibili all’evento, purchè tutti i casi siano

equamente possibili: possibili casi di numero

favorevoli casi di numero=p

Nel caso del lancio di un dado, la probabilità che esca 4 è 61

=p perché in un lancio il 4 può uscire

solo una volta ed il numero di casi possibili sono 6.

Esempio: un’urna contiene due palline bianche, tre rosse e due nere. Qual è la probabilità di estrarre

al primo tentativo una pallina bianca?

I casi possibili sono 7 mentre quelli favorevoli sono 2. La probabilità sarà:

%2828.072

≈≈= pp cioè

Page 13: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

13

3. La definizione frequentista di probabilità

Come é possibile osservare, nel caso della definizione classica, la probabilità é definita a priori (=

prima di aver eseguito gli esperimenti) come caso favorevoli sul totale dei casi possibili. Tale

definizione deriva dalla conoscenza delle modalità con cui lavora la machina del caso con cui

stiamo lavorando. Infatti, se utilizziamo come macchina del caso il “dado” e il dado non é truccato,

non vi é alcun motivo razionale per ritenere che ad un lancio una faccia “debba” prevalere sulle

altre: infatti, la definizione di dado truccato é proprio quella di un oggetto “dado” in cui dopo un

grande numero di lanci una faccia “esce” con maggiore frequenza delle altre! Ribadisco questo

concetto: nella probabilità classica gli eventi favorevoli sui totali sono conosciuti “a priori” e

derivano dalle modalità di costruzione della “macchina del caso”.

Tuttavia, nel campo delle scienze empiriche, questa definizione non é impiegabile in quanto non

abbiamo a disposizione una macchina del caso le cui modalità di estrazione siano conosciute a

priori. Possiamo conoscere i modi con cui la nostra macchina lavora se e solo se conduciamo una

serie di esperimenti, analizziamo i dati e associamo a ciascuna modalità di presentazione della

variabile una probabilità. Questa scelta (obbligata) é detta scelta “frequentista” nel senso che noi

associamo la probabilità di un evento alla frequenza con cui tale evento si verifica

sperimentalmente.

La nostra definizione “operativa” di probabilità é allora la seguente:

La probabilità di un evento A, P(A), è il numero di volte in cui si verifica l’evento A (nA) sul

numero totale di volte in cui l’esperimento é ripetuto (n) quando il numero totale tende all’infinito

P(A) = nAn

n

)(lim∞→

Secondo la nostra definizione empirica allora, definita la frequenza di a f(A) il rapporto fra casi

positivi (A) e casi possibili (N), in un esperimento con un gran numero di casi, probabilità e

frequenza coincidono: in termini tecnici, probabilità e frequenza di un evento coincidono

asintoticamente.

Utilizziamo come esempio, il genere dei nati della specie bovina (é un esempio analogo a quello del

lancio della moneta). Noi sappiamo che la macchina del caso é costituita dalla meiosi che segrega

nelle cellule germinali maschili e demminili la metà del corredo cromosomico (diploide) posseduto

Page 14: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

14

dai genitori. Poiché il sesso é determinato dalla presenza del cromosoma Y (in questo caso, il sesso

eterogametico é il maschio con YX, mentre la femmina é omeogametica XX), é la macchina del

caso costituita dalla meiosi paterna necessaria alla produzione dei nemaspermi che determina la

presenza del cromosoma Y. Poiché la separazione dei cromosomi sessuali é casuale, metà dei

nemaspermi possederà il cromosoma Y e metà quello X. Gli oociti materni possiedono solo il

cromosoma X e la loro fecondazione può avvenire indipendentemente con spermi che portano Y o

X. Essendoci numerosissimi spermi in gioco nella fecondazione (alcuni miliardi), la probabilità che

l’oocita sia fecondato con uno spermio portatore Y o X é del 50%, per cui il futuro nato potrà essere

maschio o femmina con una probabilità teorica del 50%. In effetti, se osserviamo la serie delle

nascite avvenute nella popolazione bovina in una annata possiamo verificare che questo

meccanismo effettivamente lavora così.

Prendiamo la carriera riproduttiva di 100 vacche.

vacca n. vitello 1 parto vitello 2 parto vitello 3 parto vitello 4 parto femmine maschi

1 f m m f 2 22 f m m m 1 33 m m f m 1 34 m m f m 1 35 m f f m 2 26 m f m m 1 37 m f f f 3 18 m m f f 2 29 m m m m 0 410 f f f f 4 011 f m m m 1 312 m m m m 0 413 f m m f 2 214 m m m f 1 315 m f m m 1 316 f m f f 3 117 f f m m 2 218 m f f f 3 119 f m m m 1 320 m f m f 2 221 m f m m 1 322 f f m f 3 123 m f f m 2 224 f f m m 2 225 f f m m 2 226 m f m m 1 327 f m f f 3 128 m m m f 1 329 f m m m 1 330 m m f m 1 331 m m m m 0 432 f m f m 2 2

Page 15: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

15

33 m m m m 0 434 f m f m 2 235 m m m m 0 436 m f m m 1 337 m f m m 1 338 m f f f 3 139 m m f m 1 340 m f m f 2 241 m m f f 2 242 m m f m 1 343 m m m m 0 444 m m f m 1 345 m m f m 1 346 m m m m 0 447 m f m m 1 348 m m m f 1 349 f m f f 3 150 m f f m 2 251 f m f f 3 152 f f m f 3 153 f f m m 2 254 m m m m 0 455 f m m f 2 256 m f m f 2 257 f m f m 2 258 f f m m 2 259 f f m f 3 160 f m m m 1 361 f f f m 3 162 f m f f 3 163 f f m f 3 164 m m m f 1 365 f f m m 2 266 m f m m 1 367 m f m f 2 268 m f m f 2 269 m f m m 1 370 f f m f 3 171 m f f f 3 172 f f m m 2 273 f f m f 3 174 f f f f 4 075 m f f f 3 176 f m f m 2 277 f f m m 2 278 f f f m 3 179 f f f m 3 180 m m m m 0 481 f f f f 4 082 f f m m 2 283 f f m f 3 184 f m f m 2 285 m f m f 2 286 m m m f 1 387 m f f m 2 288 m m m m 0 489 f f f m 3 1

Page 16: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

16

90 f m f m 2 291 f f f m 3 192 f m f m 2 293 m f f m 2 294 f f f f 4 095 m f m f 2 296 m m m f 1 397 m m m m 0 498 m m f f 2 299 f f f f 4 0

100 m f m f 2 2

f = 46 53 42 42 183 217m = 54 47 58 58

Per ciascun parto (1°, 2°, 3° e 4°) i maschi e le femmine sono risultati circa la metà. Anche nel

complesso il 45,7% del totale sono risultate femmine. Impareremo come testare l’ipotesi che il

valore “vero” del rapporto riproduttivo dei sessi alla nascita sia del 50% in una lezione successiva.

Per ora accontentiamoci di osservare che la frequenza osservata dell’evento “femmina” é

abbastanza vicina a quella teorica dovuta al funzionamento della macchina del caso “riproduzione”.

4. Alcune proprietà delle probabilità.

Abbiamo detto che la probabilità dei un evento é la frequenza con cui tale evento capita su tutti i

possibili. Ne deriva che la somma degli eventi possibili é il 100% per cui la somma delle probabilità

di eventi indipendenti appartenenti allo stesso spazio campionario è =1. Ad esempio, data la

probabilità che in un dado esca una faccia é 1/6, avendo il dado 6 facce (n. eventi possibili) la

somma delle probabilità è (1/6) + (1/6)+(1/6)+(1/6)+(1/6)+(1/6) = 1; in formula

P(A1) + P(A2) + P(A3))+....+ P(An) = 1

infatti, se:

P(A1) = ;)()()(

)(321

1

AnAnAnAn

++ P(A2) = ;

)()()()(

321

2

AnAnAnAn

++P(A3)= ;

)()()()(

321

3

AnAnAnAn

++

la somma delle probabilità é uguale a 1, anche se le singole probabilità sono diverse.

Da ciò deriva che, con eventi mutuamente escludenti, se P(A1) è la probabilità di A1, la probabilità

che A1 non si verifichi, P(non A1) é data dalla:

Page 17: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

17

P(non A1) = 1- P(A1)

Probabilità di eventi indipendenti.

Due (o più) eventi sono detti indipendenti se il verificarsi di uno non influenza in nessun modo il

verificarsi dell’altro. Ad esempio, la successione dei parti nelle vacche della tabella precedente é

considerata un insieme di eventi indipendente in quanto il verificarsi del primo non incide in nessun

modo sul determinismo del secondo o del terzo, e così via. Quale é la probabilità che due eventi

indipendenti si manifestino assieme? Contiamo ad esempio quante volte si é verificato nei primi 2

parti l’evento maschio+maschio, maschio+femmina, femmina+femmina: il risultato é che abbiamo

osservato 27 m+m, 26 f+f e 47 m+f.

La probabilità che due eventi indipendenti non mutualmente escludenti si verifichino assieme é

data dal prodotto delle loro singole probabilità:

P(A eB) = P(A)*P(B)

Nel nostro esempio, la probabilità teorica che in due parti consecutivi abbia entrambi maschi (o

entrambi femmine) é data

0,5 * 0,5 = 0,25

Quella di avere un maschio e una femmina é dello 0,5 (in quanto non importa se sia nato prima il

maschio o la femmina, essendo per ciascuna successione m+f = 0,25; f+m = 0,25). In ogni caso le

probabilità cumulate hanno quale risultato 1. Nel caso pratico, le frequenze osservate non si

discostano da quelle teoriche: infatti abbiamo osservato che P(m+m) = 0,27, P(f+f) = 0,26 e P(m+f)

= 0,47 e la somma anche in questo caso fa 1.

Nel caso in cui volessi trovare una probabilità combinata di due eventi indipendenti che si

escludono mutualmente dovremo impiegare la somma delle singole probabilità. Ad esempio,

sappiamo che il mantello (= coloro esterno) della razza Frisona italiana é normalmente pezzato

nero, ma in casi limitati (= 5%) può anche essere pezzato rosso. Sono interessato a conoscere la

probabilità, su 100 parti, di avere o un maschio (primo evento indipendente) o una femmina pezzata

rossa. La probabilità di avere un maschio é dello 0,5, quello di avere una femmina pezzata rossa é

dello 0,5*0,05=0,025. La probabilità di ottenere un animale alla nascita delle caratteristiche

desiderate é pertanto 0,5 + 0,025 = 0,525. In generale, con eventi escludentisi mutuamente

Page 18: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

18

P(A o B) = P(A) + P(B)

Nel caso in cui volessimo trovare invece la probabilità combinata di eventi non escludentisi

mutuamente dobbiamo tenere conto di un fatto. Riprendendo il nostro esempio, se fossi interessato

alla nascita di un animale maschio o a un animale pezzato rosso (compresi i maschi) se impiegassi

la formula sudetta conterei i maschi rossi 2 volte (la prima come maschi e la seconda come maschi

rossi). Allora dalla formula devo togliere i maschi rossi che hanno una frequenza uguale a quella

delle femmine rosse (0,025). In formula

P(A o B) = P(A) + P(B) – P(A)*P(B)

Questa é la formula da utilizzare sempre. Infatti, quella precedente si riduce a questa quando gli

eventi si escludono mutalmente (non c’é nessuna femmina rossa fra i maschi!) per cui il prodotto

delle probabilità è = 0 (la probabilità femmina rossa nei maschi = 0).

Diamo ora un ultimo accenno alla probabilità condizionata. Diciamo che esiste una probabilità

condizionata quando vogliamo sapere quale probabilità ha un evento congiunto di accadere

conosciuta la probabilità di uno degli eventi condizionanti. Ad esempio, vogliamo sapere, dato il

colore pezzato rosso del mantello di un nato, quanti maschi ci aspettiamo di ottenere. Allora, la

probabilità di ottenere un maschio pezzato rosso é 0,5*0,05 = 0,025. Ma la probabilità che un

animale sia rosso é dello 0,05. Allora 0,025/0,05 = 0,5 che é la probabilità di trovare un maschio

all’interno degli animali pezzati rossi.

In formula

P(A/B) = )(

)(*)(BP

BPAP

Vediamo ora un caso particolare della probabilità condizionata. Se la probabilità che si verifichi A

conoscendo B é la stessa che di verifichi A senza conoscere B, allora i due eventi sono detti

indipendenti. In formula, un evento A é detto indipendente da uno B se

Page 19: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

19

P(A/B) = P(A)

Nel caso del sesso dei vitelli, l’evento sesso al secondo parto é indipendente da quello sesso al

primo parto (B) in quanto la probabilità che nasca un maschio al secondo parto non risente in alcun

modo del fatto che conosco il sesso del vitello del primo parto: infatti, 0,5*0,5/0,5= 0,5!

Page 20: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

20

Appendice (lettura obbligatoria)

Statistica e modelli

Elaborare i dati secondo una determinata procedura significa applicare un modello matematico. Un

modello é la rappresentazione di qualche cosa, ma non é la cosa che rappresenta. La scelta di un

modello é sempre arbitraria e per molti versi pregiudiziale alla sua applicazione. Nel caso dei

modelli statistici, quando trattiamo un insieme di dati ai fini di assumere una decisione

(circoscriviamo un territorio per prevenire un contagio, riteniamo un apparecchio tarato per una

determinata analisi, orientiamo i corsi di aggiornamento in base alle preferenze espresse dai

colleghi, ecc..), siamo consapevoli che la scelta di un modello rispetto ad un altro non é indifferente

relativamente alla responsabilità conseguente agli esiti derivanti da tale scelta. Se le conseguenze di

una scelta possono avere esiti catastrofici (cioè provocare danni ingenti), il modello a cui mi affido

sarà molto conservativo (ad es. nel caso delle diffusione di una zoonosi, elaboro le informazioni a

disposizione in modo tale da rendere operativi comportamenti anche in casi altamente improbabili)

mentre nel caso opposto posso impiegare modelli ad alto rischio (se dispongo di una innovazione

tecnologica da proporre al mercato devo accettare probabilità di fallimento elevate se gli utili che

attendo da tele innovazione possono essere consistenti).

Le variabili statistiche

La statistica lavora con variabili casuali ossia con insiemi numerici o categoriali ordinati secondo

un criterio casuale. Henrì Poicaré (1908, Science e Methode), criticando il punto di vista

deterministico (esposto principalmente da Laplace) secondo cui il caso sarebbe semplicemente “un

nome per la nostra ignoranza”, distingue fra tutti i fenomeni le cui cause ci sono sconosciute, i

fenomeni fortuiti ai quali si applica il calcolo delle probabilità da quelli non fortuiti rispetto ai quali

non possiamo dire assolutamente nulla fin tanto che non conosciamo le leggi che li governano. In

particolare, egli afferma che esistono fenomeni in cui cause molto piccole oppure differenze

irrilevanti nelle condizioni iniziali (tanto piccole da non poter essere registrate) producono

differenze macroscopiche negli esiti finali e in tal caso la previsione diventa impossibile. In base a

questa posizione possiamo inizialmente definire come casuale un fenomeno per il quale non siamo

in grado di formulare previsioni. Questa impossibilità risiede, secondo Poicarè, nella complessità

dei fenomeni che costituisce l’elemento fondante la loro casualità e imprevedibilità. La “casualità

assoluta” o “casualità operazionale” é stata però l’oggetto dell’indagine di von Mises (1939,

Probability, Statistics and Truth) che ha definito una variabile casuale come un insieme numerico

infinito dotato della proprietà della “scelta di posto”. Quest’ultima é tale se é effettuata prima di

Page 21: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

21

conoscere qualsiasi cosa circa il risultato della scelta medesima per cui il principio di casualità di

von Mises é l’indifferenza delle successioni probabilistiche a tutte le scelte di posto che possono

operarsi in esse. Questo principio é espresso anche sotto forma della “impossibilità di un sistema di

gioco”: negli ambienti degli statistici é nota la definizione secondo la quale il cretino é colui che

afferma di aver scoperto un sistema per vincere ad un gioco aleatorio.

Questa scelta operazionista di von Mises rende però praticamente impossibile generare variabili

casuali. Infatti, se la scelta di posto di un elemento é assolutamente indifferente rispetto a ciò che lo

precede e lo segue nella serie, non può esistere una “macchina perfetta del caso” in grado di

produrre un oggetto simile. Infatti, se fossimo in grado di generare insiemi numerici infiniti (ed é

pacifico che non lo siamo..), non saremo in grado comunque di generarli perfettamente casuali.

Ora occorre un passo indietro. Utilizziamo a scopo esemplificativo un esempio numerico ristretto ad

un piccolo insieme. Consideriamo una stringa di dati costituita, mettiamo, da 5 elementi. Diremo

che la stringa é casuale se non esiste alcuna altra possibilità di rappresentazione dei dati che non sia

la stringa stessa. La stringa 2-4-6-8-10 non é casuale perchè rappresenta i primi 5 numeri pari ed

essa può essere espansa all’infinito con l’algoritmo 2n, dove n é la serie dei numeri reali interi

positivi. Il processo per cui insiemi numerici (anche infiniti) possono essere contenuti in

rappresentazioni più “economiche” rispetto alla mera ripetizione della serie stessa é detto

comprimibilità algoritmica: una informazione limitata può espandersi in una più grande. Una

stringa numerica é casuale quando é incomprimibile algoritmicamente per cui per poter avere la

completa informazione in essa contenuta dobbiamo scriverla tutta.

Ritornando a von Mises, il suo concetto di casualità non consente la rappresentazione di variabili

“perfettamente casuali”. Non esiste uno strumento di calcolo o un apparato fisico in grado di

generare il caso perfetto: una macchina matematica del caso é sempre costruita dall’uomo ed

essendo conosciuta a priori rende possibile la ricostruzione della serie da essa generata; una

macchina fisica (rumore di fondo del computer, moto browinano, dado di Las Vegas ecc..) é anche

essa non perfettamente simmetrica rispetto alle frequenze di uscita dei singoli dati, per cui nelle

lunghe serie possono essere percepite delle increspature di regolarità che tolgono alla serie stessa il

suo carattere aleatorio. Per tali ragioni e per motivi pratico-applicativi, tutti, scienziati e filosofi,

ormai sono concordi nel ritenere che la statistica applicata lavora con serie pseudo-casuali il cui

comportamento é del tutto soddisfacente dal lato pratico. Oggi le serie pseudoaleatorie, costituite da

numeri da 0 a 9, sono generate al computer a partire da algoritmi basati, ad esempio, sullo scarto fra

due numeri primi o sui decimali successivi di numeri irrazionali oppure su oggetti matematici più

complicati. Le serie di numeri a 2, 3 o più cifre sono costruite a partire da 2, 3 o più serie elementari

accoppiate. Le serie semplici così generate sono poi sottoposte ala analisi di frequenza: sono

Page 22: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

22

giudicate positivamente (cioé possono essere ritenute pseudo-casuali) se la frequenza con la quale

compare ciascuna cifra decimale é 1/10 (nei termini di approssimazione asintotica, cioè come limite

di frequenza relativa in una serie infinita). Le serie pseudo-casuali sono riportate nelle cosiddette

“tavole dei numeri casuali” o “tavole randomizzate” stampate a corredo dei manuali di statistica.

Questi strumenti, come vedremo, sono molto utili nella pratica del campionamento. Anche un

foglio di calcolo comunemente impiegato, quale Excell, può generare numeri casuali. La funzione

da evocare é CASUALE(); nella cella definita il programma genera un numero casuale fra 0 e 1. Per

fare ciò i software che dispongono di tale opzione utilizzano il cosiddetto "rumore bianco” del

computer.

Le variabili statistiche sono costituite da dati. Il dato é quanto é presente nella conoscenza prima

che essa vi applichi i suoi processi logici o di interpretazione. Dato si oppone di solito a costruito,

anche se alcuni costrutti possono essere a loro volta considerati dati da elaborare successivamente.

Nel caso delle scienze della vita, il dato rappresenta la misurazione fondamentale della realtà

fenomenica oggetto di studio. Qualora fossimo interessati ad una variabile che descrive una

proprietà dell’oggetto della nostra indagine (altezza, peso, età, numero di colonie batteriche, ecc..) il

dato é anche chiamato variante, per cui le variabili sono costituite da varianti.

Ciascuna unità sperimentale può essere definita da più proprietà simultaneamente e ciascuna

proprietà é codificabile con una variabile. Ciascuna variabile definisce una dimensione dello spazio

statistico, per cui, se descrivo l’individuo per tre proprietà (peso corporeo, altezza, età = tre

variabili) esso sarà definito nello spazio a 3 dimensioni da 3 coordinate I≡(p; a; e). Consideriamo 4

individui:

individuo peso (kg) altezza (cm) età (anni)

1 56 160 25

2 62 172 41

3 15 100 6

4 78 173 47

il primo individuo avrà queste coordinate I1 ≡ (56; 160; 25) e sarà rappresentabile, assieme agli

altri, da punti nello spazio nel modo seguente.

Page 23: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

23

L’insieme degli individui può raggrupparsi in una o più cluster in dipendenza della loro

somiglianza. Se due delle tre variabili sono collegate fra loro (peso e altezza ad esempio lo sono) il

grappolo assume una gibbosità orientata nel senso degli assi delle due variabili. La forma assunta

dal grappolo rappresenta il legame fra le variabili che tanto é maggiore tanto genera una gibbosità

rilevante nella nuvola dei punti.

Le variabili che descrivono l’oggetto dello studio possono essere più di tre. In tal caso, pur non

essendo rappresentabili graficamente, esse generano spazi di 4, 5... n dimensioni chiamati iperspazi.

Ad esempio, se in una indagine per verificare la preferenza dei consumatori assumo sui singoli

intervistati 10 informazioni (età, scolarità, preferenze culturali, abitudini alimentari, ecc...) il mio

spazio statistico sarà definito da un iperspazio a 10 dimensioni, ciascuna rappresentante una delle

variabili che mi interessano ai fini della indagine.

peso

altezza

età

. . . . .

Page 24: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

24

Un aspetto pratico legato all’impiego dei dati nella elaborazione statistica é il problema della

precisione decimale. Se é evidente a tutti che la media dei nati per donna fertile italiana nel 2001

può essere di 1,21 senza significare con ciò che a ciascuna donna nascono 1,21 bambini, é

altrettanto vero che se la precisione di misurazione dell’altezza negli uomini é dell’ordine del cm,

ossia rileviamo i dati arrotondati al centimetro, l’espressione dell’altezza media con un

arrotondamento al secondo decimale di centimetro (decimo di millimetro) non ha significato e

rappresenta una finzione aritmetica. E’ buona norma pratica impiegare per la media lo stesso

arrotondamento utilizzato per la rilevazione della variabile o al massimo un ordine di grandezza

inferiore qualora sia ritenuto necessario per meglio esprimere le misure. Un altro aspetto pratico é

dato dalla risoluzione impiegata nella elaborazione. Se impiego valori numerici molto grandi devo

aspettarmi problemi di arrotondamento numerico dovuti al fatto che i software di elaborazione

impiegano algoritmi di calcolo matriciale in cui un passaggio obbligato é l’inversa di una matrice

data. Quando si inverte una matrice (se é invertibile ossia non singolare) valori molto grandi

possono originare valori molto piccoli e il computer taglia ad un predeterminato decimale

(normalmente il 16°) escludendo i successivi decimali necessari per rendere lo stimatore statistico

calcolato più “robusto”. In tal caso é consigliabile impiegare uno “scaling” appropriato. Ad

esempio, nel caso di produzione di latte per lattazione in pecore é meglio impiegare i kg al posto dei

grammi (213 kg vs 213.000 g) mentre per la produzione giornaliera é meglio utilizzare i grammi.

Con numeri grandi possono essere utilizzati i sistemi di notazione esponenziale: 123.456.789, può

essere espresso come 123,456789 x 106. In questo ultimo caso occorre che anche il software sia in

grado di riconoscere la notazione ed impiegarla per i calcoli dei quadrati. Approfondiremo questo

argomento in seguito.

Page 25: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

25

Lezione n. 3

STATISTICA DESCRITTIVA

1. Prima di tutto, guardare i dati (EDA = exploratory data analysis)

Una volta raccolti i dati relativi alla variabile (o alle variabili) che abbiamo intenzione di studiare, la

prima azione da compiere é quella di guardare i dati. La tecnica che ci aiuta in questo

importantissimo passaggio, preliminare a tutte le altre analisi statistiche, é detta EDA (exploratory

data analysis) e si compie con l’ausilio di un computer. Infatti, anche l’occhio più esercitato

difficilmente riesce a cogliere le tendenze insite in serie numeriche di elevata consistenza; una

persona normale di solito non riesce a dominare con l’intuito più di 10-15 dati per volta.

L’EDA é una procedura di “classificazione” dei dati finalizzata ad una prima verifica della presenza

di un andamento nei dati stessi. I dati relativi ad una variabile campionaria (= del campione in

esame) possono essere sottoposti a EDA “da soli” (in tal caso si compie una EDA univariata =

relativa a una sola variabile), oppure in relazione ad un’altra variabile ( EDA bivariata = relativa a

due variabili). Se le variabili messe in relazione sono più di due, l’EDA é detta multivariata.

Approfondiamo per il momento sono l’EDA univariata e rimandiamo le altre due alla lezione

relativa alla regressione.

Prendiamo in esame una delle variabili riportate nella lezione n. 1: la produzione giornaliera di latte

di un campione di pecore Sarde:

Page 26: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

26

Pecora Latte g

1 10152 11053 13654 10855 8406 9607 11308 11859 1270

10 138511 154512 147513 135014 114515 119516 118517 100018 79519 110520 156021 134022 100523 126024 103525 1300

Ripartiamo ora i dati in classi di ampiezza (= classifichiamo i dati). Prima di tutto dobbiamo

definire il numero di classi: in genere con 10-15 dati, usiamo 4-5 classi, ma con data-set (insiemi di

dati) molto numerosi, il numero di classi non eccede mai le 15-20.

Un metodo di calcolo per orientare il ricercatore sul numero di classi (C) é stato proposto da Sturges

e si basa sul n. di osservazioni (N)

C N= + ⋅1 103 10log ( )

Nel nostro caso N = 25, per cui C = 5,56 ≈ 6.

Una volta stabilito il numero delle classi, occorre calcolare l’intervallo di variabilità, dato dalla

differenza fra il valore minimo e quello massimo. Nel nostro caso il valore massimo é 1560 g,

quello minimo 796 g e l’intervallo di variabilità 765 g. L’intervallo di classe é dato allora da 765/ 6

= 127,5 g. Sommiamo questo valore al minimo (796 + 127,5) e poi di nuovo a quello ottenuto

Page 27: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

27

(922,5 + 127,5) e così via fino ad ottenere le 6 classi volute (se il conto é corretto, dovremo avere

l’ultimo valore pari a quello massimo).

Con l’opzione “strumenti/analisi dati/ istogramma” di Excell, costruiamo prima la tabella e poi il

grafico:

Classe Frequenza

% cumulativ

a 922,5 2 8,00%1050 5 28,00%

1177,5 5 48,00%1305 6 72,00%

1432,5 4 88,00%1560 3 100,00%

Altro 0 100,00%

In ciascuna classe compare la frequenza assoluta (= numero di volte che il valore della variabile ha

un valore compreso fra il minimo e il massimo della classe) e quella relativa (frequenza assoluta

diviso il totale delle osservazioni). Tabella e grafico riportano anche la “frequenza relativa

cumulata” cioè la somma delle singole frequenze relative al crescere del valore delle classi. Nel

caso del grafico realizzato con Excell, il valore delle classi riportato nella figura va inteso come il

Istogramma

0

1

2

3

4

5

6

7

922,5 1050 1177,5 1305 1432,5 1560 Altro

Classe

Freq

uenz

a

,00%

20,00%

40,00%

60,00%

80,00%

100,00%

120,00%

Page 28: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

28

limite massimo di classe! Il software Minitab, invece, riporta la classificazione con il valore

centrale della classe:

Minitab, inoltre, “decide” il numero di classi da impostare: in questo caso sono 9 (ma, come si vede,

la classe 900 é vuota!).

Questo tipo di istogramma é denominato “istogramma delle frequenze”.

Due considerazioni:

1) da quanto detto nella lezione 2, noi adottiamo un approccio frequentista alla probabilità, per cui

le frequenze relative rappresentano per noi la probabilità di trovare “per caso” un valore di

produzione incluso in quella classe;

2) la distribuzione presenta una forma. Se tutte le classi fossero state uguali, saremo di fronte ad un

fenomeno completamente casuale: tutti i valori hanno la stessa probabilità di essere estratti a

caso. Le classi centrali tendono ad essere più frequentate di quelle laterali. In altre parole, c’è

una tendenza del fenomeno ad aggregassi intorno al valore centrale, ossia più i valori di

avvicinano al centro della distribuzione, più sono probabili!

Vediamo ora cosa succede se, invece di 25 dati, osservo la distribuzione di 4500 produzioni

giornaliere di pecore della razza Valle del Belice.

800 900 1000 1100 1200 1300 1400 1500 1600

0

1

2

3

4

5

Latte g

Freq

uenc

y

Histogram of Latte g

Page 29: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

29

Minitab suddivide il campione in mole più classi e la tendenza delle frequenze ad addensarsi attorno

ai valori centrali é molto più marcata. Questa distribuzione si approssima ad una curva continua,

denominata distribuzione normale della quale diamo una rappresentazione sovrapposta ad

diagramma precedente

0 500 1000 1500 2000 2500

0

100

200

PG

Freq

uenc

y

Histogram of PG

Page 30: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

30

Riprenderemo questo argomento in seguito.

Vediamo ora cosa succede nel caso di una variabile “categoriale” quale la serie testa/croce del

lancio contemporaneo di una serie di monete. Nel caso di due monete lanciate

contemporaneamente, abbiamo visto che le probabilità degli eventi TT, TC e CC, sono

rispettivamente del 0,25, 0,50 e 0,25.

Vediamo ora cosa succede se andiamo al lancio contemporaneo di 10 monete. Le probabilità di

ottenere gli 11 risultati possibili sono le seguenti:

10T 0,000977 9T1C 0,009766 8T2C 0,043945 7T3C 0,117188 6T4C 0,205078 5T5C 0,246094 4T6C 0,205078 3T7C 0,117188 2T8C 0,043945 1T9C 0,009766 10C 0,000977

0 500 1000 1500 2000 2500

0

100

200

PG

Freq

uenc

yHistogram of PG, with Normal Curve

Page 31: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

31

Il diagramma delle frequenze é il seguente:

E’ possibile osservare che le maggiori frequenze sono addensate intorno alle classi centrali: anche

in questo caso con un numero di monete “molto alto” e con un numero di eventi “molto alto”, la

tendenza della curva é verso una curva normale.

La distribuzione vista in questo caso é detta “distribuzione binomiale” (= in quanto risulta dallo

sviluppo del binomio (p(a) + q(b))n), in qui p + q = 1.

Questo risultato deriva dall’applicazione della relazione vista nella precedente lezione:

P(A e B) = P(A)*P(B)

Esaminiamo il caso della serie di 4 parti nelle vacche da latte riportato in lezione 2.

Si tratta di eventi indipendenti, ciascuno dei quali ha una p = 0,5. Abbiamo ottenuto il seguente

risultato:

4 maschi 0 femmina 11 (0,11, come frequenza relativa)

3 maschi 1 femmina 27 (0,27)

2 maschi 2 femmine 34 (0,34)

1 maschio 3 femmine 23 (0,23)

0 maschi 4 femmine 5 (0,05)

Le frequenze teoriche si ricavano dallo sviluppo del binomio [p(M) + q(F)]2

Distribuzione delle teste e croci in 10 lanci di 10 monete

0

0,05

0,1

0,15

0,2

0,25

0,3

10T 9T1C 8T2C 7T3C 6T4C 5T5C 4T6C 3T7C 2T8C 1T9C 10C

eventi (T = testa; C = croce)

freq

uenz

e

Page 32: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

32

Per trovare i coefficienti si impiega il triangolo di Tartaglia che qui sotto é sviluppato fino alla

potenza 10 del binomio

n Coefficienti 1 1 1 2 1 2 1 3 1 3 3 1 4 1 4 6 4 1 5 1 5 10 10 5 1 6 1 6 15 20 15 6 1 7 1 7 21 35 35 21 7 1 8 1 8 28 56 70 56 28 8 1 9 1 9 36 84 126 126 84 36 9 1 10 1 10 45 120 210 252 210 120 45 10 1

I coefficienti di ogni riga derivano dalla somma di quelli a sinistra e a destra della riga precedente. Nel nostro caso il binomio da sviluppare é: [p(0,5) + q(0,5)]4

0,54 (MMMM) + 4*0,53*0,5 (MMMF) + 6*0,52*0,52(MMFF) + 4*0,5*0,53 (MFFF) + 0,54(FFFF) che sviluppato ci da il risultato: 0,0625 MMMM oppure FFFF 0,25 MMMF oppure FFFM 0,35 MMFF queste probabilità (teoriche) sono molto vicine alle frequenze osservate nella sperimentazione con le vacche. Con un esponente molto alto, la distribuzione binomiale tende anche essa alla curva normale. I due tipi di distribuzione, la normale e la bionomiale, sono “simmetriche, nel senso che la parte

destra e sinistra della distribuzione sono speculari.

Esistono tantissimi altri tipi di distribuzione non simmetriche (cioè con una concentrazione delle

frequenze sbilanciata da una parte o dall’altra), ma noi ci soffermeremo soltanto su una di

particolare interesse nelle scienze zootecniche: la distribuzione asimmetrica.

Esaminiamo il fenomeno del contenuto in lattosio del latte: la distribuzione riportata di seguito é

fortemente asimmetrica, in quanto si ha un cumulo delle frequenze verso le classi di valore

massimo.

Page 33: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

33

In questi casi la probabilità di estrarre un animale con lattosio “basso” è di molto inferiore a quella

di estrarre un animale con lattosio intorno al valore 4 (in realtà questo fatto ha senso, perché la

caduta della concentrazione del lattosio é sintomo di mastite; gli animali sani sono la stragrande

maggioranza del campione esaminato e della popolazione target).

Prendiamo ora in esame l’EDA bivariata. Esaminiamo il caso della relazione fra quantità di latte e

di proteine prodotte al giorno da un campione di vacche da latte Frisone:

0 1 2 3 4 5

0

20

40

60

80

100

120

140

lact.

Freq

uenc

y

Histogram of lact.

Relazione fra produzione di latte e di proteine in vacche Frisone

0200

400600

8001000

12001400

1600

0 10 20 30 40 50

Latte (kg/d)

Prot

eine

(g/d

)

Page 34: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

34

Il grafico mostra chiaramente che esiste una relazione stretta fra le due variabili esaminate:

all’aumentare della produzione di latte, aumenta anche la produzione di proteine per capo. Un

situazione in cui non esiste una relazione evidente é stata riportata nel grafico della lezione 1.

Utilizzeremo questa analisi preliminare nella lezione della analisi della regressione.

Page 35: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

35

Lezione n. 4 MISURE DI POSIZINO E DI DISPERSIONE

1. Le misure di posizione di una distribuzione.

Con il termine misure di posizione di una distribuzione univariata si indicano quei particolari valori

che racchiudono una informazione sulla variabile in esame. Esse sono nell’ordine:

1) la media, che é la somma dei valori della variabile ponderata per la numerosità del campione (o

della popolazione) in esame;

2) la moda, che é il valore della classe di maggiore frequenza della distribuzione;

3) la mediana, che é il valore della classe che divide la distribuzione in due parti uguali (50% degli

eventi prima e 50% degli eventi ricadono dopo tale valore).

Le distribuzioni univariate presentano una sola media e una sola mediana, ma possono presentare

due (o raramente più) valori modali: in tal caso sono dette distribuzioni bimodali (o plurimodali).

00.050.1

0.150.2

0.250.3

0.350.4

0.450.5

-3.98 -1.98 0.02 3.38

Esempio di distribuzione bimodale

La media é la misura più importante. Questo valore costituisce il perno di tutta l’analisi statistica in

quanto di norma spiega una quota rilevante del fenomeno osservato. Ricordiamoci l’asserzione:

LA MEDIA SPIEGA

Page 36: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

36

e così avremo chiaro il senso delle analisi che costituiscono il cuore della statistica.

L’informazione contenuta nella media é uguale a quella della somma dei valori della variabile.

Il suo calcolo é semplice, ma il suo potere informativo é grandissimo:

nx

m i∑=

in cui

m = media del campione

xi = i-simo valore della variabile

n= numero di osservazioni del campione.

Esistono altri tipi di media, impiegati in casi particolari; le ricordiamo per comodità:

la media geometrica e la media armonica.

La media geometrica è utilizzata quando le variabili non sono rappresentate da valori lineari, ma

ottenuti da prodotti o rapporti di valori lineari. Serve per il confronto di superfici o volumi, oppure

di tassi di accrescimento o di sopravvivenza, valori appunto che sono espressi da rapporti.

Per il calcolo della media geometrica, è condizione necessaria che le quantità siano tutte positive.

Se alcune fossero negative, si deve ricorrere al valore assoluto.

La media geometrica di n dati è uguale alla radice di ordine n (solo positiva) del prodotto degli n

dati: con simbologia matematica

nnxxx ⋅⋅⋅= ...21gm

che può essere scritta anche come

nn

iix∏

=

=1

gm

Una proprietà importante è che il logaritmo della media geometrica è uguale alla media aritmetica

dei logaritmi dei dati:

∑=

=n

iix

nm

1log1log

Page 37: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

37

La media armonica è la stima più corretta della tendenza centrale, per distribuzioni di dati in cui

devono essere usati gli inversi. E’ utilizzata quando i valori di X sono espressi come rapporti di un

totale costante od in misure di tempi di reazione.

La media armonica è data da:

m n

x

h

ii

n=

=∑ 1

1

Prendiamo ora in esame il campione rappresentato dalle oltre 4500 osservazioni di produzione

giornaliera di latte di pecore Valle del Belice (vedi istogramma di frequenza).

Con una opzione di Excell (strumenti/analisi dati/statistiche descrittive) é possibile ottenere il

seguente otput

latte in grammi al giorno

Media 1625

Errore standard 11 Mediana 1530

Moda 1250 Deviazione standard

715

Varianza campionaria

511705

Curtosi 1,247175589 Asimmetria 0,89944541 Intervallo 4790 Minimo 210

Massimo 5000 Somma 7424379,608

Conteggio 4569

Come é possibile vedere, la media é di 1625, la mediana di 1530 e la moda di 1250 grammi di latte

per capo.

L’output ci fornisce anche altre informazioni circa la forma della curva. In particolare, la curtosi

esprime il grado di “schiacciamento” della distribuzione in esame rispetto ad una curva nomale

standard (vedremo in seguito il significato di questo termine). Se il valore della curtosi = 0 (o

vicino allo zero) la distribuzione é molto vicina a quella normale (normocurtica); se é inferiore allo

zero, é più schiacciata di quella normale standard (platicurtica) se superiore allo zero é più sfilata

(stretta) di quella normale standard (leptocurtica) come nel nostro caso

Page 38: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

38

La asimmetria ci indica la posizione della moda rispetto alla media: se il valore é zero (o vicino)

moda e media sono molto vicine, se superiore allo zero, la moda é superiore alla media

(distribuzione asimmetrica destra) se inferiore allo zero la moda é inferiore alla media

(distribuzione asimmetrica a sinistra).

Altre misure di posizione utili sono i quartili, che rappresentano quei valori della variabile che

dividono in quarti la distribuzione. Entro il primo quartile sono compresi il 25% dei dati, entro il

secondo (che coincide con la mediana) il 50%, entro il terzo il 75%. Tutta la distribuzione

comprende il 100% dei dati, ed il valore massimo riscontrato é il quarto quartile. Nel caso del

campione di produzioni delle pecore Valle del Belice, il primo quartile é di 1108 grammi (il 25%

del campione produce di meno) ed il terzo quartile è di 2005 grammi (il 25% della popolazione

produce più). I quartili danno una rappresentazione immediata della mdalità con cui si distribuisce

la variabile.

2. . La misura della dispersione dei dati

Come abbiamo detto in precedenza, la media aritmetica rappresenta l’informazione più importante

che possiamo estrarre da una variabile. Ma non é la sola!.

Consideriamo 4 insiemi di dati:

A B C D

5 3 1 0

5 4 3 2

5 5 5 5

5 6 7 8

5 7 9 10

Σxi 25 25 25 25

m 5 5 5 5

Questi insiemi sono isonumerici e isoquantitativi per cui hanno sommatoria e media uguali.

Se non disponessimo di altre informazioni sulla distribuzione dei dati all’interno di ciascun

insieme, il più probabile valore di ciascun dato sarebbe 5 (la media é cioè il predittore più

affidabile). Questi insiemi non sono però costituiti da valori uguali, eccetto che nel gruppo A; la

Page 39: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

39

media spiega tutto il fenomeno solo in questo insieme, ma il suo potere esplicativo va decrescendo

man mano che si passa dal gruppo A a quello D (aumenta cioè la dispersione dei dati attorno alla

media, esistendo valori molto diversi da questa).

I quattro gruppi sono diversi fra loro non nella somma (e nella media) ma per la dispersione

interna dei dati: i gruppi sono caratterizzati infatti da una differente variabilità.

La variabilità, ossia la modalità con cui i dati sono dispersi, rappresenta il secondo e più importante

oggetto di studio della statistica. Utilizzeremo un approccio intuitivo allo studio della variabilità di

una variabile statistica.

Poiché somma dei valori e media rappresenta la stessa informazione (infatti i gruppi di variabilità

differente hanno la stessa somma), verifichiamo se la somma dei quadrati dei dati può costituire un

indicatore della variabilità.. Nel nostro esempio si ha:

A B C D

25 9 1 0

25 16 9 4

25 25 25 25

25 36 49 64

25 49 81 100

Σx2 125 135 165 193

Si può notare che, a parità di media e di numerosità del campione, man mano che aumenta la

variabilità aumenta anche la somma dei quadrati dei dati (Σx2 o SS, acronimo inglese che significa

“Sum of Squares”); possiamo allora dire che la SS è un parametro legato alla variabilità.

C’è però un problema: con la SS ho una (presunta) misura della variabilità anche in un insieme di

dati (il gruppo A) in cui non esiste variabilità. Dobbiamo allora esplorare la possibilità che esista

qualche altra relazione che esprima meglio il fenomeno: se togliamo dalla somma totale dei

quadrati, la somma dei quadrati della parte del fenomeno che é inviariante (la media) otteniamo una

misura idonea allo scopo. infatti, la vera misura della variabilità è la somma dei quadrati (variabilità

totale) meno la parte invariante (somma dei quadrati della media).

Nel nostro esempio si ha:

- somma dei quadrati dei dati (SS)

A = 125; B = 135; C = 165; D= 193;

- somma dei quadrati della media (uguale per tutti gruppi)

Page 40: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

40

SSm = ny2 = 5 x 52 = 125

- differenze SS – SSm

A :125-125 = 0; B: 135-125 = 10; C: 165-125 = 40; D: 193-125 = 68.

Le differenze ottenute prendono il nome di devianza (Dev o SSε):

SSε = SS – SSm da cui si ottiene la relazione fondamentale: la somma dei quadrati di un insieme di dati é

scomponibile nella somma dei quadrati della media e nella somma dei quadrati residua (dalla

sottrazione) che prende il nome di Devianza.

SS = SSm + SSε.

Si può arrivare a questa relazione in un altro modo. Consideriamo ad esempio o gruppi A e D.

Ciascuno dei dati può essere scomposto in due parti, la media del gruppo di appartenenza e lo

scostamento del dato dalla media secondo la relazione:

xi = µ + εi

Nel caso del gruppo D, il secondo dato (2) può essere anche scritto come media+deviazione dalla

media del dato: 2 = 5 – 3; così il quinto dato può essere scritto come 8 = 5 + 3. Gli εi sono chiamati

deviazioni dalla media .

La relazione illustrata sopra prende il nome di MODELLO LINEARE DELLA MEDIA. Facciamo

ora i quadrati dei componenti il modello lineare dei dati dei gruppi A e D e li sommiamo.

A µ+ε D µ+ε

5 5+0 0 5-5

5 5+0 2 5-3

5 5+0 5 5+0

5 5+0 8 5+3

5 5+0 10 5+5

SSm + SSε 125+0 = 125 125+68 = 193

Abbiamo ottenuto lo stesso risultato. Ciò significa che la devianza rappresenta la somma delle

deviazioni quadratiche dalla media, cioè:

Page 41: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

41

2)( mxSS i −= ∑ε

ma che essa può anche essere calcolata con la formula riportata in precedenza

SSmSSSS −=ε

in cui SS é la somma totale dei dati al quadrato e SSm é la somma delle media al quadrato (che può

essere ottenuta facilmente con la relazione SSm = n*m2, in cui n = numerosità del campione).

La misura così ottenuta non é però facilmente impiegabile in quanto é riferita all’intero campione.

Se la devianza é ponderata per la numerosità del campione, essa prende il nome di varianza, e

rappresenta lo scarto quadratico medio del campione. In notazione é indicata come MS,

dall’acronimo della definizione inglese mean square, quadrato medio. Nel caso in cui si calcoli la

MS di un campione (e non della popolazione) il fattore di ponderazione non é la numerosità totale

del campione, ma sono i suoi gradi di libertà: gl = n – 1. Approfondiremo fra poco questo concetto.

La formula per il calcolo della varianza é allora:

1

)( 2

−−

= ∑n

mxMS i

oppure con la formula

1−

−=

nSSmSSMS

Anche in questo caso però il dato non é immediatamente leggibile in quanto espresso in forma

quadratica. Per riportarlo alla dimensione lineare (cioé allo stesso ordine di grandezza della media)

dobbiamo estrarre le radice quadrata: il risultato, caratterizzato dai due segni ±, prende il nome di

deviazione standard (ds). La formula completa per il calcolo della ds é la seguente

1

)( 2

−−

= ∑n

mxds i

A titolo di esempio, prendiamo in esame le produzioni di latte delle 25 pecore riportate nella tabella

all’inizio della lezione, calcoliamo la media, le deviazioni dalla media, i quadrati e facciamo i conti.

Page 42: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

42

Pecora Latte g media ε ε2

1 1015 1185 170 290362 1105 1185 80 64643 1365 1185 -180 322564 1085 1185 100 100805 840 1185 345 1193016 960 1185 225 508057 1130 1185 55 30698 1185 1185 0 09 1270 1185 -85 7157

10 1385 1185 -200 3984011 1545 1185 -360 12931212 1475 1185 -290 8386813 1350 1185 -165 2709314 1145 1185 40 163215 1195 1185 -10 9216 1185 1185 0 017 1000 1185 185 3437318 795 1185 390 15241219 1105 1185 80 646420 1560 1185 -375 14032521 1340 1185 -155 2390122 1005 1185 180 3254423 1260 1185 -75 556524 1035 1185 150 2262025 1300 1185 -115 13133

Somme 29635 29635 0 971346

La devianza (SSε) é uguale a 971346, per cui la varianza (MS) é uguale a 971346/24 = 40473. Se

estraiamo la radice quadrata, otteniamo la deviazione standard (ds) che é uguale a ± 201. Le

informazioni che possiamo trarre da questo campione di dati sono che la produzione media

campionaria (m) é di 1185 grammi di latte per capo per giorno e che la deviazione standard é di ±

201 grammi capo per giorno.

Prima di procedere, dobbiamo sottolineare che quando calcoliamo media, devianza, varianza,

deviazione standard o altre quantità sull’intera popolazione, chiamiamo tali quantità parametri della

popolazione; se esse sono calcolate invece su un campione della popolazione, le chiamiamo

statistiche campionarie (media campionaria, varianza campionaria, ecc..). Poichè nella statistica

inferenziale ciò che ci interessa realmente non sono le statistiche campionarie, ma i parametri della

popolazione, utilizziamo le prime per stimare i secondi. Allora diremo sempre che la media

campionaria é una stima della media della popolazione, che la ds campionaria é una stima della ds

della popolazione, ecc.. Per quanto riguarda i simboli, quando ci riferiamo alle statistiche

campionarie utilizziamo le lettere latine, quanto ai parametri della popolazione le lettere greche:

Page 43: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

43

misura sulla popolazione sul campione

media µ m

devianza δ2 o SSε SSe

varianza σ2 o MSε MSe

deviazione standard σ s o ds

La media e la deviazione standard rappresentano i parametri della curva di normale, o curva di

Gauss o curva degli errori. Una disamina approfondita della storia della curva degli errori e l’analisi

matematica della funzione sono riportate nell’appendice di questa lezione.

L’equazione della curva normale è la seguente:

( )2

2

2

21)( σ

πσ

Xx

exf−

−=

la cui forma é :

µ – σ µ µ + σ

La media rappresenta il valore di maggiore frequenza, media±deviazione standard rappresentano i

valori in cui si verificano i flessi della curva.

Page 44: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

44

3. I gradi di libertà

Abbiamo visto che se dalla somma dei quadrati totale (SS) togliamo la somma dei quadrati della

media (SSm) otteniamo la devianza, la quale ci indica il grado di dispersione dei dati: SSe = SS –

SSm.

Calcolando la media, abbiamo ottenuto una prima informazione dall’insieme dei dati per cui le

informazioni disponibili nel gruppo di dati si riducono di una unità.

Ad esempio, la media dell’insieme 2-5-9-7-4-3-2-0-1 è m = 3,6, mentre la somma è Σx = 33.

Poiché la media campionaria ottenuta è una stima della media della popolazione di riferimento, dal

nostro campione abbiamo estratto una informazione: con ciò il nostro campione non è più

completamente casuale (cioè non è più composto da 9 entità estratte a caso dalla popolazione), ma

la casualità di estrazione si è ridotta di una unità. Infatti, una volta calcolata la media campionaria,

solo 8 delle 9 entità possono essere estratte casualmente: la nona resta vincolata dalla somma dei

dati del campione. L’insieme campionario ha cioè 8 gradi di libertà (possibilità di estrazione

causale). Nel nostro esempio, la somma è 33. Provate ad estrarre casualmente 9 numeri la cui

somma sia 33. Vi tornerà difficile. Con 8 estrazioni tutto diventa più semplice, in quanto il nono

valore deriva dalla differenza fra 33 e la somma degli altri 8.

Nelle stime campionarie della varianza, allora, si impiegano sempre i gradi di libertà come divisore

della devianza campionaria, in quanto il sistema in esame è vincolato dall’informazione dovuta alla

media (oppure alla somma che è lo stesso).

Naturalmente tanto più grande è il campione (n grande) e tanto meno pesano i gradi di libertà

perché n-1 si avvicina al valore di n. In statistica si distinguono quindi campioni grandi (n≥30) da

campioni piccoli (n<30), nei quali i gradi di libertà hanno un peso sempre maggiore rispetto a n

(fino al caso limite di n = 2).

In linea generale, i gradi di libertà rappresentano l’entità delle informazioni disponibili (o

giustificate); le informazioni non giustificate rappresentano i gradi di libertà dell’errore.

Applichiamo questa definizione al modello lineare della media:

xi = µ + εi

SS = SSm + SSe n = 1 + (n-1)

I gradi di libertà della somma dei quadrati totale sono n perché non abbiamo ancora estratto

informazioni; i gradi di libertà della media sono 0 (zero) in quanto una volta calcolato il suo valore

non può cambiare. I gradi di libertà della somma degli scarti al quadrato sono n-1. E’ possibile

allora osservare che i gradi di libertà sono additivi.

Page 45: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

45

4. Le media campionarie e la loro distribuzione

Se estraiamo diversi campioni da una popolazione e ne calcoliamo le medie campionarie, otterremo

una serie di valori differenti. L’insieme delle medie campionarie rappresenta errore perciò a sua

volta una variabile. Ciascuna media campionaria m1 si scosta dalla media vera della popolazione µ

di un errore εmi.

In analogia al modello della media, possiamo quindi scrivere:

m1 = µ + εm1

m2 = µ + εm2 .

……………….

mn = µ + εmn

Sempre in analogia al modello della media, possiamo calcolare i quadrati degli scarti Σεmi2 ,

dividere per i gradi di libertà estrarre la radice quadrata. La deviazione standard della distribuzione

delle medie prende il nome di errore standard (es) ed rappresenta la misura della variabilità delle

medie campionarie. L’errore standard dipende dalla numerosità del campione estratto ed è calcolato

con la formula:

n

es σ=

dove σ è la deviazione standard della popolazione e n è la numerosità del campione. Ovviamente,

maggiore è la numerosità del campione, minore è l’es. Per campioni di numerosità vicina a quella

della popolazione, l’es è molto vicino allo zero: le medie campionarie sono vicinissime alla media

della popolazione.

La variabile medie campionarie tende sempre a distribuirsi normalmente. Questa proprietà è di

grandissima importanza per tutta l’analisi statistica ed è stata enunciata con il nome di teorema del

limite centrale.

“Qualsiasi sia la distribuzione della variabile in esame, le medie campionarie si distribuiscono

normalmente con media uguale alla media della popolazione quando il numero di campioni tende

all’infinito”

Espresso formalmente il teorema del limite centrale è il seguente

Page 46: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

46

normmfnm

≡∞→

)(lim

in cui f(m) è la funzione di distribuzione delle medie campionarie ed nm è il numero di campioni

estratti dalla popolazione.

Nel caso della produzione di latte delle pecore riportata nella tabella dell’esempio precedente, il

valore dell’errore standard stimato è di 201/√25 = ±40 grammi capo giorno.

5. La distribuzione normale standardizzata e l’integrale di probabilità

La curva normale è un oggetto difficile da maneggiare. Tutte le distribuzioni normali possono essere uniformate attraverso una trasformazione chiamata standardizzazione. La standardizzazione consiste nel dividere gli scostamenti di ciascun dato dalla media per la deviazione standard. In formula; la nuova variabile prende il nome di z:

smxz i

2)( −=

La variabile che risulta da questa operazione ha media uguale a zero e deviazione standard uguale a

1. Nel nostro esempio avremo: Pecora Latte g media e e/s=z

1 1015 1185 170 0,84502 1105 1185 80 0,39773 1365 1185 -180 -0,89474 1085 1185 100 0,49715 840 1185 345 1,71496 960 1185 225 1,11847 1130 1185 55 0,27348 1185 1185 0 0,00009 1270 1185 -85 -0,4225

10 1385 1185 -200 -0,994111 1545 1185 -360 -1,789512 1475 1185 -290 -1,441513 1350 1185 -165 -0,820214 1145 1185 40 0,198815 1195 1185 -10 -0,049716 1185 1185 0 0,000017 1000 1185 185 0,919618 795 1185 390 1,938619 1105 1185 80 0,397720 1560 1185 -375 -1,864021 1340 1185 -155 -0,770522 1005 1185 180 0,894723 1260 1185 -75 -0,372824 1035 1185 150 0,745625 1300 1185 -115 -0,5716

Somme 29635 29635 0 0s 201 1La distribuzione della nostra variabile trasformata, con le sue specifiche, apparirà nel modo

seguente

Page 47: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

47

210-1-2

95% Confidence Interval for Mu

0,50,0-0,5

95% Confidence Interval for Median

Variable: e/s

-0,54206

0,78083

-0,41476

Maximum3rd QuartileMedian1st QuartileMinimum

NKurtosisSkewnessVarianceStDevMean

P-Value:A-Squared:

0,47741

1,39116

0,41080

1,93860 0,79530 0,00000-0,79535-1,86400

25-4,3E-01-7,1E-021,00000

1,00000-0,00198

0,9520,153

95% Confidence Interval for Median

95% Confidence Interval for Sigma

95% Confidence Interval for Mu

Anderson-Darling Normality Test

Descriptive Statistics

E’ possibile notare che la nuova distribuzione standardizzata ha media zero, varianza e deviazione

standard 1, curtosi e simmetria (skewness) molto vicine a zero.

Come abbiamo detto, la nuova variabile standardizzata prende il nome di variabile z. Se sostituiamo

il valore z all’equazione della curva di Gauss, otteniamo la nuova equazione della variabile

standardizzata:

2

2

21)(

z

ezf−

Ricordiamoci che la curva di Gauss è una distribuzione di frequenze. Poiché abbiamo fatto una

scelta frequentista, per noi la frequenza di un evento coincide con la probabilità che tale evento si

verifichi. Possiamo allora calcolare la probabilità di eventi compresi fra due valori di x1= a e x2=b

attraverso il calcolo dell’integrale della curva delle probabilità.

∫=−b

a

xfabP )()(

Questo integrale risolto per valori uguali a m±ds ci da un risultato di poco superiore al 68%, e per

valori uguali a m±2ds ci da un risultato di poco superiore al 95%. Ciò significa che il 68% della

Page 48: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

48

popolazione è compresa in un intervallo pari a ±ds dalla media e il 95% in uno con ±2 deviazioni

standard dalla media.

µ – σ µ µ + σ

In sintesi: 1) la curva normale é la seguente

( )2

2

2

21)( h

x

eh

xfµ

π

−−

=

2) se poniamo zx =− σµ)( 3) la curva di distribuzione diventa

2

2

21)(

z

exf−

68% della popolazione

Page 49: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

49

4) e l’integrale di probabilità

∫+

−=

z

z

z

dzexP 2

2

21)(π

5) comprende le seguenti aree Intervallo rispetto a µ comprende esclude da –σ a + σ 68,3% 31,7% da -2σ a +2σ 95,4% 4,6% da -3σ a +3σ 99,7% 0,3% da –1,96σ a +1,96 95,0% 5,0% da –2,58σ a +2,58σ 99,0% 1,0%

Page 50: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

50

(Testo a lettura obbligatoria) GLI ERRORI E IL LORO STUDIO

L’errore, inteso nel senso moderno di imprecisione fra una data misura e il valore “vero” della grandezza misurata, é un concetto relativamente moderno. Infatti, nel mondo antico e medioevo-rinascimentale, la scarsa (o nulla) attenzione per la conoscenza empirica del mondo e la imprecisione degli strumenti di misurazione aveva generato una limitata quantità di dati osservativi e pertanto l’errore era connaturato al concetto morale di giusto, nel senso che ne rappresentava la negazione. Furono gli astronomi ad utilizzare il concetto di errare, nel senso di vagare nella volta celeste, per identificare quei corpi che non seguivano nel loro moto l’evoluzione delle stelle. Erano i pianeti e l’etimo del termine significa proprio “erranti”. Il primo che considerò gli errori di misurazione nel senso moderno fu Tycho Brahe (1546-1601), danese di nascita e fondatore dell’astronomia pratica. Astronomo a Praga, compì una mole di osservazioni di tale estensione e accuratezza che Keplero, il quale nel prese il posto alla morte nel ruolo di astronomo di corte di Rodolfo II, le utilizzò per dedurre le sue fondamentali leggi sul moto dei pianeti intorno al sole. Tycho Brahe mise in crisi il sistema Aristotelico-Tolemaico con l’osservazione di una “supernova” nel 1572 della quale non calcolò la parallasse. Ciò collocava il nuovo astro nelle sfere esterne a quella della luna le quali, secondo Aristotele, dovevano essere “fisse ed immutabili”. Tycho comprese per primo che gli errori possono essere suddivisi in due grandi categorie, se si escludono quelli grossolani (sbagli) dovuti a scarsa perizia osservativa che possono essere eliminati facilmente:

a) errori sistematici, dovuti ad un’unica causa (nota o meno) che possono essere rimossi ricercandone la causa ed eliminandola oppure ripetendo più volte le osservazioni in differenti condizioni in guisa che gli errori di segno opposto si annullano;

b) errori accidentali o random, dovuti a cause sconosciute (o inconoscibili). Su essi (e di errori così ne possedeva un bel repertorio...) osservò i seguenti fatti euristici: i) gli errori piccoli sono in numero superiore a quelli grandi; ii) gli errori sono compresi entro certi limiti; iii) gli errori con segno positivo sono circa uguali a quelli con segno negativo.

In questa classificazione possiamo riconoscere in nuce il concetto di modello lineare che é attualmente impiegato in analisi della varianza. Tycho fu probabilmente il primo che utilizzò la media delle misurazioni ripetute come valore più vicino a quello vero e trasmise questa tecnica alle generazioni successive di astronomi e geodeti. Ciò che gli sfuggì fu la relazione fra frequenza degli errori e probabilità che si verificassero: dovrà passare un secolo e mezzo peché ciò avvenga. Fu merito del francese ugonotto Abraham De Moivre (1667-1754), fuggito in Inghilterra a seguito dell’editto di Nantes, il merito di legare la probabilità di trovare un errore con la sua entità. Egli fu infatti l’autore di uno dei primi trattati di teoria della probabilità (Doctrine of chances, 1718) nel quale derivava risultati algebrici per induzione utilizzando osservazioni sulle frequenze di eventi. Introdusse in tal modo la probabilità composta di due eventi indipendenti (p(A) x p(B) = p(AxB)) e probabilmente fu il primo a operare con la formula delle probabilità

2/e0

2 π=∫+∞

− dxx

Page 51: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

51

risultato che apparve con scarso rilievo in un opuscolo stampato privatamente nel 1733 (Approximatio ad summam terminorum binomii (a+b)n in serie expansi). Il risultato comunque fu tradotto in inglese ed inserito nella seconda edizione di Doctrine of chences (1738). Una svolta decisiva alla teoria degli errori fu però apportata da Adrien Marie Legendre ( 1752- 1833) (che assieme a Condorcet, Lagrange, Monge, Laplace e Carnot, rappresenta il gotha dei matematici della Francia rivoluzionaria), il quale nella sua veste di componente della commissione dei pesi e delle misure incaricata di definire il “metro” ed il sistema di misurazione decimale ad esso collegato, si cimentò con le misure geodetiche attraverso la triangolazione generale della Francia dalla quale ricavò il metro provvisorio quale decimilionesima parte del quarto del meridiano terrestre. Quella definitiva, come é noto, fu l’esito delle misurazioni compiute in un quinquennio dai due astronomi geodeti Delambre e Mechain. Nel 1805 pubblicò una “Memoire” nei quaderni dell’Institut des Sciences dove comparve per la prima volta il metodo dei minimi quadrati utilizzato per risolvere delle incongruenze in alcune equazioni lineari dedotte da osservazioni astronomiche. Ma fu Carl Friederich Gauss (1777-1855) ad utilizzare per primo il metodo dei minimi quadrati come dimostra una lettera spedita a Olbers nel 1802. Olbers era un astronomo che aveva “scoperto” Pallade (uno dei tanti pianeti minori del nostro sistema solare) e aveva chiesto a Gauss di calcolarne l’orbita sulla base delle proprie osservazioni. Gauss partì dal presupposto che ciascuna osservazione Oi poteva essere affetta da in errore casuale εi. Il teorema afferma che il valore medio delle osservazioni Om é il valore vero della grandezza misurata che minimizza la somma degli errori al quadrato. Diamo una dimostrazione algebrica del teorema.

Vogliamo dimostrare che il valore medio di n misure minimizza la somma degli

scarti al quadrato.

Sia iO l’i-esima osservazione, mO il valore medio ed x il valore vero. Sia poi iε

l’errore di cui è affetta l’i-esima osservazione. Allora ogni singola osservazione può

essere scritta:

11 ε+= mOO

22 ε+= mOO

. . . . . . .

nmn OO ε+=

poiché m

n

ii nOO =∑ segue che 0=∑

n

iiε .

Consideriamo la somma degli scarti dalla media al quadrato:

Page 52: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

52

222

21 )(..........)()()( nOxOxOxxS −++−+−=

Viste le relazioni precedenti questa somma può anche essere scritta:

[ ] [ ] [ ]222

21 )(.......)()()( nmmm OxOxOxxS εεε +−+++−++−=

Sviluppando i quadrati si ottiene:

+++++−

+++++−

+++++−=

222

222

22

2

211

21

2

2)(2

...................................................... 2)(2

2)(2)(

nnmmnm

mmm

mmm

OOxOx

OOxOx

OOxOxxS

εεε

εεε

εεε

Sviluppando ulteriormente i calcoli ed ordinando si ha:

∑∑∑ ++−+−=n

i

n

im

n

imm nOnxnOxnOnxxS1

2

11

22 222)( εεε

e raggruppando si ha

∑+−=n

imOxnxS1

22)()( ε

in quanto i termini

sono uguali a zero in quanto la somma degli errori é uguale a zero.

La funzione somma ha un minimo per mOx = da cui, sostituendo, ∑=n

ixS1

2)( ε

)(xS

∑∑ +n

im

n

i nOnx11

22 εε

x Om

∑n

i1

Page 53: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

53

La figura mostra che per qualsiasi valore di x≠Om la somma dei quadrati degli scarti

tende a crescere.

La disputa proseguì per gli anni seguenti e fu risolta a Laplace che non prese le parti

né dell’uno né dell’altro.

La Storia però fa giustizia: Gauss mise a punto per primo il teorema; Legendre lo

pubblicò per primo.

Va infine ricordato che fu Pierre Simon Laplace (1749-1827) a risolvere

analiticamente per primo l’integrale di probabilità di De Moivre. Tale risultato servi

con molta probabilità a Gauss per operare il collegamento fra la teoria degli errori e la

curva normale.

Questo passaggio gli valse il “battesimo” della curva che da allora è conosciuta con il

nome di GAUSSIANA. Bibliografia essenziale Boyer, C.B. – Storia della matematica. Oscar saggi Mondadori, 1990. Bell, E.T. – I grandi matematici. Sansoni ed., 1950. Courant, R., Robbins, H. – Che cos’é la matematica? Unversale Scientifica Boringhieri, 1985. Tazzoli, R. – Gauss, principe dei matematici e scienziato poliedrico. Le Scienze, 5(28), 2002.

Page 54: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

54

(Testo a lettura facoltativa)

La distribuzione Normale (Gaussiana) (C. Dimauro)

Il prototipo della funzione matematica che descrive la curva a campana è:

2

2

)( hx

exf−

= (1)

Il parametro h è un parametro fisso che possiamo chiamare parametro di larghezza.

Il grafico della (1) e:

Al variare del parametro h si ha:

all’aumentare di h aumenta la larghezza della curva.

Page 55: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

55

Dimostriamo che il punto di massimo coincide con il punto di coordinate )1,0( . Per

fare ciò calcoliamo la derivata prima della funzione:

hx

xeh

xf2

22)(

−−=′

Il punto di massimo sarà trovato per quel valore x che annulla la derivata prima:

0)( →=′ xf 02 2

2

2 =−−

hx

xeh

la quantità 2

2

hx

e−

non si annulla mai per definizione di funzione esponenziale, quindi

deve essere

022 =− x

h e cioè 0=x

Quindi nel punto di ascissa 0=x si avrà il massimo. Calcoliamo l’ordinata di tale

punto sostituendo 0=x nella (1):

1)0(

2

20

==⎟⎠⎞

⎜⎝⎛−

hef

Si avrà quindi un massimo nel punto M di coordinate )1;0(M .

Calcoliamo adesso la derivata seconda che ci permetterà di ricavare il punto di flesso:

⎥⎥

⎢⎢

⎡⋅

⎟⎟⎟

⎜⎜⎜

⎛−+−=′′

−−xxe

he

hxf h

xhx

2

2

2

2

2222)(

da cui:

⎥⎥

⎢⎢

⎡−−=′′

−− 2

2

2

2

222

22)( hx

hx

exh

eh

xf

ed infine:

⎥⎦⎤

⎢⎣⎡ −−=′′

−2

22212)( 2

2

xh

eh

xf hx

Il punto di flesso sarà trovato per quel valore x che annulla la derivata seconda:

Page 56: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

56

0)( →=′′ xf 0212 222

2

2

=⎥⎦⎤

⎢⎣⎡ −−

−x

he

hhx

da cui, per gli stessi motivi legati alla derivata prima è:

021 22 =− x

h

da cui

2hx ±=

Otteniamo, come ci aspettavamo, vista la simmetria della funzione, due punti di

flesso, il primo per 21

hx −= , il secondo per 22

hx = . Le ordinate del punto di

flesso si ricavano sostituendo nella (1): 2122

2

2

2

2

)2

(−−

⎟⎠⎞

⎜⎝⎛ ±

−===± eeehf h

h

h

h

In definitiva avremo: ⎟⎟⎠

⎞⎜⎜⎝

⎛−=

−21

1 ;2

ehF ed ⎟⎟⎠

⎞⎜⎜⎝

⎛=

−21

2 ;2

ehF Se modifichiamo la (1) si ha:

2

2

2)( hx

exf−

= (2)

andando a svolgere i calcoli, i punti di flesso saranno:

⎟⎟⎠

⎞⎜⎜⎝

⎛−=

−21

1 ; ehF ed ⎟⎟⎠

⎞⎜⎜⎝

⎛=

−21

2 ; ehF

La (2) non è ancora nella sua forma finale. Ogni distribuzione deve essere

normalizzata, cioè deve soddisfare la condizione:

∫+∞

∞−

=1)( dxxf (3)

cioè l’area sottesa dalla curva deve essere uguale ad 1. Ciò è consistente con i nostri

scopi, visto che la probabilità totale è 1.

Per fare ciò poniamo:

2

2

2 )( hx

eNxf−

= (4)

Page 57: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

57

cioè moltiplichiamo la funzione per il fattore N che non cambia né la forma, né il

massimo. Dobbiamo scegliere allora il fattore di normalizzazione N in modo che la

funzione sia normalizzata come la (3):

∫∫∞+

∞−

−∞+

∞−

= dxeNdxxf hx

2

2

2 )( per risolvere questo integrale poniamo:

yhx

= da cui hyx =

hdydx =

per cui si avrà:

== ∫∞+

∞−

−dyhN 2

y2

e

l’integrale ∫∞+

∞−

−dy2

y2

e è uno degli integrali standard della fisica matematica (che sarà

risolto in appendice) e dà come risultato:

π2e 2y2

=∫∞+

∞−

−dy

per cui si avrà

π2e 2y2

NhdyNh == ∫∞+

∞−

Questo integrale deve essere 1 e quindi:

12 =πNh

da cui

π21

hN =

Sostituendo questo valore nella (4) si ottiene la distribuzione di Gauss o Normale,

correttamente normalizzata:

2

2

2 2

1)( hx

eh

xf−

(5)

Page 58: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

58

Questa curva è la curva normale con massimo in 0=x . Nella pratica, il massimo di

questa curva non sempre è nello zero. Per renderla più generale, sostituiamo nella (5)

x con Xx − . La (5) diventerà: ( )

2

2

2 2

1)( hXx

eh

xf−

−=

π (6)

il cui punto di massimo avrà ascissa Xx = . Per cui al variare di X si avranno le

curve:

Interpretiamo adesso le quantità X ed h.

In generale, la media di un qualunque numero di misure è la somma di tutti i diversi

valori kx , ciascuno pesato per la frazione di volte in cui è stato ottenuto:

∑=k

kk Fxx

dove ovviamente NnF k

k = che rappresenta la frequenza con cui una data misura kn si

presenta nelle N misure totali. Se, come nel nostro caso il numero di misure è enorme

ed abbiamo la distribuzione limite, il valore medio sarà dato semplicemente da

∫+∞

∞−

= dxxxf )(µ

Page 59: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

59

per cui sostituendo si avrà: ( )

∫∞+

∞−

−−

= dxexh

hXx2

2

2 2

µ

Facciamo anche qui un cambio di variabili, ponendo Xxy −= , da cui Xyx += e

differenziando dydx = . Sostituendo nell’integrale si ottengono due termini:

⎟⎟⎟

⎜⎜⎜

⎛+= ∫∫

∞+

∞−

−∞+

∞−

−dyeXdyey

hhy

hy

2

2

2

2

22 2

µ

Il primo integrale è esattamente zero, perché il contributo di ogni y è cancellato

esattamente da quello di –y. Il secondo integrale è l’integrale di normalizzazione visto

prima ed ha il valore π2h . Questo valore si semplifica con π2h al denominatore

e si ottiene che il valore atteso, la media teorica, il risultato più probabile è

X=µ

Quindi il punto di massimo in cui è centrata la gaussiana è proprio la media attesa µ .

Sostituendo nella (6) si avrà: ( )

2

2

2 2

1)( hx

eh

xfµ

π

−−

=

Sappiamo che la deviazione standard è data dalla formula:

1)( 2

−−

= ∑Nxi µ

σ

al quadrato

Nxi∑ −

=2

2 )( µσ

dove al posto di 1−N abbiamo messo N visto il numero grandissimo di misure. Si ha

ancora:

Nxi∑ −

=2

2 )( µσ

Page 60: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

60

che è la media della deviazione standard. Con le stesse considerazioni fatte

precedentemente si perviene all’integrale:

∫+∞

∞−

−= dxxfx )()( 22 µσ

cioè ( )

∫∞+

∞−

−−

−= dxexh

hx

2

2

222 )(2

µπ

σ

Ponendo µ−= xy e hyz = ed integrando per parti si ottiene:

22 h=σ

per cui la forma finale della distribuzione normale è: ( )

2

2

2 2

1)( σµ

πσ

−−

=x

exf

che per quanto visto avrà il massimo nel punto di ascissa µ e flessi nei punti di

ascissa σ±

LA DEVIAZIONE STANDARD COME IL LIMITE DI CONFIDENZA DEL 68

PERCENTO

Abbiamo visto che l’integrale della gaussiana dà come risultato 1, cioè

∫+∞

∞−

=1)( dxxf

allora si comprende bene che

∫b

a

dxxf )(

è la probabilità che una data misura dia un risultato nell’intervallo [ ]ba, . In

particolare, possiamo allora calcolare la probabilità che una misura cada entro una

deviazione standard σ dal valore vero µ . Questa probabilità è data da:

Page 61: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

61

( )

∫+

−−

=σµ

σµ

σµ

πσσ dxeP

x2

2

2

21) entro(

L’integrale può essere semplificato sostituendo ad zx =− σµ)( . Con questa

sostituzione si ha dzdx σ= ed i limiti dell’integrale diventano 1±=z . Allora

∫+

−=

1

1

2

2

21)( dzeP

z

πσ entro

Questo integrale è un integrale standard della fisica matematica noto come la

funzione degli errori denotata con erf(t) o integrale normale degli errori. Può essere

valutato sia analiticamente che con una normale calcolatrice. Il calcolo in questo caso

ci dà 68,0≅ .

APPENDICE:

calcolo dell’integrale di probabilità: ∫∞+

∞−

−= dxe

x2

2

I

Il primo a svolgere questo calcolo fu Laplace con una tecnica molto originale per

quel tempo.

µσµ − σµ +

Page 62: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

62

La funzione esponenziale è simmetrica rispetto all’asse delle ordinate, per cui è

possibile calcolare solo l’integrale da 0 a ∞+ e poi moltiplicare per 2:

∫∞+ −

==0

2

2

22 dxex

1II

Eleviamo al quadrato l’integrale I1 ed otteniamo:

∫∫∞+ −∞+ −

⋅=0

2

0

2

22

dyedxeyx

21I

dove nel secondo integrale la variabile x è stata cambiata in y. Aggiustando i calcoli

si ha:

∫ ∫∞+ ∞+ +

−=

0 0

2

22

dxdyeyx

21I

dove dx e dy rappresentano gli spostamenti infinitesimi su cui integrare. La quantità 222 ryx =+ rappresenta una circonferenza di centro l’origine degli assi cartesiani e

raggio r. Ciò suggerisce una trasformazione delle variabili in coordinate polari. in tali

coordinate lo spostamento orizzontale è rappresentato dal raggio, per cui dx = dr; lo

spostamento verticale avviene lungo un arco, per cui essendo un arco di lunghezza l

uguale a θrl = , lo spostamento in verticale sarà dato da θrddl = . Si ha quindi:

∫ ∫ ∫ ∫∞+ ∞+ −−

==2

0 0

2

0 0

22

22π π

θθ drreddrdrerr

I21

Il primo di questi integrali dà come risultato:

[ ]2

20

2

0

πθθπ

π

==∫ d

mentre il secondo:

12

0

2

0

22

0

2

222

=⎥⎥

⎢⎢

⎡−=⎟⎟

⎞⎜⎜⎝

⎛−−=

+∞−∞+ −∞+ −

∫∫rrr

erdedrre

quindi

Page 63: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

63

21

2ππ

=⋅=21I

da cui estraendo la radice quadrata ad entrambi i membri si ha:

=1I

Moltiplicando per due questo integrale si ottiene la soluzione dell’integrale di

partenza:

πππ 22

42

2 =⋅==I

Page 64: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

64

Lezione n. 5

INFERENZA SULLA MEDIA E ANALISI DELLA VARIANZA

1. L’inferenza sulla media (A. Nudda) Abbiamo visto che l’obbiettivo della statistica è quello di stimare i parametri della popolazione basandoci sulle

informazioni (statistiche) calcolate sul campione.

Ricordiamo che la popolazione è caratterizzata da misure numeriche descrittive chiamate “parametri”: la media (µ) e la

deviazione standard (σ)

I metodi di inferenza statistica sui parametri della popolazione sono fondamentalmente due:

1. la stima del valore del parametro della popolazione

2. il test di ipotesi (test statistico)

Nel primo caso (stima del parametro della popolazione) noi dobbiamo rispondere alla domanda

“qual è il valore del parametro della popolazione” mentre con il test statistico dobbiamo rispondere

alla domanda “il valore del parametro (es. µ) considerato è uguale o diverso da uno specifico valore

(µ0)?”

Ricordiamo ancora che nella curva della distribuzione normale …nell’intervallo µ±1,96 ES. ricade il 95% dei valori

…nell’intervallo µ±2 ES ricade il 95,44% dei valori

…nell’intervallo µ±2,58 ES ricade il 99% dei valori

dove ES (errore standard) = deviazione standard diviso la radice quadrata di n (numerosità dei dati)

L’intervallo µ±1,96 ES è un intervallo di confidenza al 95%.

L’intervallo µ±2,58 ES è un intervallo di confidenza al 99%

Page 65: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

65

L’intervallo di confidenza è calcolato con la formula:

in cui z è in valore inferiore (quello superiore è +∞) dell’integrale della curva normale standardizzata. Il valore

dell’integrale rappresenta il livello di significatività richiesto dal test. Il valore di α corrisponde al livello di probabilità

scelto, solitamente α =5% (chiediamo al test in quale intervallo di valori della distribuzione delle medie campionarie

comprende il 95% della popolazione delle medie campionarie). Nella formula usiamo α/2 poiché dobbiamo ricordare

che le due code della distribuzione di frequenza sono simmetriche per cui ogni coda comprende il (α/2)∗ 100 dei casi.

Per campioni grandi, con almeno 30 elementi (n >30), usiamo il valore di z per calcolare l’intervallo di confidenza. Per

campioni piccoli, di numerosità inferiore a 30 nei quali l’uso della distribuzione z potrebbe creare distorsioni nella

stima, dobbiamo utilizzare come livello di probabilità quello della distribuzione “t” . Lai la formula per calcolare

l’intervallo di confidenza sarà perciò:

Stima del valore del parametro della popolazione

Supponiamo di essere interessati alla stima dell’altezza media della popolazione “studenti dell’ateneo di Sassari”. Per

fare questo lavoriamo su un campione (ad esempio un gruppo di studenti della facoltà di agraria) di cui misuriamo la

media (m) per poter stimare la media della popolazione (µ)

In un campione di n = 50 studenti della facoltà di agraria di Sassari l’altezza media (m) è 168 cm,

con una deviazione standard di 12 cm. Usiamo questo campione per costruire l’intervallo di

confidenza al 95% per µ (altezza media degli studenti universitari di Sassari).

L’intervallo di confidenza al 95% è dato da: media±1,96 ES: nel caso in esempio ES = ( )50/12 = 1,70. quindi

intervallo di confidenza al 95% è dato da: = 168 ± 1,96 x 1,70 = 168 ± 3,33

limite inferiore dell’intervallo di confidenza = 168 – 3,33 = 164,67 cm

limite superiore dell’intervallo di confidenza = 168 + 3,33 = 171,33 cm

Pertanto l’altezza media degli studenti dell’ateneo (µ) con probabilità del 95% ricade nell’intervallo compreso fra

164,67 e 171,33 cm.

Gli intervalli di confidenza per µ dipendono dal coefficiente di confidenza scelto (ad es. 95%, 99%, ecc.), dalla

deviazione standard campionaria (maggiore è la variabilità stimata della popolazione e maggiore è quella delle medie

campionarie) e dalla numerosità del campione utilizzato per la stima (più piccolo è il campione, maggiore è l’intervallo

di confidenza: campioni di numerosità limitata possono essere anche molto diversi dalla popolazione, mentre campioni

grandi lo sono di meno).

ES α/2 ×± Zµ

ES α/2 ×− tµ

Page 66: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

66

Test statistico per la media

Il test statistico (o test di ipotesi) ci permette di rispondere alla domanda “la media della popolazione (µ) è uguale o

diversa ad uno specifico valore m calcolato su un campione?”

Ad esempio: l’altezza media degli studenti di Sassari (168 cm) è uguale all’altezza media della popolazione di studenti

del nord Italia (173 cm)?

Un test statistico si compone delle seguenti parti:

a) formulazione dell’ipotesi nulla, indicata con H0

L’altezza media degli studenti di Sassari è uguale all’altezza media degli studenti del Nord Italia (ovvero 168 cm è

uguale a 173 cm); ovvero, con quale probabilità le differenze nelle medie campionarie che abbiamo trovato sono dovute

all’estrazione casuale di campioni dalla stessa popolazione?

b) formulazione dell’ipotesi di ricerca o ipotesi alternativa, indicata con Ha

L’altezza media degli studenti di Sassari è diversa dall’altezza media degli studenti del Nord Italia

(ovvero 168 cm è minore di 173 cm; ovvero, la differenza fra i valori medi che abbiamo osservato

sono dovute al fatto che i due campioni appartengono a popolazioni diverse?

c) applicazione del Test statistico

Calcolo del valore numerico, ricavato dai dati del campione, sulla base del quale si decide se accettare l’ipotesi nulla o

rigettarla a favore dell’ipotesi alternativa. Questo valore numerico (Z, variabile standardizzata della distribuzione delle

m2die campionarie) è calcolato con la formula:

nX

/ Z

σµ −

=

Utilizziamo i dati del campione di 50 studenti di Sassari di cui è stata misurata un’altezza media di 168 cm (m) con una

deviazione standard di 12 e il valore di 173 cm quale altezza media degli studenti del Nord Italia. Applichiamo la

formula per calcolare Z

50/12173168 Z −

= = - 2,94

d) Regione di rigetto

Page 67: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

67

Individuazione della Zona della distribuzione di probabilità della statistica del test dove ricadono i

valori che consentono di rigettare l’ipotesi nulla a favore di quella alternativa - si sceglie la probabilità di errore pari ad α (ad es. se vogliamo una probabilità di errore del 5% abbiamo α = 0,05; se

vogliamo una probabilità di errore inferiore, ad esempio dell’1% avremmo α = 0,01)

- nelle tavole della distribuzione normale si individua il valore di Z tabulato corrispondente al valore di α scelto.

Supponiamo di aver scelto una probabilità di errore del 5% per cui α = 0,05 (ricordiamo di cercare nella tabella della

distribuzione normale il valore α/2). Per la probabilità di errore del 5% (ovvero 95% di probabilità di non sbagliare) il

valore di Z tabulato = 1,96. Siccome il valore assoluto di Z da noi calcolato (2,94) supera il valore di Z tabulato (1,96) si

rigetta l’ipotesi nulla (H0 = l’altezza degli studenti di Sassari è uguale all’altezza degli studenti del Nord Italia) e si

accetta l’ipotesi alternativa (H1 = l’altezza degli studenti di Sassari è minore dell’altezza degli studenti del Nord Italia)

e) Conclusioni

L’altezza degli studenti di Sassari è minore dell’altezza degli studenti del Nord Italia.

Nel dire questo ho la probabilità di sbagliare del 5%. …oppure nell’affermare questo ho la garanzia del 95% di NON

sbagliare.

NB:

Per ritrovare i valori di Z o di t tabulati ricordate di utilizzare le tabelle di densità di probabilità:

- quella della curva normale nel caso dei test che ricorrono al valore di Z

- quella del t di student normale nel caso dei test che ricorrono al valore di t

La lettura della tabella di t richiede come informazioni il valore di α prescelto ed i gradi di libertà (g.l.)

g.l. = n -1

2. L’analisi della varianza

Una generalizzazione del confronto fra medie campionarie è l’analisi della varianza (ANOVA in

acronimo che significa “analisys of variance”). Nonostante la denominazione, che deriva da Fisher

e Snedecor che misero a punto questa tecnica negli anni ’20 del novecento, l’ANOVA si occupa di

confronti fra medie campionarie. Il quesito di fondo di questa tecnica è: le medie campionare che ho

ottenuto rappresentano una stima della media della stessa popolazione (ossia, i campioni che ho in

esame sono diversi in quanto estrazioni casuali dalla stessa popolazione), oppure rappresentano

stime di medie di popolazioni differenti? In altri termini, le differenze fra le medie che osservo sono

dovute al caso oppure c’è un motivo?

Prendiamo un insieme di dati senza scriverne il valore (16 dati in totale):

Page 68: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

68

• • • •

• • • •

• • • •

• • • •

Poniamo di aver estratto questo campione dalla stessa popolazione. I dati sono distribuiti nelle celle

casualmente: infatti, non conoscendone il valore non ho alcuna ragione per una collocazione

preferenziale dei dati in una posizione particolare della matrice. Ora, classifico di dati per colonna:

attribuisco a ciascuna colonna una lettera in modo tale che i dati della prima colonna siano ora

distinguibili da quelli delle altre colonne: in questo modo ho operato una “classificazione” dei dati

(li ho inseriti all’interno di una classe). Il motivo che mi ha spinto a formulare le classi in tal modo e

non in uno alternativo è detto “criterio di classificazione”.

Sui dati così ordinati posso calcolare la media di ciascuna classe (ma, mb, mc, md) e la media

generale mt.

A B C D

• • • •

• • • •

• • • •

• • • •

Abbiamo costruito in tal modo una matrice in cui esiste una variabilità verticale (la variabilità dei

dati entro il gruppo di appartenenza) e una variabilità orizzontale (la variabilità delle medie fra

gruppi). La misura di tutta la variabilità verticale può essere stimata con la varianza “entro i gruppi”

(VARENTRO), quella orizzontale con la “varianza tra gruppi” (VARTRA). Se abbiamo distribuito

i dati veramente a caso, non dovrebbe sussistere alcuna ragione per cui una varianza debba essere

maggiore dell’altra. Entrambe sono una stima del parametro “varianza della popolazione”

(VARPOP), per cui con campioni molto grandi il rapporto VARTRA/VARENTRO tende all’unità.

Se invece questo rapporto è molto lontano dall’unità, significa che la variabilità fra i gruppi è di

gran lunga superiore a quello entro i gruppi, per cui è molto probabile i gruppi rappresentino

campioni estratti da popolazioni differenti per la (o le) proprietà che abbiamo in studio.

Page 69: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

69

E’ intuitivo che le varianze stimate tendano a cambiare il loro valore in funzione della numerosità

del campione e di quella dei gruppi. Nell’esempio appena accennato, la varianza fra gruppi è

stimata con (4-1) gradi di libertà, mentre quella entro gruppi è stimata con 12 gradi di libertà (3 gdl

per ciascun gruppo). In effetti, su 16 dati e 4 gruppi, la media generale mt porta via una

informazione (libera) cioè un grado di libertà, le medie di gruppo portano via 3 informazioni (la

quarta è “bloccata” dalla media generale), e ciascuno dei k gruppi ha al suo interno nk-1 gradi di

libertà (4-1 nel nostro caso) in quanto la quarta informazione l’abbiamo già usata per calcolare la

media di gruppo. Riassumendo, su una numerosità totale n, divisa in k gruppi isonumerici nk1,

nk2,n….nkn, la somma dei gdl da la numerosità dei gdl totali: n-1 = (k-1, gdl della VARTRA) + (n-k-

1, gdl della VARENTRO). Normalmente la VARTRA è stimata con gdl inferiori rispetto alla

VARENTRO (di solito i dati all’interno di ciascun gruppo, chiamati repliche, sono di gran lunga

superiori al numero di gruppi. Al limite, sono uguali quando in ciascun gruppo è collocato un solo

dato), per cui VARTRA è detta varianza maggiore (nel senso che assume sempre il valore

maggiore) e VARENTRO è detta varianza minore.

Il rapporto VARTRA/VARENTRO prende il nome di F (da Fisher che lo ha codificato) ed è una

variabile con una distribuzione che dipende dai gradi di libertà delle varianze.

Riportiamo le distribuzioni dell’F di Fisher generate dal software MINITAB per 100 gradi di libertà

per la VARENTRO e gdl da 1 a 50 per la VARTRA.

0 5 10 15

0

100

200

300

400

F(1;100)

Freq

uenc

y

Distribuzione dell'F di Fisher con 1 e 100 gradi di libertà

Page 70: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

70

3210

300

200

100

0

F(10;100)

Freq

uenc

yDistribuzione dell'F di Fisher con 10 e 100 gradi di libertà

3210

300

200

100

0

F(20;100)

Freq

uenc

y

Distribuzione dell'F di Fisher con 20 e 100 gradi di libertà

2,51,50,5

400

300

200

100

0

F(50;100)

Freq

uenc

y

Distribuzione dell'F di Fisher con 50 e 100 gradi di libertà

Vediamo che maggiori sono i gradi di libertà, più il grafico si avvicina ad una distribuzione

normale. Con 5000 gdl per varianza maggiore e minore la distribuzione si assomiglia ad una

normale centrata sul valore 1.

Page 71: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

71

1,11,00,9

600

500

400

300

200

100

0

F(5000;5000)

Freq

uenc

y

Histogram of F(5000;5000), with Normal Curve

Consideriamo 4 insiemi di dati (rilievi della produzione giornaliera di latte espressa in grammi di

pecore Sarde):

repliche A B C D

1 1575 1360 1280 1430

2 1860 1910 1050 2330

3 1000 1860 670 1750

4 1140 1470 2020 1645

5 925 1480 915 950

Σx 6500 8080 5935 8105

Σx2 9095450 19308600 8107025 14144825

mk 1300 1616 1187 1621

Dev 645450 251320 1062580 1006620

Var 161362 62830 265645 251655

d.s. 401,7 250,6 515,4 501,6

TOTALE Σx = 28620

Σx2 = 44656300

mt = 1431

Dev = 3701080

Poniamo che il raggruppamento dei dati corrisponda a 4 differenti tipi di mangime somministrati

agli animali (A = mais; B= orzo; C= avena; D = mais+soia). Dobbiamo verificare se le differenze

Page 72: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

72

fra le medie campionarie ottenute sono causali (cioè sono una stima campionaria della sessa media

della popolazione ) oppure se i diversi tipi di mangime hanno creato popolazioni differenti di pecore

e la media campionaria di ciascun gruppo è la stima della media di popolazioni differenti.

Ricordiamoci il modello lineare della media:

yi = µ + εi

Come ricorderete, in questo modello vi è una parte spiegata (le media) e una non spiegata o casuale

(l’errore). Nel nostro caso, però, abbiamo aggiunto una fonte di spiegazione al fenomeno che è

rappresentata dall’appartenenza delle pecore ai gruppi di alimentazioni differenti. L’errore del

modello della media può quindi essere diviso in due parti, di cui una spiegata (G=gruppo) ed una

residua non spiegata (εi= errore casuale):

ε = εi + G

Quindi il modello complessivo diventa:

yji = µ + Gj + εji

Questo modello può essere letto nel modo seguente: ciascun dato è uguale alla media generale + lo

scostamento della media del gruppo a cui appartiene il dato + lo scostamento del dato dalla media di

gruppo (il pedice j indica il gruppo di appartenenza del dato yji).

Prendiamo come esempio il primo dato:

1575 (yji) = 1431(µ ) – 131 (mk1-µ= Gj ) + 275 (yji – mk1=εji)

La parte spiegata dal modello è il primo scostamento (Gj = -131): questa informazione è giustificata

dal fatto che quel dato è inserito in un determinato gruppo (in questo caso A), il quale possiede una

media che differisce di una quantità Gj dalla media generale.

Lo sviluppo complessivo del modello lineare per i 4 gruppi sperimentali di pecore è illustrata di

seguito; sono anche calcolati i quadrati degli errori.

Gruppo A

εi2

A1 1575 = 1431 - 131 + 275 75625

A2 1860 = 1431 - 131 + 560 313600

A3 1000 = 1431 - 131 - 300 90000

Page 73: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

73

A4 1140 = 1431 - 131 -160 25600

A5 925 = 1431 - 131 - 375 140625

Totale 645450

Gruppo B

εi2

B1 1575 = 1431 + 185 - 256 65536

B2 1860 = 1431 + 185 + 294 86436

B3 1000 = 1431 + 185 + 244 59536

B4 1140 = 1431 + 185 – 146 21316

B5 925 = 1431 + 185 - 136 18496

Totale 251320

Gruppo C

εi2

C1 1280 = 1431 - 244 + 93 8649

C2 1050 = 1431 - 244 + 1370 18769

C3 670 = 1431 - 244 - 517 267289

C4 2020 = 1431 - 244 + 833 693889

C5 915 = 1431 - 244 - 272 73984

Totale 1062580

Gruppo D

εi2

D1 1430 = 1431 + 190 – 191 36481

D2 2330 = 1431 + 190 + 709 502681

D3 1750 = 1431 + 190 + 129 16641

Page 74: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

74

D4 1645 = 1431 + 190 – 24 576

D5 950 = 1431 + 190 - 671 450241

Totale 1006620

I calcoli sono corretti se la somma degli scarti εi,è uguale a zero e se anche la somma degli scarti

delle medie di gruppo dalla media generale (Gj) è uguale a zero.

Pur se ovvio, vale la pena ricordare che le somma degli scarti è uguale a zero in quanto la somma

dei dati (Σyji) è uguale alla somma.delle medie (Σµ= nµ)

Ricordiamo che nel modello della media si toglieva da SS la parte invariante, cioè SSm, per ottenere

la devianza (cfr lezione n. 4). Vediamo se questo è valido anche con la scomposizione dell’errore in

due parti.

SS = 44656300

SSm= n*m2= 20*14312 = 40955220

Somma dei quadrati degli scostamenti Gj

SSAA = 5 *(-131)2 = 85805

SSAB = 5 *(185)2 = 171125

SSAC = 5 *(-244)2 = 297680

SSAD = 5 *(190)2 = 180500

Se i calcoli sono stati fatti bene, la somma dei quadrati della media (SSm) più la somma dei

quadrati degli scostamenti di ciascun gruppo dalla media (SSG) deve essere inferiore o, al massimo,

uguale alla somma totale dei quadrati (SS), in quanto tutti i valori di ciascun gruppo fossero uguali

fra loro (e uguali alla media del gruppo) gli scostamenti interni al gruppo εi assumerebbero il valore

di zero.

Riprendiamo ora i quadrati degli scostamenti εi e la loro somma calcolata prima:

A: 645450

B: 251320

C: 1062580

D: 1006620

Totale 2965970

Avremo allora nel complesso

Page 75: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

75

SS = 44656300

SSm = 40955220

SSG = 73510

SSε = 2965970

Possiamo agevolmente notare che SS = SSm + SSG + SSε; infatti ha:

44656300 = 40955220 + 735110 + 2965970

il che significa che la variabilità contenuta nell’errore può essere scomposta in due parti, una

spiegata (appartenenza degli animali al gruppo di alimentazione) e una non spiegata (la deviazione

individuale rispetto alla media del gruppo).

Per quanto riguarda i gradi di libertà, la media generale prende una informazione, i gruppi 3

informazioni e per l’errore restano 16 gradi di libertà:

16 (4 gdl per gruppop) + 3 (n gruppi –1) + 1 (media generale) = 20 (numerosità del campione)

Calcoliamo ora le varianze (MS = mean square) che ci servono per effettuare il test statistico di

Fisher

MSG = SSG/3 = 735110/3 = 245037

MSE = SSε/16 = 2965970/16 = 185375

Infine, poiché la media è la parte invariante del modello, non porta alcuna informazione alla

variabilità. Possiamo allora sottrarre i quadrati della media a destra e a sinistra del modello e

avremo:

3701080 = 735110 + 2965970

Il primo termine è la devianza totale (SSt) già incontrata nella lezione n. 3 che può essere scomposta

in una devianza fra i gruppi (SSG) ed una devianza entro i gruppi (SSe). Siamo ora in grado di

ordinare i risultati nella “classica tabella di ANOVA”. Questa collocazione è molto importante in

quanto gli output dei software statistici sistemano i risultati generalmente in questo modo.

Tabella dei risultati dell’analisi della varianza (ANOVA) a un fattore di classificazione

Page 76: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

76

Fonte Devianza (SS) gradi di libertà Varianza (MS) F

Tra gruppi (G) 735110 3 245037 1,32

Entro gruppi (e) 2965970 16 185375

Totale (t) 3701080 19 **

(**) questo dato non viene di solito esposto in quanto non utile ai fini dell’analisi.

Inseriamo il valore di F in MINITAB ed otteniamo il seguente output

Probability Density Function F distribution with 3 DF in numerator and 16 DF in denominator x P( X = x) 1,3200 0,3048

Il che significa che la probabilità che le medie appartengano a popolazioni differenti (ovvero che i

diversi tipi di mangime abbiano causato una produzione differente) è del 30,5%. E’ una probabilità

troppo alta di fare una affermazione sbagliata per cui rigettiamo l’ipotesi alternativa (il mangime

provoca produzioni diverse) e accettiamo l’ipotesi zero (il mangime non crea differenze).

Normalmente i livelli di potenza del test (cioè la probabilità di commettere errore nell’accettare

l’ipotesi alternativa) sono del 5% e, in casi particolari, dell’1%. Se non disponessimo di un

software, potremo consultare le tavole dell’F sviluppate da Fisher (ne è stata distribuita una copia a

lezione).

Da queste tavole si ricava che per (16 gd.l. per la varianza minore Sse e 3 g.d.l. per la varianza

maggiore SSG) i valori per i prefissati limiti sono : F5% = 3,24 e F1% = 5,29. Poiché il valore da noi

trovato è inferiore a quelli soglia tabulati, respingiamo l’ipotesi alternativa. Se fosse stato superiore,

l’avremmo accettata.

Page 77: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

77

ANALISI DELLA VARIANZA (esercitazione a lettura obbligatoria. A. Nudda)

Abbiamo visto in precedenza come confrontare le medie di due popolazioni estratte

da due campioni casuali indipendenti. In effetti, questo è spesso una semplificazione

di ciò che accade nelle situazioni pratiche. Per esempio se noi volessimo confrontare il

salario medio orario di braccianti agricoli appartenenti a tre zone diverse, dovremmo

estrarre tre campioni casuali dalle tre popolazioni e fare le medie. Sicuramente

avremmo risultati diversi (sono medie campionarie), ma questo non vuol assolutamente

dire che le medie delle tre popolazioni siano diverse. È evidente che i metodi visti fino

a questo punto non sono efficaci. A risolvere tale problema ci pensa l’analisi di

varianza.

L’analisi della varianza è più rapida ed ha un campo di applicazione molto più ampio del “test t”

Cerchiamo innanzi tutto di capire la logica interna dell’analisi di varianza. Riprendiamo

l’esempio dei salari e supponiamo di aver estratto tre campioni dalle tre popolazioni

ognuno di cinque unità campionarie:

Campioni estratti

1 2 3

5.90 5.51 5.01

5.92 5.50 5.00

5.91 5.50 4.99

5.89 5.49 4.98

5.88 5.50 5.02

90.51 =x 50.52 =x 00.53 =x

Questi dati presentano sufficiente evidenza per indicare se ci sono differenze fra le

tre medie campionarie? Osservando i dati ci accorgiamo che la variabilità entro di ogni

singolo campione è piccola, mentre è grande la variabilità tra le medie campionarie.

Page 78: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

78

Poiché la variabilità tra le medie campionarie è grande in confronto alla variabilità

entro ogni singolo campione, potremmo intuitivamente concludere che le medie delle

corrispondenti popolazioni sono diverse.

Output di MINITAB che evidenzia gli intervalli di confidenza (Cis) al 95% delle medie basato su

una deviazione standard comune (pooled).

Consideriamo adesso la seguente tabella:

Campioni estratti

1 2 3

5.90 6.31 4.52

4.42 3.54 6.93

7.51 4.73 4.48

7.89 7.20 5.55

3.78 5.72 3.52

90.51 =x 50.52 =x 00.53 =x

Essa illustra una situazione in cui le medie campionarie sono le stesse della precedente

tabella, ma la variabilità all’interno di ogni singolo campione è più grande.

Diversamente alla situazione di prima, qui la variabilità tra i campioni è più piccola in

confronto alla variabilità all’interno dei campioni. È quindi più difficile arrivare a delle

conclusioni.

In questi casi occorre analizzare più a fondo la variabilità, occorre cioè fare una

analisi di varianza.

Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ----+---------+---------+---------+--1 5 5,9000 0,0158 ( * ) 2 5 5,5000 0,0071 ( * ) 3 5 5,0000 0,0158 ( * ) ----+---------+---------+---------+--Pooled StDev = 0,0135 5,10 5,40 5,70 6,00

Page 79: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

79

METODO: l’analisi della varianza consiste nella scomposizione della varianza totale in

un insieme di varianze parziali corrispondenti a sorgenti di variazione

differenti e ben determinate (varianza fra gruppi e varianza entro

gruppi).

Una volta individuate, queste varianze verranno confrontate tra di loro

con un test statistico denominato test F.

Vogliamo confrontare 2 serie di dati Si parte sempre dall’ipotesi H0 cioè che le medie dei due gruppi non siano tra loro diverse. Se l’ipotesi H0 viene contradetta dal test, si accetta l’ipotesi alternativa H1 e si conlcude che le 2 medie sono diverse Poiché si parte sempre dall’ipotesi H0 cioè che le medie dei due gruppi non siano tra loro diverse (ovvero rappresentino la stima di campioni estratti dalla stessa popolazione) consideriamo le due serie di dati come costituenti un’unica serie di 6 misure e calcoliamo la VARIANZA TOTALE

A B

2 4

3 5

4 6

9 15

6

4624

=

==

N

x

3=Ax 5=Bx

Per calcolare la varianza totale occorre calcolare:

Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev -+---------+---------+---------+----- 1 5 5,900 1,819 (-----------*------------) 2 5 5,500 1,417 (------------*-----------) 3 5 5,000 1,296 (------------*-----------) -+---------+---------+---------+----- Pooled StDev = 1,527 3,6 4,8 6,0 7,2

Page 80: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

80

- la somma dei quadrati degli scarti dei dati individuali dalla media generale che indichiamo come “SOMMA TOTALE DEI QUADRATI”

∑ −=N

1

2)(SSt ii xx

- i gradi di libertà (g.l. = N-1)

In pratica per calcolare la Varianza Totale:

1. calcolare la media generale del gruppone

6

4624

=

==

N

x

2. Calcolare lo scarto di ciascun valore dalla media generale

A B

2-4=-2 4-4=0

3-4=-1 5-4=+1

4-4=0 6-4=+2

3. poiché la somma degli scarti è = zero, si fa il quadrato degli scarti

A B

(-2)2 (0) 2

(-1) 2 (+1) 2

(0) 2 (+2)2

4. Fare la Somma Totale dei Quadrati SST

SST = 4 + 1 + 0 + 0 + 1 + 4 = 10

Tale variabilità totale è, comunque, il risultato di due sorgenti di variazione. La prima

è dovuta alla differenza tra i gruppi A e B: si ha infatti 3=Ax ed 5=Bx . La seconda

è costituita dalle differenze fra le singole unità campionarie che compongono ogni

gruppo (all’interno di ogni gruppo abbiamo infatti valori diversi). La variabilità totale si

Page 81: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

81

può allora scindere in due parti: variabilità fra gruppi (SSG) e variabilità entro gruppi

(SS).

VARIABILITA’ FRA GRUPPI

Per poter isolare la variabilità fra i gruppi occorrerà sopprimere la variabilità

all’interno di ogni gruppo. Questo si può fare sostituendo all’interno dei gruppi i valori

originali con le medie di ogni gruppo:

In questo modo le medie rimangono uguali, ma si annulla la variabilità all’interno di ogni

gruppo. Inoltre è facile vedere che la media totale rimane sempre 4:

46159

=+

=x

1. A B

3 5

3 5

3 5

somma 9 15

sostituire all’interno di ciascun gruppo i

valori originali con la media di ogni gruppo

2. A B

3-4 = -1 5-4=+1

3-4 = -1 5-4=+1

3-4 = -1 5-4=+1

somma -3 +3

Calcolare lo scarto di ciascun valore dalla

media generale = 4 Poiché la somma degli scarti è = 0…

3. A B

(-1)2 (+1) 2

(-1)2 (+1) 2

(-1)2 (+1) 2

Calcolare il quadrato degli scarti

Page 82: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

82

4. Somma dei quadrati TRA gruppi (SSe): 1 + 1 + 1 + 1 + 1 + 1 = 6

VARIABILITA’ ENTRO GRUPPI Poiché SST = SSG + SSe La variabilità all’interno dei gruppi (somma dei quadrati entro gruppi SSe) è data semplicemente dalla differenza: SSe= SST – SSG 10 - 6 = 4 SST = somma dei quadrati totale (o devianza totale) SSG = somma dei quadrati entro gruppo (o devianza entro) SSe = somma dei quadrati tra gruppi (o devianza tra) VARIANZA = devianza/g.l.

Page 83: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

83

Varianza TRA gruppi

g.l. = k -1 = 1 k = numero di gruppi

616

1SSG

==−

=k

AVarianzaTR

Varianza ENTRO gruppi

144SSe

==−

=kN

troVarianzaEn

g.l. = N - k = 6 - 2 = 4 N = numero complessivo di dati k = numero di gruppi

Page 84: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

84

IL TEST STATISTICO O TEST F DI SIGNIFICATIVITÀ

Il test statistico F confronta la varianza tra i gruppi e la varianza antro gruppi:

616

MSeMSG

===F

ed è caratterizzato da k – 1 gradi di libertà al numeratore e N – k gradi di libertà al

denominatore.

Per 05.0=α le tabelle danno F = 7.71. Il F calcolato non supera quello tabulato: si

rifiuta l’ipotesi alternativa per cui si accetta quella zero.

Riassumiamo il tutto in una tabella:

Ricordiamo che: (H0): µ1 = µ2 (le 2 medie sono relative a campioni che provengono dalla stessa popolazione) (H1): almeno due µ diverse, ovvero: µ1 diversa da µ2 (le due medie sono relative a campioni che provengono da popolazioni diverse) Se il valore di F calcolato è minore del valore di F tabulato accetto l’ipotesi nulla H1 (le due medie non sono statisticamente differenti) Se il valore di F calcolato è maggiore del valore di F tabulato rifiuto l’ipotesi nulla H0 e accetto l’ipotesi alternativa (le due medie sono statisticamente differenti) Nell’esempio considerato k - 1 = numero di gruppi - 1 = 2 - 1 = 1 (g.l. al numeratore); n - k = numero di soggetti - numero di gruppi = 6 - 2 = 4 (g.d.l. al denominatore).

Page 85: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

85

Sulla tavola di probabilità di F, all'incrocio tra 1 g.d.l. al numeratore e 4 g.l. al

denominatore, troviamo: F(1, 4) = 7,71 per α = 0.05, F(1, 4) = 21.20 per α = 0.01. Per α = 0.05 (L.C. 95%; 1 e 4 g.l.) le tabelle dell’F danno F = 7.71 Il F calcolato ( = 6) è minore di quello tabulato (=7.71) per cui si accetta l’ipotesi nulla (H0) e si rigetta l’ipotesi alternativa Ha.

Ovvero le due medie non sono statisticamente differenti

Output da MINITAB

Analysis of Variance Source DF SS MS F P Factor 1 6,00 6,00 6,00 0,070 Error 4 4,00 1,00 Total 5 10,00 Level N Mean StDev A 3 3,000 1,000 B 3 5,000 1,000

Page 86: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

86

Uso delle tavole di F Le tavole di F sono a doppia entrata: margine orizzontale (superiore) riporta i g.l. del numeratore margine verticale (laterale) riporta i g.l. del denominatore Nell’esempio precedente: g.l. per il numeratore = 1 g.l. per il denominatore = 4 per 1 e 4 g.l. e per un livello di α = 0.05 F tabulato = 7,71 per 1 e 4 g.l. e per un livello di α = 0.01 F tabulato = 21,20

Page 87: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

87

Lezione n. 6

TEORIA DELLA REGRESSIONE

1. La regressione

La regressione studia le modalità di interpretazione di insiemi di dati legati fra di loro da vincoli di

causalità.

Ad esempio, è noto che l’ingestione alimentare in sostanza secca di un animale dipende (I espressa

in kg) dal suo peso corporeo (PC). Il fenomeno quantitativo studiato (variabile dipendente) può essere collegato ad una sola causa (variabile indipendente) espressa in termini lineari (regressione lineare semplice).

L’insieme delle osservazioni sull’ingestione (variabile dipendente) può essere convenientemente

espresso in funzione del peso corporeo (variabile indipendente) con una relazione del tipo:

[1] I = a + bPC

in cui a e b sono i parametri dell’equazione Lo stesso fenomeno può, però, essere interpretabile in termini esponenziali, linearizzabili o meno (regressione non lineare) L’insieme dei dati sull’ingestione rilevati su differenti specie è legato al peso corporeo elevato alla

potenza 0,75 per cui la relazione è:

[2] I = a + bPC0,75

linearizzabile elevando tutti i valori osservati del PC alla 0,75.

Altri fenomeni possono convenientemente essere espressi in termini polinomiali (anche essi linearizzabili o meno). L’ingestione può essere determinata oltre che da una componente lineare del peso anche da una

quadratica, per cui l’equazione è del tipo:

Page 88: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

88

[3] I = a + bPC + cPC2 In tutti i casi la curva che interpreta questo insieme biunivoco di dati giace su un piano cartesiano. Nel caso in cui invece il fenomeno quantitativo dipenda da più variabili indipendenti, esso può essere epresso in termini di regressione multipla rappresentabile in uno spazio a tre dimensioni (nel caso di sue sole variabili indipendenti) o in un iperspazio a n dimensioni (nel caso di n variabili indipendenti). Ad esempio, l’ingestione alimentare negli animali in lattazione dipende oltre che dal peso corporeo

anche dalla produzione di latte (L) e dal contenuto in proteina degli alimenti PG) ed è

rappresentabile con la relazione (nello spazio quadridimensionale):

[4] I = a + b1PC + b2L + b3PG Un caso di equazione linearizzabile è quella di Wood che descrive la curva di lattazione: [5 ] L(t) = atb e-ct che può essere espressa in forma logaritmica come: [6] logL = loga + blogt - ct

Lo stesso fenomeno può anche essere descritto con una equazione non lineare secondo un modello

biesponenziale del tipo:

[7] L = A-k1t + B-k2t

In questo modulo tratteremo in particolare della regressione lineare semplice e multipla. Studieremo

l’adattamento del modello ai dati sperimentali secondo il metodo dei minimi quadrati , valuteremo

la precisione della stima e la bontà del modello matematico impiegato.

Page 89: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

89

Un pò di storia.

Si è discusso a lungo su chi abbia per primo scoperto il metodo dei minimi quadrati. Sembrerebbe

che questo sia stato messo a punto simultaneamente ed indipendentemente da Carl Fiedrich Gauss

(1777-1855) e da Andrè Marie Legendre (1752-1833), ma che Gauss lo abbia utilizzato per primo

nel 1803 anche se la prima pubblicazione di Legendre è del 1805. Quando nel 1809 Gauss scrisse

che egli utilizzava il metodo già dal 1795, nacque la controversia.

Page 90: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

90

2 La regressione lineare semplice

Prendiamo in esame questo data set ricavato da una prova sperimentale su pecore Sarde in asciutta.

Peso (kg) Ingestione (kg)

45,0 1,189 44,0 1,151 35,0 0,915 41,0 0,944 42,0 1,127 43,4 1,031 46,9 1,223 45,2 1,129 39,8 0,888 50,1 1,193 49,2 1,194 45,3 1,095 46,2 1,146 44,2 1,189 41,2 1,045 52,1 1,308 47,7 1,185 48,2 1,202 38,1 0,843 49,0 1,270

Il fenomeno può essere rappresentato in un piano cartesiano.

L’equazione in grado di interpretare l’andamento è una retta del tipo

[8] Yi = β0 + βiXi + εi

Page 91: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

91

Il miglior luogo dei punti capace di descrivere il fenomeno è quello che minimizza le distanze al

quadrato da ciascun punto sperimentale (lettura facoltativa)

[9] ∑=

=n

iS

1εi

2 = ∑=

n

i 1(Yi - β0 - β1 Xi)2

Occorre stimare i valori di b0 e di b1 che sostituiti ai beta producano il minor valore possibile di S.

Inizialmente differenziamo l’equazione [9] rispetto a ciascun β e poniamo il risultato uguale a zero

(troviamo cioè il minimo delle funzioni, nello stesso modo in cui si trova un minimo relativo di una

qualsiasi equazione, prima derivando e poi ponendo la derivata uguale a zero):

[10] δS/δβ0 = -2∑=

n

i 1( Yi - β0 - β1 Xi)

[11] δS/δβ1 = -2∑=

n

i 1Xi( Yi - β0 - β1 Xi)

per cui le stime di b0 e di b1 sono date dalle

[12] ∑=

n

i 1( Yi - b0 - b1 Xi) = 0

[13] ∑=

n

i 1Xi( Yi - b0 - b1 Xi) = 0

che riarrangiate diventano

[14] ∑=

n

i 1Yi – nb0 - b1 ∑

=

n

i 1Xi = 0

Page 92: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

92

[15] ∑=

n

i 1XiYi – b0 ∑

=

n

i 1Xi – b1 ∑

=

n

i 1Xi

2 = 0

oppure

[14] nb0 + b1 ∑=

n

i 1Xi = ∑

=

n

i 1Y i

[15] b0 ∑=

n

i 1Xi + b1 ∑

=

n

i 1Xi

2 = ∑=

n

i 1XiYi

Queste ultime sono chiamate equazioni normali

(Lettura obbligata)

La soluzione delle equazioni normali per la pendenza (b1) della retta è data dalla relazione

[16] b1 = nXX

nYXYXii

iiii

/)(/)])([(

22 ΣΣΣΣΣ

− = SXY/SXX

ovvero, il valore della pendenza della retta è dato dal rapporto fra la

codevianza fra le variabili e la devianza della variabile indipendente

Ora è possibile calcolare il valore di b0 che è uguale a

[17] b0 = XmbYm 1−

dove Ym è la media delle Y e Xm è la media delle X

In pratica, i valori della b0 e della b1 si calcolano nel seguente modo con Excell:

a) si moltiplicano ciascuna y per la rispettiva x;

b) si fa la somma dei prodotti;

c) si sottrae la il prodotto della somma delle x e delle y diviso n;

Page 93: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

93

d) si divide la codevianza così ottenuta per la devianza delle x calcolata come sappiamo.

Un volta applicata la formula [16] calcoliamo il valore di b0 applicando l’equazione ai valori medi

della x e della y.

Page 94: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

94

L’equazione y = 0,093 + 0,027 stima che l’ingestione alimentare nel campione di pecore

considerato aumenti di circa 27 grammi per ogni aumento di un kg di peso nelle pecore.

3. La valutazione delle regressione stimata

La valutazione della regressione stimata si attua con l’uso di 3 procedure:

1. il valore del coefficiente di determinazione R2;

2. il test F che deriva dall’analisi della varianza

3. il test t che si applica ai parametri;

L’analisi della varianza.

Ogni dato Yi ottenuto da una qualsiasi Xi può essere considerato composto da due frazioni: la prima

costituita dalla differenza fra il valore stimato dalla regressione Yis e quello medio delle Ym; la

seconda dalla differenza fra il valore reale Yi e quello stimato dalla regressione Yis

relazione fra ingestione e peso corporeo in pecore Sardey = 0,027x - 0,0934

R2 = 0,7998

1

1,05

1,1

1,15

1,2

1,25

1,3

1,35

40 42 44 46 48 50 52 54

Peso in kg

Inge

stio

ne in

kg

Page 95: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

95

[18] (Yi – Ym) = (Yis – Ym) + (Yi – Yis)

da cui discende la somma dei quadrati

[19] Σ(Yi – Ym)2 = Σ(Yis – Ym)2 + Σ(Yi – Yis)2

che significa: somma dei quadrati delle deviazioni dalla media = somma dei quadrati dovuta alla

regressione + somma dei quadrati delle deviazioni dalla regressione (o errore)

L’entità della variabilità spiegata dalla regressione

Si utilizza il coefficiente R2 = (SS dovuta alla regressione)/(SS deviazioni dalla media)

[20] Σ(Yis – Ym)2/Σ(Yi- Ym)2

che può variare fra 0 e 1.

Page 96: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

96

R2 misura la “proporzione della variazione totale intorno alla media che è spiegata dalla

regressione”

La radice quadrata R è, in questo caso, il coefficiente di correlazione (r) variabile fra –1 e +1.

Analisi della varianza

Ad ogni somma di quadrati in statistica è associata una misura dei gradi libertà; ciò che si ottiene è

una stima della varianza.

[21] SS/df = E(V)

La tavola dell’ANOVA della regressione può essere costruita come segue

Fonte gradi di libertà df somma quadrati SS Varianza MS

Regressione 1 Σ (Yis _- Ym)2 MS regr

Residua n-2 Σ (Yi – Yis)2 s2

Totale n-1 Σ (Yi – Ym)2

Il coefficiente F di Fisher misura l’entità della varianza spiegata su quella residua = MSregr/s2 e va

confrontato sulle apposite tabelle.

Page 97: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

97

Nel nostro caso l’output di MINITAB è il seguente:

Regression Analysis The regression equation is Ingestione (kg) (Y) = - 0,093 + 0,0270 Peso (kg) (X) Predictor Coef StDev T P Constant -0,0934 0,1429 -0,65 0,522 Peso (kg 0,027009 0,003185 8,48 0,000 S = 0,05951 R-Sq = 80,0% R-Sq(adj) = 78,9% Analysis of Variance Source DF SS MS F P Regression 1 0,25459 0,25459 71,89 0,000 Residual Error 18 0,06374 0,00354 Total 19 0,31834

I risultati mostrano che l’equazione da noi calcolata con excell è giusta. Poiché i valori dei

parametri b0 (indicato con constant) e b1 (indicato con peso kg) sono campionari, cioè sono una

stima dei parametri veri della popolazione della popolazione, essi avranno una variabilità. La

variabilità dei parametri campionari della regressione va letta analogamente alla variabilità della

media campionaria delle statistiche univariate. Se infatti calcolassimo tutte le possibili regressioni

campionarie di campioni estratti dalla popolazione avremo che l’insieme dei valori di b0 e b1

coswtituiscono una variabile distribuita normalmente con la media che coincide con il valore vero

dei parametri della regressione calcolata sull’intera popolazione. Come sarà meglio illustrato

teoricamente in seguito, la deviazione standard dei parametri si impiega per calcolare l’intervallo di

confidenza degli stessi con il test t. Se in tale intervallo è compreso lo zero, affermiamo che il

parametro stimato non differisce significativamente da zero, altrimenti possiamo affermare che il

parametro esiste nella popolazione e che il valore calcolato ne è una stima. Nel nostro caso

possiamo vedere che il parametro b0 ha un P=0,522 per cui non è significativamente diverso da

zero, mentre quello b1 ha un P=0,000 per cui è diverso da zero. L’analisi statistica ci dice ciò che

Page 98: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

98

biologicamente ha un senso. A peso corporeo zero non c’è ingestione, mentre al crescere del peso

l’ingestione aumenta,.come abbiamo visto, di 27 grammi si sostanza secca per ogni kg in più.

Questa equazione pertanto può risultare molto utile per prevedere l’ingestione di pecore Sarde una

volta conosciuto il peso degli animali.

Il valore di R2 è dell’80%: tale dato ci informa che l’80% di tutta la variabilità dell’ingestione può

essere spiegato dal peso corporeo delle pecore. Detto in altro modo, la conoscenza del peso

corporeo delle pecore riduce la variabilità dell’ingestione al solo 20% che rappresenta la variabilità

residua non spiegata dal modello.

L’ANOVE infine ci informa che la varianza spiegata dalla regressione non molto maggiore di

quella residua (il P dell’F di Fisher è inferiore al 5%), per cui la regressione esiste e il modo con cui

i dati si sono disposti nel piano cartesiano non è casuale, ma è dovuto ad una ragione: gli animali

più pesanti tendono a mangiare di più.

4. Regressione e correlazione

Il coefficiente di correlazione misura l’entità della variazione comune fra due variabili (covarianza)

sulla variabilità complessiva (prodotto delle deviazioni standard); sarebbe:

[21] r YX= cov(YX)/(dsY * dsX)

Esso stima la forza con cui due variabili sono legate fra di loro linearmente e varia da –1 a + 1. Se il

valore di r >0 la correlazione è positiva /le due variabili crescono nello stesso senso); se r<0 la

correlazione è negativa (al crescere di una variabile, l’altra diminuisce).

Prendiamo in esame questi dati riferiti alla produzione di latte di pecore Sarde che ingerivano

razioni a diverso contenuto in proteina grezza (PG) e in fibra (NDF) sulla sostanza secca della

razione.

PG in % ss NDF in % ss latte in kg

13,63 42,92 1,1113,79 42,92 1,2115,07 43,11 1,3216,45 40,06 1,34

Page 99: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

99

PG in % ss NDF in % ss latte in kg 15,25 45,04 1,3918,50 60,72 0,5118,01 48,60 0,7321,14 60,72 0,7320,65 51,42 0,7819,98 45,21 0,7613,11 35,00 0,7013,30 34,22 0,5913,20 34,62 0,9212,86 35,77 0,4712,74 38,50 0,4813,47 34,50 0,9212,54 37,64 0,4816,57 36,50 1,1612,22 62,74 0,1712,05 58,24 0,1711,88 53,54 0,2713,44 57,00 0,4915,10 49,60 0,7316,53 43,33 0,7710,50 51,53 0,5511,47 48,45 0,5812,59 31,13 0,4715,00 46,02 1,1220,17 42,95 1,1520,41 43,10 1,0413,93 37,88 0,9414,63 34,80 0,8614,70 34,48 0,8715,45 31,15 1,0111,45 43,86 1,3013,40 36,92 1,4214,32 40,92 0,4814,17 43,21 0,6417,48 40,52 0,8516,91 42,27 0,8413,95 18,05 0,8916,10 61,00 0,7015,00 61,00 0,7612,30 61,00 0,8916,10 61,00 0,9716,10 61,00 1,1416,10 61,00 1,0616,10 61,00 1,2515,00 61,00 1,2115,00 61,00 1,2420,42 43,08 0,8917,51 38,00 0,9817,49 38,00 1,5717,50 38,00 1,599,78 44,06 0,87

11,80 60,34 0,8421,35 33,10 1,0721,24 34,20 1,1115,24 46,78 0,44

Page 100: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

100

PG in % ss NDF in % ss latte in kg 15,66 45,57 0,4516,30 44,22 0,4716,46 39,68 0,4318,16 44,66 0,8118,62 47,11 0,7617,22 39,90 0,7916,70 34,70 1,676,26 55,20 0,458,71 49,70 0,496,52 64,20 0,557,94 54,20 0,72

18,06 35,53 1,2418,06 35,53 1,0915,97 38,17 2,0313,56 37,03 1,0312,91 39,99 0,6910,50 50,93 0,5511,47 51,07 0,5815,96 42,03 1,1016,47 52,00 1,1016,60 46,71 0,6316,35 54,61 0,7615,02 27,50 2,4515,04 28,70 2,4215,08 28,80 2,6713,49 29,80 1,9713,51 30,60 2,0113,48 30,80 2,0318,67 25,28 3,1916,94 25,42 3,5320,95 37,68 1,10

Vogliamo vedere come le tre variabili sono legate fra loro e calcoliamo i valori di r con MINITAB

Correlations (Pearson) PG in % NDF in % NDF in % -0,183 0,083 latte in 0,244 -0,505 0,021 0,000

Page 101: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

101

L’output del computer ci mostra che la PG è correlata negativamente con l’NDF e positivamente

con il latte; mentre latte e NDF sono correlati negativamente. In sintesi, all’aumentare della PG

diminuisce la fibra ed aumenta il latte, mentre all’aumentare della fibra il latte si riduce.

Anche in questo caso dobbiamo stare attenti che il valore del coefficiente di regressione lineare è

campionario ed è una stima del vero valore ρ sconosciuto della popolazione. Il numero che sta sotto

il coefficiente di regressione campionario è la probabilità (P) che il valore stimato sia diverso da

zero. Nel nostro caso il valore della correlazione fra proteine e fibra ha un P superiore al 5%, per cui

respingiamo l’ipotesi alternativa che esso sia, nella popolazione, diverso da zero e concludiamo che

non esiste correlazione fra le due variabili. Nel secondo (Latte e PG) e terzo (latte e NDF) invece il

valore è inferiore al 5% per cui concludiamo che una correlazione esiste anche nella popolazione e

che il valore da noi trovato ne è una stima.

Quando un valore del coefficiente è da considerarsi elevato? In genere non esiste un sistema se non

arbitrario. Normalmente si dice che la correlazione è:

a) molto bassa se r < 0,20 in valore assoluto;

b) bassa se 0,20<r<0,40;

c) media se 0,40<r<0,60;

d) alta se 0,60<r<0,80;

e) molto alta se r>0,80.

Un errore, purtroppo molto comune, da evitare è affermare che una correlazione è statisticamente

significativa (intendendosi che è buona e alta) anche con valori molto bassi del coefficiente se esso

è significativamente diverso da zero. Ripeto: il valore di P ci informa soltanto se la correlazione

esiste, ma non significa che essa sia alta.

E’ possibile vedere che i coefficienti di correlazione e di regressione sono fera loro apparentati.

Infatti, ricordando che il coefficiente b1 = cov(YX)/V(X), si ottiene

[22] b1 = (dsY/dsX)*rYX

Page 102: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

102

Test dei parametri

Per valutare se i parametri sono significativamente diversi da zero, si applica un particolare test t.

• caso del parametro b1

[23] t = b1/ ds(b1)

dove ds(b1) = radice quadrata[varianza residua/somma delle deviazioni quadrate delle X] = s/[Σ(Xi

–Xm)2]1/2

• caso del parametro b0 la formula è un pò più complicata:

[24] t =b0/ [ΣXi2/nΣ(Xi – Xm)2]1/2 * s

Analizziamo un momento queste due formule.

Al denominatore della [23] compare la ds-residua (cioè la radice quadrata della varianza residua)

delle y divisa per la radice quadrata della devianza delle x. Ora, a parità di valore di s, minore è la

devianza delle x, maggiore è la varianza del parametro b1.

In pratica significa che l’addensamento dei valori delle x intorno alla media è un fattore inflativo

della varianza del parametro.

Page 103: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

103

Il ragionamento per la [24] è analogo, in quanto la devianza è sempre al denominatore del

denominatore.

La deviazione standard dell’Y.

E’ un parametro che consente di calcolare l’intervallo di confidenza dell’intera regressione.

[25] s.d. (y) = s[1/n + (x0 – xm)2/Σ(xi – xm)2]1/2

dove x0 è un valore qualsiasi ed s è la deviazione standard residua.

Il valore è minimo quando x0 = xm e rappresenta di fatto l’errore standard della media della y e

cresce con l’allontanarsi di x0 dalla propria media.

Ciò significa che più ci si allontana dalla media maggiore è l’errore che ci aspettiamo nel predire i

valori delle y.

Page 104: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

104

5. Richiami di algebra matriciale e il suo impiego nella regressione (facoltativo)

Una matrice è un insieme ordinato di numeri. Consideriamo queste osservazioni sperimentali

riferite ad un campione di pecore da latte di razza Sarda.

Ingestione Peso ProdLatte

2,838 45,0 1,72,514 44,0 1,42,146 35,0 1,22,205 41,0 12,847 42,0 23,086 43,4 2,12,504 46,9 1,22,726 45,2 1,52,252 39,8 1,23,176 50,1 2,22,974 49,2 1,92,743 45,3 1,52,951 46,2 22,347 44,2 1,22,300 41,2 1,243,187 52,1 2,053,148 47,7 2,112,792 48,2 1,752,243 38,1 1,12,409 49,0 0,9

Possiamo scrivere questo insieme di numeri sotto forma di matrice

Page 105: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

105

M =

2,838 45,0 1,7 2,514 44,0 1,4 2,146 35,0 1,2 2,205 41,0 1 2,847 42,0 2 3,086 43,4 2,1 2,504 46,9 1,2 2,726 45,2 1,5 2,252 39,8 1,2 3,176 50,1 2,2 2,974 49,2 1,9 2,743 45,3 1,5 2,951 46,2 2 2,347 44,2 1,2 2,300 41,2 1,24 3,187 52,1 2,05 3,148 47,7 2,11 2,792 48,2 1,75 2,243 38,1 1,1 2,409 49,0 0,9

Le osservazioni sono gli elementi della matrice, le righe e le colonne sono l’ordine della matrice. M

è di ordine 20x3.

Consideriamo le prime 3 righe, per cui M(3x3) diventa

2,838 45,0 1,7 2,514 44,0 1,4 2,146 35,0 1,2

e sviluppiamo gli esempi su questo sub-set di dati.

Un vettore è una matrice costituita da una sola riga o da una sola colonna

x = 45,0 x’ = 45,0 44,0 35,0

Page 106: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

106

44,0

35,0

x’ è la trasposta della matrice x. La trasposta di M è

M’ = 2,838 2,514 2,146

45,0 44,0 35,0

1,7 1,4 1,2

una matrice cioè in cui gli elementi di una riga diventano elementi di una colonna

Uno scalare è un singolo numero, come 4, 12 oppure 0,12.

Addizione

Questa operazione è possibile con matrici dello stesso ordine e si effettua sommando

(algebricamente) gli elementi omologhi (stessa riga e stessa colonna)

A = 1 2 B = 4 5 C = A + B = 5 7

3 4 6 7 9 11

Moltiplicazione

Un matrice moltiplicata per uno scalare è una matrice con ciascun elemento moltiplicato per lo

scalare

Page 107: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

107

3 x A = 3x1 3x2 = 3 6

3x3 3x4 9 12

La moltiplicazione fra due matrici è possibile se le colonne della prima sono uguali alle righe della

seconda ed ha ordine uguale alle righe della prima ed alle colonne della seconda

Z(10x3) x W(3x5) = U(10x5)

Ciascun elemento della matrice prodotto è ottenuto dalla somma dei prodotti degli elementi delle

righe della prima matrice e delle colonne omologhe della seconda matrice

A x B = 1 2 x 4 5 = 1(4)+2(6) 1(5)+2(7) = 16 19

3 4 6 7 3(4)+4(6) 3(5)+4(7) 36 43

La trasposta del prodotto di due matrici è la trasposta del prodotto delle due matrici in ordine

inverso

(AxB)’ = B’ x A’

Determianti

Il determinante di una matrice è uno scalare ed esiste solo per le matrici quadrate (stesso numero di

righe e di colonne)

Page 108: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

108

La conoscenza del determinante è importante per l’ottenimento della matrice inversa. Se il

determinate è nullo (= 0), la matrice non è invertibile.

Inversa

L’inversa di una matrice (M-1) è l’analogo del reciproco in algebra scalare ed è indispensabile per le

operazioni di divisione.

s = 4; reciproco di s-1 = ¼, per cui s x s-1 = 1

M x M-1 = I

in cui I è la matrice identità, una matrice con gli elementi della diagonale principale uguali a 1 e

tutti gli altri zero

I (3x3) = 1 0 0

0 1 0

0 0 1

Il calcolo dell’inversa (se esiste) è laborioso per matrici di ordine superiore al terzo, ma può essere

agevolmente ottenuto da una routine di computer

Il determinante è nullo se una riga o una colonna sono la combinazione lineare di altre righe o

colonne. Il rango della matrice è il numero di linee e di colonne linearmente indipendenti. La

matrice è detta di pieno rango se tutte le righe e le colonne sono linearmente indipendenti.

Page 109: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

109

Se non esiste una inversa per una matrice di rango pieno (il determinante è nullo), possono essere

trovate inverse di tango inferiore che sono dette inverse generalizzate; se A- è l’inversa

generalizzata di A, è soddisfatta la relazione

A A- A = A

Anche in questo caso è opportuno ricorrere all’uso di un software per l’identificazione della g-

inversa.

In statistica una matrice speciale è

A = X’X

che è sempre simmetrica, cioè gli elementi sopra e sotto la diagonale sono simmetricamente uguali.

Nel caso dei nostri dati sperimentali si ha:

143,0 2390,8 85,6

2390,8 40275,1 1414,1 85,6 1414,1 52,2

L’uso dell’algebra matriciale nella regressione lineare

Definiamo Y il vettore delle osservazioni, X la matrice delle variabili indipendenti, β il vettore dei

parametri da stimare, ε il vettore degli errori, 1 vettore colonna di 1.

Page 110: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

110

Nel nostro caso avremo

Y = 1,189 X = 1 45,0 β = β0 ε = ε1

1,151 1 44,0 β1 ε2

0,915 1 35,0 ε3

...... .....

...... .....

1,270 1 49,0 ε20

L’equazione può essere scritta in forma matriciale nel modo seguente

[26] Y = Xβ + ε

che significa che

[27] 1,189 = β0 + 45,0β1 + ε1

1,151 = β0 + 44,0β1 + ε2

0,915 = β0 + 35,0β1 + ε3

..........................................

1,270 = β0 + 49,0β1 + ε20

Page 111: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

111

Dobbiamo trovare i valori incogniti β0 e β1 con la relazione dei minimi quadrati che si ottiene

ponendo la matrice ε’ε= min in questo modo:

1) si presuppone che E(ε)=0 e che V(ε)=Iσ2 (il che significa che gli errori sono indipendenti cioè

non correlati)

2) E(Y) = Xβ, per cui ε’ε= (Y - Xβ)’(Y - Xβ)

3) minimizzare la matrice somma degli scarti significa differenziare separatamente ε’ε rispetto ad

ogni elemento di β messo in ordine e scrivere le derivate riarrangiate in forma di matrice;

4) il risultato ottenuto è l’equazione normale dei minimi quadrati:

[28] X’Xb = X’Y

Se X’X è non singolare (cioè se nessuna equazione normale dipende da qualche altra), può essere

invertita e la soluzione si trova dividendo per X’X i due membri dell’equazione [28]

Page 112: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

112

(X’X)-1(X’X)b = (X’X)-1X’Y

per ottenere una importantissima relazione: ogni regressione lineare normale può essere scritta in

questa forma

[29] b = (X’X)-1X’Y

dove b è il vettore colonna delle soluzioni (2,1, nel caso di regressione lineare semplice, k,1 negli

altri casi, in cui k è il numero di regressori).

Il vettore soluzione b gode delle seguenti proprietà:

1) è una stima di β che minimizza il quadrato della somma degli errori indifferentemente alla loro

distribuzione;

2) gli elementi di b sono funzioni lineari delle osservazioni (y) e forniscono un stima non distorta

degli elementi di β con la varianza minima

3) se gli errori sono indipendenti, b è la stima di massima verosimiglianza di β.

Page 113: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

113

La potenza della relazione [29] risiede nella possibilità di applicazione alla regressione lineare

multipla.

Consideriamo il data set relativo all’ingestione alimentare in funzione del peso e della produzione

del latte. Le variabili indipendenti sono due, per cui i coefficienti di regressione da calcolare sono 3

(b0 , b1 e b2), per cui la relazione [27] diventa

[30] 2,838 = β0 + 45,0β1 + 1,7β2 + ε1

2,514 = β0 + 44,0β1 + 1,4β2 + ε2

2,146 = β0 + 35,0β1 + 1,2β2 + ε3

.......................................................

2,409 = β0 + 49,0β1 + 0,9β2 + ε30

La soluzione è ottenibile con la relazione [29] tenuto conto che la matrice X ha la forma

1 2,838 45,0 1,7

X = 1 2,514 44,0 1,4

1 2,146 35,0 1,2

........................................

1 2,409 49,0 0,9

Page 114: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

114

Il vettore degli Y è ottenibile tramite la relazione

[31] Y = Xb

per cui il vettore degli errori è ricavato dalla ε = Y - Y

Analisi della varianza della regressione

Analogamente a quanto ottenuto con il calcolo scalare è possibile effettuare l’ANOVA con le

matrici con il prospetto seguente (k = numero di regressori)

Fonte gradi di libertà df somma quadrati SS Varianza MS

Regressione k-1 b’X’Y – nY2 MS regr

Residua n-k Y’Y – b’X’Y s2

Totale n-1 Y’Y – nY2

Page 115: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

115

Il coefficiente di determinazione (che rappresenta il quadrato della correlazione fra Y e Y) è

calcolabile con la seguente relazione

[32] R2 = (b’X’Y – nY2)/(Y’Y – nY2)

Impiego della regressione lineare multipla per funzioni linearizzabili

Le equazioni linearizzabili sono quelle trasformabili in equazioni lineari multiple.

Ad esempio, il polinomio di secondo grado y = a + bx + cx2 è calcolabile con la tecnica della

regressione multipla ponendo x2= z per cui la funzione diventa y = a + bx + cz.

Una funzione “interessante” che può essere linearizzata è quella proposta da Wood per la

descrizione della la curva di lattazione

[33] y = axbexp(-cx)

in cui y è la produzione di latte al tempo x e a,b,c sono i parametri dell’equazione.

Se si passa ai logaritmi, la [33] può essere scritta nel modo seguente

[34] log y = log a + b log x - cx.

Page 116: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

116

Ponendo log y = Y, log a = A, log x = z, l’equazione [34] diventa la funzione lineare multipla

[35] Y = A + bz + cx

che consente la stima diretta dei parametri b e c e quella di a = eA

La migliore regressione

Il ricercatore è mosso da due esigenze:

1) avere la migliore equazione per gli scopi esplicativi e predittivi con tutte le variabili

significative incluse nel modello;

2) avere un modello con il minor numero possibile di variabili (economicità dei rilievi).

I problemi che dobbiamo affrontare sono:

1) l’interpretazione delle statistiche (R2, valori di b, valori dell’F di Fisher);

2) la selezione della migliore equazione fra quelle disponibili e la correttezza del modello

utilizzato;

3) la correlazione fra le variabili indipendenti (multicollinearità).

a) L’interpretazione delle statistiche (ovvero le TRAPPOLE della correlazione)

Page 117: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

117

La bontà di una regressione è spesso stimata dal valore del coefficiente di determinazione R2 .

Il reale significato di questa statistica è quello di misurare l’utilità dei termini presenti

nell’equazione al di là del termine b0.

L’incremento del valore di R2 è ottenibile semplicemente inserendo nuovi termini al modello

(questo è particolarmente pericoloso con osservazioni ripetute!!)

I singoli valori dei coefficienti del vettore b possono essere valutati con l’impiego del test t (H0 = bj

= 0).

Si costruisce la matrice di varianze e covarianze di b

V(b) = (X’X)-1σ2

in cui il valore della varianza può essere sostituito dalla sua stima s2 (se non c’è lack of fit)

La diagonale della matrice risultante contiene i valori delle varianze dei parametri che elevate a ½

(cioè ridotte alla deviazione standard) possono essere utilizzate nel test

t = bj/ds(bj)

Un altro aspetto legato ai singoli regressori riguarda l’assorbimento dei quadrati (extra sum of

squares).

Ciascuna somma di quadrati è fornita in funzione dell’ordine in cui sono elencate le variabili x e la

somma è uguale alla MSregr.

Page 118: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

118

Il significato è quello di verificare l’apporto della nuova variabile introdotta alla riduzione dei

residui quadrati.

Il test parziale F misura la significatività dell’introduzione della nuova variabile nella regressione

b) La selezione della migliore regressione

Esistono molti criteri per selezionare la migliore regressione.

a) l’uso della statistica R2 con l’inserimento delle variabili e la verifica dell’aumento del suo valore

(attenzione alla trappola n. 1)

b) l’uso della statistica Cp di Mallows data dalla relazione

Cp = RSSp/s2-(n-2p)

in cui RSSp è la somma dei quadrati residui del modello con p parametri (incluso il b0) e s2 è la

somma dei quadrati residua del modello con il maggior numero di parametri.

Il valore di Cp tende al valore di p, per cui la migliore regressione (eccetto quella completa in cui

ovviamente Cp=p) è quella in cui tale circostanza è verificata.

Una procedura che unisce i due criteri suesposti è la “Best Subset Regression” che sceglie, fra

quelle possibili, le equazioni con il massimo R2 e il Cp più vicino al valore di p.

c) una procedura molto popolare è la regressione della “Stepwise” che consiste nell’inserimento

delle variabili “a turno” finchè non si ottiene una equazione soddisfacente.

Page 119: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

119

L’ordine di inserimento delle variabili è determinato dai coefficienti di correlazione parziale che

misurano l’importanza delle variabili che non sono ancora state inserite nella regressione.

Un aspetto particolare riguarda la distorsione del modello utilizzato. La validità del modello può

essere testata con il lack of fit (LOF-test) applicabile soltanto se nel data-set sono presenti dati

ripetuti per alcuni valori di y.

d) La multicollienarità

La correlazione fra le variabili indipendenti comporta:

a) un valore dei singoli coefficienti differente se inseriti singolarmente o simultaneamente nella

regressione;

b) l’attribuzione del significato biologico piuttosto complessa (a volte regressori palesemente

positivi possono assumere valori negativi nei parametri)

c) lo scarso peso informativo delle variabili aggiunte alla regressione;

d) l’inflazione della varianza dei parametri che rende altamente instabile la regressione (ne mina

alla base il suo potere predittivo); come conseguenza non esiste una somma di quadrati che

possa essere attribuita univocamente ad un regressore.

Page 120: APPUNTI DI STATISTICA - agrariafree.altervista.orgagrariafree.altervista.org/appunti agraria/statistica/Statistica... · Cosa é la statistica e a cosa serve. Uno degli aspetti più

120

Una procedura idonea per correggere la multicollinearità è la RIDGE-REGRESSION che consiste

nell’introdurre in fattore deflattivo della varianza in modo da trovare una equazione subottimale ma

che sia più robusta.