LEZIONI DI STATISTCA - scienzeambientali.unicam.it · In un corso completo di statistica applicata, è importante avere in ogni momento una visione

LEZIONI DI STATISTICA APPLICATA

Parte 1

Statistica descrittiva

____________________________________

Alessandro Valbonesi

SARRF di Scienze ambientali

Anno accademico 2010-11

INTRODUZIONE

In un corso completo di statistica applicata, è importante avere in ogni momento una visione complessiva degli argomenti. Il loro elenco è utile anche per comprendere le diverse parti in cui viene distinta la statistica, nel percorso di apprendimento dei concetti e delle procedure. La statistica moderna può essere distinta in tre parti: descrittiva, matematica, inferenziale. 1 - La statistica descrittiva spiega come i dati raccolti devono essere riportati in tabella, rappresentati in grafici e sintetizzati in indici matematici, allo scopo di individuare le caratteristiche fondamentali del campione. 2 - La statistica matematica presenta le distribuzioni teoriche sia per misure discrete sia per misure continue, allo scopo di illustrarne le caratteristiche fondamentali, le relazioni che esistono tra esse, gli usi possibili. 3 - L’inferenza statistica, la parte nettamente prevalente del corso, serve per la verifica delle ipotesi. Essa può essere distinta in vari capitoli, in rapporto: - alle caratteristiche dei dati (se permettono o meno il ricorso alla distribuzione normale: statistica parametrica e non parametrica); - al numero di variabili (se una, due o più: statistica univariata, bivariata, multivariata). La prima parte dell’inferenza, di solito affrontata in un corso, è la statistica univariata parametrica. Come argomenti, essa comprende il test t di Student e il test F di Fisher-Snedecor o analisi della varianza: - il primo serve sia per confrontare la media di un campione con una media attesa o teorica, sia per confrontare le medie di due campioni; - il secondo rappresenta la sua generalizzazione e permette il confronto simultaneo tra più medie, considerando uno solo oppure più fattori di variabilità. Appunto perché fondati sulla distribuzione normale, questi test richiedono condizioni di validità restrittive (discusse nei capitoli seguenti), che non sempre i dati raccolti e la misura utilizzata permettono di rispettare. E’ una situazione che si presenta con frequenza elevata nella ricerca applicata, a causa della estrema variabilità dei dati e della presenza di valori anomali. In queste condizioni si ricorre alla statistica univariata non parametrica, che è formata da una serie innumerevole di test. Di norma essi sono raggruppati sulla base dei campioni ai quali viene applicata: test per un campione, per due campioni dipendenti e indipendenti, test per k campioni dipendenti e indipendenti. Quando per ogni individuo o situazione si raccolgono informazioni relative a due variabili, è possibile analizzare le relazioni che intercorrono tra esse, mediante sia la regressione e la correlazione parametriche, sia la regressione e la correlazione non parametriche. Si parla allora di statistica bivariata parametrica e di statistica bivariata non parametrica. Quando i dati raccolti sono relativi a più variabili, si deve ricorrere alla statistica multivariata che, per molte analisi, è solamente parametrica. Più recentemente sono stati proposti metodi, detti di ricampionamento, che sono definiti test di statistica non parametrica. In questo corso, verranno presentati i metodi relativi alla statistica univariata e bivariata sia parametrica che non parametrica. Alla fine sono presentati anche il bootstrap e il jackknife, test non parametrici applicabili sia a distribuzioni univariate, sia bivariate sia multivariate. La serie completa degli argomenti e il loro ordine sono riportati nell'indice del testo, organizzato in capitoli e, entro capitoli, in paragrafi.

2

Questi concetti possono essere schematizzati nella seguente tabella, che riporta le finalità dei tre tipi di statistica.

A conclusione di queste dispense è previsto un allegato con le principali tabelle statistiche e con fogli excel dove vengono riportati esempi applicativi con la relativa analisi statistica eseguibile fruendo delle opzioni previste da questo software.

3

Likelihood Odd ratio

Discrete

4

CAPITOLO 1 – I DATI 1.1. DISEGNO SPERIMENTALE Ogni ricercatore ha un suo progetto di ricerca a cui è associata un ipotesi che si vuole verificare attraverso dati sperimentali ottenuti con indagini di laboratorio o con osservazioni in natura. Già nella prima fase della ricerca, chiamata con termine tecnico appunto “disegno sperimentale” (dall’inglese experimental design e tradotto più correttamente in italiano con programmazione dell’esperimento), occorre avere chiara la formulazione dell'ipotesi che si intende verificare ed il modello statistico che, tenendo conto del tipo di dati raccolti, ci permette la corretta verifica dell’ipotesi. Il disegno sperimentale è quindi necessario per scegliere e programmare le osservazioni in natura e le ripetizioni in laboratorio, in funzione della ricerca e delle ipotesi esplicative. Raccogliere i dati prima di aver chiaramente espresso le finalità della ricerca conduce spesso ad analisi non adeguate e quindi a risultati poco attendibili. Con la formulazione dell’ipotesi, si deve rispondere alle domande: - “Le eventuali differenze riscontrate tra due o più gruppi di dati, oppure le differenze tra una serie di osservazioni e quanto è atteso in base all’ipotesi formulata, possono essere imputabili a fattori causali specifici o solamente a fattori casuali ignoti? - Le differenze riscontrate sono generate dalla naturale variabilità delle misure e del materiale utilizzato oppure più probabilmente esiste una causa specifica che le ha determinate?” Il modello statistico, ovvero i test statistici devono essere già programmati nella fase del disegno sperimentale, poiché è da essi che dipende il tipo di campionamento.

5

1.2. RILEVAZIONE DEI DATI ED INFERENZA (dal campione variabile all’universo) La rilevazione dei dati avviene attraverso il campionamento che ci permette di raccogliere i dati in funzione dello scopo della ricerca, rispettando le caratteristiche della popolazione oggetto di studio. In altre parole, occorre che il campionamento sia rappresentativo della popolazione o universo dei dati. Uno dei problemi fondamentali della statistica è come raccogliere solamente un numero limitato di dati (per motivi economici, di tempo, di oggetti effettivamente disponibili, cioè per limiti oggettivi che quasi sempre esistono in qualsiasi ricerca sperimentale), ma attraverso la loro analisi pervenire ugualmente a conclusioni generali, che possano essere estese a tutta la popolazione. Per giungere a queste conclusioni si deve ricorrere all’inferenza, che può essere definita come la capacità di trarre conclusioni generali (sulla popolazione od universo) utilizzando solo un numero limitato di dati variabili (campione). Si supponga di voler conoscere la velocità d'accrescimento somatico di una determinata specie animale o vegetale. E’ ovvio che non è possibile rintracciare e misurare tutti gli individui di quella specie, la popolazione od universo, se non altro per il tempo e le risorse che sono richiesti da questa operazione, oltre alla difficoltà teorica rappresentata dal suo continuo rinnovarsi per effetto di nuove nascite e delle morti. Occorre, pertanto, utilizzare solamente alcune unità, una frazione limitatissima della popolazione: in termini tecnici, un campione. Quando poi si trattasse di misurare rapporti tra organi di una specie animale, è ovvio che non è possibile sezionare tutti gli individui della specie. Nello stesso modo, per contare i globuli rossi o quelli bianchi di una persona, non è possibile estrarre tutto il sangue per un conteggio totale, ma si effettua un prelievo limitato a pochi centimetri cubici. Tuttavia le conclusioni non devono essere limitate ai pochi (o anche molti) casi realmente raccolti, misurati ed analizzati, ma devono essere generali, estese a tutti gli individui della specie o a tutto l’organismo. Ricoprono effettivo interesse non le conclusioni che restano limitate al caso del campione, ai dati utilizzati, ma quelle che sono estese a tutta la popolazione o universo. Solo in questo modo, la ricerca riveste una importanza generale e contribuisce alla costruzione di teorie scientifiche, di modelli o semplicemente di ipotesi che possono essere universalmente valide. Una condizione essenziale e preliminare all’uso dei metodi di statistica inferenziale è che il campione sia corretto, che non riporti in modo distorto od alterato la frequenza delle caratteristiche presenti nella popolazione. Il disegno sperimentale ed il campionamento sono quindi le due fasi preliminari - sia alla raccolta dei dati in natura, - sia per una corretta impostazione degli esperimenti in laboratorio. Tuttavia, la presentazione didattica e la corretta comprensione di questi argomenti, come ad esempio la dimensione appropriata di un campione (sample size) richiedono concetti complessi e, a volte, metodologie sofisticate, non sempre facili né intuitive. Per questi motivi, il disegno sperimentale e il campionamento saranno trattati quando si sarà raggiunta una sufficiente familiarità con la terminologia, con i concetti e i metodi fondamentali dell’inferenza

6

1.3.VERIFICA DEGLI ERRORI La procedura dell’inferenza statistica è semplice, nelle linee logiche generali, tuttavia, le analisi e le conclusioni trovano complicazioni per l’elevata variabilità dei dati, a motivo soprattutto di tre cause che, in ordine crescente d’importanza, sono:

- gli errori di misurazione, generati da strumenti e da differenze nell'abilità dei ricercatori; - l'operare su campioni, per cui i dati utilizzati in una ricerca non sono mai identici a quelli rilevati in qualsiasi altra; - la presenza di vari fattori contingenti di disturbo, come il tempo e la località, che possono incidere diversamente sul fenomeno in osservazione, con intensità e direzioni ignote. Per quest’ultima tipologia di errore è possibile utilizzare particolari disegni sperimentali (campionamenti a quadrato latino, a blocchi randomizzati, split-plot ecc…) che ci consentano si individuare e separare le varie sorgenti di variabilità che interferiscono sulla variabilità del parametro oggetto di studio. Esistono poi banali errori di trascrizione dei dati che possono essere evidenziati attraverso l’analisi descrittiva dei dati, che generalmente si esegue prima di passare ai veri e propri test statistici. 1.4. TIPOLOGIA DELLE VARIABILI Possiamo classificare le variabili in base alla possibilità di essere misurate oppure no. -Variabili misurabili o quantitative richiedono risposte numeriche, e quindi sono espresse su una scala numerica continua o discreta. Queste variabili e le relative scale numeriche possono essere: Continue quando la misurazione può assumere (almeno in linea teorica) infiniti valori tra

due punti fissi dipendendo dalla precisione con cui sono state prese; ad esempio l’altezza, il peso, la temperatura ecc….

Discontinue (dette anche meristiche o discrete) quando possono assumere solo certi valori numerici fissi, numero di segmenti di un appendice, di figli ecc….

In entrambe le tipologie di variabili la descrizione dei dati è fatta utilizzando un appropriato parametro che ci dia una misura della tendenza centrale (media, mediana, moda) a cui é bene aggiungere anche l’informazione sulle relative misure di: i) variabilità (varianza, deviazione standard, ecc…); ii) precisione (intervallo di confidenza); iii) distribuzione (simmetria, curtosi). Tutte queste informazioni vanno a costituire una branca della statistica che prende il nome di statistica descrittiva.

I quesiti statistici che possono essere posti correttamente riguardano l’utilizzo di test parametrici, qualora siano soddisfatti alcuni requisiti (es., la distribuzione normale dei dati) o di test non parametrici se tali requisiti non sono soddisfatti.

-Variabili non misurabili o qualitative dette anche attributi sono quantificate con conteggi, ossia con numeri interi. Ad esempio, per valutare gli effetti di un tossico è possibile contare quante cavie muoiono o sopravvivono; con un farmaco, quanti pazienti guariscono o restano ammalati, entro un tempo prefissato; con esperimenti sulle leggi di Mendel, quante piante hanno fiori rossi o bianchi. Queste variabili e le relative scale numeriche possono essere:

7

Categoriali (dette anche nominali), quando le osservazioni sono caratterizzate dalla presenza o assenza di una certa proprietà. Il caso più semplice è quella dei dati binari (maschio o femmina, morte sopravvivenza) ma ci possono essere anche più di due criteri di classificazione (esempio, gruppi sanguigni). Nella scala nominale esiste una sola relazione, quella di identità: gli individui attribuiti a classi diverse sono tra loro differenti, mentre tutti quelli della stessa classe sono tra loro equivalenti, rispetto alla proprietà utilizzata nella classificazione.

Ordinali quando alle osservazioni si assegna un valore numerico o un punteggio

arbitrale. In questo caso il valore o il punteggio pur non rappresentando la vera grandezza della caratteristica studiata rispetta un ordine nella classificazione. Esempio i risultati di un test o gli effetti di un farmaco (scarso, insufficiente, sufficiente, discreto, buono, ottimo, eccellente) possano essere trasformati in punteggi (0 = scarso…….6= eccellente) L'attribuzione di numeri per identificare categorie nominali, come avviene per individuare i giocatori nei giochi di squadra, è solamente un artificio che non può certamente autorizzare ad elaborare quei numeri come se fossero reali, ad esempio calcolandone la media, e ciò ovviamente non implica che le differenze tra due punteggi (es., tra 1 e 2) sia identica o proporzionale a quella riportata per un’altra coppia di punteggi (es., tra 3 e 4). Quando per la classificazione dei gruppi al posto di nomi vengono usati numeri, si utilizza solo la funzione di identificazione degli elementi numerici come se fossero simboli.

In tutti questi casi la descrizione dei dati è fornita come proporzione (o percentuale) degli elementi che presentano l’attributo. I quesiti statistici che possono essere posti correttamente riguardano pertanto l’analisi delle frequenze, sia assolute che relative. 1.5. SERIE STATISTICA Un insieme di misure è detto serie statistica o serie dei dati. Una sua prima ed elementare elaborazione può essere una distribuzione ordinata di tutti i valori, in modo crescente o decrescente, detta seriazione. Il valore minimo e il valore massimo insieme permettono di individuare immediatamente il campo (od intervallo) di variazione. Successivamente, la serie può essere raggruppata in classi, contando quanti valori od unità statistiche appartengono ad ogni gruppo o categoria. Si ottiene una distribuzione di frequenza o di intensità, detta anche semplicemente distribuzione. Come prima applicazione, è utile considerare un caso semplice: una variabile discreta ottenuta da un conteggio del numero di foglie, germogliate su 45 rami di lunghezza uguale. Tabella 1. Numero di foglie contate su 45 rami.

Il primo passaggio, quasi intuitivo in una distribuzione discreta, consiste nel definire le classi: - è sufficiente identificare il valore minimo (0, nei dati della tabella) e quello massimo (9), - contando quante volte compare ogni modalità di espressione (cioè quanti sono i rami con un numero di foglie uguali). Queste informazioni di norma sono presentate in una tabella impostata come la seguente:

8

Tabella 2. Distribuzione di frequenze assolute, relative e cumulate delle foglie in 45 rami.

in cui: - la classe è una modalità di espressione (in questo caso un valore o conteggio); - la frequenza assoluta della classe è il numero di volte con la quale compare ogni valore; - la frequenza relativa della classe è la sua frequenza assoluta divisa per il numero totale (es., la

classe 0 compare 3 volte su 45); - la frequenza cumulata di una classe è la somma di tutte le frequenze delle classi minori con

quella della classe stessa. La trasformazione da frequenza assoluta a frequenza relativa risulta utile quando si vogliono confrontare due o più distribuzioni, che hanno un differente numero complessivo di osservazioni. La frequenza cumulata offre informazioni importanti quando si intende stimare il numero totale di osservazioni inferiore (o superiore) ad un valore prefissato (ad es.: il 71% dei rami ha meno di 5 foglie; il 56% ha un massimo di 3 foglie). La distribuzione dei dati e la distribuzione delle frequenze cumulate forniscono informazioni non dissimili, essendo possibile passare con facilità dall’una all’altra. Sono diverse nella loro forma, come si vedrà con maggiore evidenza nelle rappresentazioni grafiche. La prima ha una forma a campana, la seconda una forma a S, di tipo asintotico; si prestano ad analisi differenti e la scelta è fatta sulla base del loro uso statistico. La distribuzione di frequenza offre una lettura rapida delle caratteristiche più importanti della serie di dati. Nella tabella precedente, il ramo “tipico” ha 3 foglie; se dovessimo sintetizzare con un solo valore il numero di foglie presenti sui rami raccolti diremmo 3, che rappresenta la tendenza centrale, detta anche moda (ovvero la classe con la frequenza più alta). Altra caratteristica importante è il numero minimo e il numero massimo, 0 e 9, che insieme forniscono il campo di variazione, una indicazione della variabilità o dispersione. La distribuzione del numero di foglie tende ad diminuire in modo simile allontanandosi da 3, seppure mantenga frequenze più alte nelle classi con un numero maggiore di foglie: sono indicazioni sulla forma della distribuzione, che in questo esempio non è simmetrica (ma asimmetrica) rispetto alla tendenza centrale, a causa di un eccesso dei valori più alti. Nella costruzione di tabelle sintetiche (come la tabella 2 rispetto alla 1) spesso si ricorre a raggruppare i valori per intervalli di classe. In questo caso uno dei problemi più rilevanti è quante classi di frequenza costruire. La scelta dipende strettamente dal numero totale N di osservazioni e, in misura minore, dalla variabilità dei dati. Se, in riferimento alla dimostrazione precedente, i dati fossero stati in numero inferiore ai 45 presentati (ad esempio i 15 valori della prima riga), il campo di variazione sarebbe stato più ridotto (non più da 0 a 9, ma da 2 a 9). Le classi non sarebbero state 10 come prima, ma solamente 8. Tuttavia, come si può osservare dai dati, 8 classi per 15 osservazioni sarebbero ugualmente un numero troppo alto, per riuscire ad evidenziare e rappresentare in modo corretto le caratteristiche principali e la forma reale della distribuzione. Le distribuzioni di frequenza tendono a mostrare la distribuzione reale del fenomeno solo

9

quando è possibile utilizzare un numero sufficientemente elevato di osservazioni. L’esperienza ha insegnato che il numero di classi abitualmente varia da un minimo di 4-5 (con N = 10-15) ad un massimo di 15-20 (con N > 100), in funzione del numero complessivo di osservazioni. Un numero troppo basso di classi, raggruppando eccessivamente i dati, determina una perdita di informazione sulle caratteristiche della distribuzione e la rende non significativa; è intuitivo che una o due sole classi determinano l’impossibilità di evidenziare qualunque caratteristica della distribuzione. Inversamente, ma con un risultato finale simile, un numero troppo elevato di classi disperde i valori e non rende manifesta la forma della distribuzione. Per stimare in modo oggettivo il numero di classi, sono stati proposti vari metodi; tra essi è utile ricordarne due: 1 - quello di H. Sturges che nel 1926, sulla base del numero di osservazioni N, ha indicato il numero ottimale di classi C con

2 - quello di D. Scott che nel 1979 ha determinato l’ampiezza ottimale h delle classi (dalla quale ovviamente dipende direttamente anche il numero di classi C), mediante la relazione

dove - S è la deviazione standard, che sarà presentata più avanti tra le misure di variabilità dei dati. 3- C’è infine una regola euristica che prevede che il numero di classi sia uguale al valore

arrotondato di n , e l’intervallo delle classi viene calcolato dividendo la differenza tra i valori

estremi per il numero di classi (che in caso di variabile discreta viene anch’esso arrotondato). Nella costruzione di distribuzioni di frequenza, non è strettamente obbligatorio utilizzare intervalli uguali, anche se è prassi consolidata per una lettura più semplice. Nel caso di classi di ampiezza diversa, la rappresentazione grafica ed il calcolo dei parametri fondamentali esigono alcune avvertenze, non sempre intuitive (di seguito presentate). In altri casi ci potrebbero essere invece dei valori predeterminati (o soglia) che potrebbero costituire valori di demarcazione per individuare le classi (es., per analisi clinico-mediche come la pressione sanguigna ci potrebbe essere dei valori bassi che implicano un rischio per il paziente, dei valori normali, dei valori leggermente alti e dei valori molto alti che ugualmente possono indicare situazioni di rischio). Nel caso di una variabile continua, il raggruppamento in classi richiede alcuni accorgimenti ulteriori rispetto a quelli utilizzati per una variabile discreta. Si supponga che sia stata misurata l’altezza in cm. di 40 giovani piante della stessa specie, arrotondata all’unità per semplificazione. Tabella 3. Altezza in cm. di 40 giovani piante.

10

E’ evidente come non sia conveniente fare una classe per ogni cm., in analogia a quanto fatto con i dati della tabella 1. In questo caso, il numero di classi sarebbe nettamente superiore al numero di osservazioni, anche se il campione avesse un numero di osservazioni doppio o triplo. Di conseguenza, si impone la necessità di un raggruppamento in classi, che comprendano più modalità di espressione. Una volta individuato il valore minimo e quello massimo (64 e 198), si stabilisce l'intervallo di variazione (198 - 64 = 134). Nella formazione delle classi, il limite inferiore della prima classe ed il limite superiore dell’ultima classe non devono essere necessariamente i valori osservati, ma li devono ovviamente comprendere. E quindi possibile costruire un campo di variazione, ad esempio di 140 cm. (sempre più ampio di quello calcolato), partendo da cm. 60 e arrivando a cm. 199 compresi. Sulla base del numero di dati (40), si decide il numero di classi. Nel caso specifico, potrebbero essere 7 classi, con un’ampiezza di 20 cm. ognuna. E’ necessario definire con precisione il valore minimo e quello massimo di ogni classe, onde evitare incertezze nell'attribuzione di un singolo dato tra due classi contigue. Con i dati dell’esempio, le classi possono essere 60-79 la prima, 80-99 la seconda, 100-119 la terza e così via fino a 180-199 per l’ultima. Poiché la scala è continua, i cm. riportati devono essere intesi con almeno 2 cifre decimali, per cui nella classe 60-79 il primo numero deve essere inteso come 60,00 cm. e 79 come 79,99; nello stesso modo la classe 180-199 deve essere intesa tra i cm. 180,00 e 199,99. Nonostante le indicazioni di massima presentate, la determinazione dei valori estremi, del numero di classi e dell'intervallo di ogni classe è ampiamente soggettiva. Nella costruzione di una tabella, la scelta soggettiva di una particolare serie o di un'altra può tradursi in una rappresentazione completamente diversa degli stessi dati. Per piccoli campioni, l'alterazione e le differenze possono essere sensibili; ma all'aumentare del numero di osservazioni, gli effetti delle scelte soggettive, quando non siano estreme, incidono sempre meno sulla concentrazione dei valori e sulla forma della distribuzione. Tra le altre avvertenze importanti, è da ricordare che la classe iniziale e quella terminale non

devono essere classi aperte (come < 80 quella iniziale e ≥ 180 quella finale). Con classi estreme

aperte, si perde l'informazione del loro valore minimo o massimo e quindi del valore centrale di quella classe, cioè quello che rappresenta il valore medio tra i valori che la delimitano (es., nella classe 60-79 il valore centrale è 69,5). La conseguenza è la perdita di un dato indispensabile, per calcolare la media della classe e quella totale, nonché tutti gli altri parametri da essa derivati. Come verrà successivamente chiarito, con tabelle in cui le classi estreme sono aperte viene impedita o resa soggettiva anche la loro rappresentazione grafica, per la quale è indispensabile conoscere con precisione il valore iniziale e quello terminale. I dati della tabella 3 possono essere riportati in modo più schematico e più comprensibile, come nella seguente tabella 4. Tabella 4. Distribuzione di frequenza assoluta e relativa (in %) dell'altezza di 40 giovani piante.

Rispetto all'elenco grezzo dei dati, la tabella di distribuzione delle frequenze fornisce in modo più chiaro le indicazioni elementari contenute, in particolare la loro:

11

- posizione o dimensione (già chiamata anche tendenza centrale) ; - la variabilità o dispersione. Per evidenziare sia queste che altre caratteristiche della distribuzione dei dati raccolti, sovente è di aiuto una rappresentazione grafica che mostra in modo sintetico soprattutto

- la forma, come la simmetria e la curtosi, quando si tratti di grandi gruppi di dati. La rappresentazione grafica , in genere , viene fatta utilizzando degli istogrammi, a cui spesso si sovrappone una curva di frequenza.

In teoria delle probabilità una distribuzione di probabilità è simmetrica quando la sua funzione di probabilità P (nel caso discreto) o la sua funzione di densità di probabilità (nel caso continuo) siano simmetriche rispetto ad un valore fissato x0:

P(x0 + x) = P(x0 − x)

Esempi di distribuzioni simmetriche sono la distribuzione normale e altre distribuzioni derivate da distribuzioni simmetriche (la distribuzione di Student).

Un indice di asimmetria (in inglese skewness) di una distribuzione è un valore che cerca di fornire una misura della sua mancanza di simmetria. La trattazione di questi indici verrà eseguita nel capitolo successivo.

0

2

4

6

8

10

12

1 2 3 4 5 6 7

Esempio di distribuzione asimmetrica Esempio di distribuzione simmetrica

La curtosi (kurtosis) è uno dei parametri relativi alla forma di una distribuzione, che costituisce una misura dello "spessore" delle code di una funzione di densità, ovvero il grado di "appiattimento" di una distribuzione. L'interesse per questo indice è dato dal fatto che lo "spessore" delle code influenza il comportamento di diverse statistiche. Anche in questo caso esistono degli indici di curtosi la cui trattazione verrà eseguita nel capitolo successivo.

12

http://it.wikipedia.org/wiki/Teoria_delle_probabilit%C3%A0

http://it.wikipedia.org/wiki/Distribuzione_di_probabilit%C3%A0

http://it.wikipedia.org/wiki/Funzione_di_probabilit%C3%A0


http://it.wikipedia.org/wiki/Distribuzione_discreta

http://it.wikipedia.org/wiki/Funzione_di_densit%C3%A0_di_probabilit%C3%A0

http://it.wikipedia.org/w/index.php?title=Distribuzione_continua&action=edit&redlink=1

http://it.wikipedia.org/wiki/Simmetria_(matematica)

http://it.wikipedia.org/wiki/Distribuzione_normale

http://it.wikipedia.org/w/index.php?title=Distribuzione_di_Student&action=edit&redlink=1

http://it.wikipedia.org/wiki/Lingua_inglese

http://it.wikipedia.org/wiki/Variabile_casuale

http://it.wikipedia.org/wiki/Funzione_di_densit%C3%A0

http://it.wikipedia.org/wiki/Funzione_di_ripartizione

Ritornando al problema della rappresentazione tabellare dei dati riportati in tabella 3, secondo le indicazioni di Sturges il numero di classi C avrebbe dovuto essere:

uguale a 6,34 dal quale si deduce anche un’ampiezza h = 140/6,34 ≈ 22 circa 22 centimetri. Secondo le indicazioni di Scott, l’ampiezza h delle classi avrebbe dovuto essere

uguale a circa 16, dalla quale si deduce un numero di classi C

uguale a circa 9. Ovviamente, il numero di classi calcolato (C = 8,84) deve essere arrotondato all’unità. Secondo i due metodi proposti, con i dati della tabella 3 il numero di classi può ragionevolmente variare da 6 a 9; si evidenzia la correttezza della scelta di fare 7 classi, suggerita dalla semplicità di formare classi con un’ampiezza di 20 cm. La rappresentazione dei dati in una tabella di frequenza offre i vantaggi descritti; ma soffre anche di alcune controindicazioni. Lo svantaggio maggiore deriva da: - non poter conoscere come sono distribuiti i dati entro ogni classe. Per stimare i parametri della distribuzione (media, varianza, simmetria, curtosi), viene quindi usato il valore centrale di ogni classe, - nell’ipotesi che in quell’intervallo i dati siano distribuiti in modo uniforme. Rispetto alla distribuzione delle singole osservazioni, questa procedura comporta un’approssimazione, poiché tale ipotesi operativa implicita non è vera (il concetto sarà ripreso e dimostrato in paragrafi successivi).

Il calcolo della distribuzione di frequenze può essere fatto con Excel con la seguente procedura: Strumenti Analisi dati Istogrammi. Qualora l’opzione analisi dati non fosse disponibile occorre scaricarla andando su: Strumenti Componenti aggiuntivi Strumenti di analisi

13

1.6. RAPPRESENTAZIONI GRAFICHE DI DISTRIBUZIONI UNIVARIATE Le rappresentazioni grafiche servono per evidenziare in modo semplice, a colpo d’occhio, le quattro caratteristiche fondamentali di una distribuzione di frequenza (tendenza centrale, variabilità, simmetria e curtosi). Insieme con i vantaggi di fornire una visione sintetica e di essere di facile lettura, hanno però l’inconveniente fondamentale di mancare di precisione e soprattutto di essere soggettive, quindi di permettere letture diverse degli stessi dati. Pertanto, ai fini di una elaborazione mediante i test e di un confronto dettagliato dei parametri, è sempre preferibile la tabella, che riporta i dati esatti. I motivi che ci devono spingere a costruire rappresentazioni grafiche dei suoi dati sono: - un esame preliminare delle caratteristiche della distribuzione, - un suggerimento per il test da scegliere, adeguato appunto ai dati raccolti, - un aiuto alla comprensione delle conclusioni, - senza per questo essere un test, ma solo una descrizione visiva. Le rappresentazioni grafiche proposte sono numerose. Esse debbono essere scelte in rapporto al tipo di dati e quindi alla scala utilizzata. LA RAPPRESENTAZIONE GRAFICA DELLE VARIABILI QUANTITATIVE Per dati quantitativi, riferiti a variabili continue misurate su scale ad intervalli o di rapporti, di norma si ricorre a istogrammi o poligoni e a grafici a dispersione. Gli istogrammi sono grafici a barre verticali (per questo detti anche diagrammi a rettangoli accostati), nei quali - le misure della variabile casuale o di raggruppamento (classi) sono riportate lungo l'asse orizzontale, - mentre l'asse verticale rappresenta il numero assoluto, oppure la frequenza relativa o quella percentuale, con cui compaiono i valori di ogni classe.

La rappresentazione grafica può essere fatta con excel. Nel caso di istogrammi la distanza tra i poligoni può essere scelta, dopo aver eseguito il grafico, evidenziando i poligoni e poi selezionando Oggetto selezionato (formato serie dei dati) opzioni distanza tra basi = I lati dei rettangoli sono costruiti in corrispondenza degli estremi di ciascuna classe. Un istogramma deve essere inteso come una rappresentazione areale: sono le superfici dei vari

14

rettangoli che devono essere proporzionali alle frequenze corrispondenti. Quando le classi hanno la stessa ampiezza, le basi dei rettangoli sono uguali; di conseguenza, le loro altezze risultano proporzionali alle frequenze che rappresentano. Solo quando le basi sono uguali, è indifferente ragionare in termini di altezze o di aree di ogni rettangolo. Ma se le ampiezze delle classi sono diverse, bisogna ricordare il concetto generale che - le frequenze sono rappresentate dalle superfici e quindi è necessario rendere l'altezza proporzionale. Tale proporzione è facilmente ottenuta dividendo il numero di osservazioni per il numero di classi contenute nella base, prima di riportare la frequenza sull'asse verticale. Per esempio, con i dati della precedente figura 2, si supponga di avere raggruppato in una classe sola le frequenze della classe da 80 a 99 e da 100 a 119, per un totale di 13 osservazioni (3 + 10). Nella successiva figura 3, tale somma è rappresentata: - nel primo caso (istogramma di sinistra) con un grafico errato - nel secondo caso (istogramma di destra) nella sua versione corretta, che utilizza il valore medio delle classi raggruppate.

Un'altra avvertenza importante nella costruzione degli istogrammi è che l'asse verticale, che riporta le frequenze, deve mostrare lo zero reale od "origine", onde non distorcere o travisare le caratteristiche dei dati ed i rapporti tra essi. Se si deve utilizzare dati con valori con ordini di grandezza molto diversi allora bisogna ricorrere a scale logaritmiche. La rappresentazione grafica permette di valutare con immediatezza se il numero di classi costruite è adeguato alle caratteristiche della distribuzione originale dei dati. Con poche eccezioni, le variabili quantitative di fenomeni biologici od ambientali evidenziano una distribuzione tendenzialmente normale, con caratteristiche specifiche di addensamento verso i valori centrali e di dispersione più o meno simmetrica, ma con declino regolare verso i due estremi. La rappresentazione grafica deve essere in grado di non alterare od interrompere la regolarità della distribuzione, come può avvenire in particolare quando il numero di classi è troppo alto rispetto al numero di dati. Una dimostrazione di tale caso è riportato nella figura successiva, nella quale sono state fatte 14 classi, invece delle 7 richieste prendendo in considerazione il numero di dati, la loro variabilità e i limiti delle singole classi. L’istogramma che segue è una chiara dimostrazione di una suddivisione in classi eccessiva: uno o più gruppi di misure (due nell’esempio) comprese entro gli estremi hanno frequenza zero ed alterano la rappresentazione di una distribuzione normale. La frequenza delle classi e l’altezza dei rettangoli ad essa proporzionali tendono a decrescere in

15

modo relativamente regolare. Quando un grafico presenta una forte alterazione dalla forma normale, che scompare con una suddivisioni in classi meno frammentate, si ha una indicazione di un possibile errore tecnico nella rappresentazione dei dati.

I poligoni sono figure simili agli istogrammi e sono utilizzati di norma per la rappresentazione di valori relativi o di percentuali, in quanto è implicito che l’area totale sottesa sia uguale a 1 o 100%. Come nel caso degli istogrammi, l'asse orizzontale rappresenta il fenomeno, mentre l'asse verticale rappresenta la proporzione o percentuale di ogni classe. Un poligono può essere ottenuto a partire dal relativo istogramma, unendo con una linea spezzata i punti centrali di ogni classe. La linea spezzata deve essere unita all'asse orizzontale, sia all'inizio sia alla fine, per racchiudere l'area della distribuzione. Questo procedimento viene ottenuto con un artificio, simulando la presenza di un istogramma con presenze uguali a 0 (zero) come punto di partenza. Si unisce il valore centrale della prima classe con il valore centrale di questa precedente classe fittizia di valore 0; l’ultimo segmento viene ottenuto unendo il valore centrale dell'ultima classe reale con il valore centrale di una classe successiva, fittizia, di valore 0. Il poligono rappresentato nella figura 5 corrisponde all’istogramma della figura 2. E' stato costruito con i dati della tabella 4, spostando le classi sull’asse delle ascisse per comprendere i nuovi estremi della distribuzione.

16

Le distribuzioni cumulate sono rappresentate sia con istogrammi cumulati sia con poligoni cumulati. Non forniscono informazioni sostanzialmente differenti da quelle dei relativi istogrammi e poligoni già descritti, poiché - è possibile passare con facilità da una distribuzione di frequenza alla sua cumulata con semplici operazioni di somme o di sottrazioni tra classi. Sono solamente più convenienti, per meglio evidenziare il concetto di maggiore interesse. La figura 6 rappresenta il poligono cumulato corrispondente al poligono della figura 5.

0,00%

20,00%

40,00%

60,00%

80,00%

100,00%

79 99 119 139 159 179 199

Fig. 7. Istogramma cumulato Tuttavia, per la diversa prospettiva che essi offrono a partire dagli stessi dati, gli istogrammi ed i poligoni cumulati sono un altro metodo utile sia per presentare le caratteristiche di dati quantitativi riportati in tabelle, sia per facilitare l'interpretazione e l'analisi. Servono soprattutto per evidenziare, con lettura immediata, quante sono in totale le misure che sono inferiori o superiori ad un certo valore. Il valore dell'asse orizzontale che corrisponde al 50% dei valori identifica la mediana (riportato come linea nella figura 7 che rappresenta un istogramma cumulato); è un parametro di tendenza centrale estremamente importante, quando la distribuzione non è simmetrica (il suo uso e le sue caratteristiche saranno descritte nel prossimo paragrafo).

17

Per la rappresentazione di dati numerici, è possibile ricorrere anche a diagrammi cartesiani o grafici a dispersione. Essi saranno illustrati nel capitolo dedicato ai dati bivariati; sono utilizzati quando per ogni individuo sono rilevati contemporaneamente 2 variabili, come il peso e l’altezza. I punti possono anche essere uniti da una linea spezzata o da linee di tendenza

grafico a dispersione

168

170

172

174

176

178

180

182

184

0 50 100 150

Peso (kg)

alte

zza

(cm

)

Figura 8. Grafico a dispersione per due variabili

160

165

170

175

180

185

190

195

59 72 89 98 140

160

165

170

175

180

185

190

195

50 70 90 110 130 150

Fig. 9. Grafico a dispersione con linea spezzata(a sinistra ) e con linee di tendenza, lineare e polinomiale di 2° grado (a destra) Un’altra rappresentazione grafica per punti che ha un uso specifico per alcuni argomenti è il diagramma polare o diagramma a coordinate polari. Serve per rappresentare le variabili cicliche (mensili, settimanali, giornaliere), come la quantità di pioggia e la temperatura media mensile; oppure la quantità di inquinanti presenti nell’aria in un ciclo di 24 ore. A partire da un punto centrale, chiamato polo, si traccia una serie di cerchi concentrici, la cui distanza dal centro misura l’intensità del fenomeno.

Figura 10. Valori medi mensili della radioattività beta totale nell’aria a livello del suolo in Italia nell’anno 1993 (mBq per metro cubo).

18

Per rappresentare la variabile ciclica, si divide l’angolo giro in tante parti quante sono le modalità (es.: 12 per i mesi, 24 per le ore). Si devono poi collocare punti nei vari cerchi concentrici, per individuare insieme la modalità (es.: il mese o l’ora) e l’intensità del fenomeno (es.: la quantità di pioggia, la temperatura, la misura d’inquinamento atmosferico o di un corso d’acqua). Il diagramma polare è ottenuto congiungendo i vari punti e l’intensità del fenomeno è rappresentata dalla distanza dal centro. LA RAPPRESENTAZIONE GRAFICA DELLE VARIABILI QUALITATIVE Per le distribuzioni di frequenza di dati qualitativi, le rappresentazioni grafiche più frequenti sono - i diagrammi a rettangoli distanziati (diagrammi a barre), - gli areogrammi (tra cui i diagrammi circolari), - i diagrammi a figure (o diagrammi simbolici). I diagrammi a rettangoli distanziati, detti anche grafici a barre, sono formati da rettangoli con basi uguali ed altezze proporzionali alle intensità (o frequenze) dei vari gruppi considerati. A differenza degli istogrammi, i rettangoli non sono tra loro contigui, ma distaccati; di conseguenza, sull’asse delle ascisse non vengono riportati misure ordinate ma nomi, etichette o simboli, propri delle classificazioni qualitative. Se le classi qualitative sono composte da sottoclassi, è possibile una rappresentazione grafica più articolata, dividendo ogni rettangolo in più parti, con altezze proporzionali alle frequenze delle sottoclassi (figura 9).

52

21

27

35

010203040

5060708090

1 2

Partiti

n.

vota

nti

donne

Uomini

Figura 9. Numero di votanti, suddiviso per sesso, relativo a due partiti politici. Per una corretta visualizzazione dei dati è importante anche tenero conto delle densità di frequenza (assoluta o relativa che sia) delle varie classi.

0

5

10

15

20

25

30

35

40

45

50

1 2

0

5

10

15

20

25

30

1 2

0

10

20

30

40

50

60

70

80

90

100

1 2

19

Fig. 10. Rappresentazioni grafiche dei voti(%) presi da due partiti (rispettivamente il 15% e il 25%) utilizzando scale differenti. Nella prima figura si è scelto un valore massimo pari al doppio dei voti riportati dal partito di maggioranza relativa (rappresentazione realistica); nella seconda si è scelto un valore massimo leggermente superiore a quello riportato dal partito di maggioranza e quindi accentua la differenza di voti tra i due patiti; nella terza si è scelto il valore massimo di 100% per cui si appiattisce la differenza di voti tra i due partiti! Gli areogrammi sono grafici in cui le frequenze o le quantità di una variabile qualitativa sono rappresentate da superfici di figure piane, come quadrati, rettangoli o, più frequentemente, cerchi oppure loro parti. La rappresentazione può essere fatta sia con più figure dello stesso tipo, aventi superfici proporzionali alle frequenze o quantità, sia con un'unica figura suddivisa in parti proporzionali. Nel caso dei diagrammi circolari o a torta, si divide un cerchio in parti proporzionali alle classi di frequenza. Gli areogrammi vengono usati soprattutto per rappresentare frequenze percentuali.

Fig. 11. Diagramma a torta su valori in percentuale Hanno il vantaggio di fare capire con immediatezza che la somma di tutte le classi è uguale all’unità (1 o 100%); hanno l’inconveniente che evidenziano con estrema difficoltà le differenze che non sono molto marcate. Per differenze piccole, si dimostrano meno efficaci degli ortogrammi. I diagrammi circolari sono utilizzati per distribuzioni di variabili nominali, al fine di evitare di stabilire anche involontariamente un ordine, che non esiste tra variabili qualitative. Mettono in evidenza come sono distribuite le singole parti, rispetto all’intero: il cerchio rappresenta l’intero fenomeno ed i componenti sono rappresentati da settori che sono distinti da tratteggi, colori o gradazioni di colore differenti. Gli angoli (a, nella formula successiva) devono essere proporzionali alle percentuali (Y in %) che vogliono rappresentare, in accordo con la relazione: a : 360 = Y in % : 100 Con i diagrammi a figure, detti anche diagrammi simbolici o pittogrammi, la frequenza di ogni carattere qualitativo viene rappresentata da una figura, sovente stilizzata, oppure da simboli che ricordano facilmente l'oggetto. E’ una specie di istogramma costruito con figure, dove l’altezza o la larghezza della figura deve essere proporzionale alla frequenza osservata. Questi diagrammi a figure hanno tuttavia il grave inconveniente di prestarsi a trarre in inganno con facilità il lettore inesperto di statistica, quando siano stati costruiti con malizia; è pure facile che un ricercatore non sufficientemente esperto li costruisca in modo sbagliato, generando non volutamente il sospetto che egli abbia voluto fornire una impressione di differenza tra i gruppi a confronto non supportata dai dati. Per esempio, la produzione mensile di auto di 3 case automobilistiche: la prima ha prodotto 100 mila auto, la seconda 180 mila e la terza 320 mila. L'occhio coglie complessivamente non l’altezza o la larghezza di ogni figura ma la superficie che essa occupa, che è il quadrato del valore che si intende rappresentare: se ne ricava l'impressione distorta di un rapporto di 1 a 10 e non 1 a 3, come dicono in realtà i dati, tra la produzione della prima e della terza azienda. E’ possibile ovviare all'inconveniente, costruendo non una figura improbabile di altezza variabile

20

e con base uguale (poiché risulterebbe una figura alterata ed una rappresentazione forse incomprensibile), ma ricorrendo all'artificio di figure identiche, ripetute tante volte quante sono le proporzioni. Per esempio, se l'unità di misura convenuta è 100 mila auto, 320 mila auto possono essere rappresentate in modo corretto da tre auto intere più un quinto di auto. A causa degli inconvenienti, i diagrammi simbolici o a figure sono usati molto raramente nelle pubblicazioni specializzate e mai in quelle scientifiche. Sono riservati a pubblicazioni divulgative, quando è più importante l’impressione della precisione, cioè occorre evidenziare l’importanza del fenomeno a persone che non conoscono esattamente il problema.

Figura 12. Pittogramma della produzione mensile di auto di 3 case automobilistiche: la prima ha prodotto 100 mila auto, la seconda 180 mila e la terza 320 mila. La parte a sinistra, fondata sulla proporzione della lunghezza, fornisce una rappresentazione errata: è la superficie coperta dalla figura che deve essere proporzionale, non la lunghezza. La parte a destra della figura fornisce una rappresentazione corretta. Ad ogni modo, anche fornendo una rappresentazione corretta sotto tutti gli aspetti, gli statistici preferiscono i dati, poiché da essi possono valutare il fenomeno e se un dato è credibile oppure anomalo con elevata probabilità.

21

CAPITOLO 2 - STATISTICHE DESCRITTIVE - - Per i caratteri qualitativi, la tabella e le rappresentazioni grafiche esauriscono quasi completamente gli aspetti descrittivi, quando sia possibile leggere con esattezza le frequenze delle varie classi. - Per i caratteri quantitativi, si pone il problema di sintesi oggettive che possano essere elaborate matematicamente e quindi che siano numeriche, al fine di un'analisi obiettiva che deve condurre tutti i ricercatori, con gli stessi dati, alle medesime conclusioni. Una serie di dati numerici è compiutamente descritta da 3 proprietà principali: 1) la tendenza centrale o posizione; 2) la dispersione o variabilità; 3) la forma. Queste misure descrittive sintetiche, riassuntive dei dati tabellari, sono chiamate - statistiche, quando sono calcolate su un campione di dati, - parametri, quando descrivono la popolazione od universo dei dati. I ricercatori in ecologia e nelle scienze ambientali molto raramente conoscono tutta la popolazione; di conseguenza, i metodi statistici di norma utilizzati sono riferiti quasi esclusivamente alla descrizione, all’analisi e al confronto di campioni. 2.1. LE MISURE DI TENDENZA CENTRALE Le misure di tendenza centrale o posizione servono per individuare il valore intorno al quale i dati sono raggruppati; la tendenza centrale è la misura più appropriata per sintetizzare l'insieme delle osservazioni, se una distribuzione di dati dovesse essere descritta con un solo valore; è la prima indicazione della dimensione del fenomeno. Le misure proposte sono essenzialmente 3: la media, la mediana e la moda. Più raramente ed in discipline specifiche si utilizzano altre misure, come l'intervallo medio. La scelta della misura di tendenza centrale di una serie di dati dipende dalle caratteristiche della distribuzione e dal tipo di scala. La media aritmetica semplice è la misura di tendenza centrale più comunemente utilizzata.

Quando si parla solo di media, si intende la media aritmetica semplice. Si usa la media aritmetica quando abbiamo dati (continui o discreti) ottenuti da misure lineari. Operativamente è definita come la somma del valore di tutte le osservazioni, diviso il numero di unità:

dove: - x = media del campione - xi = i-esima osservazione della variabile X - n = numero di osservazioni del campione

= sommatoria di tutti gli xi del campione. .

22

La media aritmetica di distribuzioni di frequenza raggruppate in classi, detta media aritmetica ponderata, è calcolata più rapidamente con

dove:

- x = media della distribuzione in classi,

- xi = valore medio della i-esima classe di intervallo, - fi = numero di osservazioni della classe i-esima classe, - n = numero di classi,

- Σ = sommatoria per tutte le n classi.

ESEMPIO 1.1. Da un gruppo di 25 dati, raggruppati nella seguente distribuzione in classi

la media di tutto il campione risulta uguale a 175,4. Le applicazioni della media aritmetica semplice e di quella ponderata sono numerose e derivano da alcune loro proprietà: - le grandezze additive sono le più frequenti in natura; - la media aritmetica effettua la correzione degli errori accidentali d'osservazione, per cui essa è la stima più precisa di misure ripetute; - la media aritmetica è la più semplice delle medie algebriche. La media geometrica semplice è utilizzata quando le variabili non sono rappresentate da

valori lineari, ma ottenuti da prodotti o da rapporti di valori lineari. Serve per il confronto di superfici o volumi, di tassi di accrescimento o di sopravvivenza, per quei valori appunto che sono espressi da rapporti. Per il calcolo della media geometrica, è condizione necessaria che le quantità siano tutte positive. Se alcune fossero negative, si deve ricorrere al valore assoluto. La media geometrica di n dati è uguale alla radice di ordine n (solo positiva) del prodotto

degli n dati:

Π = prodotto Una proprietà importante è che

- il logaritmo della media geometrica (log x ) è uguale alla media aritmetica dei logaritmi dei dati

da cui x g = antilog x

23

ovvero la media geometrica è uguale all’antilogaritmo della media aritmetica dei logaritmi dei dati. E’ una proprietà che risulta utile quando abbiamo dati che presentano un elevata variabilità per cui si deve ricorrere alla trasformazione dei dati nei loro logaritmi, allo scopo di normalizzare la distribuzione ed applicare in modo corretto i test di inferenza. (Le trasformazioni dei dati sono discusse nel capitolo dell’analisi della varianza). ESEMPIO 9.1. Il numero di mosche in una popolazione di laboratorio di D. melanogaster costituita in partenza da 100 individui, viene rilevato in tre periodo successivi ottenendo le seguenti numerosità: 112, 196 e 369. Stabilire il tasso di incremento medio della popolazione. Gli incrementi osservati sono: 112/100 = 1,12; 196/112 = 1,75; 369/196 =1,88

x g = 3 88,1*75,1*12,1 = 1,54 Quindi la popolazione ha subito un tasso di incremento medio del 54%. Possiamo facilmente verificare che 100*1,54*1,54*1,154 = 369 Avremmo potuto applicare la proprietà di questa media ed avremmo ottenuto:

log x = 1/3*( log 1,12+ log 1,75+ log 1,88) = 0,188

da cui: x g =antilog 0,188 =1,54 Questi calcoli possono essere fatti con excel tenendo conto che: se si parla di logaritmo naturale LN(x), l’antilogaritmo è EXP(x); se si parla di logaritmo decimale LOG10(x), l’antilogaritmo è 10^x per estrarre una radice alla n si fa : valore^1/n 1

1 In matematica una progressione aritmetica è una successione di numeri tali che la differenza tra ciascun termine e il suo precedente sia una costante. Tale costante viene detta ragione della progressione. Per esempio, la successione 3, 5, 7, 9, 11, . è una progressione aritmetica di ragione 2. Una progressione aritmetica mostra una crescita (o una diminuzione) lineare. Una progressione geometrica o successione geometrica (detta talvolta, impropriamente, anche serie geometrica) è una successione di numeri tali che il rapporto tra due elementi consecutivi è sempre costante. Tale costante è detta ragione della successione. Una successione di ragione 2 e fattore di scala 1 è: 1, 2, 4, 8, 16, 32, .... Una progressione geometrica non nulla mostra una crescita o un decadimento esponenziale. Si noti che i due tipi di progressione sono strettamente connessi: applicando il logaritmo ai termini di una progressione geometrica si ottiene una progressione aritmetica.

24

http://it.wikipedia.org/wiki/Matematica

http://it.wikipedia.org/wiki/Successione_(matematica)

http://it.wikipedia.org/wiki/Numero

http://it.wikipedia.org/wiki/Differenza

http://it.wikipedia.org/wiki/Costante

http://it.wikipedia.org/w/index.php?title=Crescita_lineare&action=edit&redlink=1

http://it.wikipedia.org/w/index.php?title=Crescita_lineare&action=edit&redlink=1

http://it.wikipedia.org/wiki/Successione_(matematica)

http://it.wikipedia.org/wiki/Numero

http://it.wikipedia.org/wiki/Crescita_esponenziale

http://it.wikipedia.org/wiki/Logaritmo

La media armonica è la stima più corretta della tendenza centrale, per distribuzioni di dati

in cui devono essere usati gli inversi. E’ utilizzata quando i valori di X sono espressi come rapporti di un totale costante od in misure di tempi di reazione od in titoli2 (esami seriologici). La media armonica è data da:

ESEMPIO 3.1.

In matematica, i numeri a, b, c formano una progressione armonica se i loro reciproci 1/ a , 1/ b , 1/ c formano una progressione aritmetica.

2

Il titolo è l'inverso della più bassa concentrazione (o della più alta diluizione) del siero del paziente che mantiene attività rilevabile nei confronti di un antigene noto. Nel caso della figura il titolo è 128.

25

http://it.wikipedia.org/wiki/File:Titolo_anticorpale.PNG�

http://it.wikipedia.org/wiki/Matematica

La mediana è il valore che occupa la posizione centrale in un insieme ordinato di dati.

E’ una misura robusta, in quanto poco influenzata dalla presenza di dati anomali. La sua utilizzazione è indispensabile nel caso di scale ordinali o di ranghi o quando si hanno valori numerici esterni e/o estremi. La sue caratteristiche più importante sono due: - è calcolata sul numero di osservazioni; si ricorre al suo uso quando si vuole attenuare l'effetto di valori estremi o comunque prendere in considerazione solo l’informazione fornita dai ranghi; - in una distribuzione o serie di dati, ogni valore estratto a caso ha la stessa probabilità di essere inferiore o superiore alla mediana. Come la media è la misura di tendenza centrale nella statistica parametrica, la mediana è la misura di posizione o tendenza centrale utilizzata in quasi tutti i test non parametrici. Per calcolare la mediana di un gruppo di dati, occorre 1 - disporre i valori in una fila ordinata in modo crescente oppure decrescente e contare il numero totale n di dati; 2 - se il numero (n) di dati è dispari, la mediana corrisponde al valore numerico del dato centrale, quello che occupa la posizione (n+1)/2; 3 – se il numero (n) di dati è pari, la mediana è stimata utilizzando i due valori centrali che occupano le posizioni n/2 e n/2+1; con poche osservazioni, come mediana viene assunta la media aritmetica di queste due osservazioni intermedie; con molte osservazioni raggruppate in classi, si ricorre talvolta alle proporzioni. ESEMPIO 4.1. Calcolare la mediana nella serie di 6 dati: 10,1 10,8 13,1 13,9 14,2 14,5 . Risposta: Il numero di osservazioni è pari e i due valori centrali sono 13,1 e 13,9; la mediana è individuata dalla loro media aritmetica e quindi è uguale a 13,5. Per meglio comprendere le differenze tra media aritmetica e mediana, con la stessa serie di 6 dati (10,1 10,8 13,1 13,9 14,2 14,5 ) in cui - la media è 12,85 e - la mediana 13,5 la rappresentazione grafica evidenzia come la media sia il baricentro della distribuzione e la mediana sia collocata tra i valori più addensati.

Figura 13. Rappresentazione grafica della media e della mediana di 6 dati. Nella precedente figura 13, il grafico mostra come, nel caso di dati distribuiti in modo non simmetrico, la mediana rappresenti in modo più adeguato della media l’addensamento dei dati, il valore “normale o tipico“ della serie. La media infatti è maggiormente influenzata dalla presenza dei due valori più distanti, che la allontanano dal gruppo dei valori più frequenti e la rendono diversa da essi. Se i due valori anomali fossero più vicini (o più lontani) rispetto agli altri 4, la media cambierebbe mentre la mediana rimarrebbe invariata. Unitamente alla mediana, che è un indice di posizione che divide in due parti uguali l’insieme dei dati , esistono altri indici di posizione detti anche percentili o quantili e più specificatamente quartili quando si considerino quei valori che dividono l’insieme dei dati in 4 parti uguali. Il primo

26

quartile è quel valore in cui è compreso il 25% dei dati, il secondo il 50% (quindi il 50° percentile è la mediana), il terzo il 75% dei dati. Questi valori di posizione sono utili per costruire un particolare diagramma detto box-plot (and whiskers) (tradotto letteralmente diagramma a scatola (e baffi)) che ci permette di individuare la posizione di tutti i dati raccolti e vedere se esistono valori outlier (esterni) e/o extreme (estremi). Questi valori, come vedremo meglio in seguito, hanno effetto sia sulla variabilità che sulla distribuzione (forma) e quindi condizionano la scelta dei test statistici da utilizzare. ESEMPIO 5.1

Data items Dati ordinati

121 12 121* * Extremes = values more than 3 box-lengths from 75° percentile (i.e., v > 24) 14 11 28*

15

° ° Outliers = values more than 1.5 box-lengths from 75° percentile (i.e., 20,25< v <24)

14

20,25 Upper whisker Whiskers, vertical lines extending up and down from each box hinges

12 10 17 (up to the largest value* that is not an outlier; down to the smallest one)

14 9=75%

16 75° Percentile=

1 6,5 (*really observed, i.e., 17 and 12, respectively)

16 8 16

17 7

15 Box compraising the 50% of cases. 14 6=50% 14

Median = 14,5 The length of the box is called hspread = 2,5

28 5

14 1 4 14 25° Percentile = 14 16 3=25% 14

23,5 2 12 10,25 Down whisker limit value ° ° Outliers = values less than 1.5 box-lengths from 25° percentile (i.e., 6,5< v <10,25) 1 1* * Extremes = values less than 3 box-lengths from 25° percentile (i.e., v < 6,5

Si noti come in una serie di dati che presenta valori estremi, specialmente se sbilanciati verso una coda (estremo della distribuzione dei dati), la mediana sia un indice di posizione che meglio illustra la tendenza centrale della serie , rispetto alla media (23,5) che è influenzata da questi valori estremi. Se al posto di 121 avessimo avuto , per esempio, 18 avremmo avuto una distribuzione più bilanciata (ovvero come vedremo in seguito più vicina ad una distribuzione normale) ed allora la media (14,9) si sarebbe avvicinata al valore della mediana che sarebbe comunque rimasto invariato (14,5).

27

La moda (detta più raramente anche dato prevalente) è il valore più frequente di una

distribuzione. Essa non è influenzata dalla presenza di nessun valore estremo; tuttavia viene utilizzata solamente a scopi descrittivi, perché è meno stabile e meno oggettiva delle altre misure di tendenza centrale. Può infatti differire nella stessa serie di dati, quando si formano classi di distribuzione con ampiezza differente. Per individuare la moda entro una classe di frequenza, non conoscendo come i dati sono distribuiti, si ricorre all'ipotesi della uniforme ripartizione. Nella serie di dati riportati nell’esempio precedente la moda è 14, in quanto questo valore è stato riscontrato in 4 items su 12 (33% dei casi, mentre il valore 16 si osserva nel 16,7% dei casi e tutti gli akltri valori sono rappresentati ciascuno in misura del 8,3%). Oltre alle distribuzioni di frequenza che hanno una sola moda e che si chiamano distribuzioni unimodali, si trovano distribuzioni di frequenza che presentano due o più mode; sono denominate distribuzioni bimodali o plurimodali. Le distribuzioni plurimodali possono essere il risultato della scarsità di osservazioni o dell’arrotondamento dei dati; di norma, sono dovute alla sovrapposizione di più distribuzioni con tendenza centrale differente. Per esempio, misurando le altezze di un gruppo di giovani in cui la parte maggiore sia formata da femmine e la minore da maschi si ottiene una distribuzione bimodale, con una moda principale ed una secondaria, come la seguente.

150 155 160 165 170 175 180 Figura 14. Distribuzione bimodale ♀ e ♂ Quando la distribuzione dei dati evidenzia due o più mode, il ricercatore deve quindi sospettare che i dati non siano omogenei, ma formati da altrettanti gruppi con differenti tendenze centrali. E’ pertanto errato fondare le analisi sulla media generale della distribuzione, poiché non è vera l’assunzione fondamentale che siano dati tratti dallo stesso universo o popolazione con una sola tendenza centrale. La media di una distribuzione bimodale, formata in quota pari da maschi e da femmine, sarebbe un valore “assurdo” che non descrive né i maschi né le femmine, ma un individuo inesistente, non essendo né maschio né femmina. A conclusione di questa parte vorremmo ricordare un tipo di tecnica semi-grafica, che può essere descritta come un incrocio tra un istogramma e una tabella di frequenza. E’ chiamata diagramma a ramo e foglia (stem-and-leaf plot, stem-and-leaf display), più brevemente stem-plot o stemplot. Il metodo è utile per una prima descrizione di una distribuzione di dati. Inoltre, può essere di aiuto anche per valutare il livello di precisione con il quale i dati sono stati raccolti. Il grafico stem-and-leaf può essere utilizzato sia per variabili discrete sia per variabili continue. I principi di costruzione sono semplici: ogni numero è diviso in due parti, il ramo (stem) e la foglia (leaf); - il ramo è il numero, collocato a sinistra, che include tutte le cifre eccetto l’ultima;

28

- la foglia, collocata a destra, è sempre un numero con una cifra sola (single digit), che può essere esclusivamente l’ultima di tutto il numero. Anche questo grafico ha lo scopo di mostrare le caratteristiche fondamentali di una distribuzione di dati: - valore minimo e massimo e quindi l’intervallo di variazione, - i valori più frequenti o più comuni, - la presenza di uno o più picchi, - la forma della distribuzione, in relazione soprattutto alla simmetria, - la presenza di outlier o valori anomali, quelli troppo distanti dal gruppo principale di valori. ESEMPIO 6.1. Si assuma di aver effettuato 30 rilevazioni della concentrazione di CO (mg/mc) lungo una strada con traffico, riportati in modo ordinato e crescente nella tabella seguente:

Per costruire un diagramma stem-and leaf è utile seguire alcuni passaggi logici e metodologici. 1 - Dapprima nei valori rilevati si devono individuare le cifre che formano gli stem e i valori che formano le leaf: - i primi sono quelli che danno una misura approssimata del fenomeno, in questo caso, la parte intera del valore rilevato; - i secondi sono quelli che rendono la stima più precisa, in questo caso i valori decimali, poiché ne è stato rilevato solamente uno. 2 – Successivamente, i valori stem sono ordinati modo crescente lungo un’asse verticale, riportando anche le classi vuote. 3 – Le cifre che formano le leaf sono riportate in ordine crescente lungo l’asse orizzontale, costruito lateralmente ai valori stem. La disposizione dei numeri assume la forma della figura successiva, che ha l’aspetto grafico di una tabella:

29

E’ una specie di istogramma il cui l’asse delle ascisse è verticale e quello delle ordinate, nel quale sono riportate le frequenze, è orizzontale. Rispetto ad esso, spesso è caratterizzato da un numero di classi differente da quello richiesto per un istogramma corretto. Nella costruzione di un stem-and-leaf abitualmente non si pone particolare attenzione a questo aspetto, che invece è di importanza rilevante nell’istogramma, che dovrebbe assumere forma normale. In questa rappresentazione grafica, - l’altezza di ogni classe è fornito dal numero di decimali riportati di fianco alla parte intera, che corrisponde al totale delle leaves rilevati per lo stesso stem. La lettura dettagliata della rappresentazione semigrafica ci permette di ricavare varie informazioni, che è utile elencare in modo dettagliato: 1 - l’intervallo di variazione del fenomeno: da 6 a 22; 2 - gli stem modali: i valori 10 e 11; 3 - la mediana: tra 11,4 e 11,5 trattandosi di 30 dati (quindi un numero pari); 4 - i quantili più utili ad una descrizione dettagliata: l’80% dei valori è compreso tra 8,7 (il 10° percentile) e 20,5 (il 90° percentile); 5 - la forma della distribuzione: fortemente asimmetrica a destra (nei valori alti) e forse bimodale; 6 - la presenza di outliers (valori anomali rispetto alla distribuzione; se essi distano molto dagli altri stem, non è necessario riportare tutti i valori stem intermedi); 7 - la precisione con la quale i dati sono stati rilevati: gli ultimi 4 valori sembrano arrotondati alla mezza unità (terminano infatti con 0 e 5), mentre i primi sembrano stimati con una precisione al

-leaf deve essere adattata alle dimensioni del campione e

troppa approssimazione, ad

ati sono raccolti con precisione

decimale (sono infatti presenti tutti i valori da 1 a 9). La costruzione di un diagramma stem-andalle caratteristiche dei dati raccolti. Ad esempio, sempre nella misura della qualità dell’aria, i valori guida o livelli di attenzione sono da 100-150 mcg/mc come valore medio di 24 ore per SO2. Le misure possono quindi essere approssimate all’unità; di conseguenza, gli stem possono essere indicati dalle decine e le leaf dalle unità. Se i dati sono stati raccolti conesempio i dati di CO rilevati con arrotondamento dell’unità, non è più possibile costruire un diagramma come quello presentato. Simmetricamente, se i deccessiva rispetto alla loro variabilità, ad esempio i valori di CO alla seconda cifra decimale, risulta necessario arrotondarli.

30

2.2. MISURE DI DISPERSIONE O VARIABILITA'

La dispersione o variabilità è la seconda importante caratteristica di una distribuzione di dati. Essa definisce la forma più o meno raccolta della distribuzione intorno al valore centrale e fornisce indicazioni sul tipo di test da applicare; nei capitoli successivi verrà dimostrato come per confrontare le medie di due o più campioni sia richiesta l’omogeneità della varianza.

La prima misura ad essere stata storicamente utilizzata per descrivere la dispersione o variabilità dei dati è il campo o intervallo di variazione, definito come la differenza tra il valore massimo e quello minimo. L’intervallo di variazione è una misura poco efficiente della dispersione dei dati per l'incapacità di sapere come i dati sono distribuiti entro l'intervallo, in particolare di dedurre la presenza di valori anomali e per la sua dipendenza dal numero di osservazioni. All’aumentare del numero dei dati, cresce anche la probabilità di trovare un valore minore del minimo precedente ed uno maggiore di quello massimo precedente. Per un confronto omogeneo tra distribuzioni, sarebbe necessario avere campioni delle stesse dimensioni,una condizione operativa eccessivamente limitante per la ricerca e l’analisi dei dati.

Gli scarti dalla media sono la misura più appropriata della variabilità di un insieme di dati. Ma poiché la loro somma è sempre nulla per definizione, in quanto la media è il baricentro della distribuzione, è necessaria una trasformazione che potrebbe essere attuata in due modi: a) gli scarti assoluti dalla media; b) i quadrati degli scarti dalla media.

a) Lo scarto medio assoluto (Sm ) dalla media ( x ); per dati semplici è dato da

e per raggruppamenti in classi è ottenuto con

dove - xi = valore dell’i-esimo dato in una distribuzione semplice, - x = valore centrale della classe in una distribuzione di frequenza, - n = numero totale di dati, - ni = numero di dati della classe i in una distribuzione di frequenza. Un indice analogo, usato nelle discipline sociali ed economiche per valutare la diversità tra due distribuzioni di frequenze relative, è l’indice semplice di dissomiglianza (D)

dove 1 e 2 sono i due gruppi e k sono le classi. D è uguale a 0 quando le due distribuzioni di frequenza relativa sono identiche e uguale a 1 quando la prima distribuzione è tutta concentrata in una classe e l’altra distribuzione in una classe diversa. Ovviamente occorre che le due distribuzioni abbiano le stesse classi di frequenza

31

In alcuni test di statistica non parametrica, come misura di dispersione è utilizzato lo scarto medio assoluto dalla mediana, che è la media degli scarti assoluti dei singoli dati dalla mediana; le formule sono uguali alle due precedenti, sostituendo la mediana alla media. b) La Somma dei Quadrati (SQ) degli scarti dalla media (SS = Sum of Squares, in inglese) o devianza è la base delle misure di dispersione dei dati, utilizzate in tutta la statistica parametrica. Tutta la statistica parametrica è fondata sulla devianza e sulle misure da essa derivate

(1 ) devianza (SQ)=

L'equazione precedente è la formula di definizione od euristica. Spesso è poco pratica, in particolare quando la media è un valore frazionale, con vari decimali. Diviene allora conveniente ricorrere a un'altra formula, algebricamente equivalente, che permette di effettuare i calcoli manuali in tempi più brevi e con una sola approssimazione finale, chiamata formula empirica od abbreviata: (2) devianza SQ =

- Σx2 = sommatoria dei valori dopo che ogni osservazione è stata elevata al quadrato,

- (Σx)2= sommatoria di tutti i dati, elevata al quadrato,

- n = numero di osservazioni sulle quali è stata calcolata la somma. ESEMPIO 7.1. Calcolare con la formula euristica (1) e con quella abbreviata (2) la devianza (SQ) dei 6 numeri seguenti: 5, 6, 7, 7, 8, 10. Risposta. 1. Con la formula euristica, si deve calcolare dapprima la media:

ed in seguito la devianza (SQ), intesa come Somma dei Quadrati degli scarti di ogni valore dalla

media: devianza SQ =

2. Con la formula abbreviata, calcolare direttamente il valore della devianza (SQ), dopo aver fatto sia la somma dei dati precedentemente elevati al quadrato, sia il quadrato della somma dei

dati, secondo l’annotazione algebrica seguente: devianza SQ =

I due valori della devianza spesso non risultano identici, in particolare quando stimati con più cifre decimali, a causa dell’approssimazione con la quale è calcolata la media, se non risulta un valore esatto. In questi casi, è da ritenersi corretta la stima fornita dalla formula abbreviata, che non richiede approssimazioni nei calcoli intermedi.

32

E’ utile ricordare che, per distribuzioni di dati raggruppati in classi, la formula euristica diventa:

devianza SQ =

dove

- x i è il valore centrale di ogni classe

- x è la media generale della distribuzione - ni = numero di dati della classe i in una distribuzione di frequenza. Il valore della devianza dipende da due caratteristiche della distribuzione: gli scarti di ogni valore dalla media ed il numero di dati. La prima è una misura della dispersione o variabilità dei dati ed è l’effetto che si intende stimare; la seconda è un fattore limitante per l’uso della devianza, in quanto un confronto tra due o più devianze richiederebbe campioni con lo stesso numero di dati. Pertanto, per una misura di dispersione dei dati che sia indipendente dal numero di osservazioni, si ricorre alla varianza. La varianza o Quadrato Medio (QM, in italiano; MS da Mean Square, in inglese) è una

devianza media o devianza rapportata al numero di osservazioni. Questo parametro è usato in uno delle più comuni test parametrici, ovvero l’analisi della varianza detta (dall’inglese) ANOVA.

La varianza di una popolazione3, il cui simbolo è σ2 , è ottenuta dividendo la devianza per n,

il numero di osservazioni.

La varianza di un campione , il cui simbolo è s2 , è ottenuta dividendo la devianza per n-1, che è il numero di gradi di libertà.

Ovviamente, quando n è grande le differenze tra varianza della popolazione e varianza del campione sono minime; quando n è piccolo, le differenze sono sensibili. E' importante ricordare che quando si parla di inferenza, cioè quando si utilizzano i dati di un campione per conoscere le caratteristiche della popolazione, si usa sempre la varianza campionaria. Le giustificazioni logiche dell'uso di dividere la devianza per n-1, detta anche correzione di Student, sono lunghe e complesse: la più semplice si basa sul fatto che n-1 è il numero di osservazioni indipendenti, chiamato gradi di libertà, abbreviato abitualmente in gdl o df (da degree of freedom). Poiché la somma degli scarti dalla media è uguale a 0, l'ultimo valore di una serie è conosciuto a priori, non è libero di assumere qualsiasi valore, quando siano già noti i precedenti n-1 valori. Come concetto generale introduttivo, si può dire che il numero di gradi di libertà è uguale al numero di dati meno il numero di costanti che sono già state calcolate o di informazioni che siano già state estratte dai dati. Nel caso specifico della varianza, la costante utilizzata per calcolare gli scarti è la media: quindi i gradi di libertà sono n-1. Utilizzando i dati dell’esempio precedente risulta: s2= 14,84/(6 -1) = 2,96

3 Per i parametri (media, varianza, ecc..) che si riferiscono all’intera popolazione si usano lettere greche, per quelli che si riferiscono a campioni di una popolazione si usano le lettere romane.

33

Lo scarto quadratico medio o deviazione standard

Mentre la media è un valore lineare, la varianza è un valore al quadrato; per stime associate alla media o per confronti con essa, è necessario ricondurla a un valore lineare.

Lo scarto quadratico medio o deviazione standard4, il cui simbolo è σ nel caso della

popolazione ed s nel caso di un campione, spesso abbreviato con sd, è la radice quadrata della

varianza: deviazione standard sd o s = 2s E' una misura della dispersione della variabile casuale (dei dati) intorno alla media e quindi ha sempre un valore positivo.

Utilizzando i dati dell’esempio precedente risulta: sd= 96,2 = 1,72

Il coefficiente di variazione (coefficient of variation oppure coefficient of variability) è

una misura relativa di variabilità (o dispersione) svincolata da ogni scala di misurazione, mentre le precedenti erano tutte misure assolute, espresse nella stessa unità di misura della variabile originaria. E' quindi particolarmente utile ricorrere ad esso, quando si intende confrontare la variabilità di due o più gruppi con medie molto diverse oppure con dati espressi in scale diverse. Consideriamo come esempio il confronto tra la variabilità di due specie animali con dimensioni medie sensibilmente diverse, come tra i cani e i cavalli. La varianza tra cavalli di razze diverse è superiore a quella esistente tra i cani, perché gli scarti assoluti dalla media della specie sono maggiori. Analogamente se volessimo paragonare la variabilità di peso che esiste in scrofe alla nascita e alla maturità sessuale Il Coefficiente di Variazione (CV oppure semplicemente con V in molti testi recenti), ovvero la misura della dispersione percentuale in rapporto alla media, si ottiene nel seguente modo:

dove - s = deviazione standard del campione

- x = media del campione Quando è calcolato su dati campionari, in particolare se il numero di osservazioni è limitato, il coefficiente di variazione CV deve essere corretto di una quantità 1/4N, dove N è il numero di osservazioni del campione. Di conseguenza, il coefficiente di variazione corretto V’ diventa

Per meglio chiarire il significato del CV, rispetto ad altre misure di variabilità come per esempio la sd, vediamo il seguente esempio: A B C 8 80 60 7 78 78

4 Il termine standard deviation e il suo simbolo σ (la lettera greca sigma minuscola) sono attribuiti al grande statistico inglese Karl Pearson (1867 – 1936) che l’avrebbe coniato nel 1893; in precedenza era chiamato mean error. In alcuni testi di statistica è chiamato rootmean square deviation oppure root mean square,

34

9 82 92 6 78 78 8 80 50

5 79 75 media 7,2 79,5 72,2

ds 1,5 1,5 14,9 CV 20,5 1,9 20,6

I due campioni A e B hanno la stessa ds (almeno alla prima cifra decimale), ma questo non vuole assolutamente dire che hanno la stessa variabilità. Avere una ds di 1,5 su una media di 7,2 è completamente differente da avere una ds di 1,5 su una media di 79,5. Se ragioniamo in termini di intervallo di variazione (differenza tra valore minimo e valore massimo) il concetto forse è ancora più immediato. Anche in questo caso il range è lo stesso (A: 9-5 = 4; B: 82-78 = 4) e questo porta ad avere uguali valori di ds (che è una misura di variabilità intorno al valore medio) ma, anche qui, un intervallo di variazione di 4 unità su una media di 7,2 non ha lo stesso significato di 4 unità su una media di 79,5. Per fare un’analogia mi sembra ovvio che nessuno direbbe mai che un aumento di 400 euro su uno stipendio di 600 euro è uguale ad un aumento di 400 euro su uno stipendio di 6.000 euro! E’ chiaro quindi che: i valori di ds vanno sempre interpretati in rapporto al ordine di grandezza della media che li ha generati. Diversamente, i valori di CV, essendo dei valori in percentuale e “normalizzati”, ovvero ottenuti rapportando la variabilità (espressa come ds) al valore della media che l’ha generata (CV = ds/media * 100) sono svincolati da questa grandezza e quindi utilizzabili senza errori di interpretazione per fare confronti. Risulta pertanto che il campione A, pur avendo la stessa ds (1,5) di B, è circa 10 volte più variabile del campione B (CVA = 20,5 vs. CVB = 1,9). In effetti il campione A, dal punto di vista della variabilità (e quindi dell’omogeneità), è paragonabile al campione C. In termini di intervallo di variazione, questo equivale a dire che le 4 unità (differenza tra valore minimo e massimo) di A equivalgono alle 42 unità (92 –50 = 42) del campione C. Come vedi, in questo caso l’ordine di grandezza delle due medie, pur differendo sempre di un fattore 10 (A= 7,2; C= 72,2) non influenza il valore del CV (essendo appunto un valore di variabilità normalizzato sulla media). Il confronto tra due valori di CV, pertanto, è immediato e senza possibilità di cattive interpretazioni. Se volessimo, invece, paragonare due o più gruppi sulla base dei loro ds bisognerebbe tenere conto dei valori medi che li hanno generati. In questo esempio, dato che le medie di A e di B differiscono di un fattore 10, per dire che i due gruppi hanno la stessa omogeneità non devono avere lo stesso valore di ds ma occorre che B abbia un valore di ds 10 volte più grande di quello di A (che è poi quello osservato in C: CVC = 14,9; CVA=1,5).

35

2.3. INDICI DI FORMA: SIMMETRIA E CURTOSI Gli indici di forma di una distribuzione riguardano due caratteristiche: a) la simmetria (skewness); b) la curtosi (kurtosis). l’uso degli indici di forma non rientra nei test d’inferenza, ma è bene calcolare sempre questi indici prima di eseguire i test statistici che prevedono, tra le assunzioni, una distribuzione normale dei dati. Una variabile continua , che per definizione può assumere infiniti valori di R o all’interno dell’intervallo in cui è definita, avrà una distribuzione normale quando a ciascun valore è possibile associare una densità di probabilità5 che è data dalla seguente funzione:

dove e sono rispettivamente la media di popolazione e la deviazione standard Senza entrare nel merito dello sviluppo di questa funzione, ci limiteremo ad elencare alcune delle proprietà della distribuzione normale: le misure di tendenza centrale, media, moda e mediana, coincidono; i valori osservati mostrano percentuali comprese nei seguenti intervalli:

media+ 1ds= 0,6826 68,26% media+ 0,67d s= 0,5 50,0% media+ 2ds= 0,9544 95,44% oppure media+ 1,96ds= 0,95 95,0% media+ 3ds= 0,9974 99,74% media+ 2,57ds= 0,99 99,0%

5 Data la difficoltà di calcolare questa densità di probabilità, si può ricorrere all’uso di valori già tabulati riportati in apposite tabelle. Occorre comunque considerare che, essendo questa funzione definita da e esistono tante distribuzioni normali quante sono le combinazioni dei possibili valori di questi due parametri per cui si ricorre all’uso della distribuzione normale standardizzata che è caratterizzata da avere e =1. Per fare questo occorre quindi standardizzare la variabile oggetto di studio e ciò si ottiene sottraendo ad ogni dato il valore medio e dividendo per la relativa deviazione standard. I dati così ottenuti non saranno più espressi con le unità di misura originarie ma in unità di deviazioni standard.

36

a) Simmetria (skewness)

In teoria delle probabilità una distribuzione di probabilità è simmetrica quando la sua funzione di probabilità P (nel caso discreto) o la sua funzione di densità di probabilità (nel caso continuo) siano simmetriche rispetto ad un valore fissato x0:

P(x0 + x) = P(x0 − x) Una distribuzione normale risulta pertanto essere simmetrica rispetto ai valori di tendenza centrale. Deviazioni dalla distribuzione normale producono distribuzioni asimmetriche. Poiché difficilmente dati desunti da osservazioni biologiche sono distribuiti normalmente è necessario valutare, attraverso opportuni indici e test, di quanto i nostri dati si discostano da un ipotetica distribuzione normale. Esistono diversi indici di asimmetria; per ognuno di essi il valore 0 fornisce una condizione necessaria, ma non sufficiente, affinché una distribuzione sia simmetrica. (Ogni distribuzione simmetrica ha indice 0, ma esistono anche distribuzioni non simmetriche con indice 0). Gli indici di simmetria possono essere raggruppati in due tipologie: a) indici dell'asimmetria assoluta b) indici di asimmetria relativa. Gli indici di asimmetria assoluta si esprimono con le distanze tra la media e la moda o la mediana. Una misura assoluta, usata frequentemente, è la differenza (d) tra la media e la moda: d = media - moda La differenza è: d = 0, se la curva è simmetrica; d > 0, se la curva ha asimmetria positiva (o destra : media > mediana > moda); d < 0, se la curva ha asimmetria negativa (o sinistra : media < mediana < moda). - l'asimmetria è detta destra (più correttamente, a destra) quando i valori che si allontanano maggiormente dalla media sono quelli più elevati, collocate a destra dei valori centrali (figura 15); nell’asimmetria destra, la successione delle 3 misure di tendenza centrale da sinistra a destra è: moda, mediana, media; - l'asimmetria è detta sinistra (o a sinistra) quando i valori estremi, quelli più distanti dalla media, sono quelli minori (figura 15). Nell’asimmetria sinistra, la successione delle tre misure di tendenza centrale da sinistra a destra è invertita rispetto all'ordine precedente: media, mediana, moda.

Figura15. Asimmetria destra o positiva (d>0) Figura 16. Asimmetria sinistra o negativa (d<0) E' possibile valutare in modo molto semplice ed empirico il grado d’asimmetria di una distribuzione; essa è ritenuta moderata se Moda = Media - 3(Media - Mediana) ed è ritenuta forte se è sensibilmente maggiore di tale valore. Per ottenere una misura del grado di asimmetria, che possa essere confrontato con quello di

37

http://it.wikipedia.org/wiki/Teoria_delle_probabilit%C3%A0

http://it.wikipedia.org/wiki/Distribuzione_di_probabilit%C3%A0



http://it.wikipedia.org/wiki/Distribuzione_discreta

http://it.wikipedia.org/wiki/Funzione_di_densit%C3%A0_di_probabilit%C3%A0

http://it.wikipedia.org/w/index.php?title=Distribuzione_continua&action=edit&redlink=1

http://it.wikipedia.org/wiki/Simmetria_(matematica)

qualsiasi altra distribuzione in quanto indipendente dalle dimensioni delle misure, occorre

utilizzare indici relativi, quali: skewness di Pearson;γ1 di Fisher; β1 di Pearson.

L’indice attualmente più usato è il γ1 di Fisher che si basa sul momento6 centrale di ordine 3 (m3)

standardizzato, ovvero diviso per la deviazione standard elevata al cubo.

Esso è nullo per distribuzioni simmetriche7 e differiscono da zero quando le distribuzioni non sono simmetriche; quanto maggiore è l'asimmetria, tanto più il valore del momento centrale è grande. Inoltre, in distribuzioni con asimmetria destra ha un valore positivo ed in quelle con asimmetria sinistra ha un valore negativo.

Quando la simmetria è stimate non sulla popolazione (γ1 ) ma su un campione (quindi indicata

con il corrispondente simbolo latino g1 ), g1 , in valore assoluto, tende a sottostimare γ1 ( |g1| < |γ1|

). Tenendo anche conto che i dati campionari sono spesso raggruppati in classi, il momento centrale di 3 ordine risulta:

dove - k = numero di classi di frequenza - f i = frequenza della classe i,

- x i = valore centrale della classe i

- x = media generale del campione - s = deviazione standard del campione Nel caso i dati non siano raggruppati in classi si considerano gli scarti dei singoli valori dalla media generale. Il calcolo dell’indice risulta pertanto essere:

Per valutare il grado di asimmetria, è convenzione che si abbia una distribuzione ad asimmetria

forte8, quando |γ1| o g1 > 1;

moderata, quando ½ < |γ1| o g1 < 1;

trascurabile, quando 0 < |γ1| o g1 < 1/2.

6 Il momento (m) di ordine k rispetto ad un punto c (origine) è definito come la media della k-esima potenza dello scarto dal punto c ed è quindi uguale a

Si dice momento centrale quando il punto è la media μ . Il momento centrale di ordine 1 (k=1) é la somma degli scarti dalla media, quindi è uguale a 0. Il momento centrale di ordine 2 (k = 2) è la varianza. I momenti centrali di ordine dispari (m3, m5,...) sono utilizzati per indici di simmetria. 7 Non sempre vale l'inverso, ovvero non sempre un indice di asimmetria uguale a 0 caratterizza la simmetria perfetta di una distribuzione di dati. 8 In questo caso si rigetta l’assunzione di normalità della distribuzione dei dati.

38

Esistono infine diversi test statistici che valutano in modo più accurato quanto una serie di dati si discosti da una distribuzione normale. Tra questi il più diffuso è il test di Kolmogorov-Smirnov Per la trattazione di questo test si può consultare:Biometry (S. Sokal & J. Rohlf). Altri test utilizzati sono quelli proposti da Snedecor e Cochran nel loro testo Statistical Methods, per valutare la significatività di g1 in campioni di grandi dimensioni (oltre 100 dati) e riportati sul manuale di statistica di Soliani. Esistono in statistica altre curve di distribuzione delle variabili, collegate con la distribuzione normale, quali la distribuzione del 2 (chi quadrato), del t di Student e del F di Fisher, la cui funzione di probabilità viene utilizzata nei test di verifica delle ipotesi e nei confronti tra medie ottenute da differenti popolazioni campionarie. La loro trattazione verrà fatta pertanto nel prossimo capitolo. b) Curtosi (kurtosis) Quando si descrive la forma delle curve unimodali9 simmetriche, con il termine curtosi (dal greco kurtos, che significa curvo o convesso) si intende il grado di appiattimento, rispetto alla curva normale o gaussiana. Nella valutazione della curtosi, una distribuzione unimodale simmetrica è detta: - mesocurtica , quando ha forma uguale alla distribuzione normale; - leptocurtica (figura 23), quando ha un eccesso di frequenza delle classi centrali, una frequenza minore delle classi intermedie ed una presenza maggiore delle classi estreme; è quindi una distribuzione più alta al centro (appuntita) e agli estremi e più bassa ai fianchi; la caratteristica più evidente è l'eccesso di frequenza dei valori centrali. Una curva di frequenza più alta significa che l'aumento della varianza è dovuto non a frequenti deviazioni modeste ma a deviazioni rare estreme - platicurtica (figura 24), quando rispetto alla normale presenta una frequenza minore delle classi centrali e di quelle estreme, con una frequenza maggiore di quelle intermedie; è quindi una distribuzione più bassa al centro (piatta) e agli estremi mentre è più alta ai fianchi; la caratteristica più evidente è il numero più ridotto di valori centrali.

Figura 17. Distribuzione leptocurtica Figura 18. Distribuzione platicurtica rispetto alla mesocurtica rispetto alla mesocurtica L'indice di curtosi è il risultato di un confronto, è un rapporto; quindi, è una misura adimensionale.

9 Il calcolo del coefficiente di curtosi ha senso solo nelle distribuzioni monomodali.

39

http://it.wikipedia.org/w/index.php?title=Distribuzioni_monomodali&action=edit&redlink=1

I due indici di curtosi più utilizzati sono analoghi a quelli di asimmetria: l'indice γ2 di Fisher (g2

in una distruzione di dati osservati); l'indice β2 di Pearson (b2.in una distribuzione di dati

osservati); l'indice γ2 di Fisher (g2.in una distribuzione di dati osservati)

L'indice γ2 di Fisher è fondato sul momento centrale di ordine 4 (m4) standardizzato, ovvero

diviso per la deviazione standard elevata alla quarta

Se la distribuzione è perfettamente normale, il risultato del calcolo è uguale a 3; è maggiore di 3 se la distribuzione è leptocurtica, mentre è minore di 3 se la distribuzione è platicurtica. Per spostare la variazione attorno allo 0, l'indice di curtosi di Fisher è scritto come

Ovviamente, il risultato diviene: 0, se la distribuzione è normale o mesocurtica, positivo, se la distribuzione è leptocurtica o ipernormale, negativo, se la distribuzione è platicurtica o iponormale

Mentre l’indice γ1 (asimmetria) può variare tra ± ∞, l’indice γ2 può variare tra - 2 e + ∞; non è

quindi possibile associare ad esso una gradazione in valore assoluto che valuti l’intensità della curtosi.Come già precedentemente discusso, le condizioni che γ1 e γ2 = 0 sono necessarie ma non sufficienti, affinché la curva sia simmetrica e mesocurtica. Analogamente per quanto avveniva per l’indice di simmetria, quando la curtosi è stimata non sulla

popolazione (γ2) ma su un campione (quindi indicata con il corrispondenei simbolo latino g2),

g2 in valore assoluto tende a sottostimare γ2 ( |g2| < |γ2| ); quindi la formula viene corretta nel

seguente modo:

Dove x4 è il momento centrale di ordine 4 calcolato da una distribuzione di dati in classi Tutti gli indici presentati, dalle misure di tendenza centrale a quelle di dispersione e di forma, sono validi sia per variabili discrete che continue, con l'ovvia approssimazione data dall’eventuale raggruppamento in classi. I valori di g1 e g2 sono adimensionali: in altri termini, il risultato è identico, qualunque sia la misura utilizzata o la trasformazione applicata alla variabile X.

Ricordiamo infine che l’indice di curtosi, così come quello di simmetria, non rappresenta una buona stima del corrispondente parametro della popolazione se calcolato su piccoli campioni. Ciò nonostante, anche in presenza di piccoli campioni, valori elevati di tali indicatori devono far insorgere nel ricercatore il dubbio che le eventuali ipotesi di normalità non siano verificate.

40

http://it.wikipedia.org/wiki/Simmetria_(statistica)

http://it.wikipedia.org/wiki/Variabile_casuale_normale

2.4. MISURE DI DISPERSIONE O VARIABILITA' DI PARAMETRI CAMPIONARI

Abbiamo già detto che quando studiamo una determinata variabile il nostro interesse è quello di stabilirne alcuni valori parametrici che definisco quella variabile all’interno di tutta la popolazione esistente. Dato che questa rilevazione è pressoché impossibile nella quasi totalità dei casi, si ricorre a stime di questi parametri utilizzando dati derivanti da campionamenti (ovvero da una porzione limitata dell’intera popolazione). Nel fare questo lo sperimentatore è sempre soggetto a commettere delle approssimazioni dovute ad errori statistici10. L’errore standard (standard error, in inglese) della media. Come la deviazione standard è una misura di dispersione dei dati intorno alla loro media, l’errore standard è la misura della

dispersione delle varie medie campionarie ( x ), calcolate su un numero n di osservazioni,

intorno alla media parametrica o di popolazione (). Se volessimo, per esempio, stabilire l’altezza media di bambini di 8 anni dovremmo ricorrere ad una serie di campionamenti i quali ci daranno tutti dei valori medi differenti, che rappresentano una stima più o meno precisa della reale media parametrica, in quanto soggetti ad un errore statistico. Risulta pertanto evidente che tale errore sarà tanto maggiore quanto più grande è la variabilità dei dati che caratterizza una determinata variabile (l’altezza del nostro esempio) e quanto più piccolo è il numero di individui utilizzati nel campionamento. L’errore standard es viene quindi calcolato in base alla seguente formula:

Utilizzando i dati dell’esempio 7.1. risulta: es = 1,72 / 6 = 0,70. L’errore standard, che non si limita solo alla media ma anche ad altri parametri, è una misura importante usata spesso per definire la relativa precisione dei parametri investigati (esempio, l’intervallo di confidenza di una media) e per eseguire il confronto tra parametri desunti da differenti popolazioni. Intervallo di confidenza IC (o limite fiduciale) della media è una misura della precisione con cui si è ottenuta una determinata media campionaria, in quanto più ampio è l’intervallo di confidenza e meno precisa è la stima della media parametrica ottenibile tramite il computo della media campionaria. Per stimare questa grandezza bisogna ricorre al teorema del limite centrale, che sta alla base di tutta la statistica inferenziale. Questo teorema dimostra che la distribuzione campionaria delle medie si approssima ad una distribuzione normale, qualunque sia la forma della distribuzione della popolazione (quando si considera campioni di ampiezza>30). E’ quindi possibile sfruttare le proprietà della distribuzione normale per la stima dei parametri o per la verifica delle ipotesi. In particolare se consideriamo il fatto che in una distribuzione normale il 95% dei dati è compreso in un intervallo definito dalla media parametrica () e da ±1,96 unità di deviazione standard (che è una misura della dispersione dei dati intorno alla media), possiamo traslare questa proprietà dai dati alle medie campionare e dire che in una distribuzione campionaria di medie, il 95% delle medie è compreso in un intervallo definito dalla media parametrica () e da ±1,96 unità di errore standard (esche è una misura della dispersione dei

dati intorno alla media). In altre parole si potrebbe anche dire che data una media campionaria ( x ),

10 Col termine errore statistico si intende tutto ciò che non è sotto controllo dello sperimentatore ma dovuto esclusivamente al caso, ovvero quella parte di variabilità intrinseca in tutte le variabili biologiche.

41

abbiamo una probabilità del 95% che la vera media ( ,media parametrica) sia compresa in un

intervallo x ±1,96*es. Quando però si opera su medie campionarie il ricorso alla distribuzione normale presenta due limitazioni: i) spesso i campioni sono di piccole dimensioni (la curva della distribuzione normale è definita per - < x < + ; ii) non si conosce l’errore standard della media parametrica ma solo una sua stima in quanto calcolato sulla deviazione standard campionaria (s). In questi casi si ricorre pertanto alla distribuzione t di Student (pseudonimo del chimico inglese Gosset che ne propose l’applicazione al confronto tra medie campionarie), che è una curva simmetrica, leggermente più bassa della normale e con frequenze maggiori agli estremi,

quando il numero di gradi di libertà (ν= n - 1) è molto piccolo11. Ovviamente per ν che tende

all’infinito, la curva tende alla normale, in quanto la stima dei parametri campionari coincide con i valori dei parametri di popolazione.

Fig. 19. Distribuzione di t per ν= 1, 9 e

Come si può osservare non esiste un'unica curva ma una famiglia di curve definite dal rispettivo

valore di ν.

Il calcolo dell’intervallo di confidenza di una media diventa pertanto

IC = x ± t(, v)*es dove t(, v) è il valore di t tabulato, per una determinato livello di probabilità ed un

determinato valore di ν

Utilizzando i dati dell’esempio 7.1., dove abbiamo: x = 7,16; n = 6, da cui ν= 5; es = 0,70; il

calcolo dell’intervallo di confidenza è il seguente: 95% IC = 7,16 ± 2,571* 0,70 = 7,16 ± 1,7797 99% IC = 7,16 ± 4,032* 0,70 = 7,16 ± 2,8224

11 Si ricorda che aggiungendo (sottraendo, moltiplicando o dividendo) una costante alle medie la distribuzione

simmetrica non cambia, per cui anche le differenze delle medie dalla media parametrica (Y -), come pure la relativa

standardizzazione ([Y -), è una curva simmetrica. La nuova distribuzione è più ampia della corrispondente distribuzione normale standardizzata, in quanto il denominatore è l’errore standard delle medie campionarie invece che l’errore standard parametrico, per cui sarà a volte più piccolo, a volte più grande rispetto al valore atteso. 12 In genere si scelgono valori di = 0,05 oppure = 0,01, nel caso si voglia un risultato più conservativo.

42

Possiamo quindi dire che la vera media della variabile oggetto di studio è compresa, con una probabilità del 95%, tra 5,36 e 8,96; oppure tra 4,34 e 9,98, se vogliamo essere più cauti (conservativi)e scegliamo quindi un livello di probabilità del 99%.

43

CAPITOLO 3 - LA VERIFICA DELL’IPOTESI 3.1. Il test statistico della verifica dell’ipotesi è un processo logico-matematico che porta alla conclusione di non poter respingere oppure di poter respingere l'ipotesi della casualità, mediante il calcolo di probabilità specifiche di commettere un errore con queste affermazioni. L’ipotesi che il risultato ottenuto con i dati sperimentali raccolti sia dovuto solo al caso è chiamata ipotesi nulla ed è indicata con H0. Di norma, con essa si afferma che le differenze tra due o più gruppi, quelle tra un gruppo e il valore atteso oppure le tendenze riscontrate siano imputabili essenzialmente al caso.

Per esempio, confrontando il tempo di guarigione tra due gruppi di ammalati ai quali siano stati somministrati due farmaci differenti, con l’ipotesi nulla H0 si sostiene che il risultato ottenuto non dipende da una effettiva differenza tra i due principi attivi, ma che esso è dovuto al caso. Se nell’esperimento il farmaco A è risultato migliore del farmaco B, se si accetta l’ipotesi nulla implicitamente si afferma che, con un nuovo esperimento nelle stesse condizioni, si potrebbe ottenere il risultato opposto. Nell’apprendimento e nell’uso della statistica, il primo passo è comprendere come solamente una corretta applicazione del campionamento e una scelta appropriata dei test permettano di rispondere alla domanda inferenziale di verifica dell'ipotesi nulla. Con essa si pone il seguente quesito: " Nell'ipotesi che le differenze fra gruppi di osservazioni empiriche siano dovute a fattori esclusivamente casuali, quale è la probabilità che fra tutte le alternative possibili si presenti proprio la situazione descritta dai dati raccolti o una ancora più estrema?" Se tale probabilità risulta alta, convenzionalmente uguale o superiore al 5%, si imputeranno le differenze a fattori puramente casuali (accettazione dell’ipotesi nulla). Al contrario, se la probabilità risulta bassa, inferiore al valore prefissato, si accetta come verosimile che le differenze siano dovute a fattori non casuali (non accettazione dell’ipotesi nulla), rientranti tra i criteri che distinguono i gruppi di dati (esempio, animali trattati e non trattati). Per chiarire questo concetto è bene fare un esempio. Se gettiamo in aria una moneta per 10 volte consecutivamente abbiamo le seguenti probabilità che esca testa:

testa croce tot. lanci P (%)

10 0 10

0,10 9 1 10 0,98 Ipotesi nulla respinta 8 2 10 4,39 7 3 10 11,72 6 4 10 20,51 5 5 10 24,61 Ipotesi nulla accettata 4 6 10 20,51 3 7 10 11,72 2 8 10 4,39 1 9 10 0,98 Ipotesi nulla respinta 0 10 10 0,10 100

La probabilità è stata calcolata in base alla distribuzione binomiale dei dati13 13 In biologia esistono molti casi in cui i dati seguono una distribuzione binaria, ad esempio la segregazione di caratteri mendeliani che presentano due classi fenotipiche (il sesso).

44

La nostra ipotesi nulla è: in una moneta regolare entrambe le facce hanno la stessa probabilità di comparire, per cui su 10 lanci dovremmo aspettarci 5 volte testa e 5 volte croce. Alla verifica sperimentale di questa ipotesi se testa esce un numero di volte comprese tra 3 e 7 possiamo affermare che la differenza osservata tra il dato sperimentale e quello atteso in base all’ipotesi è imputabile solo al caso e quindi accettiamo l’ipotesi nulla che si tratti di una moneta regolare. Diversamente se testa esce un numero di volte compreso tra 8 e 10, oppure tra 2 e 0, dovremmo respingere l’ipotesi nulla e dire che la differenza tra il dato sperimentale e quello atteso non è imputabile solo al caso ma ad un fattore causale, ovvero la moneta non è regolare. Deve essere comunque chiaro che quando si fa una verifica statistica di un ipotesi non si afferma mai una verità assoluta ma solo la probabilità che i dati osservati siano imputabili ad una determinata causa e non al caso. Infatti se testa fosse uscita 2 volte (oppure 8) avremmo avuto ugualmente una probabilità, seppur bassa ovvero inferiore al limite convenzionale del 5%, che questo risultato potesse essere dovuto al caso e quindi l’ipotesi nulla potrebbe essere ugualmente vera! Questo implica che nell’accettare o respingere un ipotesi è sempre possibile commettere un errore. Nell’utilizzare i test statistici per la verifica dell’ipotesi esistono pertanto due tipologie di errore: Ipotesi nulla (H0) Accettata Respinta Vera Decisione corretta

livello di protezione P = (1 - )

Errore di tipo I livello di significatività P =

Falsa Errore di tipo II livello di significatività P =

Decisione corretta potenza P = (1 - )

Si commette un errore di tipo I, quando si respinge un ipotesi nulla che in effetti è vera; si commette un errore di tipo II, quando si accetta un ipotesi nulla che in effetti è falsa. La probabilità di commettere un errore di tipo I viene indicata con e quindi la situazione complementare (ovvero di non sbagliare, accettando un ipotesi nulla che è vera) ha probabilità (1 - ). La probabilità di commettere un errore di tipo II, viene invece indicata con e quindi la situazione complementare (ovvero di non sbagliare, scartando un ipotesi nulla che è falsa) ha probabilità (1 - ). Se l’ipotesi nulla è falsa allora qualche altra ipotesi, H1, deve essere vera, ma a meno che non siamo in grado di specificare questa ipotesi alternativa non è possibile determinare la probabilità di commetter un errore di tipo II. Spesso, però, non è possibile individuare una semplice ed unica ipotesi alternativa per cui si considera semplicemente il livello di significatività , senza fissare , in quanto si ritiene più opportuno cautelarsi anzitutto nei confronti del tipo di errore che viene giudicato più grave, ovvero quello di tipo I. Questo valutazione è motivata dal fatto che mentre il rifiuto di H0 implica che sia vera l’ipotesi alternativa, la sua accettazione implica che “non ci sono elementi sufficienti per rifiutarla”. Per questo motivo, quando si commentano i dati osservati sulla base del risultato scaturito dai test di verifica di un ipotesi, sarebbe opportuno non parlare di ipotesi vera o falsa, ma di evidenze (scarse, insufficienti, discrete, forti…) a favore di una determinata ipotesi. Infatti nessun risultato è in assoluto impossibile nei confronti di H0 (ma solo più o meno probabile), quindi ogni volta che la si rifiuta si corre il rischio di fare un errore di tipo I con una probabilità , o livello di significatività di solito fissato al 5% (0,05) o al 1% (0,01), e per la stessa ragione ogni volta che si accetta si corre il rischio opposto (errore di tipo II). I test di verifica dell’ipotesi ci consentono, quindi, di prendere una decisione con una predeterminata probabilità di sbagliare (livello di significatività , o di non sbagliare, livello di protezione 1 - ). Test con alto livello di protezione sono anche detti più conservativi. Per chiarire meglio questi concetti possiamo ricorrere ad una rappresentazione grafica basata su una distribuzione di probabilità appropriata alla tipologia dei dati. Assumiamo ora che i dati abbiano una distribuzione binomiale, esempio, il rapporto dei i due sessi in mammiferi dove H0 è 1: 1 ovvero = 0,5, e di volere verificare questa ipotesi utilizzando un campione di n =17 animali.

45

Ciò significa suddividere la distribuzione di probabilità in due aree: area di accettazione, che comprende tutti i valori accettabili, ovvero quelli che hanno una probabilità > del 2,5% (ovvero del 5% distribuito ugualmente sulle due code della distribuzione), e l’area di rifiuto o regione critica delimitata da un valore critico. Inoltre potremmo anche postulare un ipotesi alternativa H1 che preveda uno sbilanciamento a favore di un sesso assumendo un rapporto di 2:1.

Femmine Maschi P% di H0 P% di H1 17 0 0,000763 0,09978422716 1 0,01297 0,85071297215 2 0,10376 3,41307066114 3 0,518799 8,55830030513 4 1,815796 15,0220015912 5 4,721069 19,58724651

11 6 9,442139 19,64606707

10 7 14,83765 15,48255059 8 18,54706 9,705652903

8 9 18,54706 4,8673995047 10 14,83765 1,952806528

6 11 9,442139 0,623213445 12 4,721069 0,1562712384 13 1,815796 0,0301424083 14 0,518799 0,0043189892 15 0,10376 0,0004331961 16 0,01297 0,000027160 17 0,000763 0,00000080

69,28891649

Distribuzione binomiale n = 17

0123456789

101112131415161718192021

0 1 2 3 4 5 6 7 8 9 101112 1314151617

numero di femmine

dis

trib

uzi

on

e d

i fre

qu

enze

%

H0

H1

1-

1-

L’area di accettazione include pertanto tutte quelle segregazioni compatibili con H0, ovvero tutte quelle che possono essere ottenute per caso come scostamento dalla combinazione attesa di 1 a 1 (nel nostro caso quindi 8 o 9 individui di un sesso sul totale di 17 individui). Queste segregazioni vanno, quale che sia il sesso considerato, da un minimo di 5 ad un massimo di 12 individui; mentre nell’area di rifiuto si osservano tutte quelle segregazioni che presentano un numero> di 12 o < a 5 (valori critici) individui di uno stesso sesso. Il test che cade nell’intervallo di rifiuto e detto “significativo” al 5 o al 1% (a seconda del livello di prescelto), sottintendendo che il campione si è rilevato in “significato contrasto” con i dati attesi in accordo all’ipotesi fatta. Ad ogni modo anche se consideriamo le segregazioni che includono valori che vanno da 8 a 12 femmine, ovvero che sono in accordo con H0, non potremmo dire ugualmente che questa è vera perché avendo avuto modo di formulare un ipotesi alternativa di un rapporto 2 a 1, ci accorgiamo che questi valori rientrano tra quelli che mi danno una probabilità di fare un errore di tipo II (accettazione di un ipotesi falsa) essendo inclusi nell’area di accettazione di questa ipotesi alternativa. La potenza di questo test (1-), ovvero la possibilità di mettere in evidenza una differenza significativa tra le due distribuzioni di probabilità relative alle due ipotesi, risulta bassa essendo (probabilità di compiere un errore di tipo II) elevato (69,28). Ecco perché, nel caso di una segregazione compresa in questo intervallo non è corretto dire che H0 è vera, ma certamente possiamo dire che non ci sono sufficienti motivi per rigettarla, oppure che ci sono buone evidenze a sostegno di questa ipotesi. In questi casi se si desidera essere molto protetti circa la probabilità di sbagliare rifiutando H0 (errore di tipo I) ci si dovrà accontentare di un test poco potente, dato che e sono interdipendenti. Diminuire ovvero passare da una significatività di 0,05 (5%) ad una di 0,01 (1%) quindi aumentare il livello di protezione (1-significa aumentare (la probabilità di commettere un errore di tipo II accettando in ipotesi H0 falsa) per cui diminuisce la potenza del test (1-cioè la probabilità di non sbagliare rifiutando l’ipotesi H0. La sola possibilità di minimizzare sia che , ovvero utilizzare un test potente senza perdita di protezione consiste nel distanziare le due

½

46

distribuzioni definite da H0 e H1, in modo da eliminare o comunque ridurre la regione di sovrapposizione. Ciò significa diminuire la dispersione delle due distribuzioni, aumentando la dimensione del campione o adottando una opportuna pianificazione dell’esperimento. Per esempio se estendiamo lo studio di segregazione a 100 individui otteniamo che le distribuzioni delle due ipotesi sono completamente separate per quando concerne le rispettive aree di accettazione.

Distribuziome binomiale n = 100

0

1

2

3

4

5

6

7

8

9

0 20 40 60 80 100 120

numero di femmine

dis

trib

uzi

on

e d

i p

rob

ab

ilit

à %

H0

H1

E’ lapalissiano che un test statistico aumenta la sua affidabilità in relazione alla grandezza del campione, però questo ha un costo in termini di tempo e di spesa, senza considerare che spesso esistono situazioni contingenti che ne limitano le dimensioni. Stabilire la dimensione minima di un campione, il livello di protezione e la potenza di un test sono comunque procedure importanti per una corretta analisi di verifica delle ipotesi. Abbiamo già detto che è usualmente fissato intorno al 5% o 1%, senza che ciò implichi nessun altra procedura mentre dipende dalla possibilità di individuare un ipotesi alternativa. In assenza di tale possibilità si può comunque fissare a priori anche un livello di e di solito si considera un valore del 20%, che corrisponde quindi ad una potenza del test del 80%. La dimensione minima invece non può essere fissata a priori ma dipende dal tipo di indagine che si vuole eseguire, ovvero dalla variabilità intrinseca del campione oggetto di studio. Ad ogni modo esistono, a seconda del tipo di distribuzione che caratterizza una certa tipologia di dati, delle dimensioni minime sotto alle quali non è possibile eseguire il test di verifica dell’ipotesi. Per esempio per una distribuzione binomiale in cui le due possibili situazioni hanno la stessa possibilità di realizzarsi la numerosità (n) del campione non può essere < 5. Con 4 osservazioni, nessuna combinazione cade al di fuori della regione critica ( per 0 : 4 o viceversa P = 6,25%) per cui l’ipotesi nulla è sempre vera! Il calcolo della dimensione ottimale di un campione, su cui si siano eseguite misurazioni di variabili continue, richiede spesso procedure di calcolo iterativo che comportano passaggi matematici laboriosi, per cui è meglio affidarsi ad alcuni software in commercio e scaricabili gratuitamente. Un calcolatore di potenza e delle dimensioni di un campione si trova su: http://www.dssresearch.com/toolkit/spcalc/power_p1.asp Tutte le statistiche descrittive illustrate in questi capitoli possono essere eseguite con excel selezionando dal menù strumenti l’opzione Analisi dati e indi l’opzione Statistica descrittiva.

47

http://www.dssresearch.com/toolkit/spcalc/power_p1.asp

48

Lo schema seguente riassume i vari passaggi logici che sono necessari nello svolgimento di un test d’inferenza

PROCEDURA PER UN TEST D’INFERENZA

Dal Campione variabile all’Universo. La logica o filosofia scientifica per la scoperta delle leggi della natura I – IPOTESI Ipotesi nulla, ipotesi alternativa II - RACCOLTA DEI DATI Tipo di scala; caratteristiche della distribuzione dei dati III - SCELTA DEL TEST Sulla base dell'ipotesi, del tipo di scala e delle caratteristiche dei dati IV - RISULTATO DEL TEST- PROBABILITA' Probabilità di ottenere quel risultato, nella condizione espressa dall'ipotesi nulla V – DECISIONE - SCELTA TRA LE DUE IPOTESI

Probabilità α VI – ANALISI DEL TEST E DEI DATI PER UN NUOVO ESPERIMENTO

Potenza a posteriori e a priori, probabilità β

Documents

LEZIONI DI STATISTCA - scienzeambientali.unicam.it · In un corso completo di statistica applicata, è importante avere in ogni momento una visione