STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti in un es perimento o raccolti sul campo, con lo scopo di � acquisire una certa familiarità con i dati prima di passare alle analisi statistiche inferenziali � evidenziare nei dati tendenze inattese a priori che possono suggerire analisi non previste

inizialmente o anche nuovi esperimenti o campionamenti � identificare rapidamente eventuali errori nella trascrizione dei valori o nel loro inserimento al

calcolatore � identificare preliminarmente alcune caratteristiche dei dati che potrebbero precludere il successivo

utilizzo di alcune tecniche statistiche � comunicare ad altre persone brevemente, con logica ed ordine, le principali caratteristiche dei dati

raccolti Attenzione: riassumere vuol quasi sempre dire perdere parte dell’informazione

� Cos’è una variabile? o una qualsiasi caratteristica misurata o registrata in un’unità campionaria. Generalmente le

variabili sono indicate con lettere maiuscole e i valori che possono assumere con lettere minuscole, spesso indicizzati per indicare il valore assunto dalla variabile in una specifica osservazioni

� I valori che assume possono essere numerici oppure di semplice appartenenza ad una certa

categoria

o Variabili quantitative continue � Peso, altezza, concentrazione, …

o Variabili quantitative discrete � Numero uova, numero parassiti, numero piastre batteriche,…

o Variabili qualitative con valori ordinabili (scala ordinale) � “Abbondanza”, stato di salute, aggressività, …

o Variabili qualitative con valori non ordinabili (scala nominale) = variabili categoriche

� Gruppo sanguigno, tipo di malattia, tipo mutazione, specie…

Variabili risposta e variabili esplicative (dipendenti e indipendenti) � Ipertensione arteriosa e rischio di ictus � Piani edificio e lesione gatti � Intensità di caccia e livelli di variabilità genetica

0

0.5

1

1.5

2

12 14 16 18 20 22 24

Level of hunting

Nuc

leot

ide

dive

rsity

(%

)

Dati, frequenze e distribuzioni

� 22 nidi di merlo al momento dell’involo e di avere contato in ciascuno di essi il numero di piccoli sopravvissuti o unità campionaria = nido o la femmina o variabile è quantitativa discreta.

� x1 = 0; x2 = 2; x3 = 2; x4 = 0; x5 = 1; x6 = 3; x7 = 3; x8 = 2; x9 = 2; x10 = 4; x11 = 1; x12 = 4; x13 = 2;

x14 = 1; x15 = 2; x16 = 3; x17 = 3; x18 = 6; x19 = 4; x20 = 2; x21 = 3; x22 = 3,

� dove xi, indica il valore assunto dalla variabile X nella i-esima osservazione, con l'indice i che varia da 1 a n (n = 22 = dimensione del campione).

� classe di frequenza e tabella di frequenza:

xi ni 0 2 1 3 2 7 3 6 4 3 6 1

� In questo caso xi indica il valore assunto dalla variabile X nella i-esima classe, con l'indice i che

varia da 1 a c, ni è il numero di volte che nel campione ricorre l'osservazione xi e c è il numero di classi (5 nel nostro caso)

� Chiaramente la somma di tutti gli ni deve dare n, ovvero

ni = ni = ni = ni∑i∑

i=1

c

∑i=1

i= c

∑ = n

� distribuzione di frequenza: ossia alla distribuzione dei dati nelle diverse classi

o distribuzione di probabilità o distribuzione di probabilità teorica

� diagramma a segmenti (o a barre)

o capisco quali sono i valori che ricorrono più frequentemente o distribuzione unimodale, bimodale, multimodale? o Simmetrica o asimmetrica? Asimmetrica a destra o a sinistra? o capisco e l'intervallo di variazione della variabile analizzata

Si noti come nella tabella di frequenza è stata inserita anche una categoria, la 5, in cui non si rilevano osservazioni. Questo permette di costruire un diagramma a segmenti che rappresenti correttamente la distribuzione di frequenza dei dati.

Esempio di una distribuzione bimodale.

� Distribuzioni contagiose

o numero di animali che hanno contratto una certa parassitosi in 100 nidi di vespa o numero di piante in 100 quadrati di 1 metro x 1 metro

� frequenze assolute (ni, dette anche numerosità) � frequenze relative (fi, o, a volte, pi,), ovviamente varia tra 0 e 1

� frequenza percentuale

fi = pi =ni

n

fi %( ) = fi ×100

� Il termine generico frequenza è spesso utilizzato per indicare cose diverse

� Istogramma: quando la variabile analizzata assume molti valori diversi nel campione è una migliore rappresentazione della distribuzione di frequenza. Nell’istogramma i dati vengono raggruppati in classi che includono tutti i valori in certo intervallo.

� Definizione classi o Regolette: radice di n; (1 + ln(n)/ln(2)) o Evitare la presenza di molte classi circa vuote o Limiti di classe (>= e <) o Buon senso

Distribuzioni di frequenza per le variabili di tipo qualitativo ?

Diagramma a segmenti (o a barre)

Diagramma a torta

Rappresentazione grafica della relazione tra due va riabili numeriche Due variabili di tipo quantitativo misurate in ciascuna unità campionaria, o comunque di tipo ordinabile, la rappresentazione grafica delle singole osservazioni in un sistema di assi cartesiani diventa molto importante per evidenziare eventuali tendenze o associazioni.

� Scatterplot, o nube di punti (due esempi)

� E’ facile intuire che esiste una associazione tra le due variabili: le femmine di dimensioni maggiori depongono generalmente uova più grandi (a destra), e i maschi più brillanti generano figli più attraenti per le femmine.

� � Associazione positiva, negativa e nulla

Inserisco una terza variabile

In 30 località europee viene rilevato il livello di precipitazioni annue (mm di pioggia) e il ph medio delle piogge. Con il semplice utilizzo di simboli diversi (quadratini per le le località del Sud-Europa, asterischi per quelle del Nord-Europa), è possibile visualizzare in una nube di punti tre variabili (precipitazioni, ph e posizione geografica).

Diagramma a linee

.

Tre esempi sulla differenza tra associazione e causazione Le variabili di confondimento creano problemi

Gli studi sperimentali possono risolvere il problema

Rappresentazione tridimensionale di temperatura, umidità, e numero di specie misurate in 13 stazioni di campionamento.

Analisi di due (o più) variabili categoriche

Tabella di contingenza (in questo caso, per 2 varia bili categoriche)

Diagramma a barre raggruppate

Considerazioni generali sulla visualizzazione grafi ca

- Chiarezza - Completezza - Onestà

Indici sintetici di una distribuzione

� Sintesi attraverso le distribuzioni di frequenza � Ulteriori sintesi attraverso le

o misure di tendenza centrale (o di posizione)

� cercano di identificare il valore "tipico" di una distribuzione, ovvero la posizione, nella scala della variabile analizzata, intorno alla quale si concentrano le osservazioni

o misure di dispersione

� sintetizzano il grado di variabilità dei dati

� Le misure di tendenza centrale e di dispersione dovrebbero quindi rispecchiare, rispettivamente, la posizione e l’ampiezza di una distribuzione di frequenza.

� Conoscere la dispersione dei dati equivale a conoscere qualcosa sul valore di ogni singolo valore per la comprensione di un fenomeno.

� Se la dispersione è molto elevata, le singole osservazioni possono essere anche molto diverse,

e quindi singolarmente di scarso valore. � Si può dire quindi che all’aumentare della dispersione il numero di osservazioni necessarie per

trarre delle conclusioni generali a partire da un campione deve aumentare. � Quando la variabilità è molto bassa può anche non essere necessario effettuare molte

osservazioni, e forse nemmeno ricorrere alla statistica inferenziale.

Misure di tendenza centrale La media

� Media aritmetica. In genere quando si parla di media si intende la media aritmetica

� Media campionaria, della variabile X, la media campionaria viene indicata con x .

x =xi

1

n

∑

n

� Media della popolazione

µ =x i∑

N

� La somma delle differenze dei singolo valori dalla media (detti scarti dalla media) è uguale a 0 e

quindi la media si può considerare il baricentro del campione dove si bilanciano gli scarti.

xi − x ( )= xi − x ∑∑∑ = nx − nx = 0

� Media a partire da una tabella di frequenza :

x =xini

1

c

∑

n oppure x = xi fi

1

c

∑

Esempio

Aplotipo xi ni A 51 5

B 54 11 C 55 15 D 57 29 E 62 22 F 63 4

x =xini

1

c

∑

n=

51 × 5 + 54 ×11 + 55 ×15 + 57 × 29 + 62 × 22 + 63 × 4

86=

5738

86= 57,44

� E se la variabile continua?

Proprietà della media • la media implica la somma di valori numerici e quindi ⇒ ha un significato solo per le variabili quantitative; ⇒ risente molto dei valori estremi; se un singolo valore nel campione è per esempio molto più

grande di tutti gli altri, la media non identifica un valore tipico del campione ⇒ non è calcolabile se alcune osservazioni sono “fuori scala”

• nel caso di distribuzioni multimodali, la media raramente identifica un valore tipico

Esempio: Supponiamo di sacrificare 12 trote campionate in natura per contare in ciascuna di esse il numero di parassiti intestinali di una certa specie. Dati: 3, 2, 3, 4, 6, 2, 44, 8, 5, 3, 4, 2.

� La media di questi valori risulta essere 7,16, ma come è facile rendersi conto, questo valore non identifica certamente un valore tipico del campione. Questio a causa di un valore estremo, detto outlier.

Esempio: Nove cavie sono sottoposte ad un test cognitivo all’interno di un labirinto, e per ogni animale si misura il tempo impiegato a percorrere un certo tracciato. I risultati ottenuti, in minuti, sono i seguenti: Dati: 23 ,25, 29, 22, 15, >120, 32, 20,>120

� In questo caso due valori sono “fuori scala”, e la media calcolata escludendo questi valori mancanti non rappresenterebbe correttamente l’esperimento.

La mediana

� La mediana è il valore centrale in una serie di dati ordinati. Per esempio Dati: 30, 49, 74, 40, 63, 295, 60 Dati ordinati: 30, 40, 49, 60, 63, 74, 295

� La mediana è quindi il valore che divide un campione di dati ordinati in due parti ugualmente numerose. In altre parole, metà dei valori nel campione sono più piccoli della mediana, e metà sono più grandi. E’ evidente quindi che la mediana è una misura della tendenza centrale.

� Se il numero di osservazioni n è dispari, la mediana è il valore che occupa la posizione (n+1)/2

nella serie ordinata dei dati (il quarto valore nell’esempio appena visto). Se n è pari, la mediana è la media tra i 2 valori centrali, ossia la media dei valori nelle posizioni n/2 e n/2 +1. Nel caso di dati raccolti in una tabella di frequenza, è in genere sufficiente identificare la classe che contiene la mediana (la classe mediana).

Proprietà della mediana

� Il calcolo della mediana non implica l’elaborazione dei dati numerici osservati o L’informazione sul peso relativo dei singoli valori viene perduta.

� E’ spesso un buon indicatore della tendenza centrale di un set di dati

� è calcolabile anche se la variabile è qualitativa (ma deve essere ordinabile!) � non risente dei valori estremi � è calcolabile anche se alcune osservazioni sono “fuori scala”

Esempi precedenti

- la mediana del numero di parassiti nelle 12 trote è pari a 3,5 parassiti - la mediana del tempo impiegato dalla cavie nel labirinto è 25 minuti

In entrambi i casi la mediana e facilmente calcolabile e indica bene (meglio della media) dove si concentrano le osservazioni.

� La mediana, però, soffre dello stesso inconveniente della media, ovvero può portare ad un valore assolutamente non rappresentativo quando la distribuzione non è unimodale.

La moda

� La moda è semplicemente il valore osservato più spesso nel campione. Dati: 0, 1, 5, 2, 2, 2, 3, 3, 3, 2, 4, 4, 1,2 vengono riassunti nella tabella di frequenza

xi ni 0 1 1 2 2 5 3 3 4 2 5 1

La moda è quindi pari a 2.

� Classe modale è quella che contiene il maggior numero di osservazioni.

� La stretta interpretazione della moda dovrebbe anche avere come conseguenza il fatto che praticamente tutte le distribuzioni osservate sono unimodali

Proprietà della moda

� La moda è una statistica molto semplice e intuitiva per riassumere una distribuzione di frequenza attraverso il suo “picco” più elevato. Anche se, come la mediana, non considera il peso delle singole osservazioni, ha alcune proprietà importanti:

• è possibile identificare la moda in qualsiasi tipo di variabile, quindi anche nelle variabili qualitative

non ordinabili • indica sempre un valore realmente osservato nel campione • non è influenzata dai valori estremi • nel caso di distribuzioni di frequenza molto asimmetriche, la moda è forse il miglior indice per

descrivere la tendenza centrale di un campione • è collegata direttamente al concetto di probabilità (che vedremo meglio nei prossimi capitoli): la

moda di una popolazione è il valore della variabile con la la maggior probabilità di essere osservata

Questa distribuzione presenta una forte asimmetria a destra. La mediana ha valore 3 e la media 5.24, mentre la moda è uguale a 2.

Misure di dispersione

� Basate sulle differenze tra le singole osservazioni e la media (scarti dalla media) o Varianza o Deviazione standard o Coefficiente di variazione o Tutti i valori concorrono al calcolo di queste tre misure di dispersione (inclusi gli outliers) o L’utilizzo di questi indici non è adatto allo studio della dispersione di variabili qualitative,

� Non basate sull’elaborazione numerica dei dati o Range o Distanza interquartile.

La varianza

� La somma degli scarti della media è uguale a 0 o media degli scarti = 0

� Se però ogni singolo scarto dalla media viene elevato al quadrato…

o La media degli scarti al quadrato, chiamata anche scarto quadratico medio, è la varianza.

� Varianza campionaria:

s 2=

xi − x ( )2

∑n −1 ,

� La somma degli scarti quadratici al numeratore, chiamata devianza, può essere calcolata anche con le formule semplificate:

Dev(X ) = xi2−

x i∑( )2

n∑

Infatti:

xi − x ( )∑2= xi

2+ x 2 − 2x x i( )∑ = x i

2+ n∑

x i∑( )2

n2 − 2xi∑

nx i∑ = xi

2−

xi∑( )2

n∑

� Così il calcolo (manuale) è più preciso. Perché? � Attenzione però che concettualmente…

� Cosa c’è di strano nel calcolo di s2 ?

o Dal punto di vista della statistica descrittiva potrei usare n al denominatore o Anche se fossero disponibili i dati riferiti a tutte le N unità campionarie della popolazione,

allora

σ2=

xi − µ( )2

∑N

� Ma: o La varianza campionaria s2, calcolata utilizzando n al denominatore è una stima distorta

(una sottostima in questo caso) della varianza della popolazione σ2 � La media di un campione è imprecisa (non è uguale a µ) � I valori tendono ad essere più vicini alla media campionaria di quanto non siano a µ � Più il campione è piccolo, meno riesce a cogliere tutta la variabilità dei dati nella

popolazione � Tale distorsione (bias) si può correggere utilizzando il fattore n-1 a denominatore.

� Nel caso di dati raggruppati in c classi di frequenza

s 2=

ni xi − x ( )2

1

c

∑

n −1 ,

� Se poi i dati sono raccolti in classi corrispondenti ad un intervallo tra due valori, una stima di s2 si può ottenere utilizzando la stessa espressione sostituendo xi con i valori centrali degli intervalli.

La deviazione standard

� L'unita di misura della varianza e l'unita di misura della deviazione standard

� La deviazione standard, s, indicata anche con l’abbreviativo D.S. o DS, è data da:

s = DS = s2

Coefficiente di variazione

� E’ una sorta di deviazione standard rielaborata per evitare i cosiddetti “effetti di scala”.

Esempio:

� Deviazione standard nella lunghezza del corpo dei maschi di Gambusia holbrooki (un piccolo pesce d’acqua dolce) é uguale a 3.2 mm

� Deviazione standard nella lunghezza dei maschi territoriali di Zosterisessor ophiocephalus (il gò, un ghiozzo di laguna) sia pari 10.6 mm.

� I maschi di Gambusia sono meno variabili dei maschi di gò, ossia i maschi di Gambusia si assomigliano tra loro (per la lunghezza) più di quanto facciano quelli di gò?

� Forse la maggiore dispersione indicata dalla deviazione standard è solo un effetto della diversa

dimensione media di queste due specie o Per esempio, la differenza nella lunghezza del femore tra due persone è senza dubbio di

molte volte maggiore della differenza nella lunghezza della zampa di due maggiolini.

� Quando cioè si vuole confrontare la dispersione tra variabili con medie molto diverse, si ricorre

al CV

CV =s

x ×100

� Il coefficiente di variazione è dimensionale

o Esempio: Siamo interessati a sapere se nel ghiro è più variabile la lunghezza della coda oppure la durata del letargo (variabili con unità di misura diverse)

� Nell’esempio dei pesci, assumendo una lunghezza media di 29 mm per i maschi di gambusia e di 181 mm per i maschi di gò:

CV(Gambusia) = 11% CV(gò) = 6 %,

Un risultato di questo tipo suggerisce una conclusione molto diversa da quella basata sulla deviazione standard: la variabilità nelle dimensioni corporee è quasi doppia nei maschi di Gambusia rispetto a quelli di gò.

Il range

� Range = valore massimo – valore minimo

� Descrizione molto rozza della dispersione dei dati o si basa solamente sui due valori estremi (ed è quindi altamente influenzata da questi) e

non considera assolutamente la quale sia le distribuzione di frequenza dei dati tra essi.

La distanza interquartile

� Cosa sono i quartili?

o Imparentati con la mediana, solo che invece di separare l’insieme dei dati ordinati in due gruppi lo separano il quattro

o Ogni gruppo contiene il 25% delle osservazioni: il primo quartile, Q1, è il valore che

separa il primo 25% delle osservazioni ordinate dal restante 75%, il secondo è la mediana, e il terzo quartile, Q3, è il valore che separa il primo 75% delle osservazioni dal restante 25%.

� La distanza interquartile è data dalla differenza Q3-Q1, e identifica quindi l’intervallo centrale della distribuzione di frequenza all’interno del quale cade il 50% delle osservazioni.

� E’ una misura della dispersione dei dati che non risente di eventuali valori estremi molto diversi

dalla gran parte degli altri, e può essere calcolata anche quando i valori estremi sono “fuori scala”.

� L’identificazione dei quartili non è banale quando il numero di osservazioni non è elevato

o Cerco la mediana delle due metà dei dati

Risultati per dati prima autoamputazione : Mediana: 2.90; primo quartile: 2.34; terzo quartile: 3.045; distanza interquartile: 0.705

� Diagramma Box-and-Whiskers (scatola e baffi)

o Mediana, primo e terzo quartile, range (+ a volte valori estremi, cioè valori a una distanza dalla scatola superiore a 1.5 volte la distanza interquartile)

ESEMPI

Fare la tabella di frequenza, l’istogramma, e discu tere la forma dell’istogramma

Classi con ampiezze diverse. E’ corretto?

Distribuzione di frequenza e distribuzione di densi tà

o Classi di ampiezza diversa

� La corretta e fedele rappresentazione della distribuzione dei dati è ottenuta quando l’altezza di ogni rettangolo corrisponde non alla frequenza ma alla densità media dei valori all’interno della classe corrispondente. E’ invece l’area dei rettangoli a contenere l’informazione relativa alla frequenza.

� Questa distinzione è teoricamente importante, anche se non sempre rilevante da un punto di vista pratico.

Qual’è la tabella più appropriata per rappresentare i dati?

Che varaibile è rappresentata nei due istogrammi? C he variabile distingue i due istogrammi? Che grafico è rappresentato? Cosa suggeriscono i gr afici?

Che tipo di grafico? Che tipo di associazione?

Numero di ondulazioni per secondo in serpenti che planano

Calcolare media, varianza, deviazione standard, CV, mediana, distanza

interquartile

Relazione con distribuzione di frequenza se la distribuzione è normale

Che tipo di diagrammi? Che tipo di variabile nei du e istogrammi? C’e’ una variabile

esplicativa e una risposta? Quali sono? In cosa dif fereriscono i due diagrammi? Conclusioni

Calcolare il numero medio di ore dopo la morte fino al rigor mortis. Calcolare la deviazione

standard. Calcolare la mediana. Perché minore della media?

Documents

STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti