Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei...

Preview:

Citation preview

Statistica descrittiva in una variabile

Dott. Nicola Pintus

A.a. 2018-2019

Cosa e la statistica?

La statistica e la scienza che studia con metodi matematici fenomenicollettivi.La statistica descrittiva e quella parte di statistica che si limita adescrivere i fenomeni attraverso indici e grafici.La statistica inferenziale, anche avvalendosi di metodi probabilistici,permette di trarre conclusioni generali a partire dall’esame di un campione.

Fasi dell’indagine statistica

1 Individuo il fenomeno di indagare.

2 Individuo le unita statistiche, ovvero il singolo oggetto interessato dalfenomeno. L’insieme delle unita statistiche e detta popolazionestatistiche o universo statistico.

3 Decido se la mia indagine prevede la rilevazione dei dati sull’interouniverso statistico o su un suo sottoinsieme.

4 Decido la modalita di svolgimento dell’indagine.

5 Raccolta dei dati.

6 Spoglio dei dati.

7 Rappresentazione ed elaborazione dei dati.

8 Interpretazione dei dati.

Il tipo di carattere

I dati che rilevo dalle unita statistiche sono di due tipi:

Qualitativo: se il dato che rilevo e descritto da un aggettivo.

Quantitativo: se il dato che rilevo e descritto da un valore numerico.

Qualitativo

Il colore degli occhi

Grado di infestazione da parassiti in un albero

Quantitativo

Il numero di animali in casa per nucleo famigliare

L’altezza di un gruppo di individui

La rappresentazione dei dati sul grafico dipende dal tipo di dato.

Rappresentazione dei dati: quantitativo discreto

X = (2, 1, 1, 2, 3, 1, 2)

Modalita Freq. Ass. Freq. Rel.

1 3 0.4286

2 3 0.4286

3 1 0.1429

Rappresentazione dei datiIstogramma a classi di ampiezza uguale

X = (1.01, 0.99, 0.97, 1.01, 1.01, 1.05, 1.04, 0.98, 1.08, 1.03, 0.96, 1.02, 1.01)

Classe Freq. Ass. Freq. Rel.

[0.96, 0.99] 4 0.31

(0.99, 1.02] 5 0.38

(1.02, 1.05] 3 0.23

(1.05, 1.08] 1 0.08

Rappresentazione dei datiIstogramma a classi di ampiezza diversa

X = (1.01, 0.99, 0.97, 1.01, 1.01, 1.05, 1.04, 0.98, 1.08, 1.03, 0.96, 1.02, 1.01)

Classe Freq. Ass. Freq. Rel. Altezza Barra

[0.96, 0.98] 3 0.23 frequenza rel.ampiezza classe = 0.23

0.02 = 11.5

(0.98, 1.02] 6 0.46 11.5

(1.02, 1.08] 4 0.31 5.2

Rappresentazione dei datiOrtogramma

Y = (giallo, rosso, rosso, blu, rosso, verde, verde)

Modalita Freq. Ass. Freq. Rel.

Blu 1 0.14

Giallo 1 0.14

Rosso 4 0.43

Verde 3 0.29

Indici di sintesi

Gli indici di sintesi permettono di riassumere gli elementi del vettore deidati rilevati.

Gli indici di centralita sintetizzano con un unico numero il centro delvettore dei dati.

Gli indici di dispersione sintetizzano quanto gli elementi del vettoredei dati sono distanti da un valore centrale.

Indici di centralitaMedie

Definizione

Sia dato il vettore delle rilevazioni X = (x1, · · · , xN).

Media aritmetica. X =

∑Ni=1 xi

N;

Media geometrica. X g = N

√∏Ni=1 xi ;

Media quadratica. X q =

√∑Ni=1 x

2i

N;

Media armonica. X a =N∑Ni=1

1xi

.

Per la media geometrica si richiede che xi > 0 per ogni i . Per la mediaarmonica si richiede che xi 6= 0.

Indici di centralitaMedie

La media aritmetica si usa per determinare il valore piu preciso di unaserie di misure purche gli errori di misurazione siano accidentali e nonsistematici.

La media geometrica si usa per determinare il tasso medio diaccrescimento di un fenomeno.

Indici di centralitaMedie

Esempio

Un malato si misura la febbre ogni 4 ore a partire dalle 7 di mattino finoalle 23 di sera, registrando i seguenti dati:

Ore 7 37.5◦C

Ore 11 38◦C

Ore 15 38.8◦C

Ore 19 38.5◦C

Ore 23 37.9◦C

Calcola la temperatura media.

x =37.5 + 38 + 38.8 + 38.5 + 37.9

5= 38.14◦C .

Indici di centralitaMedie

Esempio

Una colonia di batteri consiste di 2.7 · 106 unita. Dopo un’ora vi e unaumento del 30% e dopo un’altra ora di un ulteriore 50%. Calcolarel’incremento medio.

Ci aspettiamo che l’incremento medio sia quella percentuale p% che,applicata successivamente dopo un’ora e dopo due ore, porta allo stessonumero di batteri che abbiamo trovato applicando prima un aumento del30% e poi uno del 50%.

x0 = 2.7 · 10630%−→ x1 = 3.51 · 106

50%−→ x2 = 5.265 · 106

Indici di centralitaMedie

Se applichiamo un doppio incremento alla media aritmetica degliincrementi singoli non otteniamo x2:

2.7 · 10640%−→ 3.78 · 106

40%−→ 5.292 · 106 6= x2

Dunque l’incremento medio non puo essere la media aritmetica degliincrementi.Infatti l’incremento medio e la media geometrica dei singoli incrementi.

xg =√

1.3 · 1.5 ≈ 1.3964

Dunque l’incremento medio e 39.64%.

Indici di centralitaMediana e moda

Definizione

Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). Consideriamo ilnuovo vettore X avente gli stessi elementi di X ma posti in ordinecrescente. Allora la mediana di X e

xN+12

se N e dispari.

xN2+xN

2 +1

2 se N e pari.

Indichiamo la mediana con il simbolo X0.5.

Definizione

Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). La moda e lamodalita (o le modalita) che compare piu frequentemente.

Indici di centralitaMediana e moda

Esempio

Consideriamo il vettore di rilevazione X = (2, 1, 1, 2, 3, 1, 2). Calcolaremediana e moda.

Costruiamo il vettore X in cui poniamo in ordine crescente gli elementi diX :

X = (1, 1, 1, 2, 2, 2, 3).

Quindi la mediana e uguale a 2. Poiche le modalita 1 e 2 hanno la stessamassima frequenza assoluta, saranno entrambe moda. Quindi ladistribuzione e bimodale.

Indici di dispersioneDeviazione standard e varianza

Definizione

Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). Lo scarto medioquadratico o deviazione standard e

σX =

√√√√ 1

N

N∑i=1

(xi − X

)2.

Definizione

Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). La varianza di X e ilquadrato della deviazione standard.

Indici di dispersioneDeviazione standard e varianza

Esempio

Consideriamo il vettore X = (2, 1, 1, 2, 3, 1, 2). Calcolare la deviazionestandard.

Abbiamo X = 127 ≈ 1.7

xi xi − X (xi − X )2

2 2− 1.7 = 0.3 (0.3)2 = 0.09

1 1− 1.7 = −0.7 (−0.7)2 = 0.49

1 1− 1.7 = −0.7 (−0.7)2 = 0.49

2 2− 1.7 = 0.3 (0.3)2 = 0.09

3 3− 1.7 = 1.3 (1.3)2 = 1.69

1 1− 1.7 = −0.7 (−0.7)2 = 0.49

2 2− 1.7 = 0.3 (0.3)2 = 0.09

Indici di dispersioneDeviazione standard e varianza

Allora abbiamo che

σ =

√3 · 0.492 + 3 · 0.092 + 1 · 1.692

7≈ 0.69.

Indici di dispersioneSignificato della deviazione standard

Sia dato il vettore di rilevazioni X = (x1, · · · , xN). Se la numerositacampionaria e alta (nella teoria si indica una numerosita campionariamaggiore di 20), approssimativamente

il 68% dei dati cadono dentro l’intervallo (X − σ,X + σ);

il 95% dei dati cadono dentro l’intervallo (X − 2σ,X + 2σ);

il 99% dei dati cadono dentro l’intervallo (X − 3σ,X + 3σ);

Queste percentuali possono differire notevolmente se i dati in X nonseguono un andamento a campana di Gauss.

Indici di dispersione

Esempio

Consideriamo il vettore delle rilevazioni

X = (1, 2, 1, 3, 1, 2, 1, 1, 3, 2, 3, 2, 4, 1, 0, 2, 1, 3, 2, 3, 2, 1)

Quanti valori cadono nell’intervallo(X − σ,X + σ

)?

Abbiamo X = 3620 e σ ≈ 0.98. Nell’intervallo(

X − σ,X + σ)≈ (0.82, 2.78)

cadono 15 elementi di X , ovvero il 70% circa del campione.

Indici di dispersioneSignificato della deviazione standard

XX − σX X + σX

1 2 3 4

2

4

6

8

M

fi

Formula di Konig

Questa formula ci permette un calcolo piu veloce della varianza, e quindidella deviazione standard.

Teorema

Consideriamo il vettore di rilevazioni X = (x1, · · · , xN). Allora

Var(X ) = X 2 − X2.

Quindi

σ =

√X 2 − X

2.

Formula di Konig

Esercizio

Usando la formula di Konig calcolare la deviazione standard diX = (2, 1, 1, 2, 3, 1, 2).

Calcoliamo X 2:

xi 2 1 1 2 3 1 2

x2i 4 1 1 4 9 1 4

da cui X 2 =∑

i x2i

7 = 247 . Poiche X = 12

7 avremo che

Var(X ) = X 2 − X2

=24

7− 144

49=

24

49

quindi σX =√

2449 ≈ 0.69.

Esercizio proposto

Abbiamo misurato la glicemia a 20 topi di laboratorio dopo lasomministrazione di un farmaco. Si ha il seguente vettore delle rilevazioniin mg/dl :

X = (120, 110, 121, 122, 109, 103, 110, 111, 121, 102,

110, 109, 113, 114, 110, 125, 111, 120, 121, 101)

1 Si illustri con una rappresentazione tabellare la distribuzione X con leclassi M1 = [100, 110], M2 = (110, 120] e M3 = (120, 130].

2 Si calcoli la media aritmetica e mediana dei valori di X .

3 Si calcoli lo scarto quadratico medio dei valori di X . Si dica inpercentuale quanti valori di X appartengono all’intervallo X ± σ.

Esercizio proposto

Un certo comune ha avuto la seguente variazione di popolazione

Anno Popolazione

1990 20000

1995 24000

2000 22000

2005 23000

2010 25000

2005 15000

Calcolare la percentuale di incremento medio della popolazione.

Recommended