23
Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Embed Size (px)

Citation preview

Page 1: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Page 2: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

“La statistica è la descrizione delle qualità che caratterizzano e degli elementi checompongono uno Stato" (Ghislini, 1589)

“ La statistica ha quindi per suo oggetto quello di presentare una fedelerappresentazione di uno stato in una determinata epoca “ (Quetelet, 1849)

“ La statistica è stata riconosciuta nel ventesimo secolo come lo strumento matematicocapace di analizzare i dati degli esperimenti e quelli osservati in ogni contesto” (Porter,1986)

STATISTICA = etimologicamente è “studio delle cose dello Stato”

Cenni storici

Si hanno notizie di censimenti a partire dall’antico Egitto.

A Venezia e Firenze , nel Rinascimento, ha inizio la raccolta sistematica di dati supopolazione ed economia.

In tutta Europa entro la metà del 1500 è consuetudine chiedere da parte dei governialle parrocchie di tenere registri di nascite, matrimoni, morti.

Page 3: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Nel 1662 John Graunt pubblica “Natural and Political Observation Made upon the Billsof Mortality”.

Nel 1693 gli studi di Edmund Halley convincono le compagnie assicuratrici a stipularepremi di assicurazione sulla base dell’ètà dell’assicurato.

A partire dal 1600 si diffonde anche il calcolo delle probabilità. Basilare è lacorrispondenza tra Pascal e Fermat (problema sul gioco dei dadi o problema dei punti).

Cardano, Pacioli, Tartaglia, Bernoulli, Gauss, Laplace, Poisson si occupano tutti dicalcolo delle probabilità, senza però fare inferenza probabilistica.

Alla fine del 1800 Galton e Pearson iniziano ad occuparsi di inferire conclusioni sullapopolazione a partire dai dati campionari, utilizzando opportuni modelli probabilistici.

All’inizio del 1900 la statistica inferenziale è applicata soprattutto alla biologia umana eall’agricoltura, ma le teorie sviluppate erano abbastanza generali da adattarsi ai contestipiù diversi; la statistica diventa sempre più la scienza in grado di fornire rispostequantitative ai problemi più disparati.

Page 4: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Statistica inferenziale

Statistica descrittiva

Calcolo delle

probabilità

Page 5: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Page 6: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

PopolazioneCaratteri (variabili aleatorie)

Raccolta dati

Sintesi numeriche

Sintesi grafiche

Analisi comparative

Page 7: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Categoriche

NumericheDiscrete

Continue

Ordinabili

Non ordinabili

Page 8: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Solo per v.a. ordinabili (modalità disposte in

ordine crescente)

XFrequenza assoluta

Frequenza relativa

Frequenza relativa

percentualeFrequenza cumulata

Modalità 1 f1 fr1=f1 /n 100 fr1 f1

Modalità 2 f2 fr2 100 fr2 f1+f2

…. …. …. …. ….

Modalità k fk frk 100 frk n

nfk

ii

1

11

k

irif 100

1

k

i%rif

Page 9: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Esempio

X = professione di titolari della tessera fedeltà di un supermercato n= 850

Dati:casalinga, insegnante, panettiere, direttore amministrativo, disoccupato, impiegato, pensionato, benzinaio, …….

Tabella di frequenza

X freq. ass. freq. rel. freq. perc.

artigiano 62 0.0729 7.29

casalinga 51 0.0600 6.00

commerciante 27 0.0318 3.18

dirigente 25 0.0294 2.94

disoccupato 4 0.0047 0.47

impiegato 215 0.2529 25.29

insegnante 30 0.0353 3.53

operaio 40 0.0471 4.71

pensionato 196 0.2306 23.06

altro 200 0.2353 23.53

Page 10: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Diagramma a barre

Grafico a torta

Page 11: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Esempio

X = numero particelle cosmiche rilevate in periodi di un minuto n= 20

Dati:0 2 1 4 3 1 2 2 5 2 1 3 3 1 2 5 8 2 3 3

Tabella di frequenza

Numero

particellefreq. ass. freq. rel. freq. perc.

freq. ass.

cum.

freq. rel.

cum.

freq. perc.

cum.

0 1 0.05 5 1 0.05 5

1 4 0.2 20 5 0.25 25

2 6 0.3 30 11 0.55 55

3 5 0.25 25 16 0.8 80

4 1 0.05 5 17 0.85 85

5 2 0.1 10 19 0.95 95

8 1 0.05 5 20 1 100

Page 12: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Grafico a barre verticali

Grafico delle frequenze cumulate assolute

Page 13: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Esempio

X = diametro (in cm) delle sferette prodotte da un macchinario n= 15

Dati:2,08; 1,72; 1,9; 2,11; 1,79; 1,86; 1,8; 1,82; 1,84; 2,04; 1,86; 2,04; 1,8; 1,82; 1,91

Tabella di frequenza

Diametro

in classifreq. ass. freq. rel. freq. perc.

freq. ass.

cum.freq. rel. cum.

freq. perc.

cum.

(1.7,1.8] 4 0.267 26.7 4 0.267 26.7

(1.8,1.9] 6 0.4 40 10 0.667 66.7

(1.9,2] 1 0.067 6.7 11 0.734 73.4

(2,2.1] 3 0.2 20 14 0.934 93.4

(2.1,2.2] 1 0.067 6.7 15 1.001 100.1

Page 14: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Istogramma

Grafico delle frequenze cumulate percentuali

Page 15: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

XFrequenza assoluta

x1 f1

x2 f2

…. ….

xk fk

n

Media campionaria =

Mediana campionaria = dato di posto (n+1)/2 se n è dispari, media tra i dati di posto n/2 e n/2+1 se n è pari ( v.a. ordinabili, dati disposti in ordine crescente)

Moda = modalità con la frequenza “localmente” massima

k

iii fx

nx

1

1

Page 16: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

XFrequenza assoluta

a1 ⊣ b1 f1

a2 ⊣ b2 f2

…. ….

ak ⊣ bk fk

n

Media campionaria =

Mediana campionaria = si individua la classe mediana; al suo interno la mediana si può approssimare mediante interpolazione lineare

Moda = si individua la classe modale.

2

1

1

iici

k

iici

baxfx

nx

Page 17: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Percentili campionari

V.a. ordinabile, n dati disposti in ordine crescente, h∈ N, 0≤h≤100

ph = h-esimo percentile = dato ( o media dei dati) che è contemporaneamente maggiore o uguale di almeno l’ h% dei dati e minore o uguale di almeno il (100-h)% dei dati:

nh/100 non intero ⇒ ph = dato di posto [nh/100]+1

nh/100 intero ⇒ ph = media tra i dati di posto nh/100 e nh/100+1.

Quartili

Q1 = primo quartile = p25

Q2 = mediana o secondo quartile = p50

Q3 = terzo quartile = p75

Page 18: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Range = massimo – minimo

IQR = differenza interquartile = Q3 – Q1

s2 = varianza campionaria =

s = deviazione standard campionaria =

2

1

2

1

2

1

1

1

1xnfx

nfxx

ni

k

iii

k

ii

2s

Page 19: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Esempio

X = professione di titolari della tessera fedeltà di un supermercato n= 850

Tabella di frequenza

X freq. ass.

artigiano 62

casalinga 51

commerciante 27

dirigente 25

disoccupato 4

impiegato 215

insegnante 30

operaio 40

pensionato 196

altro 200

Moda = impiegato

Page 20: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Esempio

X = numero particelle cosmiche rilevate in periodi di un minuto n= 20

Tabella di frequenza

Numero

particellefreq. ass.

freq. perc.

cum.

0 1 5

1 4 25

2 6 55

3 5 80

4 1 85

5 2 95

8 1 100

Media =

Moda = 2

Mediana = 2

Q1 = 1.5 (media fra i dati di posto 5 e 6)

Q3 = 3 p98 = 8

65218411020

1....

s2 = s = 1.81 2936522018411019

1 2222 .....

Range = 8 IQR = 1.5

Page 21: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Esempio

X = diametro (in cm) delle sferette prodotte da un macchinario n= 15

Tabella di frequenza

Diametro

in classifreq. ass.

freq. perc.

cum.

(1.7,1.8] 4 26.7

(1.8,1.9] 6 66.7

(1.9,2] 1 73.4

(2,2.1] 3 93.4

(2.1,2.2] 1 100.1

Media =

Classe modale = 1.8 ⊣ 1.9

Classe mediana = 1.8 ⊣ 1.9

Classe del primo quartile = 1.7 ⊣ 1.8

Classe del terzo quartile = 2 ⊣ 2.1

89111526851475115

1.......

s2 = s = 0.13 0170891151152475114

1 222 .......

Page 22: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

1k

La percentuale di dati appartenenti all’intervallo è pari

almeno a

X v.a. con media e deviazione standard sx

ksx;ksx

%k

1001

12

Quindi:

almeno il 75% dei dati appartiene all’intervallo

almeno l’ 88.89% dei dati appartiene all’intervallo

almeno il 93.75% dei dati appartiene all’intervallo

sx;sx 22

sx;sx 33

sx;sx 44

Page 23: Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle probabilità . Politecnico di Milano sede di Piacenza Statistica, a.a. 2010/2011

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Esempio

X = numero particelle cosmiche rilevate in periodi di un minuto n= 20

Tabella di frequenza

Numero

particellefreq. ass.

freq. perc.

cum.

0 1 5

1 4 25

2 6 55

3 5 80

4 1 85

5 2 95

8 1 100

= 2.65 s = 1.81 x

27697022 .;.sx;sx

A questo intervallo appartengono 19 dati su 20, cioè il 95% dei dati.