Upload
others
View
22
Download
1
Embed Size (px)
Citation preview
Statistica - M.Grosso Variabili Statistiche 1
Variabili statistiche - Sommario
• Definizioni preliminari• Statistica descrittiva• Statistica descrittiva
• Misure della tendenza centrale e della dispersione di un campione
1
Introduzione
• La variabile statistica rappresenta i risultati di un’analisi effettuata su un campione estratto da una un analisi effettuata su un campione estratto da una popolazione statistica.
• Il settore della statistica che si preoccupa dello studio di queste variabili prende il nome di statistica descrittiva.
2
Statistica - M.Grosso Variabili Statistiche 2
Definizioni preliminari
• Interpretazione graficaPopolazione
Statistica
Campione
3
Campagna sperimentale
Statistica descrittivaIntroduzione
• La variabile statistica rappresenta i risultati di un’analisi effettuata su un campione estratto da una un analisi effettuata su un campione estratto da una popolazione statistica.
• Il settore della statistica che si preoccupa dello studio di queste variabili prende il nome di statistica descrittiva.
4
CampioneScopo:
Caratterizzazione del campione
Statistica - M.Grosso Variabili Statistiche 3
Statistica descrittivaIntroduzione
• La Statistica Descrittiva è la branca della Statistica che studia i criteri di rilevazione, di classificazione e che studia i criteri di rilevazione, di classificazione e di sintesi delle informazioni relative a una popolazione oggetto di studio.
• Ha come obiettivo il sintetizzare i dati di un campione in una scrittura di facile lettura.
Definizione• Definizione• Dimensione N del campione: numero di osservazioni
di cui è costituito il campione
5
Statistica descrittiva – Esempio discreto
• Una azienda intende monitorare i giorni di assenza dal lavoro dei propri impiegati.p p p g
• X : numero di giorni di assenza per ogni impiegato• L’indagine viene eseguita su 20 dipendenti scelti a
caso, osservando i seguenti risultati
• X : {5, 6, 4, 4, 10, 4, 8, 7, 5, 7, 3, 2, 1, 6, 6, 5, 6, 6, 8, 3}
O i di d t i id i è t
6
• Ogni dipendente preso in considerazione è un eventoovvero un esito dell’esperienza che non è noto a priori
• La dimensione del campione a disposizione e’ N = 20.
Statistica - M.Grosso Variabili Statistiche 4
Statistica descrittiva – Esempio discreto• I dati sono riportati nella seguente tabella riassuntiva
DefinizioniNumero di giorni d' Ri ti i d i 20 F F l ti
La frequenza assolutarappresenta il numero di volte che un dato
risultato si osserva nel campione considerato
La frequenza relativa
d'assenza X
Ripartizione dei 20 impiegati
Frequenza f
Frequenza relativa f/n
1 ∏ 1 0.05
2 ∏ 1 0.05
3 ∏∏ 2 0.10
4 ∏∏∏ 3 0.15
5 ∏∏∏ 3 0.15
6 ∏∏∏∏∏ 4 0.25
7 ∏∏ 2 0.10
7
La frequenza relativa si ottiene dividendo la
frequenza per il numero totale di prove
8 ∏∏ 2 0.10
9 0 0.00
10 ∏ 1 0.05
n = 20 1.00
Statistica descrittiva – Esempio discreto • Rappresentando i risultati in un grafico
(ISTOGRAMMA) è possibile ottenere informazioni qualitative sul comportamento dei dipendentiqu u mp m p
freq
uenz
a
2 0.1
4 0.2
Frequenzarelativa
1 2 3 4 5 6 7 8 9 10
8
• Per esempio, esistono dei risultati più ricorrenti?
1 2 3 4 5 6 7 8 9 10
Statistica - M.Grosso Variabili Statistiche 5
Statistica descrittiva –Frequenza relativa
1. La frequenza relativa può assumere valori almeno uguali a zero e al più uguali a 1uguali a zero e al più uguali a 1
2. La somma delle frequenze relative è sempre pari a 1• I valori che possono assumere i risultati del campione
vanno da 1 a 10. È possibile osservare m = 10 distinti valori interi. Per definizione:
ii
Nf i mN
= ∀ ∈ Essendo Ni il numero di volte che i è t il l i i
• Da notare che
if N si è osservato il valore i-esimo
1
1.0m
ii
f=
=∑
Statistica descrittiva –Frequenza relativa e cumulativa
• Da notare che la frequenza relativa, dal punto di vista matematico, può essere vista come una funzione:matematico, può essere vista come una funzione
( )0
j jf se y yf y
altrove=⎧
= ⎨⎩
Statistica - M.Grosso Variabili Statistiche 6
Statistica descrittiva –Frequenza cumulativa
• Ci si può porre il problema di determinare quale è la frazione delle osservazioni che assume valori inferiori frazione delle osservazioni che assume valori inferiori ad un certo valore
• Ad ogni y si associa la somma di tutte le frequenze relative corrispondenti ai valori del campione più piccoli o uguali ad y.
( ) ( )∑= tfyF ( ) ( )∑≤ yt
tfyF
Statistica descrittiva –Frequenza cumulativa
0 25
0.30
1 0
1.2
numero di giorni di assenza
0 2 4 6 8 10 12
freq
uenz
a re
lati
va
0.00
0.05
0.10
0.15
0.20
0.25
numero giorni di assenza
0 2 4 6 8 10
freq
uenz
a cu
mulat
iva
0.0
0.2
0.4
0.6
0.8
1.0
g g
Frequenza relativa Frequenza cumulativa
La frequenza cumulativa è una funzione a gradini, crescente, che parte da 0 e arriva a 1
Statistica - M.Grosso Variabili Statistiche 7
Statistica descrittiva –Frequenza cumulativa
• La distribuzione cumulativa è molto importante:• Si consideri per esempio di voler sapere la frazione • Si consideri per esempio di voler sapere la frazione
del campione di dipendenti che ha maturato tra le 5 e le 8 giornate di malattia
• % impiegati con X ≤ 8 = 0.95• % impiegati con X < 5 = % impiegati con X ≤ 5 = 0.35
• La percentuale di impiegati con 5 ≤X ≤8 = 0.95-0.35 = 0.60
Statistica descrittiva – Esempio continuo• Si consideri una serie di 50 misure di concentrazione
di composti azotati su un’acqua di scarico di un impianto industriale. impianto industriale.
• Le misure sono state effettuate sempre nelle stesse condizioni (esercizio dell’impianto costante etc.)
• Le fluttuazioni presenti nella misura possono essere dovute a:– Errori di misura– Fluttuazioni nella corrente di scarico dovute a
14
Fluttuaz on nella corrente d scar co do ute a variazioni delle condizioni esterne (meteo, temperatura, etc.)
– altro
Statistica - M.Grosso Variabili Statistiche 8
Statistica descrittiva – Esempio continuo
• Esempio di misure:
• X = {1.434, 1.401, 1.464, …, 1.478, 1.490, 1.405, 1.394}
• In questo caso non abbiamo più un numero finito (o numerabile) di possibili risultati ma ciascun elemento del campione può assumere un qualunque numero reale
• N B nonostante la concentrazione sia stata riportata
15
N.B. nonostante la concentrazione sia stata riportata con una precisione alla terza cifra decimale, il numero di cifre significative può essere infinito
Statistica descrittiva – Esempio continuo
• Non si può parlare di frequenza di un valore specifico di X (non si avrà mai lo stesso valore per due ( pdifferenti misure).
• Su un istogramma costruito con la filosofia del caso discreto avremmo tanti picchi di altezza unitaria in corrispondenza di ciascuna misura sperimentale, il che non avrebbe senso dal punto di vista applicativo.
• Al contrario si può determinare il numero di volte che si osserva un valore in un certo intervallo finito
16
si osserva un valore in un certo intervallo finito (classe) Δx
• Tale numero prende il nome di frequenza assoluta corrispondente alla classe
Statistica - M.Grosso Variabili Statistiche 9
Statistica descrittiva – Esempio continuo• Considero, per esempio, 9 distinte classi che partono
da 1.15 sino a 1.60 ciascuna delle quali è costituita da un intervallo pari a 0 05:
1 3 6 4 7 7 15 5 2 0
un intervallo pari a 0.05:
n = 50
17Misura della concentrazione
1.15 1.20 1.25 1.30 1.35 1.40 1.45 1.50 1.55 1.60 1.65
Statistica descrittiva – Esempio continuo• I risultati possono ancora essere rappresentati in un
istogramma
5 0 10requ
enza
frequenza rel
15 0.30
10 0.2012%
8%
14% 14%
30%
10%
18
Misura della concentrazione
1.15 1.20 1.25 1.30 1.35 1.40 1.45 1.50 1.55 1.60 1.65
5 0.10frlativa2%
6% 8%4%
Statistica - M.Grosso Variabili Statistiche 10
Statistica descrittiva – Percentili• Gli istogrammi delle frequenze (sia assolute che
relative) sono molto utili e permettono con una semplice ispezione grafica di trarre conclusionip p g f
• Per esempio si consideri una misura di concentrazione pari a 1.24. Tale misura si trova nell’estremità superiore della seconda classe e si possono per esempio valutare quante sono le osservazioni sperimentali con valore inferiore. In questo caso:
( ) ( )% d% i l l 1 201 1 2515 1 20
19
• Il valore di concentrazione 1.24 cade nell’8mo percentile
( ) ( )% seconda c% prima cl lasse 1.20asse 1 1.25.15 1.202 % %6 8%
+ =
+ =
÷÷
Statistica descrittiva – Percentili
• Percentili importanti:– Primo quartile: è il percentile 25° ovvero il 25% del – Primo quartile: è il percentile 25 , ovvero il 25% del
campione assume valore inferiore– Mediana: è il percentile 50°, corrisponde al valore
centrale che divide in dati in due parti uguali – Terzo quartile: è il percentile 75°, solo il 25% delle
osservazioni assume un valore superiore
20
Statistica - M.Grosso Variabili Statistiche 11
Statistica descrittiva – Percentili
• Per l’esempio corrente:x=1.33 x=1.47
Primo quartile Terzo quartile
21
1.15 1.20 1.25 1.30 1.35 1.40 1.45 1.50 1.55 1.60 1.65
x=1.43Mediana
Minimo valore del campione
Massimo valore del campione
Statistica descrittiva – Percentili• Rappresentazione del campione tramite “diagrammi a
scatola” (in inglese: “box-plots”)
22
1.15 1.20 1.25 1.30 1.35 1.40 1.45 1.50 1.55 1.60 1.65
Valore minimo
1° quartile mediana 3° quartile
Valore massimo
Statistica - M.Grosso Variabili Statistiche 12
Statistica descrittivaEsercizio riepilogativo
• In un’università americana un campione scelto a caso di 5 professori di sesso femminile ha fornito la di 5 professori di sesso femminile ha fornito la seguente distribuzione dei salari annuali (Katz, 1973)
• Y = {9, 12, 8, 10, 16}
• I dati sono forniti in Kdollari• Tracciare i diagrammi a scatola del campione in esame
S i di i d i i d
23
• Suggerimento : ordinare i dati in senso crescente ed individuare l’osservazione “centrale” per la mediana. Per i percentili si ha che il 25% di 5 è circa 1 e quindi sono le osservazioni alle estremità
Statistica descrittivaEsercizio riepilogativo
• Nella stessa università, un campione di 25 professori maschi ha fornito la seguente distribuzione di salari annuali (stessa fonte. unità di misura sempre in Kdollari)unità di misura sempre in Kdollari)
• X = {13, 11, 19, 11, 22, 27, 14, 16, 13, 24, 21, 18, 11, 9, 13, 22, 13, 11, 17, 13, 31, 9, 12, 15, 15}
• Tracciare i diagrammi a scatola del campione in esame• Suggerimento : ordinare i dati in senso crescente la mediana
sarà il valore per cui 12 punti siano inferiori e 12 superiori. Per i quartili si ha che il 25% di 25 è circa 6 e dobbiamo quindi
24
q qprendere il 6° e il 19° punto della successione.
• Da una analisi qualitativa, è possibile concludere se ci sono differenze tra i due campioni?
• Classificare inoltre i dati in classi di centro 10, 15,20,25,30
Statistica - M.Grosso Variabili Statistiche 13
Misure centro di una distribuzione di dati
• Con la rappresentazione grafica delle frequenze è possibile ottenere delle informazioni qualitative sul possibile ottenere delle informazioni qualitative sul nostro campione
• Ci sono differenti modi per rappresentare il centro di una distribuzione di dati
25
Misure centro di una distribuzione di dati
• Moda
il valore più frequente nel campione di dati
– ovvero quello cui corrisponde il maggior numero di osservazioni
– Esempi:• Esempio discreto col numero dei giorni di
malattia: moda = 6 giorni
26
malattia: moda = 6 giorni• Esempio continuo con le misure di
concentrazione: moda corrisponde alla classe [1.45 - 1.50] ~ 1.475
Statistica - M.Grosso Variabili Statistiche 14
Misure centro di una distribuzione di dati
• Mediana
il 50° percentile
– Esempi:• Esempio discreto col numero dei giorni di
malattia: mediana = 5.5 giorni• Esempio continuo con le misure di
27
pconcentrazione: mediana = 1.4276
Misure centro di una distribuzione di dati
• Media aritmetica• Corrisponde alla somma di tutte le osservazioni diviso • Corrisponde alla somma di tutte le osservazioni diviso
per il numero N di osservazioni
• Esempio discreto numero giorni di malattia
Nxxx
N
xx N
N
ii +++==
∑= ...211w
28
p g
• Esempio continuo con le misure di concentrazione
5+6+4+6+1+10+...+0+3+3+13+8 4.937550
x = =
1.43+1.27+1.47...+1.40+1.46 1.405950
x = =
Statistica - M.Grosso Variabili Statistiche 15
Misure centro di una distribuzione di dati
• Nel caso di campioni di grandi dimensioni l’applicazione della formula per la media può risultare oneroso, se della formula per la media può risultare oneroso, se eseguito manualmente senza l’ausilio di strumenti di calcolo.
• Ma i calcoli possono essere significativamente ridotti ricorrendo ai dati raggruppati in classe
• Consideriamo una generica collezione di dati da sommare e ordiniamoli in ordine crescente
29
sommare e ordiniamoli in ordine crescente • All’interno di ciascun insieme di dati appartenenti alla
stessa classe approssimiamo ogni osservazione con il centro della rispettiva classe
Misure centro di una distribuzione di dati• Si può scrivere
x cade nella prima classe Ø x1p
x cade nella seconda classe Ø x2
( ) ( )( ) [ ]KKKK ++=++++++≅ 22112211
11 fxfxN
xxxxN
x
La x cade f La x cade f
30
La x cade f1volte nella
classe rappresentata
da x1
La x cade f2volte nella
classe rappresentata
da x2
x ~ x1 x ~ x2
f1 , f2, … frequenze assolute relative alle classi
x1, x2, …
Statistica - M.Grosso Variabili Statistiche 16
Misure centro di una distribuzione di dati
• In conclusione per una serie di dati raggruppati possiamo scriverepossiamo scrivere
• Essendo f la frequenza assoluta delle osservazioni nelle classi
• Nel caso si usi la frequenza relativa f:
1Ax x f
N= ∑ fA: frequenza assoluta
31
1
p
j jj
x x f=
= ∑Essendo p il numero di classi in cui è stato suddiviso il campione
xj è il valore associato ad ogni classe, fjè la frequenza relativa osservata per la classe j-esima
Misure centro di una distribuzione di dati
• Esercizio 1:• Si stimi la media degli stipendi universitari sia per la • Si stimi la media degli stipendi universitari sia per la
distribuzione maschile che per quella femminile• Nel caso del campione maschile si sfrutti
l’approssimazione per i dati raggruppati
• Nota: la media del campione maschile è pari a 16.00 se i i ll i i i
32
non si ricorresse alle approssimazioni
Statistica - M.Grosso Variabili Statistiche 17
Misure centro di una distribuzione di dati
• Esercizio 2:• Si considerino i due campioni di dati A e B di seguito • Si considerino i due campioni di dati A e B di seguito
riportati e si valutino per essi media e mediana
• A = {1.01, 1.49, 0.99, 2.01, 2.50}• B = {1.594, 1.604, 1.589, 1.604, 1609}
33
Statistica descrittivaOsservazioni sull’esercizio
• La valutazione del centro della distribuzione dei dati è un’informazione utile ma non esaustiva.un informazione utile ma non esaustiva.
• Nel secondo esercizio si era visto come due campioni che presentano lo stesso valore di media, sono comunque ben differenti (perché?)
• Il secondo campione di dati registra infatti delle fluttuazioni intorno al valore medio che sono molto più piccole
34
piccole.
• Potrebbe per esempio essere associato ad una misura più precisa
Statistica - M.Grosso Variabili Statistiche 18
Statistica descrittivaMisure dispersione di una distribuzione
• È quindi interessante anche misurare quanto le misure siano disperse intorno al valore medio.siano disperse intorno al valore medio.
• Vi sono diverse misure della dispersione dei dati:
• Intervallo (in inglese; range)
valore massimo – valore minimo
• È una misura un po’ “sensibile” dato che dipende
35
È una misura un po sensibile dato che dipende completamente da due sole osservazioni
• Esempio: calcolare l’intervallo per i due campioni A e B introdotti precedentemente
Statistica descrittivaMisure dispersione di una distribuzione
• Intervallo (o Estensione) Interquartile EIQ
EIQ (t til ) ( i til )EIQ = (terzo quartile) – (primo quartile)
• È più “stabile” del semplice intervallo (perché?)
• Esistono altre misure della dispersione che sono usate.
• Per la loro implementazione è necessario prima definire la seguente grandezza:
36
definire la seguente grandezza:
• che rappresenta la distanza della singola prova rispetto al trend centrale.
xxd ii −=
Statistica - M.Grosso Variabili Statistiche 19
Statistica descrittivaMisure dispersione di una distribuzione
• È facile dimostrare che:NN
• Infatti:
( ) 011
=−=∑∑== i
ii
i xxd
( )1 1 1 1
0N N N N
i i ii i i i
x x x x x N x N x N x= = = =
− = − = − = − =∑ ∑ ∑ ∑
37
• Deviazioni positive e negative dal valore centrale si annullano. È quindi necessario prendere tale deviazione in valore assoluto
Statistica descrittivaMisure dispersione di una distribuzione
• Scarto assoluto medio
1 1
1 1N N
i ii i
SAM d x xN N= =
= = −∑ ∑
Statistica - M.Grosso Variabili Statistiche 20
Statistica descrittivaDispersione di una distribuzione di dati
• Scarto quadratico medio:21 N
• In genere la formula utilizzata è una piccola modifica dello scarto quadratico medio:
• Varianza
( )2
1
1i
iSQM x x
N =
= −∑
1 N La somma dei
39
( )22
1
11
N
ii
s x xN =
= −− ∑
La somma dei quadrati è divisa
per (N-1) anziché N
Statistica descrittivaDispersione di una distribuzione di dati
• Varianza: perché dividere per (n-1)?• La dimostrazione matematica rigorosa è molto articolata e
lcomplessa.• È possibile dare comunque un’interpretazione intuitiva di tale
necessità, ricorrendo a dei casi estremamente semplici.• Si consideri, per esempio, un campione di dati costituito da N = 1
osservazione.La media fornisce un’idea di quale sia il trend centrale della popolazione da cui proviene.
• Ma in tale campione, la dispersione è nulla e non si può concludere niente sulla dispersione della popolazione.
40
concludere n ente sulla d spers one della popolaz one.• In maniera empirica, si può affermare che, per un generico
campione di dimensione N, si hanno (N-1) elementi di informazione che possono essere sfruttati per la varianza (detti anche gradi di libertà): Un grado di libertà è stato già sfruttato per il calcolo della media
Statistica - M.Grosso Variabili Statistiche 21
Statistica descrittivaMisure dispersione di una distribuzione
• Deviazione standard• È la radice quadrata della varianza• È la radice quadrata della varianza
• Utile perché ha le stesse dimensioni della variabile x presa in considerazione
( )2
1
11
N
ii
s x xN =
= −− ∑
41
p• È compresa tra il minimo ed il massimo dei valori
assoluti degli scarti
i id x x= −
Statistica descrittivaMisure dispersione di una distribuzione
• Da notare che:
( )22 2 21 1N N⎛ ⎞∑ ∑• Dimostrazione:
( )22 2 2
1 1
1 11 1i i
i is x x x N x
N N= =
⎛ ⎞= − = −⎜ ⎟− − ⎝ ⎠
∑ ∑
( ) ( )22 2 2
1 1
2 2 2 2
1 1 21 1
1 1
N N
i i ii i
N N N N N
s x x x x x xN N= =
= − = − + =− −
⎛ ⎞ ⎛ ⎞
∑ ∑
∑ ∑ ∑ ∑ ∑2 2 2 2
1 1 1 1 1
2 2 2 2 2
1 1
1 12 21 1
1 121 1
i i i ii i i i i
N N
i ii i
x x x x x x x NxN N
x Nx Nx x NxN N
= = = = =
= =
⎛ ⎞ ⎛ ⎞− + = − + =⎜ ⎟ ⎜ ⎟− −⎝ ⎠ ⎝ ⎠
⎛ ⎞ ⎛ ⎞− + = −⎜ ⎟ ⎜ ⎟− −⎝ ⎠ ⎝ ⎠
∑ ∑ ∑ ∑ ∑
∑ ∑ CVD
Statistica - M.Grosso Variabili Statistiche 22
Statistica descrittivaMisure dispersione di una distribuzione
• Per una distribuzione classificata, si può stimare la varianza:varianza
• Per grandi dimensioni del campione (N » 1)
( ) ( )2 22
1 1
11 1
p p
j j j jj j
Ns x x N f x x fN N= =
= − = −− −∑ ∑
( )22
1
p
j jj
s x x f=
= −∑
43
• Analogamente la deviazione standard
( )2
11
p
j jj
Ns x x fN =
= −− ∑
Statistica descrittivaMisure dispersione di una distribuzione
• Esercizio:• Si calcoli la varianza per i dati degli stipendi • Si calcoli la varianza per i dati degli stipendi
universitari sia per il campione femminile sia per il campione maschile
• Nel secondo caso, ricorrere ai dati raggruppati per classi
44
Statistica - M.Grosso Variabili Statistiche 23
Altri indici di posizione e dispersione campionari
• Il momento campionario di ordine k è definito come:
• Il momento centrale campionario di ordine k è definito come:
∑=
=n
i
kik x
Nm
1
1~
45
( )∑=
−=n
i
kik xx
NM
1
1~
Altri indici di posizione e dispersione campionari
• Indice campionario di asimmetria
• Indice campionario di curtosi
33
~
sM
=β
46
( )224
~
sM
=γ
Statistica - M.Grosso Variabili Statistiche 24
Statistica descrittivaSommario
• Con la statistica descrittiva è possibile ricavare informazioni sulla popolazione da un campione finito di dati:
• Distribuzioni frequenze del campioneDistribuzioni frequenze del campione• Sono stati introdotti gli scalari fondamentali per una caratterizzazione
preliminare di un campione• Media, varianza per una variabile di un campione