Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Lezione 3
1
Lezione 3
RAPPRESENTAZIONI GRAFICHE
In numerosi casi le informazioni contenute nelle distribuzioni di frequenza
vengono rappresentate mediante grafici, che hanno lo scopo di mettere in
evidenza le caratteristiche fondamentali dell’assetto distributivo di una variabile
e possono essere utilizzati sia nella fase preliminare di analisi dei dati, sia nella
fase finale di presentazione dei risultati ottenuti.
Questo perché i grafici sono facilmente comprensibili e non richiedono
conoscenze particolari: di conseguenza sono frequentemente utilizzati dai vari
mezzi di comunicazione.
Le forme che possono assumere i grafici sono molto diverse fra loro e variano a
seconda della natura della variabile considerata, nel senso che alcune
rappresentazioni grafiche sono idonee per certi tipi di variabile ma non per altri.
Il grafico a torta è usato specialmente per variabili qualitative. Qui di seguito ne è
riportato un esempio
Distribuzione degli occupati irregolari per settore (dati Istat, 2016)
Lezione 3
2
In questo caso le diverse “fette” della torta hanno un’ampiezza che dipende dalla
frequenza associata alle modalità. Questo tipo di rappresentazione è usata in
numerose circostanze ed è di facile facile costruzione con i più comuni software,
ma a mano libera è un po’ laboriosa.
Per questo motivo si esamineranno in dettaglio grafici diversi, descritti qui di
seguito, distinti a seconda del tipo di variabile.
Lezione 3
3
1) VARIABILI QUALITATIVE SCONNESSE
Per queste variabili si può usare un grafico a colonne (o grafico a barre)
Per la costruzione di un grafico a colonne (o a barre) si utilizza un sistema di assi
cartesiani: sulle ascisse si riportano, equispaziandole, le k modalità della variabile
e da quei punti si innalzano dei rettangoli (oppure parallelepipedi, cilindri, …) di
altezza proporzionale alla frequenza (assoluta o relativa) corrispondente.
Esempio
La seguente distribuzione riporta la distribuzione della materia meno gradita da
300 studenti di un liceo classico
Materia Frequenza assoluta Educazione fisica 10
Geografia 65 Storia 45
Inglese 78 Italiano 22
Matematica 80 300
Una possibile rappresentazione grafica di questa distribuzione è riportata nel
grafico seguente
0
10
20
30
40
50
60
70
80
90
100
Ed.fisica Geografia Storia Inglese Italiano Matematica
freq
uen
za a
sso
luta
materia
Lezione 3
4
Come si vede, i confronti fra le diverse materie sono possibili, ma sarebbero resi
più semplici se si ordinassero le materie a seconda del valore assunto dalla
frequenza corrispondente (in senso crescente o decrescente).
Questa è in effetti la convenzione che viene utilizzata quando la variabile risulta
sconnessa.
Per l’esempio appena considerato una rappresentazione grafica corretta è quindi
la seguente
La regola adottata nel rappresentare graficamente una variabile sconnessa
mediante un grafico a barre consiste nell’ordinare i rettangoli in base al valore
delle frequenze
Va notato che questo tipo di grafico assume una stessa forma se sull’asse delle
ordinate si riportano le frequenze assolute oppure le frequenze relative, per cui
la rappresentazione può essere fatta indifferentemente con un tipo di frequenza
o con l’altro (si ha solo un cambio di scala sull’asse delle ordinate).
Una rappresentazione grafica alternativa si ottiene scambiando le ascisse con le
ordinate. Si ottiene in questo modo una rappresentazione che prende il nome di
grafico a nastri.
0
10
20
30
40
50
60
70
80
90
100
Ed.fisica Italiano Storia Geografia Inglese Matematica
freq
uen
za a
sso
luta
materia
Lezione 3
5
Considerata, per esempio, la seguente distribuzione del numero totale dei casi di
coronavirus per regione in Italia, aggiornata alle ore 17:00 del 9 marzo 2020,
Regione Frequenza assoluta Abruzzo 30 Basilicata 5 Calabria 11 Campania 120 Emilia Romagna 1386 Friuli V.G. 93 Lazio 102 Liguria 109 Lombardia 5469 Marche 323 Molise 14 Piemonte 350 Puglia 50 Sardegna 19 Sicilia 54 Toscana 208 Trentino A.A. 42 Umbria 28 Valle d'Aosta 15 Veneto 744 9172
il corrispondente grafico a nastri assume la forma seguente
Lezione 3
6
0,00 500,00 1000,00 1500,00 2000,00 2500,00 3000,00 3500,00 4000,00 4500,00 5000,00 5500,00 6000,00
Lombardia
Emilia Romagna
Veneto
Piemonte
Marche
Toscana
Campania
Liguria
Lazio
Friuli V.G.
Sicilia
Puglia
Trentino A.A.
Abruzzo
Umbria
Sardegna
Valle d'Aosta
Molise
Calabria
Basilicata
casi totali
R
e
g
i
o
n
e
Lezione 3
7
2) VARIABILI QUALITATIVE ORDINABILI
I precedenti grafici sono utilizzati anche quando la variabile è qualitativa
ordinabile e le regole che si devono seguire sono le medesime, con un’unica
differenza: le modalità di una variabile ordinabile vanno elencate (in ascissa o in
ordinata) in base al loro ordine naturale.
La regola adottata nel rappresentare graficamente una variabile qualitativa
ordinabile mediante un grafico a barre o un grafico a nastri consiste nell’elencare
gli elementi seguendo l’ordine naturale delle modalità assunte dalla variabile
Esempio
La seguente distribuzione riporta i dati di un’indagine effettuata da Almalaurea
sui laureati in economia e commercio in Italia aggiornata all’aprile 2019.
La distribuzione delle risposte alla domanda circa l’adeguatezza del carico di
studio alla durata del corso è riportata nella tabella seguente
Valutazione Frequenza relativa Decisamente no 0.011 Più no che sì 0.101 Più sì che no 0.573 Decisamente sì 0.315
1.000
In questo caso una rappresentazione grafica a barre adeguata è la successiva, in
cui l’ordinamento delle modalità rispetta il loro ordine naturale.
Lezione 3
8
0
0,1
0,2
0,3
0,4
0,5
0,6
Decisamente no Più no che sì Più sì che no Decisamente sì
freq
uen
za r
elat
iva
valutazione
Lezione 3
9
3) VARIABILI QUANTITATIVE DISCRETE
La rappresentazione grafica di una distribuzione relativa a una variabile
quantitativa discreta segue le medesime regole descritte per un grafico a barre,
ma vengono utilizzati segmenti al posto di rettangoli, cilindri o prallelepipedi.
Una rappresentazione grafica adeguata per una distribuzione relativa a una
variabile discreta è il cosiddetto diagramma ad aste nel quale le intensità della
variabile sono riportate sull’asse delle ascisse nella posizione determinata dalla
scala di misura adottata e da ciascuno di questi punti si innalza un segmento di
altezza proporzionale alla frequenza (relativa o assoluta) corrispondente.
Esempio
La seguente distribuzione indica il numero di esami superati dagli iscritti al primo
anno di un certo corso di laurea nel momento dell’iscrizione all’anno successivo
Esami superati
Frequenza relativa
0 0.20 1 0.09 2 0.13 3 0.22 4 0.22 5 0.11 6 0.03 1.00
Il diagramma ad aste assume la forma riportata nella figura successiva
Lezione 3
10
0
0,05
0,1
0,15
0,2
0,25
0,3
0 1 2 3 4 5 6 7
freq
uen
za r
elat
iva
esami superati
Lezione 3
11
4)VARIABILI QUANTITATIVE CONTINUE
Se la distribuzione è relativa a una variabile continua, nella prima colonna della
tabella compaiono le classi di valori e non le singole determinazioni. In questi casi
la distribuzione della variabile all'interno delle singole classi non è nota e per
poterla rappresentare graficamente occorre formulare delle ipotesi.
Non essendo nota la reale distribuzione all’interno di ciascuna classe si adotta
l’ipotesi di distribuzione uniforme che consiste nel ripartire la frequenza
complessiva della classe in maniera proporzionale alla sua ampiezza.
Seguendo questa regola, considerata una determinata classe:
- a due sottointervalli di pari ampiezza si attribuisce la stessa frazione della
frequenza della classe
- a un sottointervallo di un'ampiezza doppia si attribuisce una frazione di
frequenza doppia e così via…
Esempio
Se la frequenza relativa associata a un intervallo (0, 2] è 0.3, la frazione di
frequenza associata agli intervalli (0, 1] e (1, 2] è 0.15, mentre all’intervallo
(0, 0.5] è associata una frequenza pari a 0.075.
Considerato un sottointervallo di una certa classe, la frazione di frequenza
associata a questo sottointervallo si calcola dividendo la frequenza relativa
associata alla classe per l’ampiezza della classe, ottenendo la cosiddetta densità di
frequenza, e moltiplicando questa densità per l’ampiezza del sottointervallo.
Lezione 3
12
In simboli, considerando la j-esima classe (cj-1, cj] a cui è associata la frequenza
relativa fj la densità di frequenza è pari a
ℎ𝑗 =𝑓𝑗
𝑐𝑗 − 𝑐𝑗−1=
𝑓𝑗
∆𝑗
dove j = cj - cj-1 corrisponde all’ampiezza della classe.
La densità di frequenza così ottenuta misura l’addensamento delle frequenze
nella classe e, per come è stata calcolata, risulta costante all'interno della classe.
Considerando ora un sottointervallo (a, b] contenuto nella classe (cj-1, cj] la
frazione di frequenza ad esso associato è dato dal prodotto fra la densità e
l’ampiezza del sottointervallo, ossia da
ℎ𝑗 × (𝑏 − 𝑎)
Esempio
Considerata la seguente distribuzione
X Frequenza
2 − 3 4
3 − 5 6
5 − 10 6
16
si calcoli la densità di frequenza per ciascuna classe di valori e si determini la
frazione di frequenza associata all’intervallo (3.05, 3.15).
Lezione 3
13
Innanzitutto è necessario calcolare le frequenze relative, poi le ampiezze delle
classi e infine i rapporti fra ciascuna frequenza relativa e l’ampiezza
corrispondente, così come mostrato nella tabella successiva.
X Frequenza relativa Ampiezza Densità
2 − 3 0.250 1 0.2500
3 − 5 0.375 2 0.1875
5 − 10 0.375 5 0.0750
1.000
La frazione di frequenza associata all’intervallo (3.05, 3.15) si ottiene dal prodotto
0.1875×(3.15-3.05)=0.01875.
Si vede facilmente che la frequenza associata a un singolo valore (cioè a un
intervallo di ampiezza nulla) è necessariamente uguale a zero.
Di conseguenza la frazione di frequenza per (a, b), a, b, (a, b o a, b) è sempre la
stessa.
L’importanza della densità di frequenza deriva dal fatto che al crescere
dell'ampiezza di un intervallo anche la frequenza corrispondente tenderà a
crescere. Per questo motivo non si possono utilizzare le frequenze (assolute o
relative) per confrontare le informazioni fornite da intervalli di diversa ampiezza.
La densità di frequenza, non dipendendo dall’ampiezza degli intervalli, misura
l’addensamento delle osservazioni.
Lezione 3
14
La rappresentazione grafica corretta per una distribuzione in classi relativa a una
variabile continua è il cosiddetto istogramma, costituito da un insieme di
rettangoli affiancati aventi per base le diverse classi e per altezza la densità di
frequenza corrispondente.
Nel caso della distribuzione considerata nell’esempio precedente l’istogramma
assume la forma successiva
Si deve notare che l’area di ciascun rettangolo (ottenuta come prodotto della base
per l’altezza) corrisponde alla frequenza relativa associata alla classe.
Dalla formula della densità di frequenza risulta infatti che la frequenza
complessiva associata al j-esimo intervallo è data dal prodotto fra la densità della
classe e la sua ampiezza
𝑓𝑗 = ℎ𝑗 × ∆𝑗
Per la j-esima classe (cj-1, cj], quindi, il rettangolo corrispondente avrà una base
pari a j , un’altezza pari a hj mentre la sua area è fj.
0
0,05
0,1
0,15
0,2
0,25
0,3
0 1 2 3 4 5 6 7 8 9 10 11 12
den
sità
X
Lezione 3
15
INDICI DI POSIZIONE
In statistica si utilizzano svariati indici per evidenziare le caratteristiche
principali della variabile rilevata sull’insieme delle unità statistiche esaminate. Le
cosiddette medie (o indici di posizione) descrivono sinteticamente l’insieme delle
osservazioni mediante una sola modalità o un unico valore numerico, a seconda
che la variabile considerata sia qualitativa o quantitativa.
Si distinguono in
- Medie di posizione, che possono essere determinate per variabili qualsiasi
- Medie analitiche, che possono essere determinate solo per variabili quantitative,
in quanto richiedono l’esecuzione di operazioni algebriche
Una qualsiasi media effettua la sintesi di tutte le informazioni contenute nei dati
originali attraverso una sola determinazione, per cui la media di una variabile
qualitativa coincide con una delle k modalità osservate, mentre la media di una
variabile quantitativa risulta sempre interna al suo intervallo di variazione.
In questa lezione si esamineranno alcune delle più comuni medie di posizione,
mentre nella successiva si studierà una particolare media analitica e le sue
proprietà
Lezione 3
16
MODA (o valore modale)
La media di posizione più semplice è la cosidetta moda che può essere
determinata per una variabile qualsiasi
In una distribuzione relativa a una variabile qualitativa (sconnessa o ordinabile)
o in una distribuzione relativa a una variabile quantitativa discreta la moda
corrisponde alla determinazione che presenta la frequenza (assoluta o relativa)
più elevata.
Se esistono più determinazioni a cui è associata la stessa frequenza massima, tutte
queste determinazioni sono altrettante mode (si può parlare in questo caso di
distribuzioni bimodali, trimodali e così via).
La moda si individua facilmente anche sulla rappresentazione grafica associata
alla distribuzione dato che corrisponde alla determinazione a cui è associato il
rettangolo o il segmento con l’altezza maggiore (per grafici a colonna o diagrammi
ad asta) oppure al rettangolo con la base maggiore (per grafici a nastro).
In una distribuzione relativa a una variabile quantitativa continua la classe
modale corrisponde all’intervallo che presenta la densità di frequenza più elevata.
Lezione 3
17
La moda si determina in maniera molto semplice e ha il pregio di non risentire
della eventuale presenza di valori anomali (cioè della presenza di osservazioni
estremamente diverse da tutte le altre), ma ha un uso piuttosto limitato a causa
di alcuni difetti:
- non è molto utile se le determinazioni assunte dalla variabile sono numerose,
specie se la massima frequenza non è molto più elevata delle altre.
- Per una distribuzione in classi, la classe modale dipende dalla scelta degli
intervalli.
ESERCIZI
1) Data la seguente serie di voti
21 24 30 24 26 25 24 28
il voto modale è 24
2) Considerata la seguente distribuzione espressa mediante le frequenze
cumulate, determinare la moda
X Frequenza relativa cumulata -2 0.250 -1 0.425 0 0.550 1 0.750 2 0.900 3 1.000
Occorre innanzitutto calcolare le frequenze relative
X Frequenza relativa -2 0.250 -1 0.175 0 0.125 1 0.200 2 0.150 3 0.100 1.000
La moda è -2
Lezione 3
18
3) Considerata la seguente distribuzione, determinare la classe modale
X Frequenza relativa 0 – 1 0.10 1 – 5 0.30 5 – 10 0.40 10 – 20 0.20
1.00
Occorre innanzitutto calcolare le densità
X Ampiezza densità 0 – 1 1 0.100 1 – 5 4 0.075 5 – 10 5 0.080 10 – 20 10 0.020
La classe modale è la prima
Lezione 3
19
QUANTILI
Altri indici di posizione che vengono frequentemente calcolati se la variabile è
almeno ordinabile sono i cosiddetti quantili.
Per semplicità in questa lezione si considerano solo i casi relativi a una variabile
quantitativa discreta o alla sequenza di una variabile continua, ma i quantili
possono essere determinati anche per variabili qualitative ordinabili e per
distribuzioni in classi, mentre non possono essere determinati per variabili
qualitative sconnesse (o non ordinabili)
Date n osservazioni relative a una variabile quantitativa discreta X, il quantile di
ordine p (con 0 < p < 1), indicato con xp, è quel valore della variabile per cui la
proporzione di osservazioni inferiori o uguali a xp è almeno pari a p.
Se per un gruppo di studenti il quantile di ordine 0.25 è pari a 40 CFU, un quarto
degli studenti ha un numero di crediti inferiore o uguale a 40; se in una
distribuzione di stature x0,8 vale 178 centimetri, significa che l’80% delle unità ha
una statura inferiore o uguale a 178 centimetri.
Fra tutti i possibili quantili che possono essere considerati, alcuni sono di uso più
comune. In particolare si usano spesso
- i tre quartili (x0.25, x0.5, x0.75)
- i nove decili (x0.1, x0.2, …, x0.9)
- i novantanove centili (x0.01, x0.02, …, x0.99)
Lezione 3
20
Il quantile più utilizzato in assoluto è la mediana x0.5 che corrisponde al secondo
quartile, al quinto decile e al cinquantesimo centile. La mediana è quella
determinazione della variabile per cui la metà delle osservazioni presenta un
valore inferiore o uguale a x0.5
L’uso della mediana è molto comune. Per esempio, nel report dell’Istat
“CONDIZIONI DI VITA, REDDITO E CARICO FISCALE DELLE FAMIGLIE” del 6
dicembre 2018 si legge “Metà delle famiglie residenti in Italia percepisce un
reddito netto non superiore a 25.091 euro l’anno (circa 2.090 euro al mese;
+2,3% rispetto al 2015). Il reddito mediano cresce in tutte le ripartizioni: da
+0,6% del Nord-ovest a +3,9% del Nord-est.”
I quantili possono essere determinati sia su una sequenza di osservazioni, sia su
una distribuzione di frequenza
Lezione 3
21
1) SEQUENZA DI n OSSERVAZIONI
Data una sequenza di n osservazioni, il quantile xp di ordine p è l’osservazione che
nella sequenza ordinata occupa il posto corrispondente alla parte intera
superiore del prodotto np, indicato con ⌈𝑛𝑝⌉
Per “parte intera superiore” si intende che se il prodotto np dà origine a un
numero intero si considera quel risultato, se invece dà origine a un numero che
non è intero si prende l’intero immediatamente superiore.
ESEMPI
1) Considerata la seguente sequenza di voti ottenuti da uno studente 24 18 27 22 30
si determini il quantile di ordine p = 0.5 della variabile. In questo caso n=5 per cui
⌈𝑛𝑝⌉ = ⌈5 × 0.5⌉ = ⌈2.5⌉ = 3 Il quantile di ordine 0.5 occupa quindi il terzo posto nella sequenza ordinata
18 22 24 27 30 e il quantile cercato risulta x0.5 = x(3 )= 24.
2) Considerata la seguente sequenza di voti ottenuti da uno studente 18 22 24 25 27 30
si determini il quantile di ordine p = 0.5 della variabile. In questo caso n=6 per cui
⌈𝑛𝑝⌉ = ⌈6 × 0.5⌉ = ⌈3⌉ = 3 La sequenza ordinata è
18 22 24 25 27 30 e il quantile cercato risulta x0.5 = x(3 )= 24.
La necessità di considerare l’ordinamento delle determinazioni esclude la
possibilità di determinare i quantili per variabili non ordinabili.
Lezione 3
22
ESERCIZI
1) Considerata la seguente sequenza di osservazioni relative a una variabile
continua, si determini il valore dei tre quartili
2.0 1.8 1.9 2.8 2.9 3.0 3.1 4.8 5.5 3.1
La sequenza ordinata risulta 1.8 1.9 2.0 2.8 2.9 3.0 3.1 3.1 4.8 5.5
Il primo quartile occupa il posto ⌈𝑛𝑝⌉ = ⌈10 × 0.25⌉ = ⌈2.5⌉ = 3 per cui x0.25 = x(3) = 2.0 Il secondo quartile occupa il posto ⌈𝑛𝑝⌉ = ⌈10 × 0.5⌉ = ⌈5⌉ = 5 per cui x0.5 = x(5) = 2.9 Il terzo quartile occupa il posto ⌈𝑛𝑝⌉ = ⌈10 × 0.75⌉ = ⌈7.5⌉ = 8 per cui x0.75 = x(8) = 3.1
2) Considerata la sequenza ordinata dei voti in statistica ottenuti da 12 studenti:
20 20 22 22 22 24 24 25 27 27 28 28
determinare i quantili di ordine 0.2, 0.5 e 0.8.
Il secondo decile occupa il posto ⌈12 × 0.2⌉ = 3,
Il secondo quartile occupa il posto ⌈12 × 0.5⌉ = 6
L’ottavo decile occupa il posto ⌈12 × 0.8⌉ = 10
Risulta quindi x0.25 = 22,
x0.5 = 24,
x0.75 = 27.
Si osservi che uno stesso valore della variabile può corrispondere a più quantili di
ordine diverso.
Lezione 3
23
2) DISTRIBUZIONI DI FREQUENZA
Il procedimento di calcolo dei quantili per una distribuzione di frequenza è lo
stesso utilizzato al caso precedente, anche se può sembrare diverso.
Data la distribuzione riportata nella tabella successiva
X Frequenza assoluta -2 3 -1 5 0 2 10
la determinazione dei tre quartili potrebbe essere effettuata costruendo la
sequenza ordinata corrispondente
-2 -2 -2 -1 -1 -1 -1 -1 0 0
ed utilizzando quest’ultima, ma esiste un metodo più semplice di procedere
(specie quando n è molto elevato). Il metodo utilizzato si basa sulle frequenze
assolute cumulate.
Dato che, per definizione, xp occupa il posto ⌈𝑛𝑝⌉, in una distribuzione di
frequenza relativa a una variabile quantitativa discreta X il quantile di ordine p
corrisponde alla determinazione cj a cui è associata la prima frequenza assoluta
cumulata Nj maggiore o uguale a ⌈𝑛𝑝⌉
Per la distribuzione precedente si ha
X Frequenza assoluta cumulata -2 3 -1 8 0 10
Dato che il primo quartile occupa il posto ⌈10 × 0.25⌉ = 3, x0.25 = -2, in quanto la
frequenza assoluta cumulata associata a tale valore è esattamente uguale a 3.
Lezione 3
24
La mediana, invece, occupa il posto ⌈10 × 0.5⌉ = 5 per cui x0.5 = -1, dato che il
valore della frequenza assoluta cumulata associata a tale valore è pari a 8.
La determinazione -1 è infatti quel valore della variabile in corrispondenza del
quale la frequenza assoluta cumulata assume per la prima volta un valore
maggiore di 5 (in corrispondenza dell’intensità precedente era uguale a 3).
Il terzo quartile, infine, occupa il posto ⌈10 × 0.75⌉ = 8 per cui x0.75 = -1.
Si controlla facilmente che i medesimi risultati si sarebbero potuti ottenere sulla
sequenza ordinata.
Esercizio
Data la seguente distribuzione dei risultati sufficienti ottenuti in una prova
intermedia espressa in quindicesimi, si determinino i quantili di ordine 0.25, 0.3
e 0.5.
X Frequenza assoluta 8 17 9 25
10 40 11 35 12 27 13 18 14 10 15 8
180
Le frequenze assolute cumulate risultano le seguenti
Lezione 3
25
X Frequenza assoluta cumulata 8 17 9 42
10 82 11 117 12 144 13 162 14 172 15 180
Il posto occupato dal primo quartile è ⌈180 × 0.25⌉ = 45, per cui x0.25 = 10.
Il posto occupato dal terzo decile è ⌈180 × 0.3⌉ = 54, per cui x0.3 = 10.
Il posto occupato dalla mediana è ⌈180 × 0.5⌉ = 90, per cui x0.5 = 11.