49
Statistica descrittiva: forma di una distribuzione e Indici di posizione 1 / 49

Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Statistica descrittiva: forma di una distribuzionee Indici di posizione

1 / 49

Page 2: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Forma della distribuzioneUn grafico relativo a dei dati mostra la distribuzionedei dati, ossia i valori che la variabile può assumerecorrelati dalla frequenza con cui ciascuno è statoosservatoControllare la configurazione globale: i dati sonoraggruppati o ci sono osservazioni che deviano inmaniera evidente dal resto ?

istogramma lunghezza conchiglie

lunghezza

frequenza

2 3 4 5 6 7 8 9

05

1015

Una distribuzione si dice unimodale quando presentaun solo piccoUna distribuzione si dice bimodale quando presentadue picchi

2 / 49

Page 3: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Forma della distribuzioneSi chiama moda l’osservazione che si verifica conmaggiore frequenza in una data distribuzione

Una distribuzione si dice unimodale quando presentaun solo picco.Una distribuzione si dice bimodale quando presentadue picchi. 3 / 49

Page 4: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Forma della distribuzione

I La forma della distribuzione si dice simmetricase la parte della distribuzione che precede unvalore centrale è sovrapponibile, comeun’immagine allo specchio, alla parte che seguequel valore centrale

I In una distribuzione simmetrica le modalitàposizionate alla stessa distanza dal centropresentano la stessa frequenza

4 / 49

Page 5: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Forma della distribuzione

5 / 49

Page 6: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Forma della distribuzioneLa distribuzione si dice asimmetrica quando unaparte della distribuzione si presenta più allungatadell’altra

6 / 49

Page 7: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Indici di sintesi

Le quantità numeriche calcolata a partire da uninsieme di dati si chiamano statistiche. Inparticolare tratteremo le seguenti statistiche:

I Indici di centralità

1. moda: si può sempre calcolare2. mediana: si può calcolare per dati

quantitativi o qualitativi ordinali3. media: si può calcolare solo per dati

quantitativi

I Indici di dispersione

7 / 49

Page 8: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Indici di centralità: la media

I La media (aritmetica) semplice di x1, · · · ,xn è lasomma delle osservazioni divisa per il numerodelle osservazioni stesse

x = x1 + · · ·+ xnn =

∑ni=1 xin

I La media (aritmetica) pesata è definita come

x = n1z1 + · · ·+ nkzkn1 + · · ·+ nk

=∑k

i=1 nizin

dove i pesi ni sono le frequenze assolute di ognimodalità zi

8 / 49

Page 9: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Proprietà della media aritmetica

I Se si sostituisce il valore della media aritmeticaa ciascuna delle osservazioni, il valore totaleosservato non cambia

n∑i=1

xi = n× x

I È compresa tra il minimo dei dati e il massimodei dati

I può coincidere con nessuna osservazione

9 / 49

Page 10: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Proprietà della media aritmeticaI La somma delle differenze tra le osservazioni e lamedia (scarti) è pari a 0

n∑i=1

(xi − x) = 0

Interpretazione fisica: se n pesi di pari massavengono posti su un’asta nei punti xi allora x è ilpunto in cui l’asta può essere messa in equilibrio

I La somma dei quadrati delle differenze tra ivalori osservati e una costante a

n∑i=1

(xi −a)2

è minima se a = x10 / 49

Page 11: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Proprietà della media aritmetica

I se ciascuna xi viene moltiplicata per c, lo èanche la media

yi = c× xi ⇒ y = cx

I se ciascuna xi viene incrementata di unacostante c allora anche la media vieneincrementata di c

yi = xi + c⇒ y = x + c

11 / 49

Page 12: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

EsempioPeso di 10 polli da allevamento in kg:

1.8, 2.8, 1.9, 2.5, ,2.0, 2.6, 3.0, 2.3, 2.4, 2.0

x = 1.8+2.8+1.9+2.5+2.0×2+3.0+2.6+2.3+2.410 = 2.33

verifichiamo che la somma degli scarti è pari a 0:n∑

i=1(xi − x) = (1.8−2.33) + (2.8−2.33) + · · ·+ (2.4−2.33) = 0

supponiamo di cambiare unità di misura da Kg a g, i datidiventano:

1800, 2800, 1900, 2500, 2000, 2600, 3000, 2300, 2400, 2000

y = 1800+2800+1900+2500+2000×2+3000+2600+2300+240010 =

= 2330 = 2.33×1000 = 1000× x12 / 49

Page 13: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Proprietà della media aritmetica

I La media è notevolmente influenzata dallapresenza di valori estremi (outliers)

I Il numeratore della media aritmetica coinvolgetutte le osservazioni: questo fa si che nel suocalcolo entrino eventualmente gli outliers

I Per questo si dice che non è robusta

13 / 49

Page 14: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Esempio

Numero di cuccioli nati da una coppia di Chihuahua in 12cucciolate:

2, 4, 5, 5, 2, 1, 3, 4, 2, 3, 3, 2

x = 3

Lo statistico distratto mette insieme il 2 con l’1 successivoottenendo ora i dati

2, 4, 5, 5, 21, 3, 4, 2, 3, 3, 2

y = 4.73

14 / 49

Page 15: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Calcolo media con tabella di frequenza, dati continui

Distribuzione di frequenza per classi ordinate di punteggi ad untest di abilità di rotazione mentale di oggetti. Calcolare la mediaaritmetica

Intervalli punteggi (xi) ni fi

[32.5,40.5) 5 0.125[40.5,48.5) 5 0.125[48.5,56.5) 7 0.175[56.5,64.5) 10 0.25[64.5,72.5) 8 0.2[72.5,80.5) 4 0.1[80.5,88.5] 1 0.025

Totale 40 1

15 / 49

Page 16: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Calcolo media con tabella di frequenza, dati continui

Distribuzione di frequenza per classi ordinate di punteggi ad untest di abilità di rotazione mentale di oggetti.Consideriamo la colonna dei valori centrali degli intervalli (mi)

Intervalli punteggi (xi) mi ni fi

[32.5,40.5) 36.5 5 0.125[40.5,48.5) 44.5 5 0.125[48.5,56.5) 52.5 7 0.175[56.5,64.5) 60.5 10 0.25[64.5,72.5) 68.5 8 0.2[72.5,80.5) 76.5 4 0.1[80.5,88.5] 84.5 1 0.025

Totale 40 1

16 / 49

Page 17: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Calcolo media con tabella di frequenza, dati continui

Distribuzione di frequenza per classi ordinate di punteggi ad untest di abilità di rotazione mentale di oggetti.

xx =5 ∗ 36.5 + 5 ∗ 44.5 + 7 ∗ 52.5 + 10 ∗ 60.5 + 8 ∗ 68.5 + 4 ∗ 76.5 + 1 ∗ 84.5

40=

7∑i=1

ni ∗ mi

n= 57.9

x = 0.125∗36.5+0.125∗44.5+0.175∗52.5+0.25∗60.5+0.2∗68.5+0.1∗76.5+0.025∗84.5 =

=7∑

i=1

fi ∗ mi = 57.9

17 / 49

Page 18: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Indici di centralità: la mediana

x1, x2, x3, . . . ,xn

ordiniamo i dati in senso crescente

x(1), x(2), x(3), . . . ,x(n)

x(1) = min(x1, . . . ,xn) x(n) = max(x1, . . . ,xn)

I La mediana: è il valore che permette di ripartirela distribuzione in due parti in ciascuna dellequali cade il 50% delle osservazioni

18 / 49

Page 19: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Calcolo della mediana

I Si ordinano i dati in senso crescenteI se il numero di dati n è dispari, la medianacorrisponde al dato che occupa la posizione(n + 1)/2

x0.5 = x(n+12 )

I se il numero di dati n è pari, la mediana è datadalla media aritmetica dei due dati cheoccupano la posizione n/2 e quella n/2 + 1

x0.5 =x(n

2 ) + x(n2 +1)

2

19 / 49

Page 20: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Proprietà della mediana

I Per il calcolo della mediana interessa laposizione occupata dalla osservazioni non il lorovalore numerico

I La mediana è robusta ossia non è influenzatadalla presenza degli outliers

20 / 49

Page 21: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Esempio

Numero di cuccioli nati da una coppia di Chihuahua in 12cucciolate:

2, 4, 5, 5, 2, 1, 3, 4, 2, 3, 3, 2

x0.5 = 3

Lo statistico distratto mette insieme il 2 con l’1 successivoottenendo ora i dati

2, 4, 5, 5, 21, 3, 4, 2, 3, 3, 2

y0.5 = 3

21 / 49

Page 22: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Indici di centralità: la moda

La moda è una misura di tendenza centrale per datisia qualitativi che quantitativi.

I È il valore, o la classe, che ricorre piùfrequentemente

I non è influenzata da outliers

I può non esserci una moda

I ci può essere più di una moda

22 / 49

Page 23: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Esercizio

In sette città in Canada il 14 gennaio 2006 sonostate registrate le seguenti temperature.Calcolarne moda, media e mediana

−12 −5 2 2 0 −3 5

23 / 49

Page 24: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

EsercizioCalcolarne moda, media e mediana

−12 −5 2 2 0 −3 5

Moda = 2

x = −12−5 + 2 + 2 + 0−3 + 57 =−11

7 =−1.57

Riordiniamo i dati per calcolare la moda:

−12,−5,−3,0,2,2,5

i dati sono dispari prendo il valore alla posizionen+1

2 , ossia 82 = 4

x0.5 = 024 / 49

Page 25: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Esercizio

In 20 marche di cereali è stato analizzato il contenuto di sodio inmg in una porzione standard, secondo quanto codificato dalNational Labelling and educatioal Act.Calcolare moda media e mediana delle 20 misurazioni:

0 340 70 140 200 180 210 150 100 130

140 180 190 160 290 50 220 180 200 210

25 / 49

Page 26: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Esercizio

I seguenti dati indicano la pressione sistolica sanguigna di 15 donne

130 115 148 100 156 162 151 156 162

158 155 160 125 150 165

Calcola media e mediana. Cosa succede se 100 viene sostituito con300?

26 / 49

Page 27: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Relazioni tra media, mediana e moda

I In una distribuzione perfettamente simmetrica,la media, la mediana (e la moda) hanno lostesso valore

I Per una distribuzione asimmetrica, la mediaviene, rispetto alla mediana, trascinata verso lecode più pronunciate ( si posiziona quindi nelladirezione dell’asimmetria)

27 / 49

Page 28: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Relazioni tra media, mediana e moda

Nelle distribuzioni di datibiologici, l’asimmetria è quasisempre verso destra e quindi lamedia è > della mediana o dellamoda

invece in caso di asimmetrica asinistra: media più piccola dellamediana

28 / 49

Page 29: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Confronto media e mediana

Preferiamo usare la mediana:I quando i dati sono fortemente asimmetrici;I in presenza di outliers

E’ sconsigliato usare la mediana:I quando i dati sono fortemente discretiI i dati sono abbastanza simmetrici

29 / 49

Page 30: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Confronto media e medianaDati fortemente discreti sono dati che assumonopoche modalità.In quel caso insiemi di dati molto diversi possonoriportare la stessa mediana.Esempio: si considerino due campioni didimensione 5 di dati binari (con due sole modalità)

(0,0,1,1,1) e (1,1,1,1,1)

la mediana è 1 per entrambi. In questo caso èpreferibile la media che indica la porzione di 1presenti nel campione. Si ha 0.6 per il primocampione e 1 per il secondo

30 / 49

Page 31: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Esercizio con tabella di frequenza, dati discreti

Consideriamo la tabella di frequenze di una rilevazione in cui sonostati contati per 50 alberi il numero di alberi ad essi vicini. Siconsiderano vicini alberi ad una distanza radiale inferiore ai 5metri. Dalla rilevazione si osserva che:

Numero di alberi vicini (xi) ni fi

0 3 0.061 4 0.082 6 0.123 13 0.264 13 0.265 6 0.126 5 0.10

Totale 50 1

Calcolare moda, media e mediana

31 / 49

Page 32: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Esercizio con tabella di frequenza, dati discreti

Consideriamo la tabella di frequenze di una rilevazione in cui sonostati contati per 50 alberi il numero di alberi ad essi vicini.

Moda = 3 e 4

x =3 ∗ 0 + 4 ∗ 1 + 6 ∗ 2 + 13 ∗ 3 + 13 ∗ 4 + 6 ∗ 5 + 5 ∗ 6

50=

7∑i=1

ni ∗ xi

n= 3.34

x = 0.06∗0+0.08∗1+0.12∗2+0.26∗3+0.26∗4+0.12∗5+0.10∗6 =7∑

i=1

fi ∗xi = 3.34

x0.5 = 3 = Classe mediana

32 / 49

Page 33: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Misure di posizione: percentili

Il concetto di mediana si pu ò generalizzare:Il p-simo percentile è il valore tale che lascia alla sua sinistra il p%delle osservazioni e alla sua destra il restante (1−p)%

33 / 49

Page 34: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Misure di posizione: quartili

Nelle applicazioni pratiche esistono 3 percentili piùutilizzati detti quartiliI quartili dividono la sequenza ordinata dei dati in 4segmenti contenenti lo stesso numero di valori.

I Il primo quartile, q0.25, è il valore che lascia allasua sinistra 25% e alla sua destra il 75%

I Il secondo quartile, q0.50, coincide con lamediana (50% sono minori, 50% sono maggiori)

I Il terzo quartile, q0.75, è il valore tale che il 75%delle osservazioni sono minori e 25% sonomaggiori di esso

34 / 49

Page 35: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Calcolo dei quartiliUn quartile si trova determinando il valore della suaposizione nella sequenza ordinata dei dati osservati.

I Posizione primo quartile

0.25(n + 1)

se è intero altrimenti si approssima con l’interoprecedente o successivo

I Posizione terzo quartile

0.75(n + 1)

se è intero altrimenti si approssima con l’interoprecedente o successivo

con n il numero di valori osservati35 / 49

Page 36: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Esercizio

In sette città in Canada il 14 gennaio 2006 sonostate registrate le seguenti temperature.

−12 −5 2 2 0 −3 5Calcolare primo e terzo quartile

36 / 49

Page 37: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Esercizio

Ordiniamo i dati in senso crescente:

−12 −5 −3 0 2 2 5

con n = 7I Posizione primo quartile

0.25(8) = 2⇒ q0.25 = x(2) =−5

I Posizione terzo quartile

0.75(8) = 6⇒ q0.75 = x(6) = 2

37 / 49

Page 38: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Esercizio

In 20 marche di cereali è stato analizzato il contenuto di sodio inmg in una porzione standard, secondo quanto codificato dalNational Labelling and educational ActCalcolare primo e terzo quartile delle 20 misurazioni:

0 340 70 140 200 180 210 150 100 130

140 180 190 160 290 50 220 180 200 210

38 / 49

Page 39: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

EsercizioDati ordinati:

0 50 70 100 130 140 140 150 160 180

180 180 190 200 200 210 210 220 290 340

dove n = 20.

I Posizione primo quartile

0.25(21) = 5.25⇒ q0.25 = 130

I Posizione terzo quartile

0.75(21) = 15.75⇒ q0.75 = 210

Per il calcolo di q0.25 : 5.25≤ 5.5 approssimiamo a 5

Per il calcolo di q0.75 : 15.75 > 15.5 approssimiamo a 16

39 / 49

Page 40: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Lo scarto interquartileI quartili possono essere utilizzati per definire unamisura di variabilità detta distanza interquartileLo scarto interquartile è la differenza tra il terzo e ilprimo quartile:

IQR = q0.75− q0.25

IQR individua l’intervallo in cui si trovano il 50%delle osservazioni centrali. Eliminando i datiestremi, non è influenzata dalla presenza di outliersEsempio contenuto sodio in cereali:

IQR = q0.75− q0.25 = 210−130 = 80

40 / 49

Page 41: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Outliers

Regola empirica basata sullo scarto interquartile chepermette di identificare i potenziali outlier

Un valore più basso di q0.25−1.5× IQR o più altodi q0.75 + 1.5× IQR viene considerato un potenzialeoutlier

Esempio contenuto sodio in marche di cereali

q0.25−1.5× IQR = 130−1.5×80 = 130−120 = 10

q0.75 +1.5×IQR = 210+1.5×80 = 210+120 = 330I potenziali outlier sono 0 e 340

41 / 49

Page 42: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Boxplot

I Abbiamo introdotto 5 diverse misure di posizione

x(1) q0.25 x0.5 q0.75 x(n)

che ci permettono di sintetizzare la tendenzacentrale e la variabilità di una distribuzione didati

I Possiamo rappresentare questa sintesi con ungrafico detto boxplot

42 / 49

Page 43: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Boxplot

43 / 49

Page 44: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Boxplot

Come si disegna un boxplot?I Si disegna una scatola dal primo quartile q0.25 al terzo quartile

q0.75

I Si traccia un segmento orizzontale nella scatola incorrispondenza della mediana x0.5

I Si disegna un segmento verticale dalla sinistra della scatolafino alla più piccola osservazione che non sia un potenzialeoutlier. Un altro segmento orizzontale va dalla destra dellascatola fino alla più grande osservazione che non sia unpotenziale outlier. I potenziali outlier vengono disegnati comedei cerchietti che ”escono” dai baffi del boxplot

44 / 49

Page 45: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

BoxplotEsempio contenuto di sodio in 20 marche di cereali

050

100

150

200

250

300

350

massimo

minimo

mediana

3 quartile

1 quartile

45 / 49

Page 46: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Confronto tra boxplot e istogrammaIl boxplot permette di sintetizzare in un modo univoco la forma diuna distribuzioneUn boxplot non mostra alcune caratteristiche della distribuzionequali, ad esempio, eventuali picchi o valli, cosa che invecepossiamo osservare in un istogrammaIl boxplot ci permette di individuare potenziali outlier

46 / 49

Page 47: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Boxplot e istogramma

47 / 49

Page 48: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Boxplot e istogramma

48 / 49

Page 49: Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda Nelledistribuzionididati biologici,l’asimmetriaèquasi sempreversodestraequindila mediaè>

Boxplot e istogramma

49 / 49