53
E. Di Nardo, a.a. 15/16 1 Introduzione alla Statistica

Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 1

Introduzione alla Statistica

Page 2: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

� La statistica indaga su fenomeni collettivi, ossiafenomeni che coinvolgono un insieme di individui,oggetti, beni. Tale indagine è condottaraccogliendo informazioni relative a tali collettivie traducendo tali informazioni in un modellonumerico che possa essere analizzatosemplicemente.

Unità statistica = il singolo elemento della popolazione

Popolazione = il collettivo preso in esame

Che cosa è la Statistica?

E. Di Nardo, a.a. 15/16 2

Page 3: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

Che cosa è una variabile statistica?

Una variabile statistica è una caratteristica oggetto di indagine.

Esempio:

E. Di Nardo, a.a. 15/16 3

Page 4: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 4

Tipologie di analisi statistiche

Insieme di tecniche per organizzare,riassumere e presentare i dati.

Ma non si tratta solo di grafici….

o Il 2% delle lavatrici vendute da un negozio X presenta difetti di funzionamento.

o In questa classe, il voto medio è 25/30.

o Lo studente più anziano in questa classe ha 27 anni.

o Tra le adolescenti il colore maggiormente diffuso degli abiti è il nero.

ESEMPI:

Page 5: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 5

Insieme di tecniche che consentono di generalizzare all’intera popolazionee con un certo margine di errore i risultati ottenuti da un sottoinsieme della popolazione, detto campione.

Esempio: Se in questa classe l’altezza media è 172cm, è possibile asserire che 172 cm

è l’altezza media della popolazione costituita dagli studenti UNIBAS?

Qualora la risposta fosse positiva, sono sicuro al 100% della validità di questa asserzione?

Page 6: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 6

Esempi: A) Se gli studenti in questa classe si disponessero per altezza, come i signori di

questa fotografia, potremmo «proiettare» il profilo di questa curva su tutta la popolazione

di studenti UNIBAS?

B) Petrolio si o petrolio no?

Page 7: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 7

� Variabili qualitative (o mutabili statistiche) : i valori assunti sono non-numerici.

Esempi: il colore degli occhi; la nazionalità; lo stato civile; l’affidabilità; l’attitudine ai lavori manuali; fasce di reddito…

� Variabili (quantitative): i valori assunti sono numeri.Esempi: la statura; il peso; il numero di stanze di un appartamento;

il numero di figli…

Classificazione delle variabili statistiche

Valori

Qualitative Modalità

Sconnessi (Nominali)

Ordinali

Quantitative

Classi di Modalità

Discreti

Continui

Modalità Discreti

Page 8: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 8

Scala Nominale

1. Indicare il genere

�Maschio

�Femmina

2. Quale è il colore dei tuoi capelli?

� Castani

� Neri

� Biondi

� Bianchi

� Non so

3. Dove abiti?

�Centro città

�Periferia città

�Contrade

Questo è un primo esempio di RILEVAZIONE DEI DATI

� Schede

� Questionari

� Interviste (anche telefoniche)

� Exit Poll

Tipo

� Totale (censimento)

� Parziale (campionaria)

� Occasionale (sondaggi)

� Periodica

Mutuamente esclusive

Esaustive

*Elaborata dallo psicofisico

Stanley Smith Stevens

(1946)

I dati sono organizzati in categorie e non possono essere ordinati.

Page 9: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 9

Scala OrdinaleScala Ordinale

I dati sono organizzati in categorie che possiedono un criterio di ordinamento.

1. Il tuo giudizio all’esame di III media è stato:

�Sufficiente

�Distinto

�Buono

�Ottimo

�Eccellente

2. A quale fascia ISEE appartieni?

� I (0-4.500,01)

� II (4.500,01-7.000)

� III (7.000,01-12.000)

� IV (12.000,01-18.000)

� …

� Non sono in fascia ISEE

� Ogni categoria esprime un rango(ossia una posizione)

� La distanza tra ranghi non necessariamente è quantificabile

� Non sono possibili operazioni numeriche tra ranghi, ma solo confronti (relazioni di ordine)

Page 10: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 10

L’istituto nazionale di statistica(ISTAT: http://www.istat.it/it/ ) mette a disposizione banche dati sulle indagini effettuate sul territorio nazionale.

Page 11: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 11

Scala Intervallare

� La distanza tra ranghi non necessariamente è quantificabile

� La distanza tra ranghi è quantificabilerispetto ad un intervallo preso come unitàdi misura.

Scale che misurano la stessa grandezza ma con unità di misura diverse possono associare allo stesso oggetto più numeri.

La temperatura

Nei test psicoattidunali non necessariamente

lo zero corrisponde a nessuna attitudine.

Operazioni di

Standardizzazione

0 Celsius = 32 Fahrenheit

Page 12: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 12

Scala Rapporto

Per questo tipo di misure, lo zero non è arbitrario e corrisponde all’elemento di intensità nulla (assenza di proprietà) rispetto all’unità misurata.

L’altezza

Il tempo

La velocità

Il peso

Page 13: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

Come rappresentare i dati?

Il modo più semplice ed immediato per rappresentare i dati è costituito da tabelle.

Colore capelli

(carattere)N° persone

(frequenza assoluta)

Neri 10Castani 6Rossi 1biondi 5totale 22

Frequenze

assolute

carattere

modalità

La frequenza assoluta indica quante volte la MODALITÀ di un carattere si ripete

Page 14: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 14

E’ possibile verificare quale sia tale directory digitando dal prompt di R:

>getwd()

Creare tabelle in R

Il percorso completo va specificato con il comando > setwd(..)

Per leggere i dati nel file ed assegnarli a una variabile in R> dati<-read.table('datasetcapelli.txt',header=TRUE)

> head(dati)

Capelli

1 Neri

2 Castani

3 Biondi

4 Neri

5 Biondi

6 Rossi

Per rendere disponibili i dati nel workspace > attach(dati)

Per visionare la parte iniziale del vettore contenente i dati

Page 15: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 15

Per contare le occorrenze delle modalità nel vettore dati, il comando è table(). Il parametro di input è la variabile dati.

> obj<-table(dati)> objdatiBiondi Castani Neri Rossi

5 6 10 1 > summary(obj)Number of cases in table: 22 Number of factors: 1

Colore capelli

(carattere)N° persone

(frequenza assoluta)

Neri 10Castani 6Rossi 1biondi 5totale 22

> data<-data.frame(obj)> data

dati Freq1 Biondi 52 Castani 63 Neri 104 Rossi 1

Per avere la tabella iniziale:

Page 16: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 16

Come rappresentare i dati?

Seriazione statistica: Carattere quantitativo

Frequenza assoluta: numero di

volte in cui si verifica la modalità i

Con modalità

Con classi di modalità

# stanze # appartamenti

1 300

2 500

3 2.000

4 3.000

5 150

6 100

7 300

Peso (in grammi) # neonati

1.800-2.200 10

2.200-2.600 32

2.600-3.000 120

3.000-3.400 254

3.400-3.800 134

3.800-4.200 40

4.200-4.600 10

Page 17: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 17

Dalle modalità alle classi di modalità

In caso di modalità numerose, è preferibile una rappresentazione in classi di modalità.

Peso (kg) Freq.Assoluta

52 1

54 1

55 2

61 1

63 1

68 2

69 3

71 1

73 1

75 1

76 1

Totale 15

Classi di Modalità Freq.Assoluta

[50;60) 4

[60;70) 7

[70;80) 4

Totale 15

Page 18: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 18

Per ripartire i dati nelle classi di modalità usiamo il comando cut()

1. Definizione un vettore contenente i dati

> peso<-c(52,54,55,55,61,63,68,68,69,69,69,71,73,75, 76)> length(peso)[1] 15

> limiti<-c(50,60,70,80)

2. Definizione di un vettore contenente gli estremi

> pesotab<-factor(cut(peso,breaks=limiti))> obj1<-table(pesotab)> obj1pesotab

(50,60] (60,70] (70,80]

4 7 4

3. Ripartizione dei dati nelle classi

Dai dati alle classi di modalità

> data[1]pesotab

1 (50,60]2 (60,70]3 (70,80]> data[2]

Freq1 42 73 4

Page 19: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 19

Serie statistica: Carattere qualitativo

Come rappresentare i dati?

TITOLO DI

STUDION.PERSONE

lic.elementare 2.000

lic. Media 6.000

diploma 10.000

laurea 2.000

ANNO VENDITE AUTO

1996 10.000

1997 15.000

1998 20.000

1999 18.000

2000 17.000

2001 22.000

2002 23.000

2003 10.000

Serie storica: variabile quantitativa

rilevata per modalità temporale.La frequenza assoluta non consente diconfrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo èdiverso.

N.PERSONE

2

3.000

4.000

7.000

11.000

Taglia: è il numero di unità statistiche esaminate

Frequenza relativa

Page 20: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 20

La frequenza relativa di una certa modalità è data dal rapporto tra la frequenza assoluta di tale modalità ed il numero totale dei casi. Quando moltiplicate per 100 si dicono percentuali. Consideriamo i dati presenti nella seguente tabella

Colore capelli

(carattere)frequenze

assolute

neri 10

castani 6

rossi 1

biondi 5

TOTALE 22

Colore capelli

frequenze

assolute

frequenze

relative %

neri 10 45,46

castani 6 27,27

rossi 1 4,55

biondi 5 22,72

TOTALE 22 100

45,4510022

10=×

54,410022

1=×

27,2710022

6=×

72,2210022

5=×

Calcolo FREQUENZE RELATIVE

Page 21: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 21

> data<-data.frame(obj)> data

dati Freq1 Biondi 52 Castani 63 Neri 104 Rossi 1

> data<-data.frame(round(prop.table(obj)*100,2))> data

dati Freq1 Biondi 22.732 Castani 27.273 Neri 45.454 Rossi 4.55

Colore capelli

frequenze

assolute

frequenze

relative %

neri 10 45,46

castani 6 27,27

rossi 1 4,55

biondi 5 22,72

TOTALE 22 100

Page 22: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 22

300+500+2000+3000+150+100+300= 6350 (taglia)

Completare

la tabella

# stanze # appartamenti

1 300

2 500

3 2.000

4 3.000

5 150

6 100

7 300

Freq.rel Perc.

300/6350=0,047 0,047*100=4,7%

500/6350=0,079 7,9%

0,315 31,5%

0,472 47,2%

0,024 2,4%

0,016 1,6%

0,047 4,7%

Peso (in grammi) # neonati

1.800-2.200 10

2.200-2.600 32

2.600-3.000 120

3.000-3.400 254

3.400-3.800 134

3.800-4.200 40

4.200-4.600 10

Peso (in grammi) # neonati

10/600=0,017 1,7%

32/600=0,053 5,3%

0,2 20%

0,423 …

0,223 …

0,067 …

0,017 ..

Page 23: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 23

Talvolta può essere utile calcolare anche la frequenza cumulata (percentuale o relativa)

Come si leggono i risultati in tabella relativi alla freq. cumulata?

� Il 12,6% degli intervistati ha appartamenti con un massimo di 2 stanze.

� Il 31,5% degli intervistati ha appartamenti con 3 stanze.

� Meno del 3% degli intervistati ha appartamenti con 5 stanze.

Frequenze cumulate

� Che percentuale di intervistati ha appartamenti con 5 stanze o più?

� Che percentuale di intervistati ha 3 o 4 stanze?

# stanze # appartamenti

1 300

2 500

3 2.000

4 3.000

5 150

6 100

7 300

%Relativa

4,7%

7,9%

31,5%

47,2%

2,4%

1,6%

4,7%

Freq.Cum.

0,047

0,126

0,441

0,913

0,937

0,953

1,000

Freq.Cum.%

4,7%

12,6%

44,1%

91,3%

93,7%

95,3%

100,0%

%Relativa

4,7%

7,9%

31,5%

47,2%

2,4%

1,6%

4,7%

Page 24: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 24

Per il data set Capelli, è possibile calcolare le frequenze cumulate?

> peso<-c(52,54,55,55,61,63,68,68,69,69,69,71,73,75, 76)> length(peso)[1] 15

Per il data set Peso, è possibile calcolare le frequenze cumulate?

> limiti<-c(50,60,70,80)

> pesotab<-factor(cut(peso,breaks=limiti))> obj1<-table(pesotab)> obj1pesotab

(50,60] (60,70] (70,80]

4 7 4

> data<-data.frame(round(prop.table(obj1)*100,2))> data

pesotab Freq1 (50,60] 26.672 (60,70] 46.673 (70,80] 26.67> data$Freq[1] 26.67 46.67 26.67> cumsum(data$Freq)[1] 26.67 73.34 100.01>

> freqcum<-cumsum(data$Freq)> datacum<-data.frame(data$pesotab, freqcum)> datacum

data.pesotab freqcum1 (50,60] 26.672 (60,70] 73.343 (70,80] 100.01>

Page 25: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 25

Rappresentazione dei dati

I dati raccolti in tabelle possono essere rappresentati attraverso grafici che offrono il vantaggio di una descrizione del fenomeno in

forma visiva.

Page 26: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 26

CartogrammaServe a rappresentare serie o seriazioni geografiche, ossiaquegli elementi costitutivi della popolazione che rappre-sentano modalità geografiche.

Esempio di serie

statistica

(variabile: potenziale)

Modalità

Page 27: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 27

Al sud siamo più bravi?

Page 28: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 28

Istogrammi (diagramma a barre)

0 10000 20000 30000 40000 50000 60000 70000 80000

Abbruzzo

Basilicata

Calabria

Campania

Emilia Rom.

Friuli

Lazio

Liguria

Lombardia

Marche

Molise

Piemonte

Puglia

Sardegna

Sicilia

Toscana

Trentino

Umbria

Valle D'Aosta

Veneto

La Lombardia ha ilmaggior numero diincidenti.

Page 29: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 29

Sul sito dell’ACI…

…aprendo il file…

Page 30: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 30

Regione Incidenti Totale Tasso Tasso%

Abruzzo 7252 827.395 0,009 0,88

Basilicata 1726 344.575 0,005 0,50

Calabria 6570 1.174.244 0,006 0,56

Campania 21587 3.370.661 0,006 0,64

Emilia Rom. 38497 2.673.730 0,014 1,44

Friuli 8207 758.581 0,011 1,08

Lazio 53240 3.807.796 0,014 1,40

Liguria 17048 837.669 0,020 2,04

Lombardia 74672 5.739.731 0,013 1,30

Marche 12373 979.722 0,013 1,26

Molise 933 195.784 0,005 0,48

Piemonte 25341 2.780.528 0,009 0,91

Puglia 24377 2.237.119 0,011 1,09

Sardegna 8628 980.716 0,009 0,88

Sicilia 26528 3.071.508 0,009 0,86

Toscana 34380 2.352.930 0,015 1,46

Trentino 5097 558.423 0,009 0,91

Umbria 5680 599.935 0,009 0,95

Valle D'Aosta 642 140.470 0,005 0,46

Veneto 29396 2.912.984 0,010 1,01

Incidenti stradali anno 2009: Totale: Parco macchine 2009

Tasso: Incidenti regionali/Parco macchine regionale

Tasso %: Tasso per 100

La Lombardia detiene ancorail primato?

Impossibile v isualizzare l'immagine.

Page 31: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 31

0,00 0,50 1,00 1,50 2,00 2,50

Abbruzzo

Basilicata

Calabria

Campania

Emilia Rom.

Friuli

Lazio

Liguria

Lombardia

Marche

Molise

Piemonte

Puglia

Sardegna

Sicilia

Toscana

Trentino

Umbria

Valle D'Aosta

Veneto

Tasso%

Page 32: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 32

E mettendo a confronto i due grafici…

0 10000 20000 30000 40000 50000 60000 70000 80000

Abbruzzo

Calabria

Emilia Rom.

Lazio

Lombardia

Molise

Puglia

Sicilia

Trentino

Valle D'Aosta

Tasso

Frequenze assolute

0,00 0,50 1,00 1,50 2,00 2,50

Abbruzzo

Calabria

Emilia Rom.

Lazio

Lombardia

Molise

Puglia

Sicilia

Trentino

Valle D'Aosta

Tasso%

Tasso%

Page 33: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 33

Diagrammi circolari (torte)

20%

31%28%

21%

Abitanti Torino (1999)

0 - 24 anni 25 - 44 anni 45 - 64 anni oltre 64 anni

Suddivisione per fasce di età degli abitanti di Torino

Esempio di seriazione

statistica

Esempio di serie statistica

Un cerchio – che rappresenta tuttoil campione – viene diviso in spicchi.L’area di ogni spicchio rappresentala frequenza relativa.

Finalità principale: evitare ordinamenti anche nelcaso di variabili quantitative.

Page 34: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 34

> B<-dati.frame$Freq> percentlabels<- round(100*B/sum(B), 1)> pielabels<- paste(percentlabels, "%", sep="")> pie(B, main="Capelli", col=rainbow(4), labels=pielabels, cex=0.8)> legend('topleft', c('Biondi','Castani','Neri','Rossi'), cex=0.8, fill=rainbow(4))>

23.8%28.6%

42.9%

4.8%

Capelli

BiondiCastaniNeri

Rossi

Diagrammi circolari (torte) in R

Page 35: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 35

Sono rappresentazioni mediante figure stilizzate che rappresentano il fenomeno studiato.

Ideogrammi

Prod.zucche qt

Mary 10

Anne 20

Jo 40

Page 36: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 36

Con questo diverso ideogramma l’impressione è diversa:

� la prima zucca occupa uno spazio rettangolare xy (x è la base e y l’altezza), � la seconda zucca (con dimensioni raddoppiate) occupa uno spazio 4xy� la terza zucca (con dimensioni quadruplicate) uno spazio 16xy.

Il rapporto tra le produzioni di Mary ed Anne è di 1 a 4 (e non 1 a 2, come il rapporto

tra 10 e 20 correttamente indicherebbe), mentre il rapporto tra le produzioni di Mary

e Joe è addirittura pari ad 1 a 16 (piuttosto che 1 a 4).

Prod.zucche qt

Mary 10

Anne 20

Jo 40

Questo tipo di grafico non è molto utilizzato

Page 37: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 37

Diagrammi cartesiani

ANNO VENDITE AUTO

1996 10.000

1997 15.000

1998 20.000

1999 18.000

2000 17.000

2001 22.000

2002 23.000

2003 10.0000

5000

10000

15000

20000

25000

1996 1997 1998 1999 2000 2001 2002 2003

Produzione

Produzione

Usati soprattutto per serie temporali, ossia per visualizzare un fenomeno nel tempo

La linea continua è facoltativa.

Page 38: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 38

Un esempio concreto di serie storica

�� �������� ����30������� ��������������� �

����� ��

Denominatore aggiornato con no. di aumenti di capitale, scissioni, fusioni

Page 39: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 39

Utilità: facile lettura nei confronti. Temperatura media a dicembre (linea blu).

Temperatura media nazionale (linea scura)

Temperatura a dicembre (linea verde)

Legenda del grafico:

Page 40: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 40

Per studiare il grado di dipendenza tra due insiemi di dati

Esempio: La tabella riporta il peso e l’altezza di 10 atleti.

Domanda: E’ possibile ipotizzare che il peso e l’altezza degli studenti siano legati da una relazione lineare?

Diagrammi cartesiani

Page 41: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 41

Diagrammi polari

Sono usati per particolari serie storiche con carattere di ciclicità.

assenze

0

10

20

30

40

50lunedì

martedì

mercoledìgiovedì

venerdì

assenze

Lunedì Martedì Mercoledì Giovedì Venerdì

50 40 30 40 50

Page 42: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 42

Istogrammi (diagramma a barre)

Città # disoccupati

per 100.000

Atlanta 7300

Boston 5400

Chicago 6700

Los Angeles 8900

New York 8200

Washington 8900

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

Atlanta Boston Chicago Los Angeles New York Washington

Disoccupati per 100.000

16%

12%

15%

19%

18%

20%

Disoccupati per 100.000

Atlanta

Boston

Chicago

Los Angeles

New York

Washington

Diagramma a torta

Freq.relative %

Page 43: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo; a.a. 15/16 43

Esempio: Il Signor X è il preside di una certa scuola e vuole preparare un rapportosul numero di ore a settimana che gli studenti trascorrono a studiare. Selezionapertanto un campione di 30 studenti e chiede a ciascuno di loro il numero di ore trascorse a studiare.

Istogrammi per variabili quantitative

15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7; 17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9; 10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6

Costruire una rappresentazione grafica dei dati.

0

5

10

15

20

25

30

35

40

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29

Ore

Ore

Un diagramma cartesiano non

sarebbe significativo.

Page 44: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 44

Istogrammi usando R

Determinare il numero delle classi di modalità.

In tal caso taglia= 30: 30 � 5,47~6

> ore_frame<-data.frame(ore)

> head(ore)ORE

1 15.02 23.73 19.74 15.45 18.36 23.0

> ore_frame$ORE[1] 15.0 23.7 19.7 15.4 18.3 23.0 14.2 20.8 13.5 20.7 17.4 18.6 12.9 20.3 13.7

[16] 21.4 18.3 29.8 17.1 18.9 10.3 26.1 15.7 14.0 17.8 33.8 23.2 12.9 27.1 16.6

> ore<-read.table(‘datasetore.txt',header=TRUE)> attach(ore)

> hist(ore_frame$ORE,prob=TRUE, col='blue',labels=T,breaks=6,main='ore di studio',xlab='ore di studio')

Page 45: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 45

ore di studio

ore di studio

De

nsity

10 15 20 25 30 35

0.0

00

.02

0.0

40

.06

0.053

0.073

0.047

0.02

0.007

Page 46: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 46

> str(objhist)List of 6

$ breaks : num [1:6] 10 15 20 25 30 35

$ counts : int [1:5] 8 11 7 3 1

$ density : num [1:5] 0.05333 0.07333 0.04667 0.02 0.00667

$ mids : num [1:5] 12.5 17.5 22.5 27.5 32.5

$ xname : chr "ore_frame$ORE"

$ equidist: logi TRUE

- attr(*, "class")= chr "histogram"

> sum(objhist$counts)

[1] 30

> sum(objhist$density)*5[1] 1

La somma delle aree dei rettangoli è pari a

0.0533*5+0.07333*5+0.04667*5+0.02*5+0.00667*5

Page 47: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/1647

Criticità: Al decrescere del numero delle classi la frequenza relativa decresce.

ore di studio

ore di studio

Den

sity

10 15 20 25 30

0.0

00

.02

0.0

40.0

60

.08

0.017

0.083

0.0670.067

0.083

0.067

0.05

0

0.033

0.017

0

0.017

Istogramma con 10 classi

> str(objhist)List of 6

$ breaks : num [1:13] 10 12 14 16 18 20 22 24

26 28 ...

$ counts : int [1:12] 1 5 4 4 5 4 3 0 2 1 ...

$ density : num [1:12] 0.0167 0.0833 0.0667

0.0667 0.0833 ...

$ mids : num [1:12] 11 13 15 17 19 21 23 25

27 29 ...

$ xname : chr "ore_frame$ORE"

$ equidist: logi TRUE

- attr(*, "class")= chr "histogram"

Istogramma delle densità

Page 48: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 48

La regola del pollice

Una linea guida o principio:

In una distribuzione di frequenza, le frequenze assolute

devono assumere un valore pari almeno a 5.

0,00

0,05

0,10

0,15

0,20

0,25

0,30

[10

;10

.5)

[11

.5;1

2)

[13

;13

.5)

[14

.5;1

5)

[16

;16

.5)

[17

.5;1

8)

[19

;19

.5)

[20

.5;2

1)

[22

;22

.5)

[23

.5;2

4)

[25

;25

.5)

[26

.5;2

7)

[28

;28

.5)

[29

.5;3

0)

[31

;31

.5)

[32

.5;3

3)

Page 49: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 49

> lines(density(ore_frame$ORE),col='red',lwd=3)

ore di studio

ore di studio

De

nsity

10 15 20 25 30 35

0.0

00

.02

0.0

40

.06

0.053

0.073

0.047

0.02

0.007

Page 50: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 50

Il vantaggio principale nell’uso della densitàè la possibilità di confrontare insiemi di dati diversi.

Esempio: Il Signor X vuole confontare i risultati ottenuti con quelli di un’altra scuolaad indirizzo diverso. Gli vengono forniti i dati di un secondo campione di 26 studenti.

25,8; 23,2; 10,1; 24,2; 21,0; 22.3; 15,1; 22,4; 28,3; 25,7; 19,8; 21,4; 17,7; 19,3; 18,2; 21,5; 23,3; 24,3; 20,9; 27,0; 22,3; 20,9; 21,1; 25,1; 23,9; 21,1

…E a proposito di confronti…

ore di studio

ore di studio

De

nsity

10 15 20 25 30 35

0.0

00

.02

0.0

40

.06

0.053

0.073

0.047

0.02

0.007

E’ possibile confrontarei due istogrammi?

a) Si riferiscono a taglie diverseb) Le classi di modalità hanno ampiezza diversac) Gli assi sono diversi!

Page 51: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 51

> objhist1<-hist(ore_frame$ORE,prob=TRUE, col='blue',labels=T,breaks=6,main='Ore di studio I scuola',xlab='ore di studio',ylim=range(0,0.12))

Il modo corretto di confrontare i due insiemi di dati è a) costruire un istogramma delle densitàb) uniformare asse x e asse y.

Ore di studio I scuola

ore di studio

De

nsity

10 15 20 25 30 35

0.0

00

.02

0.0

40

.06

0.0

80

.10

0.1

2

0.053

0.073

0.047

0.02

0.007

> str(objhist1)

List of 6

$ breaks : num [1:6] 10 15 20 25 30 35

$ counts : int [1:5] 8 11 7 3 1

$ density : num [1:5] 0.05333 0.07333 0.04667 0.02 0.00667

$ mids : num [1:5] 12.5 17.5 22.5 27.5 32.5

$ xname : chr "ore_frame$ORE"

$ equidist: logi TRUE

- attr(*, "class")= chr "histogram"

Page 52: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 52

Cosa si deduce dal confronto dei grafici?

> objhist1<-hist(ore_frame2$ORE2,prob=TRUE, col='blue',labels=T,breaks=6,main='Ore di studio II scuola',xlab='ore di studio',ylim=range(0,0.12),xlim=range(10,35))>

Ore di studio II scuola

ore di studio

De

nsity

10 15 20 25 30 35

0.0

00

.02

0.0

40

.06

0.0

80

.10

0.1

2

0.008

0.038

0.115

0.038

Page 53: Introduzione alla Statisticaold · confrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo è diverso. N.PERSONE 2 3.000

E. Di Nardo, a.a. 15/16 53

…E allora «Ditelo con un grafico»…

Intervento disponibile su:

https://www.youtube.com/watch?v=Tm7HiCExFlw