Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
E. Di Nardo, a.a. 15/16 1
Introduzione alla Statistica
� La statistica indaga su fenomeni collettivi, ossiafenomeni che coinvolgono un insieme di individui,oggetti, beni. Tale indagine è condottaraccogliendo informazioni relative a tali collettivie traducendo tali informazioni in un modellonumerico che possa essere analizzatosemplicemente.
Unità statistica = il singolo elemento della popolazione
Popolazione = il collettivo preso in esame
Che cosa è la Statistica?
E. Di Nardo, a.a. 15/16 2
Che cosa è una variabile statistica?
Una variabile statistica è una caratteristica oggetto di indagine.
Esempio:
E. Di Nardo, a.a. 15/16 3
E. Di Nardo, a.a. 15/16 4
Tipologie di analisi statistiche
Insieme di tecniche per organizzare,riassumere e presentare i dati.
Ma non si tratta solo di grafici….
o Il 2% delle lavatrici vendute da un negozio X presenta difetti di funzionamento.
o In questa classe, il voto medio è 25/30.
o Lo studente più anziano in questa classe ha 27 anni.
o Tra le adolescenti il colore maggiormente diffuso degli abiti è il nero.
ESEMPI:
E. Di Nardo, a.a. 15/16 5
Insieme di tecniche che consentono di generalizzare all’intera popolazionee con un certo margine di errore i risultati ottenuti da un sottoinsieme della popolazione, detto campione.
Esempio: Se in questa classe l’altezza media è 172cm, è possibile asserire che 172 cm
è l’altezza media della popolazione costituita dagli studenti UNIBAS?
Qualora la risposta fosse positiva, sono sicuro al 100% della validità di questa asserzione?
E. Di Nardo, a.a. 15/16 6
Esempi: A) Se gli studenti in questa classe si disponessero per altezza, come i signori di
questa fotografia, potremmo «proiettare» il profilo di questa curva su tutta la popolazione
di studenti UNIBAS?
B) Petrolio si o petrolio no?
E. Di Nardo, a.a. 15/16 7
� Variabili qualitative (o mutabili statistiche) : i valori assunti sono non-numerici.
Esempi: il colore degli occhi; la nazionalità; lo stato civile; l’affidabilità; l’attitudine ai lavori manuali; fasce di reddito…
� Variabili (quantitative): i valori assunti sono numeri.Esempi: la statura; il peso; il numero di stanze di un appartamento;
il numero di figli…
Classificazione delle variabili statistiche
Valori
Qualitative Modalità
Sconnessi (Nominali)
Ordinali
Quantitative
Classi di Modalità
Discreti
Continui
Modalità Discreti
E. Di Nardo, a.a. 15/16 8
Scala Nominale
1. Indicare il genere
�Maschio
�Femmina
2. Quale è il colore dei tuoi capelli?
� Castani
� Neri
� Biondi
� Bianchi
� Non so
3. Dove abiti?
�Centro città
�Periferia città
�Contrade
Questo è un primo esempio di RILEVAZIONE DEI DATI
� Schede
� Questionari
� Interviste (anche telefoniche)
� Exit Poll
Tipo
� Totale (censimento)
� Parziale (campionaria)
� Occasionale (sondaggi)
� Periodica
Mutuamente esclusive
Esaustive
*Elaborata dallo psicofisico
Stanley Smith Stevens
(1946)
I dati sono organizzati in categorie e non possono essere ordinati.
E. Di Nardo, a.a. 15/16 9
Scala OrdinaleScala Ordinale
I dati sono organizzati in categorie che possiedono un criterio di ordinamento.
1. Il tuo giudizio all’esame di III media è stato:
�Sufficiente
�Distinto
�Buono
�Ottimo
�Eccellente
2. A quale fascia ISEE appartieni?
� I (0-4.500,01)
� II (4.500,01-7.000)
� III (7.000,01-12.000)
� IV (12.000,01-18.000)
� …
� Non sono in fascia ISEE
� Ogni categoria esprime un rango(ossia una posizione)
� La distanza tra ranghi non necessariamente è quantificabile
� Non sono possibili operazioni numeriche tra ranghi, ma solo confronti (relazioni di ordine)
E. Di Nardo, a.a. 15/16 10
L’istituto nazionale di statistica(ISTAT: http://www.istat.it/it/ ) mette a disposizione banche dati sulle indagini effettuate sul territorio nazionale.
E. Di Nardo, a.a. 15/16 11
Scala Intervallare
� La distanza tra ranghi non necessariamente è quantificabile
� La distanza tra ranghi è quantificabilerispetto ad un intervallo preso come unitàdi misura.
Scale che misurano la stessa grandezza ma con unità di misura diverse possono associare allo stesso oggetto più numeri.
La temperatura
Nei test psicoattidunali non necessariamente
lo zero corrisponde a nessuna attitudine.
Operazioni di
Standardizzazione
0 Celsius = 32 Fahrenheit
E. Di Nardo, a.a. 15/16 12
Scala Rapporto
Per questo tipo di misure, lo zero non è arbitrario e corrisponde all’elemento di intensità nulla (assenza di proprietà) rispetto all’unità misurata.
L’altezza
Il tempo
La velocità
Il peso
Come rappresentare i dati?
Il modo più semplice ed immediato per rappresentare i dati è costituito da tabelle.
Colore capelli
(carattere)N° persone
(frequenza assoluta)
Neri 10Castani 6Rossi 1biondi 5totale 22
Frequenze
assolute
carattere
modalità
La frequenza assoluta indica quante volte la MODALITÀ di un carattere si ripete
E. Di Nardo, a.a. 15/16 14
E’ possibile verificare quale sia tale directory digitando dal prompt di R:
>getwd()
Creare tabelle in R
Il percorso completo va specificato con il comando > setwd(..)
Per leggere i dati nel file ed assegnarli a una variabile in R> dati<-read.table('datasetcapelli.txt',header=TRUE)
> head(dati)
Capelli
1 Neri
2 Castani
3 Biondi
4 Neri
5 Biondi
6 Rossi
Per rendere disponibili i dati nel workspace > attach(dati)
Per visionare la parte iniziale del vettore contenente i dati
E. Di Nardo, a.a. 15/16 15
Per contare le occorrenze delle modalità nel vettore dati, il comando è table(). Il parametro di input è la variabile dati.
> obj<-table(dati)> objdatiBiondi Castani Neri Rossi
5 6 10 1 > summary(obj)Number of cases in table: 22 Number of factors: 1
Colore capelli
(carattere)N° persone
(frequenza assoluta)
Neri 10Castani 6Rossi 1biondi 5totale 22
> data<-data.frame(obj)> data
dati Freq1 Biondi 52 Castani 63 Neri 104 Rossi 1
Per avere la tabella iniziale:
E. Di Nardo, a.a. 15/16 16
Come rappresentare i dati?
Seriazione statistica: Carattere quantitativo
Frequenza assoluta: numero di
volte in cui si verifica la modalità i
Con modalità
Con classi di modalità
# stanze # appartamenti
1 300
2 500
3 2.000
4 3.000
5 150
6 100
7 300
Peso (in grammi) # neonati
1.800-2.200 10
2.200-2.600 32
2.600-3.000 120
3.000-3.400 254
3.400-3.800 134
3.800-4.200 40
4.200-4.600 10
E. Di Nardo, a.a. 15/16 17
Dalle modalità alle classi di modalità
In caso di modalità numerose, è preferibile una rappresentazione in classi di modalità.
Peso (kg) Freq.Assoluta
52 1
54 1
55 2
61 1
63 1
68 2
69 3
71 1
73 1
75 1
76 1
Totale 15
Classi di Modalità Freq.Assoluta
[50;60) 4
[60;70) 7
[70;80) 4
Totale 15
E. Di Nardo, a.a. 15/16 18
Per ripartire i dati nelle classi di modalità usiamo il comando cut()
1. Definizione un vettore contenente i dati
> peso<-c(52,54,55,55,61,63,68,68,69,69,69,71,73,75, 76)> length(peso)[1] 15
> limiti<-c(50,60,70,80)
2. Definizione di un vettore contenente gli estremi
> pesotab<-factor(cut(peso,breaks=limiti))> obj1<-table(pesotab)> obj1pesotab
(50,60] (60,70] (70,80]
4 7 4
3. Ripartizione dei dati nelle classi
Dai dati alle classi di modalità
> data[1]pesotab
1 (50,60]2 (60,70]3 (70,80]> data[2]
Freq1 42 73 4
E. Di Nardo, a.a. 15/16 19
Serie statistica: Carattere qualitativo
Come rappresentare i dati?
TITOLO DI
STUDION.PERSONE
lic.elementare 2.000
lic. Media 6.000
diploma 10.000
laurea 2.000
ANNO VENDITE AUTO
1996 10.000
1997 15.000
1998 20.000
1999 18.000
2000 17.000
2001 22.000
2002 23.000
2003 10.000
Serie storica: variabile quantitativa
rilevata per modalità temporale.La frequenza assoluta non consente diconfrontare due insiemi di dati anche se si riferiscono alla stessa specie, poiché il numero di casi complessivo èdiverso.
N.PERSONE
2
3.000
4.000
7.000
11.000
Taglia: è il numero di unità statistiche esaminate
Frequenza relativa
E. Di Nardo, a.a. 15/16 20
La frequenza relativa di una certa modalità è data dal rapporto tra la frequenza assoluta di tale modalità ed il numero totale dei casi. Quando moltiplicate per 100 si dicono percentuali. Consideriamo i dati presenti nella seguente tabella
Colore capelli
(carattere)frequenze
assolute
neri 10
castani 6
rossi 1
biondi 5
TOTALE 22
Colore capelli
frequenze
assolute
frequenze
relative %
neri 10 45,46
castani 6 27,27
rossi 1 4,55
biondi 5 22,72
TOTALE 22 100
45,4510022
10=×
54,410022
1=×
27,2710022
6=×
72,2210022
5=×
Calcolo FREQUENZE RELATIVE
E. Di Nardo, a.a. 15/16 21
> data<-data.frame(obj)> data
dati Freq1 Biondi 52 Castani 63 Neri 104 Rossi 1
> data<-data.frame(round(prop.table(obj)*100,2))> data
dati Freq1 Biondi 22.732 Castani 27.273 Neri 45.454 Rossi 4.55
Colore capelli
frequenze
assolute
frequenze
relative %
neri 10 45,46
castani 6 27,27
rossi 1 4,55
biondi 5 22,72
TOTALE 22 100
E. Di Nardo, a.a. 15/16 22
300+500+2000+3000+150+100+300= 6350 (taglia)
Completare
la tabella
# stanze # appartamenti
1 300
2 500
3 2.000
4 3.000
5 150
6 100
7 300
Freq.rel Perc.
300/6350=0,047 0,047*100=4,7%
500/6350=0,079 7,9%
0,315 31,5%
0,472 47,2%
0,024 2,4%
0,016 1,6%
0,047 4,7%
Peso (in grammi) # neonati
1.800-2.200 10
2.200-2.600 32
2.600-3.000 120
3.000-3.400 254
3.400-3.800 134
3.800-4.200 40
4.200-4.600 10
Peso (in grammi) # neonati
10/600=0,017 1,7%
32/600=0,053 5,3%
0,2 20%
0,423 …
0,223 …
0,067 …
0,017 ..
E. Di Nardo, a.a. 15/16 23
Talvolta può essere utile calcolare anche la frequenza cumulata (percentuale o relativa)
Come si leggono i risultati in tabella relativi alla freq. cumulata?
� Il 12,6% degli intervistati ha appartamenti con un massimo di 2 stanze.
� Il 31,5% degli intervistati ha appartamenti con 3 stanze.
� Meno del 3% degli intervistati ha appartamenti con 5 stanze.
Frequenze cumulate
� Che percentuale di intervistati ha appartamenti con 5 stanze o più?
� Che percentuale di intervistati ha 3 o 4 stanze?
# stanze # appartamenti
1 300
2 500
3 2.000
4 3.000
5 150
6 100
7 300
%Relativa
4,7%
7,9%
31,5%
47,2%
2,4%
1,6%
4,7%
Freq.Cum.
0,047
0,126
0,441
0,913
0,937
0,953
1,000
Freq.Cum.%
4,7%
12,6%
44,1%
91,3%
93,7%
95,3%
100,0%
%Relativa
4,7%
7,9%
31,5%
47,2%
2,4%
1,6%
4,7%
E. Di Nardo, a.a. 15/16 24
Per il data set Capelli, è possibile calcolare le frequenze cumulate?
> peso<-c(52,54,55,55,61,63,68,68,69,69,69,71,73,75, 76)> length(peso)[1] 15
Per il data set Peso, è possibile calcolare le frequenze cumulate?
> limiti<-c(50,60,70,80)
> pesotab<-factor(cut(peso,breaks=limiti))> obj1<-table(pesotab)> obj1pesotab
(50,60] (60,70] (70,80]
4 7 4
> data<-data.frame(round(prop.table(obj1)*100,2))> data
pesotab Freq1 (50,60] 26.672 (60,70] 46.673 (70,80] 26.67> data$Freq[1] 26.67 46.67 26.67> cumsum(data$Freq)[1] 26.67 73.34 100.01>
> freqcum<-cumsum(data$Freq)> datacum<-data.frame(data$pesotab, freqcum)> datacum
data.pesotab freqcum1 (50,60] 26.672 (60,70] 73.343 (70,80] 100.01>
E. Di Nardo, a.a. 15/16 25
Rappresentazione dei dati
I dati raccolti in tabelle possono essere rappresentati attraverso grafici che offrono il vantaggio di una descrizione del fenomeno in
forma visiva.
E. Di Nardo, a.a. 15/16 26
CartogrammaServe a rappresentare serie o seriazioni geografiche, ossiaquegli elementi costitutivi della popolazione che rappre-sentano modalità geografiche.
Esempio di serie
statistica
(variabile: potenziale)
Modalità
E. Di Nardo, a.a. 15/16 27
Al sud siamo più bravi?
E. Di Nardo, a.a. 15/16 28
Istogrammi (diagramma a barre)
0 10000 20000 30000 40000 50000 60000 70000 80000
Abbruzzo
Basilicata
Calabria
Campania
Emilia Rom.
Friuli
Lazio
Liguria
Lombardia
Marche
Molise
Piemonte
Puglia
Sardegna
Sicilia
Toscana
Trentino
Umbria
Valle D'Aosta
Veneto
La Lombardia ha ilmaggior numero diincidenti.
E. Di Nardo, a.a. 15/16 29
Sul sito dell’ACI…
…aprendo il file…
E. Di Nardo, a.a. 15/16 30
Regione Incidenti Totale Tasso Tasso%
Abruzzo 7252 827.395 0,009 0,88
Basilicata 1726 344.575 0,005 0,50
Calabria 6570 1.174.244 0,006 0,56
Campania 21587 3.370.661 0,006 0,64
Emilia Rom. 38497 2.673.730 0,014 1,44
Friuli 8207 758.581 0,011 1,08
Lazio 53240 3.807.796 0,014 1,40
Liguria 17048 837.669 0,020 2,04
Lombardia 74672 5.739.731 0,013 1,30
Marche 12373 979.722 0,013 1,26
Molise 933 195.784 0,005 0,48
Piemonte 25341 2.780.528 0,009 0,91
Puglia 24377 2.237.119 0,011 1,09
Sardegna 8628 980.716 0,009 0,88
Sicilia 26528 3.071.508 0,009 0,86
Toscana 34380 2.352.930 0,015 1,46
Trentino 5097 558.423 0,009 0,91
Umbria 5680 599.935 0,009 0,95
Valle D'Aosta 642 140.470 0,005 0,46
Veneto 29396 2.912.984 0,010 1,01
Incidenti stradali anno 2009: Totale: Parco macchine 2009
Tasso: Incidenti regionali/Parco macchine regionale
Tasso %: Tasso per 100
La Lombardia detiene ancorail primato?
Impossibile v isualizzare l'immagine.
E. Di Nardo, a.a. 15/16 31
0,00 0,50 1,00 1,50 2,00 2,50
Abbruzzo
Basilicata
Calabria
Campania
Emilia Rom.
Friuli
Lazio
Liguria
Lombardia
Marche
Molise
Piemonte
Puglia
Sardegna
Sicilia
Toscana
Trentino
Umbria
Valle D'Aosta
Veneto
Tasso%
E. Di Nardo, a.a. 15/16 32
E mettendo a confronto i due grafici…
0 10000 20000 30000 40000 50000 60000 70000 80000
Abbruzzo
Calabria
Emilia Rom.
Lazio
Lombardia
Molise
Puglia
Sicilia
Trentino
Valle D'Aosta
Tasso
Frequenze assolute
0,00 0,50 1,00 1,50 2,00 2,50
Abbruzzo
Calabria
Emilia Rom.
Lazio
Lombardia
Molise
Puglia
Sicilia
Trentino
Valle D'Aosta
Tasso%
Tasso%
E. Di Nardo, a.a. 15/16 33
Diagrammi circolari (torte)
20%
31%28%
21%
Abitanti Torino (1999)
0 - 24 anni 25 - 44 anni 45 - 64 anni oltre 64 anni
Suddivisione per fasce di età degli abitanti di Torino
Esempio di seriazione
statistica
Esempio di serie statistica
Un cerchio – che rappresenta tuttoil campione – viene diviso in spicchi.L’area di ogni spicchio rappresentala frequenza relativa.
Finalità principale: evitare ordinamenti anche nelcaso di variabili quantitative.
E. Di Nardo, a.a. 15/16 34
> B<-dati.frame$Freq> percentlabels<- round(100*B/sum(B), 1)> pielabels<- paste(percentlabels, "%", sep="")> pie(B, main="Capelli", col=rainbow(4), labels=pielabels, cex=0.8)> legend('topleft', c('Biondi','Castani','Neri','Rossi'), cex=0.8, fill=rainbow(4))>
23.8%28.6%
42.9%
4.8%
Capelli
BiondiCastaniNeri
Rossi
Diagrammi circolari (torte) in R
E. Di Nardo, a.a. 15/16 35
Sono rappresentazioni mediante figure stilizzate che rappresentano il fenomeno studiato.
Ideogrammi
Prod.zucche qt
Mary 10
Anne 20
Jo 40
E. Di Nardo, a.a. 15/16 36
Con questo diverso ideogramma l’impressione è diversa:
� la prima zucca occupa uno spazio rettangolare xy (x è la base e y l’altezza), � la seconda zucca (con dimensioni raddoppiate) occupa uno spazio 4xy� la terza zucca (con dimensioni quadruplicate) uno spazio 16xy.
Il rapporto tra le produzioni di Mary ed Anne è di 1 a 4 (e non 1 a 2, come il rapporto
tra 10 e 20 correttamente indicherebbe), mentre il rapporto tra le produzioni di Mary
e Joe è addirittura pari ad 1 a 16 (piuttosto che 1 a 4).
Prod.zucche qt
Mary 10
Anne 20
Jo 40
Questo tipo di grafico non è molto utilizzato
E. Di Nardo, a.a. 15/16 37
Diagrammi cartesiani
ANNO VENDITE AUTO
1996 10.000
1997 15.000
1998 20.000
1999 18.000
2000 17.000
2001 22.000
2002 23.000
2003 10.0000
5000
10000
15000
20000
25000
1996 1997 1998 1999 2000 2001 2002 2003
Produzione
Produzione
Usati soprattutto per serie temporali, ossia per visualizzare un fenomeno nel tempo
La linea continua è facoltativa.
E. Di Nardo, a.a. 15/16 38
Un esempio concreto di serie storica
�� �������� ����30������� ��������������� �
����� ��
Denominatore aggiornato con no. di aumenti di capitale, scissioni, fusioni
E. Di Nardo, a.a. 15/16 39
Utilità: facile lettura nei confronti. Temperatura media a dicembre (linea blu).
Temperatura media nazionale (linea scura)
Temperatura a dicembre (linea verde)
Legenda del grafico:
E. Di Nardo, a.a. 15/16 40
Per studiare il grado di dipendenza tra due insiemi di dati
Esempio: La tabella riporta il peso e l’altezza di 10 atleti.
Domanda: E’ possibile ipotizzare che il peso e l’altezza degli studenti siano legati da una relazione lineare?
Diagrammi cartesiani
E. Di Nardo, a.a. 15/16 41
Diagrammi polari
Sono usati per particolari serie storiche con carattere di ciclicità.
assenze
0
10
20
30
40
50lunedì
martedì
mercoledìgiovedì
venerdì
assenze
Lunedì Martedì Mercoledì Giovedì Venerdì
50 40 30 40 50
E. Di Nardo, a.a. 15/16 42
Istogrammi (diagramma a barre)
Città # disoccupati
per 100.000
Atlanta 7300
Boston 5400
Chicago 6700
Los Angeles 8900
New York 8200
Washington 8900
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
Atlanta Boston Chicago Los Angeles New York Washington
Disoccupati per 100.000
16%
12%
15%
19%
18%
20%
Disoccupati per 100.000
Atlanta
Boston
Chicago
Los Angeles
New York
Washington
Diagramma a torta
Freq.relative %
E. Di Nardo; a.a. 15/16 43
Esempio: Il Signor X è il preside di una certa scuola e vuole preparare un rapportosul numero di ore a settimana che gli studenti trascorrono a studiare. Selezionapertanto un campione di 30 studenti e chiede a ciascuno di loro il numero di ore trascorse a studiare.
Istogrammi per variabili quantitative
15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7; 17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9; 10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6
Costruire una rappresentazione grafica dei dati.
0
5
10
15
20
25
30
35
40
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
Ore
Ore
Un diagramma cartesiano non
sarebbe significativo.
E. Di Nardo, a.a. 15/16 44
Istogrammi usando R
Determinare il numero delle classi di modalità.
In tal caso taglia= 30: 30 � 5,47~6
> ore_frame<-data.frame(ore)
> head(ore)ORE
1 15.02 23.73 19.74 15.45 18.36 23.0
> ore_frame$ORE[1] 15.0 23.7 19.7 15.4 18.3 23.0 14.2 20.8 13.5 20.7 17.4 18.6 12.9 20.3 13.7
[16] 21.4 18.3 29.8 17.1 18.9 10.3 26.1 15.7 14.0 17.8 33.8 23.2 12.9 27.1 16.6
> ore<-read.table(‘datasetore.txt',header=TRUE)> attach(ore)
> hist(ore_frame$ORE,prob=TRUE, col='blue',labels=T,breaks=6,main='ore di studio',xlab='ore di studio')
E. Di Nardo, a.a. 15/16 45
ore di studio
ore di studio
De
nsity
10 15 20 25 30 35
0.0
00
.02
0.0
40
.06
0.053
0.073
0.047
0.02
0.007
E. Di Nardo, a.a. 15/16 46
> str(objhist)List of 6
$ breaks : num [1:6] 10 15 20 25 30 35
$ counts : int [1:5] 8 11 7 3 1
$ density : num [1:5] 0.05333 0.07333 0.04667 0.02 0.00667
$ mids : num [1:5] 12.5 17.5 22.5 27.5 32.5
$ xname : chr "ore_frame$ORE"
$ equidist: logi TRUE
- attr(*, "class")= chr "histogram"
> sum(objhist$counts)
[1] 30
> sum(objhist$density)*5[1] 1
La somma delle aree dei rettangoli è pari a
0.0533*5+0.07333*5+0.04667*5+0.02*5+0.00667*5
E. Di Nardo, a.a. 15/1647
Criticità: Al decrescere del numero delle classi la frequenza relativa decresce.
ore di studio
ore di studio
Den
sity
10 15 20 25 30
0.0
00
.02
0.0
40.0
60
.08
0.017
0.083
0.0670.067
0.083
0.067
0.05
0
0.033
0.017
0
0.017
Istogramma con 10 classi
> str(objhist)List of 6
$ breaks : num [1:13] 10 12 14 16 18 20 22 24
26 28 ...
$ counts : int [1:12] 1 5 4 4 5 4 3 0 2 1 ...
$ density : num [1:12] 0.0167 0.0833 0.0667
0.0667 0.0833 ...
$ mids : num [1:12] 11 13 15 17 19 21 23 25
27 29 ...
$ xname : chr "ore_frame$ORE"
$ equidist: logi TRUE
- attr(*, "class")= chr "histogram"
Istogramma delle densità
E. Di Nardo, a.a. 15/16 48
La regola del pollice
Una linea guida o principio:
In una distribuzione di frequenza, le frequenze assolute
devono assumere un valore pari almeno a 5.
0,00
0,05
0,10
0,15
0,20
0,25
0,30
[10
;10
.5)
[11
.5;1
2)
[13
;13
.5)
[14
.5;1
5)
[16
;16
.5)
[17
.5;1
8)
[19
;19
.5)
[20
.5;2
1)
[22
;22
.5)
[23
.5;2
4)
[25
;25
.5)
[26
.5;2
7)
[28
;28
.5)
[29
.5;3
0)
[31
;31
.5)
[32
.5;3
3)
E. Di Nardo, a.a. 15/16 49
> lines(density(ore_frame$ORE),col='red',lwd=3)
ore di studio
ore di studio
De
nsity
10 15 20 25 30 35
0.0
00
.02
0.0
40
.06
0.053
0.073
0.047
0.02
0.007
E. Di Nardo, a.a. 15/16 50
Il vantaggio principale nell’uso della densitàè la possibilità di confrontare insiemi di dati diversi.
Esempio: Il Signor X vuole confontare i risultati ottenuti con quelli di un’altra scuolaad indirizzo diverso. Gli vengono forniti i dati di un secondo campione di 26 studenti.
25,8; 23,2; 10,1; 24,2; 21,0; 22.3; 15,1; 22,4; 28,3; 25,7; 19,8; 21,4; 17,7; 19,3; 18,2; 21,5; 23,3; 24,3; 20,9; 27,0; 22,3; 20,9; 21,1; 25,1; 23,9; 21,1
…E a proposito di confronti…
ore di studio
ore di studio
De
nsity
10 15 20 25 30 35
0.0
00
.02
0.0
40
.06
0.053
0.073
0.047
0.02
0.007
E’ possibile confrontarei due istogrammi?
a) Si riferiscono a taglie diverseb) Le classi di modalità hanno ampiezza diversac) Gli assi sono diversi!
E. Di Nardo, a.a. 15/16 51
> objhist1<-hist(ore_frame$ORE,prob=TRUE, col='blue',labels=T,breaks=6,main='Ore di studio I scuola',xlab='ore di studio',ylim=range(0,0.12))
Il modo corretto di confrontare i due insiemi di dati è a) costruire un istogramma delle densitàb) uniformare asse x e asse y.
Ore di studio I scuola
ore di studio
De
nsity
10 15 20 25 30 35
0.0
00
.02
0.0
40
.06
0.0
80
.10
0.1
2
0.053
0.073
0.047
0.02
0.007
> str(objhist1)
List of 6
$ breaks : num [1:6] 10 15 20 25 30 35
$ counts : int [1:5] 8 11 7 3 1
$ density : num [1:5] 0.05333 0.07333 0.04667 0.02 0.00667
$ mids : num [1:5] 12.5 17.5 22.5 27.5 32.5
$ xname : chr "ore_frame$ORE"
$ equidist: logi TRUE
- attr(*, "class")= chr "histogram"
E. Di Nardo, a.a. 15/16 52
Cosa si deduce dal confronto dei grafici?
> objhist1<-hist(ore_frame2$ORE2,prob=TRUE, col='blue',labels=T,breaks=6,main='Ore di studio II scuola',xlab='ore di studio',ylim=range(0,0.12),xlim=range(10,35))>
Ore di studio II scuola
ore di studio
De
nsity
10 15 20 25 30 35
0.0
00
.02
0.0
40
.06
0.0
80
.10
0.1
2
0.008
0.038
0.115
0.038
E. Di Nardo, a.a. 15/16 53
…E allora «Ditelo con un grafico»…
Intervento disponibile su:
https://www.youtube.com/watch?v=Tm7HiCExFlw