Upload
ledung
View
216
Download
0
Embed Size (px)
Citation preview
Laboratorio di Probabilità e Statistica
Massimo Guerriero – Ettore Benedetti
lezione 2
Informazioni utili per il laboratorio
• Ogni studente ha a disposizione 120MB di spazio disco in rete.
Superata la quota disco si verificano svariati problemi:• Impossibilità di accedere
• Bug grafici della scrivania
• Crash o funzionamento scorretto di programmi (tra cui R)
• Cosa fare quando il problema si presenta?
• Digitare la combinazione "CTRL + ALT + F1" ed effettuare il Log-In.
• Inserire il comando "du –h" per verificare lo spazio occupato
• Se risulta essere >= 100/120Mb digitare i comandi:
• rm –r .cache per rimuovere la cache (file temporanei di scarsa importanza)
• rm –r .mozilla per rimuovere file di configurazione di firefox e file temporanei
che si sono creati navigando sul web.
Altrimenti rivolgersi all’ufficio tecnico.
• E’ possibile prevenire questi errori
• Salvando tutto su supporto media esterno (USB)
• Impostando un limite per la cache di Firefox (Opzioni Avanzate Rete Limita la cache)
Indice Lezione
• Prerequisiti dalla lezione scorsa
• Spiegazione dettagliata sul dataset che utilizzeremo per queste lezioni.
• Rappresentazioni grafiche
• Funzione di ripartizione
• Poligono di frequenza
• Come scegliere il grafico più adatto
• Indici di Posizione
• Moda
• Mediana, quartili e quantili
• Boxplot
• Media Aritmetica
• Come utilizzare questi strumenti
• Indici di Dispersione
• Varianza
• Scarto quadratico medio e coefficiente di variazione
Prerequisiti dalla lezione scorsa
• Linguaggio R ed Ambiente di sviluppo (IDE) funzionanti
• Dataset dello scorso anno caricato correttamente in una
variabile nel proprio workspace.
• In queste lezioni chiameremo tale variabile "dataset"
• Confidenza con i comandi base di R e con il suo ambiente di sviluppo
• Realizzazione di script (comandi salvati in un file di testo, editato con l’IDE)
• Trattamento dati (compreso variabile "dataset").
• Salvataggio Output
• Visualizzazione di semplici grafici di frequenza (istogrammi - bastoncini – pie)
Dataset utilizzato – in dettaglio
Descrizione dello studio
http://benedettiettore.altervista.org/Statistica/
Variabili nel dettaglio
http://benedettiettore.altervista.org/Statistica/html/TabellaDati.html
Funzione di ripartizione 1/2
Per i fenomeni quantitativi può risultare utile disegnare la funzione di
ripartizione, definita a partire dalle frequenze cumulate.
In R si ottiene con il comando ecdf(variabile)
Nel caso discreto con 4 persone si copre
abbiamo un l’80% della popolazione
diagramma a scala
plot(ecdf(dataset$nucleo), verticals=TRUE, main="Nucleo Famigliare")
Funzione di ripartizione 2/2
Nel caso continuo…
X = rnorm(100) # X è una variabile che contiene 100 numeri casuali normalmente distribuiti
plot(ecdf(X), verticals=TRUE, main="Ecdf Continua")
Poligono di Frequenza
• Si usa per fenomeni raccolti in classi.
• Confrontare linee risulta a volte più semplice di confrontare istogrammi.
In R non esiste già implementata, creiamola noi!
hist.poligono <- function(x){
ist <- hist(x)
lines(c(min(ist$breaks), ist$mids,
max(ist$breaks)), c(0,ist$counts,0))
}
Chiamiamola ora con il comando:
hist.poligono(dataset$nucleo)
Come scegliere il grafico più adatto
Fenomeno Qualitativo
Scala NominaleTorta – Rettangoli –
Bastoncini
Scala OrdinaleTorta – Rettangoli –
Bastoncini
Fenomeno Quantitativo
DiscretoBastoncini –Torta –
Ripartizione – Boxplot (se dati molto dispersi)
ContinuoIstogrammi (a causa delle
classi) – Boxplot
Consegna
1) Prendere confidenza con il Dataset
2) Plottare la funzione di ripartizione su:
• anni
• hlav
• hlib_lv
3) Plottare altri 2-3 grafici per tipi di dati diversi
Indice Lezione
• Prerequisiti dalla lezione scorsa
• Spiegazione dettagliata sul dataset che utilizzeremo per queste lezioni.
• Rappresentazioni grafiche
• Funzione di ripartizione
• Poligono di frequenza
• Come scegliere il grafico più adatto
• Indici di Posizione
• Moda
• Mediana, quartili e quantili
• Boxplot
• Media Aritmetica
• Come utilizzare questi strumenti
• Indici di Dispersione
• Varianza
• Scarto quadratico medio e coefficiente di variazione
Moda
E’ definito come quel valoredi un fenomeno statisticoche presenta frequenzapiù elevata.
Se il fenomeno è raggruppato in classi, è definito come il punto medio dell’intervallocon densità di frequenzapiù elevata.
Se ci sono più valori con densità di frequenza "più elevata", la distribuzione è detta plurimodale.
Moda = 1
= Per Nulla
Moda = punto centrale
20 -| 40
= 30
Mediana, quartili e quantili 1/2
La mediana è definita come quel valore che, una volta ordinati i dati del
campione, lascia alla sua destra e alla sua sinistra la metà del campione.
In R si utilizza il comando median(vettore sequenza)
Es.
median(c(4,3,4,1,7)) [1] 4
median(c(4,3,1,7)) [1] 3.5
E’ legata al concetto di "funzione di ripartizione":
Cumulando i valori del campione fino alla mediana,
si arriva infatti a considerare il primo 50% di tutte le osservazioni.
50%
50%
0.5
F(4) = 0.5
Mediana, quartili e quantili 2/2
Quartili e quantili sono anch’essi legati analogamente al concetto
di "funzione di ripartizione“:
• Cumulando i valori del campione fino al primo quartile
si arriva a considerare il 25% di tutte le osservarzioni. (F(Q1)=0.25)
• Cumulando fino al secondo quartile si ha la mediana. (F(Q2)=0.5)
• Cumulando fino al terzo quartile si considerano il 75% delle osservazioni. (F(Q3)=0.75)
In generale un quantile di una distribuzione di dati è quel valore xp tale per
cui F(xp) = p con p ∈ (0 , 1).
Boxplot
I quartili e la mediana sono molto informativi dal punto di vista grafico.
Riguardiamo il boxplot della scorsa lezione:
Gli estremi della scatola sonoQ1 e Q3, la linea più marcata rappresenta la mediana Q2.
I «baffi» vengono posti ad unadistanza da Q1 e da Q3 pari a 1.5 * (Q3-Q1). Se questa distanza supera gli estremi, il baffo viene accorciato.
Es. Baffo inferiore dell’immagine a lato
25%
50%
75%
100%
Q1
Q2
Q3
Media Aritmetica
La media aritmetica si calcola in R con il comando mean(vettore)
E’ estremamente sensibile a valori atipici:
Es. Media vs Mediana
X<-c(10,20,30)mean(X) [1] 20median(X) [1] 20
X<-c(10,20,300)mean(X) [1] 110median(X) [1] 20
X<-c(0,20,30)mean(X) [1] 16.66median(X) [1] 20
Come utilizzare questi strumenti
Indice Carattere qualitativo nominale
Carattere qualitativo
ordinale
Carattere quantitativo
Moda SI SI SI
Mediana NO SI SI
Quartili NO SI SI
Boxplot NO NO SI
Media NO NO SI
Range NO NO SI
Consegna
1) Studiare il Boxplot di 4 variabili a scelta
2) Verificare il comando summary(variabile)
3) Sviluppare una funziona che calcola la moda di una certa variabile
Suggerimento: Vedi la funzione wich.max(variabile)
Indice Lezione
• Prerequisiti dalla lezione scorsa
• Spiegazione dettagliata sul dataset che utilizzeremo per queste lezioni.
• Rappresentazioni grafiche
• Funzione di ripartizione
• Poligono di frequenza
• Come scegliere il grafico più adatto
• Indici di Posizione
• Moda
• Mediana, quartili e quantili
• Boxplot
• Media Aritmetica
• Come utilizzare questi strumenti
• Indici di Dispersione
• Varianza
• Scarto quadratico medio e coefficiente di variazione
Varianza
L’idea è di utilizzare un indice che tenga conto di come i valori si distribuiscano intorno alla propria media, per misurare in modo oggettivo quello che ci appare graficamente.
Varianza 𝜎2 =1
𝑛 𝑖=1𝑛 (𝑥𝑖 − 𝑥𝑛)
2
Varianza campionaria 𝑆𝑛2=
1
𝑛−1 𝑖=1𝑛 (𝑥𝑖 − 𝑥𝑛)
2
R prende in considerazione solo la varianza campionaria con il comando var(vettore) .
Si ottiene facilmente da questa 𝜎2 moltiplicando per 𝑛−1
𝑛.
Scarto quadratico medio e coefficiente di variazione
Se dovessimo calcolare la varianza del peso di una popolazione avremmo tale indice espresso come Kg2. Per rendere più leggibile la variabilità di un fenomeno si ricorre allo scarto quadratico medio.
Definito come: 𝜎 = 𝜎2
Regola del 3-Sigma (empirica) l’89% dei dati di un campione si trovanell’intervallo [ 𝑥𝑛 − 3𝜎 ; 𝑥𝑛 + 3𝜎]. I dati al di fuori di questo intervallopossiamo chiamarli outlier.
Il coefficiente di variazione CV, essendo adimensionale, viene utilizzato per confrontare la variabilità di fenomeni diversi.
E’ definito come: CV= 𝜎
𝑥𝑛∙ 100 Se CV > 49% siamo portati
a pensare che la variabilità è alta
Consegna
1) Creare una funzione che calcola la varianza
2) Creare una funzione che calcola il coefficiente di variazione
3) Verificare la regola del 3-Sigma sulla variabile "dataset$valogg"
4) Valutare il CV su:
• valogg
• hlav
• genere
• spesa_mese