128
Appunti di Statistica sociale (Draft) Ilia Negri [email protected] 5 gennaio 2014

Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

Appunti di Statistica sociale(Draft)

Ilia [email protected]

5 gennaio 2014

Page 2: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2

Page 3: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

Indice

1 Indroduzione: perche la statistica sociale 3

1.1 Perche la statistica serve a tutti . . . . . . . . . . . . . . . . . . . . . 3

1.2 La statistica nella vita di tutti i giorni . . . . . . . . . . . . . . . . . 5

2 Rappresentare i dati e le loro distribuzioni 7

2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 Prime definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3 Diversi dati diverse variabili . . . . . . . . . . . . . . . . . . . . . . . 10

2.4 Dati e tavole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.5 Dati e grafici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.6 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.6.1 Il geyser Old Faithful . . . . . . . . . . . . . . . . . . . . . . . 30

2.6.2 Un caso di attribuzione letteraria . . . . . . . . . . . . . . . . 34

2.6.3 Il primo bacio non si scorda mai . . . . . . . . . . . . . . . . . 35

3 Valori medi 41

3.1 La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.2 La media artitmetica . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.3 La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.4 Medie per i dati in classi . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.5 Simmetria e asimmetria . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.6 Quale media scegliere? . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.7 Quartili, perentili e quantili . . . . . . . . . . . . . . . . . . . . . . . 53

3.8 Il box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.9 Soluzione degli esercizi assegnati . . . . . . . . . . . . . . . . . . . . . 55

4 La variabilita 57

4.1 Il range e lo scarto interquartile . . . . . . . . . . . . . . . . . . . . . 58

4.2 Scarto quadratico medio e varianza . . . . . . . . . . . . . . . . . . . 60

1

Page 4: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2 INDICE

5 Operazioni sui dati 63

5.1 Trasformazioni di scala . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.2 Standardizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

6 Siamo tutti normali? 71

6.1 La curva e normale! . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6.2 La normale standardizzata . . . . . . . . . . . . . . . . . . . . . . . . 76

6.3 Un po’ di formule matematiche e un po’ di storia . . . . . . . . . . . 81

7 Dal campione alla popolazione 83

7.1 Campionamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

7.2 Dalla popolazione al campione: il caso della media . . . . . . . . . . . 86

8 Intervalli di confidenza 89

8.1 La media campionaria . . . . . . . . . . . . . . . . . . . . . . . . . . 90

8.2 Gli ingredienti e la ricetta . . . . . . . . . . . . . . . . . . . . . . . . 90

9 La proporzione 95

9.1 Il modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

9.2 Intervallo di confidenza per la proporzione π . . . . . . . . . . . . . . 97

10 Test statistici 99

10.1 Verifica d’ipotesi: la teoria . . . . . . . . . . . . . . . . . . . . . . . . 99

10.2 Verifica d’ipotesi: la pratica . . . . . . . . . . . . . . . . . . . . . . . 102

10.2.1 Test per la media di popolazione normale: σ nota . . . . . . . 102

10.2.2 Test per la media di popolazione normale: σ non nota . . . . . 105

10.2.3 Test per la proporzione . . . . . . . . . . . . . . . . . . . . . . 108

10.3 Il livello di significativia del test: α . . . . . . . . . . . . . . . . . . . 111

10.4 Test con alternativa unilaterale . . . . . . . . . . . . . . . . . . . . . 112

11 Tabelle di contingenza 117

11.1 Il test χ2 per l’associazione tra due variabili . . . . . . . . . . . . . . 117

11.2 Prima le donne e i bambini . . . . . . . . . . . . . . . . . . . . . . . . 121

11.3 Dire qualcosa di piu sulla dipendenza . . . . . . . . . . . . . . . . . . 124

11.4 Odds Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

Page 5: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

Capitolo 1

Indroduzione: perche la statisticasociale

1.1 Perche la statistica serve a tutti

Che ci pensiate o meno e che ci crediate o meno la vostra vita e piena degli embrioni

dei concetti che trovano la loro esatta formulazione nella statistica. Qualche esem-

pio? Pensate a quando la mattina prima di uscire di casa decidete se prendere o meno

l’ombrello. Se avrete successo o meno ad un incontro che vi interessa particolarmen-

te. O al voto che prevedete di prendere in questo esame. Quello che state facendo e

elaborare un concetto statistico sulla base dei dati che avete immagazzinato con la

vostra esperienza.

La statistica non e altro che quella materia che si occupa di capire e che utilizza

i dati. I dati possono essere di qualunque tipo o natura. Qualche esempio? La

serie storica delle precipitazioni in una qualunque citta, la rilevazione del quoziente

di intelligenza, il numero di volte che uno scrittore usa un certo tipo di parole non

contestuali ogni mille parole (tipo: da, allora, quindi, . . . ), il numero di giorni che

una persona passa in vacanza in un anno.

Nel nostro corso ci occuperemo di due tipi di statistica. Il primo tipo e la statisti-

ca descrittiva che consiste nei metodi per descrivere e sintetizzare le caratteristiche

salienti di un certo insieme di dati. Le caratteristiche salienti di un insieme di dati

sono in genere la loro distribuzione, il loro valore medio e la loro variabilita. Osserva-

zione importante: la variabilita e la caratteristica fondamentale della statistica. Se

non ci fosse variabilita non ci sarebbe la statistica e vivremmo in un mondo banale

tutto uguale ad una media! I metodi utilizzati sono principalmente i grafici, e poi

metodi numerici (occorrera fare qualche calcolo) per dare informazioni sulla media

e sulla variabilita dei dati che ci appropinquiamo ad analizzare.

3

Page 6: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

4 CAPITOLO 1. INDRODUZIONE: PERCHE LA STATISTICA SOCIALE

Il secondo tipo di statistica e quella inferenziale, che si occupa di utilizzare quel

poco di cui siamo a conoscenza per estenderlo, facendo una stima o delle previsioni,

a quello che non possiamo conoscere.

Per questo tipo di statistica un ruolo importante riveste la teoria della probabilita.

La teoria della probabilita e infatti in grado di fornire un modello matematico per

l’incertezza dei possibili risultati di un fenomeno. In questo senso la probabilita

puo essere vista come una misura dell’incertezza. Possiamo dire che la statistica e

capace di quantificare l’incertezza, tramite la probabilita. Essa mette gli statistici in

grado di fare affermazioni categoriche, cioe in completa sicurezza, circa il loro grado

di incertezza!

Ad esempio, l’istat conduce ogni anno le indagini sul benessere delle famiglie

italiane. Si registrano in ogni provincia il numero di famiglie monogenitoriali su un

certo numero di capifamiglia intervistati. La percentuale di famiglie monogenitoriali

in una certa provincia rilevata tra gli intervistati, puo essere usata come stima per

la percentuale di famiglie monogenitoriali in quella provincia, e sulla base di questa

stima il governo locale puo prevedere una serie di servizi legati al welfare. Con la

teoria della probabilita potremo avere un modello di questa percentuale e saremo in

grado di dire ad esempio: la percentuale di famiglie monogenitoriali in Italia non e

uguale in tutte le province. Nel fare questa affermazione ci si concede di sbagliare il

5% dei casi. Cioe si fa un’affermazione certa sul grado di incertezza!

Naturalmente non saremo mai in grado di dire quante sono le famiglie monoge-

nitoriali in una certa provincia in un certo istante, ma siamo in grado di prevedere

in maniera verosimile la proporzione di tali famiglie.

La statistica e importante nella vita di tutti i giorni perche senza la vita reale

non ci sarebbe bisogno della statistica! Come si diceva sopra, se tutti la pensassero

e agissero allo stesso modo e se tutto fosse sempre uguale a se stesso, non avremmo

bisogno di prevedere nulla! E sarebbe un mondo senza statistica ma molto noioso!

Nella vita reale ogni cosa e diversa e ogni individuo pensa e agisce in modo

diverso. Nelle scienze sociali la statistica e utilizzata per spiegare le differenze tra

gruppi di persone o luoghi. Ad esempio possiamo essere interessati a come varia il

numero di famiglie monogenitoriali rispetto alle condizioni economiche e sociali di

un gruppo di famiglie, oppure rispetto alla posizione geografica.

Come potete rendervi conto se aprite un giornale o un sito web, la statistica

viene utilizzata pressoche ovunque, con grafici, opinioni basate su dati e previsioni

su andamenti di vari fenomeni. Spesso queste informazioni possono influenzare anche

la vita delle persone in modo rilevante. Questo corso cerchera di mostrarvi come

utilizzare varie tecniche della statistica, e anche se non le utilizzerete mai piu nella

vita, come il detto, impara l’arte e mettila da parte, sarete almeno in grado di capire

Page 7: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

1.2. LA STATISTICA NELLA VITA DI TUTTI I GIORNI 5

Figura 1.1: Il grafico trasmesso da Fox News

come vengono fatte certi tipi di analisi e di previsione e non vi farete ingannare da

chi a volte usa i dati in modo non appropriato per ingannare o attirare favori!

1.2 La statistica nella vita di tutti i giorni

Questo e un esercizio utile. Prendiamo un giornale qualunque e andiamo a vedere

quanti grafici vengono riportati e in che contesto. Cerchiamo di capire se ci sono

descrizioni dei dati o previsioni. Ci renderemo conto durante il corso come cambiera

la nostra sensibilita di fronte allo notizie che riportano questo tipo di informazioni.

Come compito durante il corso dovrete sempre prendere un giornale e analizzare

questo tipo di informazioni.

Se lo farete sarete in grado una volta che lavorerete in una redazione di fermare la

messa in onda di un grafico di questo tipo. Nella Figura 1.1 appare il grafico a torta

presentato durante una trasmissione televisiva molto famosa degli USA. A un certo

numero di persone era stato chiesto quali candidati vedevano favorevolmente per

Page 8: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

6 CAPITOLO 1. INDRODUZIONE: PERCHE LA STATISTICA SOCIALE

contrastare Obama. Casa c’e di sbagliato? Cosa puo avere indotto questo errore?

Proveremo a rispondere nella Sezione 2.5.

Page 9: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

Capitolo 2

Rappresentare i dati e le lorodistribuzioni

In questo capitolo dopo aver dato alcune definizioni importanti e fondamentali per

cominciare a studiare e a capire la statistica, presenteremo i diversi tipi di dati

con cui possiamo avere a che fare in indagini statistiche, e quindi mostreremo come

questi dati possano essere rappresentati sia in forma di tabelle che in forma di grafici

e disegni.

2.1 Introduzione

Molti lettori forse non conoscono il significato della parola distribuzione. Prima di

cominciare ad analizzare i dati occorre introdurre qualche termine specifico della

statistica per capirci e capire di cosa stiamo parlando. Ogni qualvolta si vuole stu-

diare un fenomeno in cui e presente una certa variabilita della risposta in presenza

delle stesse condizioni entra in gioco la statistica. Proviamo a cercare qualche esem-

pio nella vita di tutti i giorni. Le famiglie della provincia di Bergamo aventi un

certo reddito e composte da un certo numero di componenti scelgono luoghi diversi

e tempi diversi per le loro vacanze. Se vogliamo studiare il fenomeno riguardante le

vacanze delle famiglie della provincia di Bergamo (fenomeno di interesse per gli enti

pubblici, e o privati e che interessa diversi tipi di studiosi, di sociologia, di economia

ad esempio) entra in gioco la statistica.

I tecnici incaricati di uno studio sulla fattibilita di un impianto in grado di tra-

sformare in energia elettrica l’energia scaturita durante le eruzioni di vapore acqueo

di un geyser registrano per ogni eruzione il tempo di pausa tra un’eruzione e la suc-

cessiva e il tipo di di eruzione. Anche in questo caso per decidere sulla fattibilia (dal

7

Page 10: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

8 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

punto di vista economico, di impatto ambientale e di gestione delle risorse) entra in

gioco la statistica.

I metodi statistici si occupano principalmente

1. di raccogliere i dati;

2. della presentazione dei dati;

3. dell’analisi dei dati.

Sulla base delle informazioni fornite dai dati ed elaborate dagli statistici stara ai

tecnici e agli studiosi delle diverse discipline prendere decisioni sul fenomeno oggetto

di studio, sia esso un’indagine sulle famiglie monogenitoriali, sulle vacanze degli

italiani o sulla fattibilia di un impianto industriale, piuttosto che risolvere problemi

concernenti il disegno e la progettazione di prodotti e processi industriali. Sulla base

delle stesse informazioni si puo considerare anche l’impiego dei dati a fini previsivi

e conoscitivi di un fenomeno.

In ultima analisi si puo dire che il primo scopo della statistica e la la compren-

sione delle cause della variabilita. Per parafrasare e ricordare questo scopo citiamo

la Legge di Murphy (A. Bloch): “Anche sotto le condizioni piu rigorosamente con-

trollate un sistema si comporta come gli pare e piace”; e la sua trasposizione sul

territorio coniata dal Prof. Roberto Colombi come Legge bergamasca: “Non tutte

le ciambelle riescono col buco!”

2.2 Prime definizioni

Supponiamo di aver fatto un indagine per capire come lo stato civile, il grado di

scolarita e il reddito influenzino il numero di figli presenti in un certo nucleo fami-

gliare rappresentato dal capofamiglia (non necessariamente di sesso maschile). Il

fenomeno studiato in questo caso e di tipo sociale. Si intervistano 20 capofamiglia

e le loro risposte sono elencate nella Tavola 2.1.

Le 20 persone intervistate costituiscono un campione della popolazione di tutte

le famiglie. La popolazione in statistica non necessariamente sara riferita a persone.

Si tratta in generale di un concetto astratto che non puo essere osservato nella sua

interezza e completezza e per questo motivo se ne sceglie un campione. Ad esempio

nell’esempio sulla fattibilia dell’impianto per la generazione dell’energia dalle eru-

zioni del geyser, la popolazione e costituita da tutte le possibili eruzioni passate,

presenti e future del geyser. Tornaniamo ora all’ultimo esempio, per introdurre l’og-

getto principale della statistica. I quattro argomenti di cui viene richiesto il valore

(stato civile, grado di scolarita, numero dei figli, reddito) sono chiamate variabili.

Page 11: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2.2. PRIME DEFINIZIONI 9

u X Y Z W

unita stato grado di numero di redditostat. civile scolarita figli in ¤

1 N L 0 72.502 S O 1 54.283 V A 3 50.024 V O 4 88.885 C L 1 62.306 N S 1 45.217 C S 0 57.508 C O 2 78.409 V L 3 75.13

10 N O 0 58.0011 N S 1 53.7012 N A 0 91.2913 S S 1 74.7014 C S 4 41.2215 N S 3 65.2016 C L 0 63.5817 V O 2 48.2718 S O 2 52.5219 C S 4 69.5020 C S 4 85.98

Tabella 2.1: Stato civile X, grado di scolarita Y , numero di figli Z, reddito W di 20capofamiglia intervistati per un indagine sociale.

Page 12: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

10 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Ogni rispondente e detto unita statistica o caso. Le risposte che ogni unita stati-

stica da, ovvero i valori delle variabili osservati sulle unita statistiche, sono dette

osservazioni. In ogni insieme di dati (chiamato dataset) i casi o le unita statistiche

sono gli individui o le unita del campione. Le variabili sono invece le caratteristiche

che assumono valori diversi su ogni unita del campione o individuo. Poiche repetita

iuvant vediamo di fissare questi primi concetti.

Definizione 2.2.1. La popolazione e l’intera collezione di individui, oggetti, eventi,

astratta o concreta, sulla quale si ricercano informazioni.

Non e possibile osservare interamente la popolazione, per cui si ricorre ad un

sottoinsieme di essa.

Definizione 2.2.2. Un sottoinsieme della popolazione e detto campione. Sono gli

elementi della popolazione che si osservano realmente.

Vale la pena osservare che un campione non garantisce di riflettere sempre le

caratteristiche della popolazione. A volte puo essere sostanzialmente diverso dalla

popolazione da cui viene estratto. Due campioni della stessa popolazione sono diversi

uno dall’altro a volte anche enormemente diversi.

Definizione 2.2.3. Unita statistica o caso e ogni elemento del campione.

Definizione 2.2.4. Variabile e ogni caratteristica di interesse che viene rilevata

sugli elementi del campione.

Definizione 2.2.5. Dataset e l’insieme di tutti i valori di ogni variabile che e

rilevata sugli elementi del campione.

2.3 Diversi dati diverse variabili

Le variabili possono essere di diverso tipo a seconda delle modalita con cui si mani-

festano i diversi valori che assumono. I valori che assumono sulle unita del campione

sono i nostri dati. Le due grandi categorie sono le variabili quantitative (o nume-

riche) e le qualitative (o categoriche). Tra le quantitative distinguiamo le variabili

numeriche discrete (risultato di un conteggio) e le continue (risultato in genere di

una misura di qualunque tipo). Tra le qualitative distinguiamo tra quelli ordinali

(dove e possibile stabilire un ordine tra le categorie) e nominali (dove questo ordine

non e possibile). Il modo migliore per riconoscere il tipo di variabile e pensare alle

operazioni che si possono fare su di loro. La prima domanda e sicuramente: sono

Page 13: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2.3. DIVERSI DATI DIVERSE VARIABILI 11

numeri oppure no? Se sono numeri si tratta di variabili quantitative altrimenti quali-

tative. Prestare attenzione che a volte nei risultati di un indagine le qualita possono

essere codificate con un codice numerico! Questo non significa che ad esempio, se

il sesso viene codificato con 1 (femmina) e 2 (maschio), il sesso sia una variabile

numerica! Se sono numeri la seconda domanda e: sono il risultato di un conteggio o

di una misurazione (con cronometro, bilancia, o qualsiasi altro strumento) espressa

in una certa unita di misura? Nel primo caso si tratta di variabili numeriche discrete

nel secondo caso di variabili continue. Tutte le variabili inerenti il denaro (reddito,

prezzo di un’azione ad esempio) sono in genere considerate come variabili continue

(si misurano nella unita di valuta corrente, ad esempio ¤). Se non si tratta di nume-

ri la domanda e: posso ordinare le categorie? Se la risposta e affermativa si tratta

di variabili qualitative ordinabili, altrimenti si tratta di una variabile nominale. Si

noti che tutte le variabili qualitative presentano al piu un numero finito di moda-

lita, quindi anche loro a volte sono chiamate discrete. Il seguente schema riassume

quanto appena descritto per i diversi tipi di dati o variabili con anche alcuni esempi.

• Numerici o quantitativi

– Risultato di una misura: continui (distanza, reddito, durata, peso)

– Risultato di un conteggio: discreti (numero di figli, numero di esami,

numero di giorni)

• Categorici o qualitativi (nominali o ordinali)

– Ordinali (titolo di studio, scala Mercalli per l’intensita di un terremoto)

– Nominali (genere, religione, trattamento)

Vediamo alcuni esempi.

Esempio 2.3.1. Su un campione di n = 20 capofamiglia sono state rilevate le

seguenti variabili: stato civile (X), livello di scolarita (Y ), numero di figli (Z),

reddito in migliaia di euro (W ). Lo stato civile presenta le seguenti modalita

X =

N = Nubile o celibe

C = Coniugato

V = Vedovo

S = Separato, divorziato

Page 14: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

12 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Si tratta di una variabile qualitativa nominale. Il livello di scolarita (Y ), presenta

le seguenti modalia

Y =

A = Analfabeta, alfabeta

O = Scuola dell’obbligo

S = Diploma di scuola superiore

L = Laurea e superiore

Si tratta di una variabile qualitativa ordinale (e possibile dire sempre quale modalita

viene prima di un’altra) La variabile numero di figli (Z) e una variabile numerica

discreta. La variabile reddito (W ) e una variabile numerica continua (misurata in

¤). I risultati dell’indagine sono riportati nella Tabella 2.1, che rappresenta il nostro

dataset.

Esempio 2.3.2. La Tabella 2.2 rappresenta i valori della scala Mercalli per misurare

l’intensita di un terremoto in base agli effetti prodotti. In questo caso non si tratta

di un dataset. Provate pero a descrivere un possibile campione e a capire chi e la

popolazione.

Esempio 2.3.3. La Tabella 2.3 registra la durata (in minuti) del periodo dormiente

delle eruzioni e tipo dell’eruzione precedente del geyser Old Faithful (Wyoming,

USA). In questo caso la popolazione sono tutte le possibili eruzioni del geyser. Il

campione e costituito dalle n = 60 eruzioni analizzate. Le variabili considerate sono

due. La prima nella tabella e indicata con Pausa. Si tratta di una variabile continua

(durata della pausa, viene misurata in minuti con un cronometro). La seconda

e il Tipo di eruzione precedente a quella considerata. Si tratta di una variabile

qualitativa ordinale. Le eruzioni precedenti sono classificate secondo questa variabile

in due categorie (le modalita della variabile): Corta o Lunga. E una variabile

ordinale poiche si puo sempre dire che Corta viene prima di Lunga.

Esercizio 2.3.4. Raccogliere da giornali e riviste esempi di indagini statistiche ed

identificare il fenomeno, la popolazione, il campione, le unita statistiche, le variabili

analizzate.

2.4 Dati e tavole

Quando si hanno i dati relativi ad una o piu variabili rilevate su un campione di

n unita statistiche la prima volonta dello statistico e quella di rappresentare i dati.

Rappresentare i dati significa in realta dare un immagine di come si distribuiscono

Page 15: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2.4. DATI E TAVOLE 13

Grado Denominazione Effetti

1 Strumentale E percepita solo dai sismografi.

2 Leggerissima E avvertita solo dalle persone ipersensibili inmomenti di quiete e ai piani piu elevati.

3 Leggera

Viene avvertita da un numero maggiore dipersone, le quali non si allarmano perche ge-neralmente non si rendono conto che si trattaeffettivamente di scosse telluriche.

4 Mediocre

Le persone che sono in casa l’avvertono equalcuna anche tra quelle che si trovano al-l’aperto. I lampadari oscillano, i pavimentipossono dare degli scricchiolii.

5 Forte

Sentita tanto dalle persone che si trovano incasa quanto da quelle fuori casa. Gli ogget-ti sospesi oscillano ampiamente, gli orologi apendolo si fermano, si hanno tremiti dei ve-tri e delle stoviglie. Si ha risveglio brusco dalsonno e puo generare panico senza danni allepersone.

6 Molto forte

Gli oggetti cadono e cosı i calcinacci dei muriin cui si possono formare lievi lesioni. Lapopolazione, presa dal panico, abbandona lecase.

7 FortissimaPossono cadere comignoli e tegole, mentrei muri presentano lesioni non molto gravi.Suono di campane.

8 RovinosaLesioni gravi ai fabbricati, crollo di qual-che muro interno. Qualche ferito, raramentevittime.

9 DisastrosaAlcuni crolli di case, altri edifici gravemen-te lesionati. Molti i feriti, non numerose levittime.

10 DistruttriceCrolli di molti fabbricati. Parecchie levittime, moltissimi i feriti.

11 CatastrofeNumerose vittime. Quasi tutti gli edificicrollati.

12 Grande catastrofeFormazione di crepacci e frane. Distruzionedi qualsiasi opera umana.

Tabella 2.2: Descrizione delle diverse modalita della scala Mercalli che misural’intensita di un terremoto in base agli effetti sulla popolazione.

Page 16: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

14 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Pausa Tipo Pausa Tipo Pausa Tipo Pausa Tipo76 Lunga 90 Lunga 45 Corta 84 Lunga80 Lunga 42 Corta 88 Lunga 70 Lunga84 Lunga 91 Lunga 51 Corta 79 Lunga50 Corta 51 Corta 80 Lunga 60 Lunga93 Lunga 79 Lunga 49 Corta 86 Lunga55 Corta 53 Corta 82 Lunga 71 Lunga76 Lunga 82 Lunga 75 Lunga 67 Corta58 Corta 51 Corta 73 Lunga 81 Lunga74 Lunga 76 Lunga 67 Lunga 76 Lunga75 Lunga 82 Lunga 68 Lunga 83 Lunga80 Lunga 84 Lunga 86 Lunga 76 Lunga56 Corta 53 Corta 72 Lunga 55 Corta80 Lunga 86 Lunga 75 Lunga 73 Lunga69 Lunga 51 Corta 75 Lunga 56 Corta57 Lunga 85 Lunga 66 Corta 83 Lunga

Tabella 2.3: Durata del periodo dormiente (Pausa) e tipo di eruzione precedente(Tipo) di un campione di 60 eruzioni del geyser Old Faithful (Wyoming, USA).

questi dati, cioe e dare un’immagine della distribuzione dei dati. Le tavole di dati

sono il primo esempio della rappresentazione della distribuzione dei dati.

A questo punto e necessaria una precisazione. Esiste una distribuzione della

variabile che stiamo studiando sulla popolazione che non potremo mai sapere come e

fatta. Proveremo a immaginarla e a fare qualche ipotesi su di essa. (Ricordiamoci che

solo Dio, per chi crede, conosce questa distribuzione). Noi mortali statistici possiamo

solo ricavare la distribuzione della variabile su un campione e descrivere questa

distribuzione (statistica descrittiva). Dopo questa descrizione, potremo mettere un

modello sulla variabile e sulla base dei dati ricavati sul campione potremo dire se il

modello proposto e corretto oppure no (statistica inferenziale).

Quindi veniamo alle tavole. Torniamo all’Esempio 2.3.1. Concorderete sul fatto

che mostrare la Tavola 2.1 dell’intero dataset non da molte informazioni al lettore.

Questo fatto e ancora piu evidente se guardiamo la Tavola 2.3 dei dati dell’Esempio

2.3.3.

Lo scopo delle tavole e quello di rappresentare un insieme di dati. Il tipo di

tavole e le informazioni contenute in essa naturalmente dipendono dal tipo di dati

e di quante variabili andiamo a descrivere la distribuzione.

Anche se si puo pensare che fare una tavola sia un operazione assai semplice,

come ci si puo rendere conto leggendo un giornale, non sempre sono di facile com-

Page 17: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2.4. DATI E TAVOLE 15

X ni fi = ni/n pi = fi · 100%

N 6 0.30 30C 7 0.35 35V 4 0.20 20S 3 0.15 15

Totale n = 20 1.00 100

Tabella 2.4: Tavola delle frequenze assolute (ni), relative (fi) e percentuali (pi) per lavariabile X stato civile nel campione dell’esempio 2.3.1. X assume i seguenti valori:N=nubile o celibe, C=coniugato/a, V=vedovo/a, S=separato/a o didorziato/a

prensione. Dobbiamo tenere presente quando andiamo a fare una tavola che lo scopo

principale di una tavola e trasformare un insieme di dati in un formato che sia fa-

cile da capire e che faccia capire le caratteristiche salienti della distribuzione che

andiamo a rappresentare.

Come dicevamo sopra il tipo di tavola e le informazioni che puo contenere dipen-

dono dal tipo di variabile i cui dati osservati andiamo a rappresentare. Cominciamo

con i dati dell’Esempio 2.3.1.

Consideriamo la variabile X stato civile. Come abbiamo visto si tratta di una

variabile qualitativa non ordinale. Riportare in una tabella la distribuzione di questa

variabile sul campione osservato, significa riportare in una tabella i valori che questa

variabile assume e le frequenze con cui questi valori sono assunti. Le frequenze per

questo tipo di dati possono essere di tre tipi a seconda dell’interesse che abbiamo. La

Tabella 2.4 le riporta tutte e tre. Si tratta delle frequenze assolute, delle frequenze

relative e delle frequenze percentuali.

Come si calcolano? Le frequenze assolute si calcolano semplicemente contando

quante volte si presenta una certa modalita. Nel campione considerato ad esempio

sono presenti 6 nubili o celibi, 7 coniugati e cosı via. Le frequenze assolute si indicano

in genere con ni dove la i in basso e un indice che sta ad indicare la generica modalita

ovvero la i-esima modalita. Nel nostro esempio n1 (quindi per i = 1) sta and indicare

la frequenza assoluta dei nubili o celibi, n2 sta ad indicare il numero dei coniugati, n3

il numero dei vedovi ed n4 il numero dei separati. Abbiamo cosı le quattro frequenze

assolute n1, n2, n3 ed n4 che si possono anche scrivere ni con i da 1 a 4 ovvero ni,

i = 1, . . . , 4. Naturalmente la somma delle frequenze assolute deve essere uguale

al numero delle osservazioni, nell’esempio abbiamo: 6 + 7 + 4 + 3 = 20 in formula

n1 + n2 + n3 + n4 = n, dove n = 20. In generale se ci sono k modalita avremo k

Page 18: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

16 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

frequenze assolute (nell’esempio k = 4) e abbiamo la prima formula di questo testo:

k∑i=1

ni = n, ovvero n1 + n2 + · · ·+ nk = n

che si legge: la somma delle frequenze assolute e uguale al numero delle osservazioni.

Le frequenze relative sono invece calcolate dividendo ogni frequenza assoluta

per il numero totale di osservazioni. In sostanza fatto un intero la totalita delle

osservazioni (nell’esempio le venti osservazioni diventano l’intero) si va a vedere

che parte di questo intero si prende ciascuna modalita. Ad esempio la frequenza

relativa dei nubili e 0.30. La somma di tutte le frequenze relative e 1. Le frequenze

percentuali sono praticamente la stessa cosa delle frequenze relative, ma l’intero si

considera uguale a 100. Nell’esempio, il 30% del campione osservato e costituito da

nubili o celibi. Indicate con fi le frequenze relative e con pi le frequenze percentuali,

il loro calcolo avviene in questo modo

fi =nin, pi =

nin· 100%, i = 1, . . . , k

La seconda formula di questo libro ci dice che la somma delle frequenze relative e 1,

mentre la somma delle frequenze percentuali e 100%.

k∑i=1

fi = 1k∑i=1

pi = 100%

Le frequenze relative e quelle percentuali a differenza delle frequenze assolute per-

mettono un confronto immediato tra distribuzioni con numerosita diverse. Conside-

riamo il seguente esempio.

Esempio 2.4.1. Un campione di 10000 iscritti ad una societa di lavoro interinale so-

no analizzati in base al sesso e all’avviamento al lavoro. Lo studio ha come obiettivo

quello di capire se ci sia discriminazione di genere. I dati percentuali sono riportati

in nella Tabella 2.5. La tabella ci dice che delle 10000 unita intervistate il 53.4%

sono maschi e il 46.6% sono femmine. Per quanto riguarda la condizione lavorativa

abbiamo che tra coloro avviati al lavoro che sono 1700, il 59% sono uomini, il 41%

sono donne. Le frequenze assolute si possono ricavare dalla tabella se sono date le

numerosita totali. Ad esempio Il 59% di 1700 e 1003, quindi sono 1003 gli uomini

avviati al lavoro dei 5340 mentre il 41% di 1700 e 697 che sono le donne avviate

al lavoro delle 4660. Le percentuali in questo caso ci forniscono un indicazione del

fenomeno nel suo complesso permettendo un confronto.

Page 19: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2.4. DATI E TAVOLE 17

Iscritti alla Societa Avviati al lavoro(10000) (1700)

Maschi 53.40 59.00Femmine 46.60 41.00

100 100

Tabella 2.5: Percentuali degli iscritti ad una societa di lavoro interinale in base alsesso e alla condizione rispetto all’avviamento al lavoro. Campione di 10000 unita.Dati dell’autore. Tra parentesi le numerosita assolute.

Riguardo all’esempio occorre fare due precisazioni. La prima riguarda la nume-

rosia sulla quale si basa la percentuale. Se non fossero fornite le numerosita tra

parentesi non potremmo risalire alle frequenze assolute e quindi, ad esempio, calco-

lare la frequenza relativa di donne avviate al lavoro: 697/4660 = 0.15 cioe il 15% e

la frequenza relativa di uomini avviati al lavoro 1003/5340 = 0.19 cie il 19%. Quindi

in una tabella di frequenze relative o percentuali occorre dare le informazioni che

permettano di risalire ai dati originali, cioe occorre dare la numerosita totale da cui

si ricavano le percentuali. La seconda precisazione riguarda le cifre decimali. In

una tabella occorre che tutte le frequenze relative abbiano sempre lo stesso numero

di decimali. Il problema e quante cifre decimali? In genere non esiste una rego-

la fissa, a volte puo dipendere anche da esigenze grafiche. Una regola empirica e

quella di utilizzare due cifre decimali in piu rispetto a quelle dei numeri sui quali

si compie l’operazione. Quindi se abbiamo numeri interi, con zero cifre decimali,

il rapporto puo essere espresso con due cifre. L’importante e che tutti i numeri

abbiano lo stesso numero di cifre decimali. Con le cifre decimali abbiamo anche il

problema dell’arrotondamento. Il numero π = 3.141593 arrotondato alla seconda

cifra significativa decimale e 3.14, arrotondato a tre cifre decimali e 3.142. Infatti

arrotondiamo al numero con tre cifre decimali piu vicino al numero π. Abbiamo

che 4.141 < 3.141593 < 3.142 e π e piu vicino a 3.142. Quindi ogni volta che la

cifra che segue il decimale al quale si vuole arrotondare e maggiore o uguale a 5 si

arrotonda al decimale successivo. Ogni volta che e minore di 5 si arrotonda al de-

cimale stesso. Ad esempio quando abbiamo calcolato la frequenza relativa di donne

avviate al lavoro: 697/4660 = 0.1495708 lo abbiamo arrotondato a 0.15. Quando

si fanno gli arrotondamenti occorre prestare attenzione anche ad un altro fatto. La

somma totale delle frequenze relative deve essere uno. Puo capitare che in seguito

agli arrotondamenti la somma sia piu grande o piu piccola di uno. In questo caso

occorre fare degli aggiustamenti diversi per far si che la somma dia uno. La regola

puo essere quella, se ad esempio la somma delle frequenze relative e 1.1, di arroton-

Page 20: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

18 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

dare per difetto il numero decimale tra quelli arrotondati per eccesso che si discosta

meno dal 5. Ad esempio se abbiamo arrotondato a due cifre decimali le frequenze

relative 0.1791, 0.1753, 0.1771, 0.4685 otteniamo 0.18, 0.18, 0.18, 0.47. La somma

di dei numeri arrotondati e 1.01. osservando i 4 numeri tutti arrotondati per eccesso

notiamo che quello che era piu lontano dal suo arrotondamento e 0.1753 e quindi

questo sara arrotondato a 0.17. Quindi le frequenze relative sono 0.18, 0.17, 0.18,

0.47 e in questo caso la somma e uno.

Per i caratteri ordinali si possono calcolare le frequenze cumulate, sia assolute che

relative che percentuali. Esse rispondono a domande del tipo: quante osservazioni

vi sono che si presentano con meno di un certo valore? Per ottenere la frequenza

cumulata di una modalita si sommano la frequenza relativa di quella modalita e

di tutte le precedenti. Quindi se ci sono k modalita con frequenze relative f1,

f2, . . . , fk tali che∑k

i=1 fi = 1, la prima frequenza relativa cumulata e uguale al

valore della frequenza relativa della prima modalita, F1 = f1, la seconda frequenza

relativa cumulata F2 = f1 +f2. In generale la i-esima frequenza cumulato e ottenuta

sommando le prime i frequenze relative Fi = f1+f2+· · ·+fi =∑i

j=1 fj, i = 1, . . . , k.

Esempio 2.4.2. Rendimento (I insufficiente, S = sufficiente, B = buono e O =

ottimo) rilevato su 350 studenti:

S, S, O, S, O, O, B, B, B, O, O, B, O, B, B, O, I, B, O, O, B, O, B, B, B, B, O,

I, S, I, I, O, B, O, O, B, O, O, B, S, O, B, O, B, O, I, B, O, I, I, O, O, O, I, B, S,

B, B, B, O, B, I, O, I, B, O, O, O, O, B, O, B, O, B, B, B, O, O, B, S, I, O, O, O,

S, S, B, S, O, I, O, B, B, I, B, O, I, O, O, S, I, O, O, O, B, I, O, O, I, O, B, O, S,

I, B, I, O, I, B, B, B, O, O, B, I, S, O, I, O, O, O, B, B, I, B, B, B, I, S, O, O, B,

B, O, S, I, B, B, I, O, B, S, O, B, B, B, B, O, S, O, O, O, O, O, O, B, B, O, O, O,

I, B, B, O, O, O, B, O, B, B, O, B, B, O, B, I, O, O, O, B, O, O, O, I, O, O, B, O,

B, O, O, O, B, S, O, O, B, O, I, O, O, S, I, O, B, O, I, B, O, B, B, O, O, O, I, B,

O, O, S, O, B, O, O, O, B, B, B, O, B, I B, B, B, O, B, B, O, O, O, I, O, O, O, B,

I, O, O, B, O, B, O, O, O, B, I, B, B, B, O, I, O, I, B, B, O, O, O, B, O, S, O, I,

O, O, O, B, B, B, B, B, B, B, I, O, O, B, O, B, O, O, B, O, O, O, B, B, O, B, O,

O, B, O, S, B, B, I, O, B, B, B, O, I, B, B, I, B, O, O, B, O, S, O, O, I, O, O, B,

O, O, O, O, B, O, B, B, O, O, B, O, B

La Tabella 2.6 riporta le frequenze assolute ni, le frequenze relative fi, le frequen-

ze percentuali pi, le frequenze cumulate assolute Ni, le frequenze relative cumulate

Fi e le frequenze cumulate percentuali Pi. Possiamo rispondere alle seguenti doman-

de direttamente dalle frequenze cumulate. Che proporzione di studenti hanno un

rendimento superiore o uguale a sufficiente? Poice il 13% ha un rendimento inferiore

a sufficiente, il 100-13=87% ha un rendimento superiore a sufficiente. Quanti stu-

denti hanno un rendimento superiore o uguale a sufficiente? L’87% degli studenti

Page 21: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2.4. DATI E TAVOLE 19

xi ni fi pi Ni Fi PiI 45 0.13 13% 45 0.13 13%S 23 0.07 7% 68 0.20 20%B 124 0.35 35% 192 0.55 55%O 158 0.45 45% 350 1 100%

Totale 350 1.00 100% 350 1.00 100%

Tabella 2.6: Tavola delle frequenze assolute, relative, percentuali, cumulate assolute,cumulate relative e cumulate percentuali per la variabile Rendimento, rilevata su 350studenti, I=insufficiente, S=sufficiente, B=buono, O=ottimo.

ha un rendimento superiore o uguale a sufficiente, prendendo la frequenza relativa

0.87 e moltiplicandola per il numero di studenti 0.87*350=304.5! come e possibile?

Il motivo e legato agli arrotondamenti sulle frequenze relative. Se consideriamo le

frequenze assolute il numero di studenti con un rendimento superiore o uguale a

sufficiente e 23+124+158=305! Che proporzione di studenti hanno un rendimento

inferiore a buono? Equivale a chiedere la proporzione di studenti che hanno un ren-

dimento inferiore o uguale a sufficiente e quindi 0.20. Che proporzione di studenti

hanno un rendimento inferiore o uguale a buono? Questo valore e dato direttamente

dal valore 0.55.

Riassumendo per i dati qualitativi nominali si possono calcolare e rappresentare

in una tabella le seguenti frequenze

• frequenze assolute: n1, n2, . . . , ni, . . . , nk;∑k

i=1 ni = n

• frequenze relative: fi = nin

;∑k

i=1 fi = 1

Se la variabile e ordinale si possono aggiungere le

• frequenze cumulate: Fi =∑i

j=1 fj, i = 1, . . . , k.

La Tabella 2.7 calcola le tre frequenze per la variabile tipo di eruzione precedente.

Si noti che essendoci solo due modalita calcoliamo solo due frequenze assolute e

relative e una sola cumulata, in quanto la seconda e ultima e sempre 1.

Per fare una bella tabella occorre tenere presente le seguenti norme:

1. Indicare sempre chiaramente cosa contiene la tabella. A chi o a cosa, dove e

quando sono stati rilevati i dati. Se necessario numerare la tavola.

2. Indicare sempre il nome ad ogni colonna e ad ogni riga. Se si usano acronimi

indicare sempre il significato.

Page 22: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

20 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Corta Lunga Totaleni 17 43 60fi 0.28 0.72 1Fi 0.28 1 –

Tabella 2.7: Frequenze assolute, relative e cumulate della variabile tipo di eruzioneprecedente per dati dell’Esempio 2.3.3.

3. Indicare sempre l’unita di misura.

4. Indicare i valori totali.

5. Incolonnare propriamente i numeri (i decimali devono stare allineati).

6. Utilizzare lo stesso numero di decimali.

7. Indicare la fonte dei dati.

2.5 Dati e grafici

Produrre bei grafici permette di capire molto dei dataset con solo uno sguardo.

Inoltre in genere per le persone e molto meglio capire un grafico che una tavola

piena di numeri.

Vi sono diversi grafici che e possibile utilizzare per rappresentare i dati. Il tipo

di grafico dipende dal tipo di dati.

Se i dati sono qualitativi nominali possono essere rappresentati graficamente in

diversi modi:

• tramite rettangoli

• grafici a torta

• rappresentazione tramite figure

Nella rappresentazione tramite rettangoli, o barre, le modalita x1, x2, . . . , xkdel carattere si sistemano su un segmento orizzontale in qualsiasi ordine e in modo

equispaziato. In corrispondenza di ciascuna modalita si disegnano rettangoli di

stessa base e altezza proporzionale alle frequenze ni, fi o pi.

Se nello stesso grafico si rappresentano piu fenomeni occorre che l’altezza sia

proporzionale alle frequenze fi o pi in modo da poterli confrontare.

Page 23: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2.5. DATI E GRAFICI 21

01

23

45

67

stato civile

freq

C N S V

Figura 2.1: Grafico delle frequenze assolute della variabile Stato civile nell’Esempio2.3.1.

Page 24: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

22 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

C

N

S

V

stato civile

Figura 2.2: Grafico a torta delle frequenze assolute della variabile Stato civilenell’Esempio 2.3.1.

Nella rappresentazione tramite diagrammi a torta (detti anche grafici a torta)

si disegna un cerchio e si identificano dei settori circolari la cui ampiezza (o la cui

area) e proporzionale alle frequenze relative fi o percentuali pi. L’intero cerchio

rappresenta quindi la totalita del fenomeno, cioe vale 1 o 100% a seconda delle fre-

quenze rappresentate. Anche in questo caso i settori vengono disegnati in un ordine

qualsiasi e vengono colorati con colori diversi a seconda della modalita del carattere.

Tornando al grafico riportato in Figura 1.1 risulta lampante come l’area dell’intero

cerchio non possa essere pari al 100% in quanto sommando le frequenze percentuali

il valore 100 e superato abbondantemente. L’errore nella rappresentazione e dovuta

al fatto che ogni intervistato poteva esprimere scelte multiple sui candidati possibili

e quindi la somma delle frequenze relative non poteva essere 1.

Nella rappresentazione tramite figure si sceglie una figura per rappresentare

l’unita di misura:��|^ = 1

Si rappresentano le modalita del carattere riportando un numero di figure propor-

Page 25: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2.5. DATI E GRAFICI 23

N ��|^

��|^

��|^

��|^

��|^

��|^

6C ��

|^

��|^

��|^

��|^

��|^

��|^

��|^

7S ��

|^

��|^

��|^

3V ��

|^

��|^

��|^

��|^

4

Tabella 2.8: Rappresentazione delle frequenze assolute della variabile Stato civilenell’Esempio 2.3.1.

xi ni fi pi Ni Fi

A 2 0.1 10 2 0.1O 6 0.3 30 8 0.4S 8 0.4 40 16 0.8L 4 0.2 20 20 1.0

Totli 20 1.0 100 20 1

Tabella 2.9: Frequenze assolute, relative, percentuali, cumulate assolute e cumulaterelative del livello di scolarita nell’Esempio 2.3.1.

zionale alla frequenza ni. Anche in questo caso le modalita vengono sistemate in un

ordine qualsiasi.

Se la variabile e di tipo qualitativo ordinale come ad esempio la variabile livello

di scolarita (Y ) nell’Esempio 2.3.1, il grafico da utilizzare e preferibilmente il grafico

a barre o a rettangoli dove occorre solo prestare attenzione all’ordine con cui si

rappresentano le modalita che deve andare dal piu basso a sinistra al piu alto a

destra. Si possono anche utilizzare i grafici a torta ma sono sconsigliati perche

si perte l’informazione dell’ordine. I grafici con i disegni si possono utilizzare con

l’accortezza di ordinare anche qui le modalita. Nel caso della variabile livello di

scolarita nell’Esempio 2.3.1 le modalita con cui si presenta il fenomeno sono k = 4

x1 = A x2 = O x3 = S x4 = L

La Tabella 2.5 riporta le frequenze, mentre nella Figura 2.3 vengono rappresentati

tramite rettangoli le frequenze assolute.

Se la variabile e di tipo quantitativo numerico discreto (conteggio) la rappresen-

tazione grafica deve essere di tipo a bastoncino o segmento e l’asse su cui rappre-

sentano i valori e di tipo numerico, per cui si deve prestare attenzione a come si

rappresentano i valori rispettando l’unita di misura dell’asse.

Page 26: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

24 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

A O S L

grado scolarita'

freq

02

46

8

Figura 2.3: Grafico delle frequenze assolute del livello di scolarita nell’Esempio 2.3.1.

Page 27: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2.5. DATI E GRAFICI 25

xi ni fi pi Ni Fi

0 5 0.25 25 5 0.251 5 0.25 25 10 0.502 3 0.15 15 13 0.653 3 0.15 15 16 0.804 4 0.20 20 20 1.00

20 1.00 100

Tabella 2.10: Frequenze assolute, relative, percentuali, cumulate assolute e cumulaterelative del numero di figli nell’Esempio 2.3.1.

Nell’Esempio 2.3.1 la variabile numero di figli a carico (Z) e di tipo quantitativo

discreto. Le intensita con cui si presenta il fenomeno sono k = 5

x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4.

Nella Tabella 2.5 sono riportate le frequenze, mentre nella Figura 2.4 sono rappre-

sentate le frequenze assolute.

Se la variabile e di tipo quantitativo continuo, la frequenza con cui si ripete

una qualunque modalita e in genere uno. Quindi i tipi di grafici visti fino ad ora

sarebbero privi di informazione per dati di questo tipo. Occorre dividere i valori

possibili per la variabile in classi o intervalli e contare quanti valori cascano in ogni

classe e quindi rappresentare i dati tramite un istogramma.

Ad esempio la variabile reddito in euro (W ) dell’esempio 2.3.1 e una variabile

quantitativa continua

Le modalita o intensita con cui si presenta il fenomeno sono tutte distinte. Ricor-

riamo allora al raggruppamento dei dati in classi. Introduciamo 4 classi e andiamo

a contare i valori che cascano in ogni classe e quindi calcoliamo le frequenze assolute

relative e cumulate per ogni classe. Accanto a queste frequenze e importante anche

riportare l’ampiezza di ogni classe che denotiamo con ai e la densita di frequenza

definita come il rapporto tra la frequenza della classe e l’ampiezza della classe. Ha il

significato di come le unita che cascano in quella classe si distribuiscono nella classe.

Piu e alta la densita piu le unita sono dense nell’intervallo. La densita e denotata

con li ed e definita come li = ni/ai. Si possono anche definire le densita relative,

come rapporto tra le frequenze relative di una classe fi e l’ampiezza della classe,

di = fi/ai. Il numero di classi e l’ampiezza delle classi dipende dal numero di dati e

dai valori. In genere meno sono i dati meno sono le classi e l’ampiezza deve essere

fissata in modo che in ciascun intervallo caschi almeno un certo numero di unita.

Anche la scelta degli estremi inferiore e superiore del primo e dell’ultimo interval-

Page 28: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

26 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

01

23

45

numero di figli

freq

. ass

olut

e

0 1 2 3 4

Figura 2.4: Frequenze assolute del numero di figli nell’Esempio 2.3.1.

Page 29: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2.5. DATI E GRAFICI 27

xi ni fi Ni ai li

40 a 50 3 0.15 3 10 0.3050 a 58 6 0.30 9 8 0.7558 a 70 4 0.20 13 12 0.3370 a 95 7 0.35 20 25 0.28

20 1.00 20

Tabella 2.11: Frequenze assolute, relative, percentuali, cumulate assolute ampiezzadegli intervalli e densita assoluta del reddito in euro nell’Esempio 2.3.1. Gli estremidestri degli intervalli sono inclusi.

lo rispettivamente e arbitraria. Il calcolo delle frequenze e la determinazione delle

classi per la variabile reddito in euro dell’esempio 2.3.1 sono riportati nella Tabella

2.11, mentre l’istogramma e rappresentato nella Figura 2.5.

Per costruire un istogramma i passi da seguire sono i seguenti:

1. Si suddividono i valori osservati in r classi: si denota con ai l’ampiezza della

i-esima classe, i = 1, . . . , r

2. Si dispongono i valori degli estremi degli intervalli delle classi sull’asse delle

ascisse rispettando l’unita di misura dell’asse.

3. Si calcolano le frequenza assolute o relative per ogni classe: ni o fi, i = 1, . . . , r.

4. Si calcolano le densita di frequenza assoluta relativa per ogni classe: li = niai

o

di = fiai

5. Si tracciano dei rettangoli che hanno come base gli estremi dell’intervallo e

come altezza la densita di frequenza li o di.

In questo modo l’area di ogni rettangolo dell’istogramma e uguale alla frequenza

assoluta (se l’altezza e li) o relativa (se l’altezza e di) della classe che costituisce la

base.

E molto importante che l’altezza dei rettangoli sia la densita (relativa o assoluta)

e non la frequenza assoluta o relativa della classe. In quest’ultimo caso si otterreb-

bero dei grafici fuorvianti sul comportamento della variabile. Ad esempio si osservi

come nell’istogramma riportato nella Figura 2.6 si abbia la percezione che vi sia una

grandissima parte di redditi molto alti rispetto all’istogramma nella Figura 2.5.

Page 30: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

28 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Istrogramma corretto

w

Den

sity

40 50 60 70 80 90

0.0

0.2

0.4

0.6

Figura 2.5: Istogramma della variabile reddito in euro nell’Esempio 2.3.1. Gli estremidestri degli intervalli sono inclusi.

Page 31: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2.5. DATI E GRAFICI 29

Istogramma sbagliato!

w

Fre

quen

cy

40 50 60 70 80 90

01

23

45

67

Figura 2.6: Istogramma NON CORRETTO della variabile reddito in euronell’Esempio 2.3.1 dove l’altezza dei rettangoli e la frequenza assoluta della classe.

Page 32: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

30 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

xi ni fi ai di

40 ` 45 1 0.017 5 0.003345 ` 50 2 0.033 5 0.006750 ` 55 7 0.120 5 0.023055 ` 60 6 0.100 5 0.020060 ` 65 1 0.017 5 0.003365 ` 70 5 0.083 5 0.017070 ` 75 6 0.100 5 0.020075 ` 80 11 0.180 5 0.037080 ` 85 13 0.220 5 0.043085 ` 90 5 0.083 5 0.017090 ` 95 3 0.050 5 0.0100

60 1

Tabella 2.12: Tavola dei valori necessari per tracciare l’istogramma della variabileTempo di pausa tra due eruzioni successive dai dati dell’esempio 2.3.3.

2.6 Esempi

2.6.1 Il geyser Old Faithful

Riprendiamo i dati dell’Esempio 2.3.3. Per fare l’istogramma della distribuzione dei

tempi di pausa dobbiamo raccogliere i dati in classi. Costruiamo l’istogramma per la

durata dei periodi di pausa dopo ogni eruzione del geyser Old Faithful. La Tabella

2.12 riporta le frequenze assolute ni le frequenze relative fi = nin

l’ampiezza di ogni

classe ai che in questo caso e 5 per ogni classe, e la densita di frequenza relativa

di = fiai

. L’istogramma per tutti i dati e riportato in Figura 2.7.

Consideriamo ora il sottocampione costituito dalle eruzioni con Eruzione prece-

dente Corta e costruiamo l’istogramma per questa distribuzione. La tabella delle

frequenze e riportata di seguito:

xi 42 45 49 50 51 53 55 56 58 66 67ni 1 1 1 1 4 2 2 2 1 1 1

L’istogramma e riportato nella Figura 2.8 mentre lasciamo come esercizio di

costruire una tavola analoga alla 2.13 per la variabile Durata del tempo di pausa per

il sottocampione relativo alle eruzioni con eruzione precedente lunga. L’istogramma

e riportato nella Figura 2.9.

Page 33: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2.6. ESEMPI 31

Istogramma delle durate per tutti i dati

Durata (minuti)

Den

sity

40 50 60 70 80 90 100

0.00

0.01

0.02

0.03

0.04

0.05

Figura 2.7: Istogramma della variabile Tempo di pausa. Il tempo e misurato inminuti.

xi ni fi ai di

40 ` 45 1 0.06 5 0.0145 ` 50 2 0.12 5 0.0250 ` 55 7 0.41 5 0.0855 ` 60 5 0.29 5 0.0660 ` 65 0 0 5 065 ` 70 2 0.12 5 0.02

17 1

Tabella 2.13: Tavola dei valori necessari per tracciare l’istogramma della variabileTempo di pausa tra due eruzioni successive dai dati dell’esempio 2.3.3 solo per ilsottocampione con eruzione precedente di tipo corto.

Page 34: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

32 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Durata del tempo di pausa per eruzione precedente corta

Durata (minuti)

Den

sity

40 50 60 70 80 90 100

0.00

0.02

0.04

0.06

0.08

0.10

Figura 2.8: Istogramma della variabile Durata del tempo di pausa per ilsottocampione con eruzione precedente di tipo Corta.

Page 35: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2.6. ESEMPI 33

Durata del tempo di pausa per eruzione precedente lunga

Durata (minuti)

Den

sity

40 50 60 70 80 90 100

0.00

0.02

0.04

0.06

0.08

0.10

Figura 2.9: Istogramma della variabile Durata del tempo di pausa per ilsottocampione con eruzione precedente di tipo Lunga.

Page 36: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

34 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Tasso byH M

0 a 2 2 –2 a 4 7 –4 a 6 12 56 a 8 18 78 a 10 4 810 a 12 5 1612 a 14 – 614 a 16 – 516 a 18 – 3Totali 48 50

Tabella 2.14: Tasso della parola by in 48 scritti di Hamilton (H) e in 50 scritti diMadison (M) (numero di ricorrenze ogni 1000 parole).

2.6.2 Un caso di attribuzione letteraria

Questo esempio riguarda gli 85 articoli sul federalismo che furono pubblicati negli

Stati Uniti per convincere i cittadini dello stato di New York a ratificare la costi-

tuzione. Gli storici si diedero l’arduo compito di individuare chi erano gli autori di

questi articoli. Per 73 di questi articoli non ci sono stati problemi di attribuzione,

mentre per i restanti 12 gli storici non erano d’accordo se attribuire questi 12 scritti

a Hamilton o a Madison, entrambi due scrittori di testi politici molto famosi e attivi

a quell’epoca. Il contenuto politico non riesce a determinare quale dei due sia l’au-

tore dei 12 scritti perche entrambi avevano le stesse idee politiche. Gli istogrammi

possono aiutare a dirimere la questione. Gli autori tendono ad avere differenti stili

di scrittura in particolare tendono ad usare parole non contestuali con un tasso (nu-

mero di parole ogni mille) con una distribuzione che li caratterizza. La Tabella 2.14

riporta il tasso della parola by rilevata ogni 1000 parole in 48 scritti di Hamilton

(non solo quelli attribuiti a lui degli 85 sul federalismo) e in 50 scritti di Madison

(anche in questo caso non sono stati considerati solo gli scritti sul federalismo). In

un articolo del 1963, Mosteller e Wallace utilizzarono una metodologia statistica

per l’attribuzione dei 12 scritti ad uno dei due autori. Qui prendiamo i loro dati e

tracciamo gli istogrammi (anche per i dati numerici discreti possiamo farlo).

La Tabella 2.15 riporta invece il tasso della parola by nei 12 scritti contesi sul

federalismo.

Dopo aver tracciato gli istogrammi per la variabile tasso sia per gli scritti di

Hamilton che per quelli di Madison che per gli scritti contesi, il grafico riportato

Page 37: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2.6. ESEMPI 35

Rate 0 a 2 2 a 4 4 a 6 6 a 8 8 a 10 10 a 12 12 a 14 14 a 16 16 a 18

ni – – 2 1 2 4 2 1 –

Tabella 2.15: Tasso della parola by nei 12 scritti contesi sul federalismo (numero diricorrenze ogni 1000 parole).

in Figura 2.10 sembra propendere per attribuire gli scritti contesi ad uno dei due

autori senza molti dubbi.

Si noti che per fare il confronto occorre prestare attenzione affinche in tutti i

grafici la scala sia la stessa e si utilizzano frequenze relative perche il numero di

scritti e diverso nelle tre distribuzioni.

2.6.3 Il primo bacio non si scorda mai

In questo esempio vediamo invece come le frequenze cumulate possono aiutare a

capire meglio un fenomeno. Nella Tabella 2.16 sono riportate le frequenze assolute

ni, le frequenze assolute cumulate Ni e le frequenze relative cumulate della variabile

eta a cui e stato dato il primo bacio a sfondo sessuale. Si tratta di una variabile

continua (l’eta) ed e rilevata su un campione di 42 giovani uomini (dati privati).

Abbiamo calcolato la frequenza cumulata relativa perche ci interessa confrontare

questo fenomeno con quello riportato nella Tabella 2.17 in cui viene rilevata sullo

stesso gruppo di giovani uomini l’eta in cui hanno avuto il primo rapporto sessuale.

La tabella riporta anche in questo caso le frequenze assolute ni, le frequenze assolute

cumulate Ni e le frequenze relative cumulate.

Dalla Tabella 2.16 ad esempio leggiamo che il piu alto numero di uomini ha dato

il primo bacio all’eta di 15 anni (frequenza assoluta 12). Ma il dato che descrive

meglio il fenomeno e il fatto che all’eta di 15 anni, 34 uomini dei 42 (ovvero l’81%)

hanno gia dato il primo bacio (frequenza cumulata 34, frequenza cumulate relativa

0.81). Si deduce anche che almeno il 50% degli uomini ha dato il primo bacio ad

un’eta inferiore o uguale ai 14 anni (frequenza cumulata relativa 0.52).

Dalla Tabella 2.17 invece leggiamo che che il primo rapporto sessuale e avvenuto

dopo il primo bacio (prima osservazione eta=11), che il piu alto numero di uomini ha

avuto il primo rapporto all’eta di 18 anni (frequenza assoluta 15). Anche in questo

caso il dato che descrive meglio il fenomeno e il fatto che all’eta di 18 anni, 36

uomini dei 42 (ovvero l’86%) hanno gia avuto il primo rapporto sessuale (frequenza

cumulata 36, frequenza cumulate relativa 0.86). Si deduce anche che il 50% degli

uomini ha avuto il primo rapporto sessuale ad un’eta inferiore o uguale ai 17 anni

(frequenza cumulata relativa 0.50). La tabella 2.18 riporta le due distribuzioni

Page 38: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

36 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Scritti di Madison

Rate

De

nsity

0 5 10 15

0.0

00

.0

50

.1

00

.1

5

Scritti di Hamilton

Rate

De

nsity

0 5 10 15

0.0

00

.1

0

Scritti contesi

Rate

De

nsity

0 5 10 15

0.0

00

.0

50

.1

00

.1

5

Figura 2.10: Istogramma della variabile Tasso della parola by nei 50 scritti diMadison (M), nei 48 scritti di Hamilton (H) e nei 12 scritti contesi sul federalismo.

Page 39: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2.6. ESEMPI 37

Eta ni Ni Fi7 1 1 0.0248 0 1 0.0249 1 2 0.04810 0 2 0.04811 3 5 0.11912 6 11 0.26213 5 16 0.38114 6 22 0.52415 12 34 0.81016 2 36 0.85717 4 40 0.95218 1 41 0.97619 0 41 0.97620 1 42 1.000

Totali 42 – –

Tabella 2.16: Eta del primo bacio a carattere sessuale di 42 giovani uomini.Frequenze assolute, frequenze cumulate e frequenze cumulate relative.

Eta ni Ni Fi11 1 1 0.0212 0 1 0.0213 1 2 0.0514 4 6 0.1415 4 10 0.2416 5 15 0.3617 6 21 0.5018 15 36 0.8619 4 40 0.9520 1 41 0.9821 1 42 1

Totali 42 – –

Tabella 2.17: Eta del primo rapporto sessuale di 42 giovani uomini. Frequenzeassolute, frequenze cumulate e frequenze cumulate relative.

Page 40: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

38 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Eta nBi NBi FB

i nRi NRi FR

i

7 1 1 0.02 0 0 08 0 1 0.02 0 0 09 1 2 0.05 0 0 010 0 2 0.05 0 0 011 3 5 0.12 1 1 0.0212 6 11 0.26 0 1 0.0213 5 16 0.38 1 2 0.0514 6 22 0.52 4 6 0.1015 12 34 0.81 4 10 0.2416 2 36 0.86 5 15 0.3617 4 40 0.95 6 21 0.5018 1 41 0.98 15 36 0.8619 0 41 0.98 4 40 0.9520 1 42 1 1 41 0.9821 0 42 1 1 42 1

Totali 42 – – 42 – –

Tabella 2.18: Eta del primo bacio a carattere sessuale e del primo rapporto sessualedi 42 giovani uomini. Frequenze assolute, frequenze cumulate e frequenze cumulaterelative. (Apice B si riferiscono all’eta del primo bacio, apice R all’eta del primorapporto).

insieme. Per effettuare il confronto l’eta e stata fissata da 7 a 21 anni per entrambe

le distribuzioni. Le frequenze cumulate relative sono state arrotondate alla seconda

cifra significativa.

Nella figura 2.11 le due distribuzioni sono messe a confronto. Come si puo os-

servare il grafico delle frequenze cumulate relative della distribuzione dell’eta del

primo rapporto sessuale sta sempre sotto il grafico delle frequenze cumulate rela-

tive dell’eta del primo bacio. Questo significa che la prima distribuzione e sempre

maggiore della seconda. Cioe l’eta del primo rapporto sessuale e maggiore dell’eta

del primo bacio. La linea orizzontale tracciata per F = 0.50 ci informa che l’eta in

cui almeno il 50% del campione ha dato il primo bacio e 14 anni, mentre l’eta in

cui almeno il 50% del campione ha avuto il primo rapporto sessuale e 17 anni. La

lunghezza del segmento tra i due punti in cui la retta F = 0.50 interseca le due linee

delle frequenze cumulate relative ci informa sul fatto che la meta della campione ha

avuto il primo rapporto sessuale tre anni dopo che la meta del campione ha dato il

primo bacio.

Page 41: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

2.6. ESEMPI 39

10 15 20

0.0

0.2

0.4

0.6

0.8

1.0

Età al primo bacio e del primo rapporto sessuale

età

F

età primo bacioetà primo rapporto

Figura 2.11: Grafico delle frequenze cumulate relative per l’eta al primo bacio e l’etadel primo rapporto sessuale per 42 giovani uomini. La retta rappresenta F = 0.50.

Page 42: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

40 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Page 43: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

Capitolo 3

Valori medi

Il titolo di questo capitolo e al plurale perche come vedremo ci sono diversi tipi di

medie per un certo tipo di dati e diverse medie per diversi tipi di dati (numerici o

nominali).

In inglese il termine average puo indicare questo tipo di media mentre viene

lasciato al termine mean il significato di media (aritmetica) di un certo numero

di valori numerici. In italiano non abbiamo una tale ricchezza di vocaboli per cui

dovremo prestare attenzione al fatto se con il termine media ci riferiamo ad un

concetto, cioe se indichiamo quel valore che sintetizza l’intera distribuzione, oppure

alla media aritmetica che e solo una delle medie a cui si riferisce il titolo del capitolo.

In genere dal contesto si capira a cosa ci stiamo riferendo. Quello che si vuole fare in

questo capitolo e condensare in un solo numero (quando i dati sono di tipo numerico)

o in una sola caratteristica (quando sono nominali) un intero insieme di dati relativi

ad una certa variabile. Questo unico numero (nel caso delle variabili numeriche)

viene chiamato, a seconda dei casi, moda, mediana o media (aritmetica, ma in realta

esiste anche la media armonica e altri tipi di media che non studieremo) Concludiamo

questa introduzione con una poesia del poeta romano Trilussa (pseudonimo di Carlo

Alberto Salustri, nato nel 1871 e morto nel 1950) dal titolo che non ha bisogno di

presentazioni in questo volume e che sottolinea come il valore medio debba essere

considerato con attenzione e non con leggerezza.

LA STATISTICA

Sai ched’e la statistica? E ’na cosa

che serve pe fa un conto in generale

de la gente che nasce, che sta male,

che more, che va in carcere e che sposa.

41

Page 44: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

42 CAPITOLO 3. VALORI MEDI

Ma pe me la statistica curiosa

e dove c’entra la percentuale,

pe via che, lı , la media e sempre eguale

puro co’ la persona bisognosa.

Me spiego: da li conti che se fanno

seconno le statistiche d’adesso

risurta che te tocca un pollo all’anno:

e, se nun entra nelle spese tue,

t’entra ne la statistica lo stesso

perch’e c’e un antro che ne magna due.

Come vedremo non sempre la media aritmetica di cui parla Trilussa va bene per

descrivere fenomeni come questo.

3.1 La moda

La moda puo essere calcolata per qualunque tipo di variabile (o di dati).

Definizione 3.1.1. La moda e la modalita per le variabili nominali (o il numero

per le variabili numeriche) che si presenta con la frequenza maggiore.

Per trovare la moda di una distribuzione bisogna allora calcolare tutte le fre-

quenze (e indifferente se assolute o relative) e andare a vedere a quale modalita

corrisponde la frequenza maggiore. Tale modalita e la moda della distribuzione o la

moda della variabile.

A volte puo capitare che due modalita abbiano la frequenza maggiore, in questo

caso si dice che la distribuzione e bi-modale. Anche quando rappresentando i dati

graficamente si osservano due picchi distanti per le frequenze si puo dire che la

distribuzione e bi-modale. Ad esempio nel caso dei dati sui tempi di pausa del

geyser Old Faithful dell’Esempio 2.3.3. Nella Figura 2.7 si notano due frequenze

distinte nettamente piu alte delle altre. In questo caso sono presenti due nette

distribuzioni come lo studio dividendo le osservazioni rispetto alla variabile tipo di

eruzione precedente mette in luce.

Esercizio 3.1.2. Calcolare la moda per i dati dell’Esempio 2.4.2, Moda= ottimo.

Esempio 2.3.1 per la variabile X stato civile e Z titolo di studio.

Page 45: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

3.2. LA MEDIA ARTITMETICA 43

3.2 La media artitmetica

La media aritmetica si puo fare per le variabili numeriche. Se abbiamo la distribu-

zione del numero dei figli possiamo calcolare la media (aritmetica) del numero di

figli, se abbiamo la distribuzione dei redditi possiamo calcolare la media (aritmetica)

dei redditi. La media aritmetica si calcola in due passi:

1. Si sommano tutti i valori osservati

2. Si divide la somma ottenuta per il numero di valori osservati

Non si puo calcolare la media aritmetica di un carattere nominale. Ad esempio se

abbiamo la seguente distribuzione

M 22F 12

Tot. 44

non possiamo fare la media tra M e F. Possiamo solo dire che in questo campione

e maggiore il numero di maschi, cioe la moda e il carattere o modalita maschio.

Neppure se fossero codificati

M=1 22F=2 12Tot. 44

non possiamo calcolare

1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1+

1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1+

2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 = 46

e quindi dire che la media e 46/44 = 1.05.

La definizione di media aritmetica e un po’ complessa ma la diamo lo stesso.

(Quella data sopra e la regola di calcolo non la definizione).

Definizione 3.2.1. La media aritmetica di n valori e quel valore che se sostituito

a tutti i valori lascia inalterata la somma totale degli n valori.

Per rivederla con Trilussa, se io mangio due polli e tu zero, i due valori sono 2 e

0, il totale dei polli in gioco, anzi meglio, mangiati e 2+0=2. La media aritmetica

e 1, per la statistica io mangio un pollo e anche tu un pollo, in totale sempre due

polli si mangiano. Se si sostituisce sia a 2 che a 0 la media, 1, la somma totale dei

polli mangiati non cambia, 1+1=2.

Page 46: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

44 CAPITOLO 3. VALORI MEDI

Riprendiamo i dati relativi alla durata dei tempi di pausa nell’esempio 2.3.3.

Consideriamo la variabile Durata del tempo di pausa nel caso l’eruzione precedente

sia di tipo corto. Sono 17 osservazioni del campione che per comodita riportiamo

nella seguente tabella.

xi 42 45 49 50 51 53 55 56 58 66 67ni 1 1 1 1 4 2 2 2 1 1 1

Calcoliamo la media aritmetica del tempo di pausa per questo sottocampione.

1. Prima si sommano tutti i valori tenendo presente che alcuni di essi si presen-

tano piu di una volta:

42+45+49+50+51+51+51+51+53+53+55+55+56+56+58+66+67=909

2. Si divide il risultato per il numero di valori, in questo caso n = 17:

909

17= 53.47

Si dice che la media aritmetica dei tempi di pausa tre due eruzioni successive quando

la precedente e di tipo Corto e di 53.47 minuti. La media aritmetica si denota quasi

universalmente con la x barrata. Ovvero si scrive

x = 53.47.

Tale scrittura viene dal fatto che se si indicano con xi gli n valori di una generica

variabile X la media aritmetica di ottiene applicando i due passi in uno solo come

x =1

n

n∑i=1

xi.

Dal punto di vista inferenziale si puo interpretare che se mi metto seduto accanto al

geyser che ha appena avuto un eruzione di tipo corto, mi aspetto di dover aspettare

(scusate il gioco di parole!) circa 53 minuti prima di vedere il geyser emettere il suo

spruzzo di vapore.

Tornando alla definizione, se si sostituisce ai 17 valori osservati il valore medio

calcolato x = 53.47 abbiamo che la somma totale dei tempi di attesa non cambia,

infatti sommare per 17 volte il valore 53.47 equivale a calcolare il prodotto 53.47·17 =

908.99 che e uguale a 909 a meno degli arrotondamenti.

Esercizio 3.2.2. Calcolare la media aritmetica della variabile Tempo di pausa quan-

do l’eruzione precedente e di tipo lungo e indipendentemente dal dipo di eruzione

precedente. Risultati per eruzione precedente Lunga x = 78.19 totale x = 71.18.

Calcolare la media aritmetica della variabile Numero di figli nell’Esempio 2.3.1.

Risultato: x = 1.8. Cosa significa che la media aritmetica e 1.8 figli?

Page 47: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

3.3. LA MEDIANA 45

Sfruttando la definizione di media aritmetica la media totale si puo anche otte-

nere come17 ∗ 53.47 + 43 ∗ 78.19

60=

4271.16

60= 71.186

che a meno degli arrotondamenti e la media calcolata.

3.3 La mediana

La mediana e un modo alternativo di calcolare il valor medio di una distribuzione

inteso come quel valore che sintetizza al meglio la distribuzione dei dati (l’average

inglese) e quindi descrive meglio il fenomeno oggetto di studio. Forziamo la mano

a Trilussa. Supponiamo di avere 10 persone, una di essa che mangia 10 polli e le

altre nove che non ne mangiano neppure uno. Abbiamo 10 valori, x1 = 10 e gli altri

valori xi = 0 per i = 2, 3, . . . , 10. La media aritmetica del numero di polli mangiati

a testa e ancora 1, cioe per dirla con Trilussa il pollo di media t’entra ne la statistica

lo stesso perch’e c’e un antro che ne magna dieci!. Si capisce che in questo caso la

media non descrive bene la distribuzione del numero di polli che si mangiano questi

10 cristiani! La mediana e un modo alternativo di riassumere la distribuzione che

tiene conto di questa disparita.

Definizione 3.3.1. La mediana e l’osservazione, cioe quel valore tra quelli osser-

vati, che ha alla sua sinistra (cioe piu bassi) la meta delle osservazioni e alle sua

destra, cioe piu alti l’altra meta delle osservazioni.

La mediana e quindi quel valore che divide divide in due parti uguali le osserva-

zioni. Vediamo le operazioni per calcolarla.

1. Si ordinano le n osservazioni dalla piu piccola alla piu grande.

2. Si calcola il valore n+12

.

(a) Se n e dispari l’osservazione che sta nella posizione n+12

-esima e la media-

na.

(b) Se n e pari si prendono le due osservazioni centrali, quella che occupa

la posizione n2-esima e quella che occupa la posizione n

2+ 1-esima e la

mediana e data dalla media aritmetica di queste due osservazioni.

Consideriamo le n = 17 osservazioni nell’esempio 2.3.3 relative alla variabile Durata

del tempo di pausa nel caso l’eruzione precedente sia di tipo corto. Le 17 osservazioni

ordinate dalla piu piccola alla piu grande sono:

42, 45, 49, 50, 51, 51, 51, 51, 53, 53, 55, 55, 56, 56, 58, 66, 67

Page 48: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

46 CAPITOLO 3. VALORI MEDI

Poiche n e dispari, calcoliamo il valore n+12

= 9. La nona osservazione e il valore 53,

dunque la mediana e 53. Scriveremo Me = 53.

Consideriamo adesso le n = 60 osservazioni nell’esempio 2.3.3 relative alla varia-

bile Durata del tempo di pausa indipendentemente dal valore della variabile Tipo di

pausa precedente.

Questi sono i valori ordinati della durata della pausa dopo un eruzione del Gaiser

Old Faithful.

42 45 49 50 51 51 51 51 53 53 55 55 56 56 57 58 60 66 67 6768 69 70 71 72 73 73 74 75 75 75 75 76 76 76 76 76 79 79 8080 80 80 81 82 82 82 83 83 84 84 84 85 86 86 86 88 90 91 93

Per calcolare la mediana, poiche n e pari, 60+12

= 30.5, prendiamo i valori nella

posizione n2

= 30 e n2

+ 1 = 31, sono 75 e 75, per cui la mediana e Me = 75.

Tornando all’esempio dei polli, se una persona mangia 10 polli e nove persone

zero polli, la distribuzione ordinata delle osservazioni e

0, 0, 0, 0, 0, 0, 0, 0, 0, 10

il valore (10+1)/2 = 5.5, i due valori che occupano la quinta e la sesta posizione sono

0 e 0, per cui la mediana e zero. Quindi la mediana di questa distribuzione descrive

molto meglio il fenomeno: il numero medio (inteso come sintesi della distribuzione)

di polli mangiati da ciascuno e zero, non 1, con buona pace di Trilussa.

3.4 Medie per i dati in classi

Molte volte i dati vengono forniti direttamente in classi. Come nel caso dell’indagine

dell’ISTAT sulle famiglie e i soggetti sociali da cui sono presi i dati della Tabella

3.1. Si tratta di tre distribuzioni dell’eta dei pendolari considerati in base al sesso.

Vogliamo calcolare l’eta media dei pendolari e capire se c’e differenza tra l’eta degli

uomini e delle donne. Quando i dati sono raccolti in classi e non possiamo risalire ai

dati originari da cui sono state costruite le classi per calcolare la media aritmetica

e la mediana dobbiamo fare delle ipotesi.

Per la moda possiamo dire che la classe modale e sia per gli uomini che per le

donne 25− 34. La moda pero non e molto informativa in questo caso. Di solito non

si usa per i dati raccolti in classi.

Per la media aritmetica dovremmo conoscere l’eta di ogni unita che casca in una

classe. Poiche non la conosciamo facciamo l’ipotesi che le unita siano distribuite

uniformemente all’interno della classe, che equivale a ipotizzare che tutti abbiano

l’eta che casca nel punto centrale dell’intervallo che determina la classe. Ad esempio

il punto centrale della classe 14− 24 e 19. Per determinare i punti centrali abbiamo

Page 49: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

3.4. MEDIE PER I DATI IN CLASSI 47

eta Uomini Donne totale0-13 84 75 15914-24 282 297 57925-34 391 355 74635-44 281 168 44945-54 187 127 31455-64 168 137 30565-74 79 82 161

75 e piu 45 132 177Totale 1517 1373 2890

Tabella 3.1: Persone pendolari verso un luogo diverso propria abitazione per sesso eclasse di eta - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggettisociali.

una formula: se l’intervallo `e [a, b) il punto medio si ottiene sommano gli estremi e

dividendo per due

Punto medio =a+ b

2

Quindi per calcolare la media dobbiamo calcolare tutti i punti medi e quindi calcolare

la media della nuova distribuzione. Per i nostri dati i conti sono fatti nella Tabella

3.2. Facciamo attenzione che l’eta e un carattere continuo quindi tutti i valori devono

essere compresi. Abbiamo quindi modificato gli estremi dell’intervallo, perche chi

ad esempio ha 24 anni e mezzo appartiene alla terza classe non alla seconda. Si

noti che per l’ultima classe non era dato l’estremo superiore quindi abbiamo fatto

l’ipotesi che fosse 84, per analogia alle classi precedenti. Per calcolare la media

quindi consideriamo la distribuzione in cui l’eta 6 si presenta 84 volte, l’eta 19 si

presenta 282 volte e cos via. La media dell’eta dei pendolari uomini e

6 ∗ 84 + 18 ∗ 282 + 29 ∗ 391 + 39 ∗ 281 + 49 ∗ 187 + 59 ∗ 168 + 69 ∗ 79 + 79 ∗ 45 = 55959

e quindi55959

1517= 36.89

In modo analogo calcoliamo la media dell’eta per le donne e la media dell’eta per

tutto il campione. I risultati sono: media ete donne 38.62, media eta per tutto il

campione 37.71. Possiamo concludere che le donne che fanno le pendolari hanno

quasi due anni di piu degli uomini in media.

Per il calcolo della mediana quando i dati sono raccolti in classe il metodo migliore

e il metodo grafico. Vediamo i passi per ottenerla

Page 50: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

48 CAPITOLO 3. VALORI MEDI

eta valore centrale Uomini Donne totale0 a 12 6 84 75 15912 a 24 18 282 297 57924 a 34 29 391 355 74634 a 44 39 281 168 44944 a 54 49 187 127 31454 a 64 59 168 137 30564 a 74 69 79 82 16174 a 84 79 45 132 177Totale – 1517 1373 2890

Tabella 3.2: Persone pendolari verso un luogo diverso propria abitazione per sesso eclasse di eta - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggettisociali.

1. Costruiamo il grafico delle frequenze cumulate relative.

2. Individuiamo sull’asse delle ordinate il valore F = 0.50.

3. Tracciamo la retta orizzontale in corrispondenza di F = 0.50 fino ad incontrare

la spezzata delle frequenze cumulate relative.

4. Tracciamo la retta verticale dal punto dove la retta F = 0.50 incontra la

spezzata delle frequenze cumulate relative fino all’incontro dell’asse.

5. La mediana e il punto dove questa retta incontra l’asse delle ascisse.

Questo metodo grafico e in realta dedotto da un metodo analitico, si individua la

classe mediana, come quella classe in cui la frequenza cumulata relativa e uguale o

supera il valore F = 0.50. Se la cumulata relativa e esattamente 0.50 la mediana e

l’estremo superiore della classe. Sia che sia incluso sia che non lo sia nell’intervallo.

Se il valore della frequenza cumulata supera 0.50, si cerca il valore sull’asse delle

ascisse al quale corrisponde sulla spezzata delle frequenze cumulate il valore sull’as-

se delle ordinate di 0.50. La formula e la seguente. Indichiamo con F− e F+ i valori

delle frequenze cumulate della classe prima della classe mediana e della classe media-

na rispettivamente. Indichiamo con xa e xb l’estremo inferiore e l’estremo superiore

della classe mediana, indipendentemente se siano inclusi o esclusi dall’intervallo. La

mediana e data da

Me = xa +xb − xaF+ − F−

(0.50− F−) (3.1)

Si noti che se la classe mediana ha come frequenza cumulata esattamente 0.50, allora

nella formula sopra F+ = 0.50 e la mediana e proprio xb, l’estremo superiore della

Page 51: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

3.4. MEDIE PER I DATI IN CLASSI 49

eta Uomini Ni Fi0 a 12 84 84 0.0612 a 24 282 366 0.2424 a 34 391 757 0.5034 a 44 281 1038 0.6844 a 54 187 1225 0.8154 a 64 168 1393 0.9264 a 74 79 1472 0.9774 a 84 45 1517 11Totale 1517 – –

Tabella 3.3: Uomini pendolari verso un luogo diverso propria abitazione per sesso eclasse di et - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggettisociali.

xi ni fi Ni ai Fi

40 a 50 3 0.15 3 10 0.1550 a 58 6 0.30 9 8 0.4558 a 70 4 0.20 13 12 0.6570 a 95 7 0.35 20 25 1

20 1.00 20

Tabella 3.4: Redditi di 20 capofamiglia.

classe mediana. Vediamo un esempio con i dati dell’esempio dell’indagine dell’I-

STAT sulle famiglie e i soggetti sociali. Nella Tabella 3.3 sono calcolate le frequenze

cumulate relative. Dalla colonna delle frequenze cumulate relative deduciamo che la

classe (24, 34] e la classe mediana. Notiamo poi che la frequenza relativa cumulata e

proprio 0.50. La mediana in questo caso e l’estremo superiore della classe mediana,

35 anni. Consideriamo ora la Tabella 3.4, che riporta i dati del reddito dell’Esempio

2.3.1.

La classe mediana e (58, 70]. Quindi xa = 58 xb = 70. La frequenza cumulata

della classe mediana e F+ = 0.65, la frequenza cumulata della classe prima della

mediana e 0.45. Applicando la formula per la mediana otteniamo

Me = 58 +70− 58

0.65− 0.45(0.50− 0.45) = 61

La mediana del reddito e 61000 euro. (Ricordiamo che i dati del reddito erano in

migliaia di euro). Vediamo un ultimo esempio. L’eta mediana delle donne pendolari.

La Tabella 3.5 contiene i dati per il calcolo della mediana. Dalla formula 3.1 abbiamo

Page 52: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

50 CAPITOLO 3. VALORI MEDI

eta Donne Ni Fi0 a 12 75 75 0.0512 a 24 297 372 0.2724 a 34 355 727 0.5334 a 44 168 895 0.6544 a 54 127 1022 0.7454 a 64 137 1159 0.8464 a 74 82 1254 0.9075 a 84 45 1373 1Totale 1373 – –

Tabella 3.5: Donne pendolari verso un luogo diverso propria abitazione per sesso eclasse di et - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggettisociali.

Me = 24 +34− 24

0.53 +−0.27(0.50− 0.27) = 32.85

L’ete mediana delle donne pendolari e 33 anni.

Esercizio 3.4.1. Fare il grafico delle frequenze cumulate relative dei dati nelle Ta-

belle 3.3, 3.4 e 3.5. Dedurre con il metodo grafico il valore della mediana per le tre

distribuzioni.

Esercizio 3.4.2. Calcolare la mediana dell’eta del primo bacio e dell’eta del primo

rapporto sessuale per i dati nella Tabella 2.18. Dedurre con il metodo grafico il valore

della mediana per le due distribuzioni facendo riferimento alla Figura 2.11.

3.5 Simmetria e asimmetria

L’istogramma dei dati ci permette di capire se la distribuzione dei dati e di tipo

asimmetrico o simmetrico. Possiamo tracciare seguendo la forma dell’istogramma

una curva continua che mostra la distribuzione dei dati. La Figura 3.1 si riferisce

ai tempi di sopravvivenza di 128 pazienti operati per un tumore ai polmoni (dati

personali). Quando la distribuzione, come quella in figura, mostra la maggior parte

dei dati nella parte sinistra o mostra valori bassi, con pochi valori alti, si dice che

la distribuzione presenta un’asimmetria positiva. In questo caso la media assume

un valore piu alto della mediana. Quando succede il contrario (tanti valori alti

e pochi bassi), e quindi la media aritmetica e minore della mediana si dice che

la distribuzione presenta un’asimmetria negativa. Quando invece la distribuzione

e simmetrica la media e la mediana hanno lo stesso valore. La piu importante

Page 53: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

3.6. QUALE MEDIA SCEGLIERE? 51

t

Den

sity

0 5 10 15

0.00

0.05

0.10

0.15

0.20

Figura 3.1: Tempi di sopravvivenza di 128 pazienti operati per un tumore ai polmoni.La media aritmetica dei tempi e 10 anni. La mediana e 2.3 anni (2 anni e poco piudi 3 mesi).

distribuzione simmetrica della statistica e la distribuzione Normale. Se i dati sono

distribuiti in modo simmetrico attorno ad una valore centrale e la loro distribuzione

ha la cosiddetta forma a campana, come nella Figura 3.2 dove abbiamo l’istogramma

relativo a 1000 osservazioni di una distribuzione simmetrica, si dice che i dati seguono

una distribuzione Normale, che qui e tracciata con una linea continua. Torneremo

ancora molte volte a questa distribuzione perche e la distribuzione piu importante

di tutta la statistica. I dati provenienti da indagini sul peso e sull’altezza di una

popolazione seguono spesso una distribuzione Normale. Questo poiche la maggior

parte dei pesi o delle altezze, si distribuiscono attorno ad un valore centrale, in modo

simmetrico a sinistra o a destra e di solito con pochi valori particolarmente alti o

bassi.

3.6 Quale media scegliere?

Il compito della media (average) o valore centrale e quello di sintetizzare un’intera

distribuzione di dati, quindi l’informazione che ci fornisce deve essere il piu possibile

vicino alla distribuzione che li sintetizza. Diamo qui qualche suggerimento non

esaustivo per la scelta della media per una distribuzione di dati.

Page 54: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

52 CAPITOLO 3. VALORI MEDI

Distribuzione simmetrica, normale

x

Den

sity

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Figura 3.2: Istogramma di 1000 osservazioni normale e distribuzione Normale (lineacontinua). La distribuzione e simmetrica.

1. La moda va usata solo per i dati qualitativi. Quasi mai per i dati quantitativi

a meno che la distribuzione sia bimodale. In questo caso fornire il valore delle

due mode e piu indicativo che fornire la media o la mediana che farebbero

scomparire l’informazione sulle due sottopopolazioni probabilmente presenti.

2. Quando si e in presenza di distribuzioni asimmetriche e meglio utilizzare la

Mediana, perche la media aritmetica risente dei pochi valori particolarmente

alti o bassi come nel caso dell’Esempio rappresentato in Figura 3.1.

3. Se i dati hanno una distribuzione simmetrica e preferibile utilizzare la media

aritmetica.

4. Se i dati sono soggetti ad errori (ad esempio dovuti alla registrazione) e meglio

anche in questo caso utilizzare la Mediana, in quanto la media e molto influen-

zata da osservazioni particolarmente diverse o inusuali. La mediana invece non

risente di questi valori.

Page 55: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

3.7. QUARTILI, PERENTILI E QUANTILI 53

3.7 Quartili, perentili e quantili

I quartili e i percentlli o piu in generale i quantili sono indici di posizione. Individua-

no l’osservazione che lascia alla sua sinistra almeno il 25% delle osservazioni (primo

quartile), almeno il 75% delle osservazioni (terzo quartile), almeno una percentuale

p di osservazioni (p-esimo percentile).

Definizione 3.7.1 (Primo quartile). Quel valore che lascia alla sua sinistra il (o

almeno il) 25% delle osservazioni.

Definizione 3.7.2 (Terzo quartile). Quel valore che lascia alla sua sinistra il (o

almeno il) 75% delle osservazioni.

Definizione 3.7.3 (p-esimo percentile). Per p = 1, 2, . . . , 100 e quel valore che

lascia alla sua sinistra il (o almeno il) p% delle osservazioni.

Dalle definizioni appena date risulta evidente che il 25-esimo, il 50-esimo e il

75-esimo percentile sono rispettivamente il primo quartile, la mediana e il ter-

zo quartile. Inoltre il secondo quartile e la mediana. La procedura per calcolare

un’approssimazione dei quartili o dei percentili si puo riassumere nei seguenti passi.

• Si ordinano i valori osservati dal piu piccolo al piu grande.

• Si calcolano i valori 0.25(n+ 1) (primo quartile), 0.75(n+ 1), (terzo quartile)

ovvero il valore p100

(n+ 1) (p-percentile).

• Se e intero l’osservazione che occupa la posizione data dal valore calcolato e il

primo quartile o il terzo quartile o p-esimo percentile.

• Se non e intero si calcola la media tra i due valori le cui posizioni precedono e

seguono il valore calcolato.

Si osservi che prendere il valore medio e solo una questione di semplicita. Il va-

lore del quantile corrispondente dovrebbe essere il valore proporzionale alla parte

decimale tra le due osservazioni nelle posizioni date dai due interi che precedono e

seguono il valore non intero calcolato. Se n e elevato conviene procedere calcolando

le frequenze relative cumulate. Il valore dell’osservazione per la quale la frequenza

relativa cumulata supera 0.25, 0.75, ovvero p/100 dove p = 1, . . . , 99 e detto primo

quartile, terzo quartile o p-esimo percentile.

Esempio 3.7.4. Calcoliamo i quartili e i percentili per i dati dei tempi di pausa

prima di un’eruzione del geyser Old Faithful. I valori ordinati della durata della

pausa dopo un eruzione sono

Page 56: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

54 CAPITOLO 3. VALORI MEDI

42 45 49 50 51 51 51 51 53 53 55 55 56 56 5758 60 66 67 67 68 69 70 71 72 73 73 74 75 7575 75 76 76 76 76 76 79 79 80 80 80 80 81 8282 82 83 83 84 84 84 85 86 86 86 88 90 91 93

• Mediana: 60+12

= 30.5. Posizioni 30 e 31, sono i valori 75 e 75, per cui la

mediana e Me = 75.

• Primo Quartile: 0.25(61) = 15.25. Posizioni 15 e 16: sono i valori 57 e 58. Il

primo quartile e Q1 = 57.5

• Terzo Quartile: 0.75(61) = 45.75. Posizioni 45 e 46: sono i valori 82 e 82. Il

terzo quartile e Q3 = 82

• Quinto percentile: 0.05(61) = 3.05. Posizioni 3 e 4: sono i valori 49 e 50. Il

quinto percentile e P5 = 49.5

• 95-esimo percentile: 0.95(61) = 57.95. Posizioni 57 e 58: sono i valori 88 e 90.

Il novantacinquesimo percentile e P95 = 89

3.8 Il box-plot

Il box blot e un grafico che permette di dare una rappresentazione della distribuzione

di una variabile molto immediata tramite il calcolo dei quartili e della mediana. Il

nome deriva dal fatto che la distribuzione di una variabile statistica viene rappresen-

tata come una scatola. Per disegnare il box plot la procedura puo essere riassunta

dai seguenti passi.

1. gli estremi della scatola sono Q1 e Q3

2. la scatola e tagliata dalla mediana

3. Si calcola il valore Q3 + 1.5 · (Q3 −Q1). Il basso superiore coincide con la piu

grande osservazione minore o uguale a questo valore.

4. Si calcola il valore Q1 − 1.5 · (Q3 − Q1). Il baffo inferiore coincide con la piu

piccola osservazione maggiore o uguale a questo valore.

5. Tutti i valori fuori dai baffi si segnano come punti isolati.

Esempio 3.8.1. Consideriamo sempre i dati del geyser Old Faithful nei due gruppi

rispetto al tipo di eruzione precedente. Le 43 osservazioni con eruzione precedente

di tipo Lunga ordinate sono le seguenti.

Page 57: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

3.9. SOLUZIONE DEGLI ESERCIZI ASSEGNATI 55

57 60 67 68 69 70 71 72 73 7374 75 75 75 75 76 76 76 76 7679 79 80 80 80 80 81 82 82 8283 83 84 84 84 85 86 86 86 8890 91 93

Le 17 osservazioni con eruzione precedente di tipo Corta ordinate sono le seguenti.

42 45 49 50 51 51 51 51 53 5355 55 56 56 58 66 67

Per disegnare il box plot del primo gruppo calcoliamo prima le posizioni della

mediana e del primo e terzo quartile. Esse sono rispettivamente le posizioni

n+ 1

2=

44

2= 22,

n+ 1

4=

44

4= 11, 3

n+ 1

4= 3

44

4= 33,

Quindi la mediana occupa la 22-esima posizione, e il valore 79. Il primo quartile

occupa la 11-esima posizione,si tratta del valore 74. Il terzo quartile occupa la

posizione 33, si tratta del valore 84. Per calcolare i baffi valutiamo dapprima la

distanza interquartile.

Q3 −Q1 = 10

Quindi

Q3 + 1.5 · (Q3 −Q1) = 99, Q1 − 1.5 · (Q3 −Q1) = 59.

La piu grande delle osservazioni minori o uguali a 99 e 93. Quindi il baffo superiore

viene posto in corrispondenza 93 non ci sono altre osservazioni maggiori. La piu

piccola delle osservazioni maggiori o uguali a 59 e 60. Quindi il baffo inferiore viene

posto in corrispondenza del valore 60. Essendoci ancora un valore questo viene

rappresentato singolarmente. nella Figura ?? e riportato il box plot dei tempi di

attesa per un’eruzione quando quella precedente era di tipo lungo. Analogamente

per il secondo gruppo otteniamo

n+ 1

2=

18

2= 9,

n+ 1

4=

18

4= 4.5, 3

n+ 1

4= 3

18

4= 13.5,

Quindi la mediana e 53. Il primo quartile e la media tra i valori che occupano la

quarta e la quinta posizione, Q1 = 50.5. Il terzo quartile e la media tra valori che

occupano la tredicesima e la quattordicesima posizione indi ragion per cui Q3 = 56.

3.9 Soluzione degli esercizi assegnati

Esercizio 3.4.1. La classe mediana per la distribuzione dell’eta degli uomini e la

classe (24, 34]. Poiche 0.50 viene raggiunto esattamente alla fine di questa classe la

Page 58: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

56 CAPITOLO 3. VALORI MEDI

0 20 40 60 80

0.00.2

0.40.6

0.81.0

Frequenze cumulate donne

età

F F=50

età=32.85

0 20 40 60 80

0.00.2

0.40.6

0.81.0

Frequenze cumulate uomini

età

F F=50

età=34

Figura 3.3: Frequenze cumulate relative per l’eta delle pendolari donne e deipendolari uomini

Mediana dell’eta e 34 anni. Del resto anche dalla formula 3.1 si deduce Me = 34.

La classe mediana per la distribuzione dei redditi e 58 a 70. Ci sono 4 unita dalla

decima alla tredicesima. Quella che corrisponde alla mediana e la 10.5 che sta tra

la decima e la undicesima. La mediana e 61. La formula per ottenerla e

Me = 58 +70− 58

0.65− 0.45(0.50− 0.45) = 61.

Per la distribuzione dell’eta delle pendolari donne, la classe mediana a 24 a 34. La

mediana e 33 anni, infatti

Me = 24 +34− 24

0.53 +−0.27(0.50− 0.27) = 32.85.

La Figura 3.3 riporta il grafico delle frequenze cumulate relative per l’eta delle pen-

dolari donne e dei pendolari uomini. Abbiamo tracciato le rette F = 0.50 e dove que-

ste intersecano la curva delle frequenze relative abbiamo tracciato la corrispondente

retta verticale.

Esercizio 3.4.2 L’eta del primo bacio e 14 anni. Lo scarto quadratico medio e

2.41 che possiamo arrotondare a due anni e mezzo. L’eta media del primo rapporto

risulta 16.88 che possiamo arrotondare a 17 anni, con una standard deviation di 2

anni.

Page 59: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

Capitolo 4

La variabilita

Come abbiamo sottolineato all’inizio di questa dispensa si puo affermare senza troppi

dubbi che lo scopo principale della statistica e la comprensione delle cause della

variabilita. In questo capitolo presentiamo alcuni indici di variabilita che, insieme

agli indici dati nel capitolo precedente che sintetizzano con un numero tutti i valori

osservati sul campione della variabile, invece ci danno informazioni su quanto e come

i valori osservati si distribuiscano attorno al valore centrale. Presenteremo tre di

questi indici: il range, lo scarto interquartile e lo scarto quadratico medio o standard

deviation. Accanto a quest’ultimo daremo anche la definizione di varianza che tanta

importanza avra nella parte di statistica inferenziale. Prima di introdurre tali indici

facciamo qualche considerazione di carattere generale sulla variabilita. Prima di

tutto cerchiamo di capire perche non basta dare solo l’informazione sintetizzata da

un valore medio. Osserviamo le due distribuzioni nel grafico seguente.

Istogramma di x

x

Density

50 100 150

0.000

0.005

0.010

0.015

0.020

0.025

0.030

0.035

Istogramma di y

y

Density

50 100 150

0.000

0.005

0.010

0.015

0.020

0.025

0.030

0.035

Si tratta di due distribuzioni che hanno la stessa media e la stessa mediana, ma

non possiamo certo dire che fornendo solo l’informazione sul valor medio possiamo

57

Page 60: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

58 CAPITOLO 4. LA VARIABILITA

descrivere due situazioni cosı diverse. D’altro canto anche senza conoscere il valor

medio di due distribuzioni, l’informazione che ricaviamo dalla variabilita osservando

le due distribuzioni nel grafico seguente e fondamentale. Il fenomeno nel grafico

di sinistra e poco variabile e molto concentrato attorno al suo valore centrale. Il

fenomeno di sinistra e molto meno concentrato e molto piu variabile attorno al suo

valore medio.

Piccola variabilità

x

densità

0.00.1

0.20.3

0.4

Grande variabilità

x

densità

0.00.1

0.20.3

0.4

Il fenomeno rappresentato potrebbe essere l’eta al matrimonio di un campione di

donne negli anni ’40 e di un altro campione di donne negli anni 2000. Non sapendo

quale che sia l’eta media in cui queste donne si sposavano, l’informazione sulla

variabilita e fondamentale per dire che negli anni 2000 l’eta del primo matrimonio

e molto piu variabile.

4.1 Il range e lo scarto interquartile

Il range e lo scarto interquartile sono due misure della variabilita che di solito ac-

compagnano la mediana come misura del valor medio (inteso come valore centrale)

di una distribuzione. Vediamo la definizione di entrambi e poi calcoliamo entrambi

gli indici per i dati di un esempio. Il range (si utilizza il termine inglese che in

italiano potrebbe essere tradotto con campo di variazione) misura l’ampiezza totale

del dataset o delle osservazioni.

Definizione 4.1.1 (Range). E definito come la differenza tra il valore piu grande

osservato e il valore piu piccolo osservato. In formula:

Range = max{x1, x2, . . . xn} −min{x1, x2, . . . xn}

Page 61: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

4.1. IL RANGE E LO SCARTO INTERQUARTILE 59

Lo scarto interquartile a differenza del range non considera tutto il campo di

variazione delle osservazioni ma solo la parte centrale.

Definizione 4.1.2 (Scarto interquartile). Date n osservazioni x1, . . . , xn, siano Q1

e Q3 rispettivamente il primo e il terzo quartile. Lo scarto interquartile e dato da

IQ = Q3 −Q1.

Di solito lo scarto interquartile viale utilizzato quando le osservazioni hanno

una distribuzione asimmetrica e si e utilizzata la mediana come misura del valore

centrale.

Esempio 4.1.3. Durante la visita dei servizi sociali ad un campo rom alla periferia

di Roma e stato chiesto alle 13 madri presenti al campo il peso dei loro 13 primogeniti

alla nascita. La seguente tabella riporta i pesi dei 13 neonati. Calcolare la mediana

1 2 3 4 5 6 7 8 9 10 11 12 13kg 2.5 4.0 3.5 3.0 3.1 3.0 4.0 2.5 3.5 3.0 2.8 3.0 4.7

Tabella 4.1: Peso in kg di 13 neonati in un campo rom.

il range e lo scarto interquatile del peso dei tredici neonati. Prima di tutto ordiniamo

le osservazioni dalla piu piccola alla piu grande. La seguente tabella riporta i dati

ordinati.

2.5 2.5 2.8 3.0 3.0 3.0 3.0 3.1 3.5 3.5 4.0 4.0 4.7

Il peso mediano e l’osservazione che occupa la settima posizione (ricordare: (n +

1)/2 = 14/2 = 7). Quindi Me = 3.0 kg. Il range e dato dalla differenza tra

l’osservazione piu grande e l’osservazione piu piccola:

Range = 4.7− 2.5 = 2.2

Mentre il primo e il terzo quartile occupano rispettivamente la posizione 0.25(n+1) =

3.5 e 0.75(n+ 1) = 10.5. Quindi

Q1 =2.8 + 3.0

2= 2.9, Q3 =

3.5 + 4.0

2= 3.75, IQ = Q3−Q1 = 3.75−2.9 = 0.85.

Possiamo quindi concludere che il il peso mediano dei neonati e 3 kg con un campo

di variazione di 2.2 kg. Oppure concludere che il il peso mediano dei neonati e 3 kg

con una variabilita (data dallo scarto interquartile) di 0.85 kg, ovvero di 850 g.

Page 62: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

60 CAPITOLO 4. LA VARIABILITA

4.2 Scarto quadratico medio e varianza

Lo scarto quadratico medio (in inglese standard deviation) misura la variabilita come

media degli scarti al quadrato di ogni osservazione dalla media aritmetica. Di solito si

utilizza quando la media aritmetica viene usata come misura della tendenza centrale.

Definizione 4.2.1 (Scarto quadratico medio). Siano x1, . . . , xn, n osservazioni e

sia x la media aritmetica delle n osservazioni. La quantita

s =

√√√√ 1

n− 1

n∑i=1

(xi − x)2 (4.1)

si chiama scarto quadratico medio ovvero deviazione standard.

In pratica per calcolare lo scarto quadratico medio occorre calcolare nell’ordine:

1. la media aritmetica x = 1n

∑ni=1 xi;

2. gli n scarti (o residui) delle osservazioni della media: xi − x per ogni i =

1, 2, . . . , n;

3. elevare ogni scarto al quadrato: (xi − x)2 per ogni i = 1, 2, . . . , n;

4. sommare tutti i residui al quadrato:∑n

i=1(xi − x)2;

5. dividere la somma dei residui al quadrato per n− 1: 1n−1

∑ni=1(xi − x)2;

6. calcolare la radice quadrata:√

1n−1

∑ni=1(xi − x)2.

Il risultato ottenuto si denota con s.

Osservazione 4.2.2. La somma di tutti i residui al quadrato e nulla. Infatti

n∑i=1

(xi − x) =n∑i=1

xi − nx

Dividendo entrambi i membri per n e ricordando la definizione di media aritmetica

otteniamo1

n

n∑i=1

xi −n

nx = x− x = 0.

Da questa osservazione deriva il fatto che la somma di tutti i residui non puo

essere usata come indicatore della variabilita perche e sempre nulla. La varianza

e semplicemente lo scarto quadratico medio elevato al quadrato, oppure possiamo

dire che lo scarto quadratico medio e la radice quadrata della varianza!

Page 63: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

4.2. SCARTO QUADRATICO MEDIO E VARIANZA 61

Definizione 4.2.3 (Varianza). Date n osservazioni x1, . . . , xn, sia x la media arit-

metica delle n osservazioni. La quantita

s2 =1

n− 1

n∑i=1

(xi − x)2 (4.2)

si chiama varianza.

La varianza e una statistica che rivestira un ruolo molto importante nell’inferenza

statistica. Come indice di variabilita e invece poco usato perche non e espresso nella

stessa untia di misura delle osservazioni, bensı al quadrato.

Viene spontaneo chiedersi perche dividiamo per n−1 invece che per n la somma

degli n residui al quadrato per ottenere la varianza e lo scarto quadratico medio.

Dopotutto abbiamo definito la media di n valori come la loro somma divisa per n. Il

motivo e legato al fatto che dividendo per n−1 si ottiene una stima piu precisa della

varianza di una distribuzione. Osserviamo che quando si divide una quantita per

n− 1 si ottiene un valore piu grande che se avessimo diviso per n. Cioe se avessimo

diviso per n avremmo ottenuto una stima troppo bassa per la varianza. Questo

si puo giustificare con il fatto che le n osservazioni si utilizzano gia una volta per

ottenere la media (quindi per stimare il valore centrale) e poi ancora una volta per

calcolare la somma egli scarti. Con questa seconda operazione si dice che si perde

un grado di liberta. Ma torneremo piu avanti su questo concetto.

Esempio 4.2.4. Riprendiamo i dati dell’Esempio 4.1.3. La tabella riporta i dati

per il calcolo della standard deviation. La media e x = 3.28 Quindi

xi (xi − x) (xi − x)2

1 2.50 -0.777 0.6042 4.00 0.723 0.5233 3.50 0.223 0.0504 3.00 -0.277 0.0775 3.10 -0.177 0.0316 3.00 -0.277 0.0777 4.00 0.723 0.5238 2.50 -0.777 0.6049 3.50 0.223 0.050

10 3.00 -0.277 0.07711 2.80 -0.477 0.22712 3.00 -0.277 0.07713 4.70 1.423 2.025

sum 42.6 0.000 4.943

Page 64: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

62 CAPITOLO 4. LA VARIABILITA

s =

√1

124.943 =

√0.411 = 0.641.

Possiamo concludere che il peso medio dei neonati e di 3.28 kg con uno scarto

quadratico medio di 641 grammi. Si scrive x±s ovvero in questo esempio 3.28±0.64.

Esercizio 4.2.5. Si calcoli la mediana, il range e lo scarto interquartile e quindi la

media aritmetica, la standard deviation e la varianza per i dati dell’Esempio 4.1.3

togliendo l’ultima osservazione.

Esercizio 4.2.6. I dati nella seguente tabella rappresentano le altezze in cm di 11

giocatori di una squadra di pallavolo. Calcolare la media aritmetica e lo scarto qua-

1 2 3 4 5 6 7 8 9 10 11h (cm) 9 190 185 182 208 186 187 189 179 183 191 179

dratico medio. Fare il grafico dei residui. Calcolare la media e lo scarto quadratico

medio quando viene tolta la quarta osservazioni 208 cm.

Esercizio 4.2.7. La seguente tabella riporta il numero di partner maschili nell’ul-

timo anno di 21 donne che hanno usufruito dei servizi offerti da un consultorio nel

territorio di Milano Calcolare la media aritmetica, lo scarto quadratico medio, la

1 1 1 16 0 1 22 3 0 1 1 1 30 2 2 12 0 3 4

mediana e lo scarto interquartile. Quale dei due gruppi di indici (uno per il valore

centrale e uno per la variabilita descrivono meglio il fenomeno? Perche?

Page 65: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

Capitolo 5

Operazioni sui dati

Molto spesso i dati vengono trasformati. Trasformare i dati non significa manipolarli

o falsificarli ma semplicemente renderli piu comprensibili o piu facili da studiare e

analizzare. Le ragioni per cui trasformare i dati sono le piu diverse. Le principali

sono dovute al bisogno di confrontare distribuzioni registrate in diverse scale, per

trovare errori nei dati e per migliorare la qualita dei dati stessi. Ad esempio puo

essere di interesse studiare come e se e cambiato il PIL nei paesi della zona Euro

prima e dopo l’avvento della moneta unica. In questo caso dovremo convertire i

dati degli anni precedenti il passaggio all’Euro nella monete comunitaria. Oppure

quando vogliamo sapere se un certo punteggio (score) e sopra o sotto la media. Per

quanto riguarda la qualita dei dati a volte alcune informazioni sono inconsistenti,

come ad esempio se l’eta del licenziamento avviene prima dell’eta del primo impiego.

Questi dati andrebbero rimossi dal data set.

Le operazioni che presenteremo sui dati sono le trasformazioni di scala e la

standardizzazione.

5.1 Trasformazioni di scala

La seguente tabella riporta il peso di 5 donne prima di una dieta, gli scarti dalla

media e gli scarti al quadrato. Calcoliamo il peso medio x = 60 e la deviazione

i xi (xi − x) (xi − x)2

1 55 -5 252 67 7 493 56 -4 164 63 3 95 59 -1 1

300 0 100

63

Page 66: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

64 CAPITOLO 5. OPERAZIONI SUI DATI

standard s =√

1005−1

= 5. Dopo 2 settimane di dieta il peso, gli scarti dalla media

e gli scarti al quadrato sono riportati nella seguente tabella. Tutte le donne sono

i xi (xi − x) (xi − x)2

1 51 -5 252 63 7 493 52 -4 164 59 3 95 55 -1 1

280 0 100

calate di 4 kg. Il peso medio e x = 56 mentre la deviazione standard e ancora

s = 5. Si osservi infatti che nella seconda tabella gli scarti e gli scarti al quadrato

non sono cambiati per nessuna delle osservazioni. Questa e una regola generale:

aggiungendo o sottraendo una costante a tutte le osservazioni la media cambia per

il valore di quella costante mentre lo scarto quadratico medio rimane inalterato.

Abbiamo quindi piu formalmente la seguente proposizione.

Proposizione 5.1.1. Siano x1, x2, . . . , xn, n osservazioni. Indichiamo con x la

media campionaria e con sx la deviazione standard delle n osservazioni. Sia a una

costante qualunque (positiva o negativa). Consideriamo la trasformazione

yi = xi + a

Abbiamo

y = x+ a

Mentre la deviazione standard non cambia.

Dimostrazione. Poiche yi = xi + a per ogni i = 1, 2, , . . . , n abbiamo

y =1

n

n∑i=1

(xi + a) =1

n

n∑i=1

xi +1

nna = x+ a.

ovvero la media dei dati trasformati y e uguale alla media dei dati da cui siamo

partiti x piu la costante a. Denotiamo ora con sx lo scarto quadratico medio del-

le osservazioni x1, . . . , xn, e analogamente con sy lo scarto quadratico medio delle

osservazioni trasformate. Poiche abbiamo appena dimostrato che y = x+a abbiamo

sy =

√√√√ 1

n− 1

n∑i=1

(yi − y)2 =

√√√√ 1

n− 1

n∑i=1

(xi + a− (x+ a))2

=

√√√√ 1

n− 1

n∑i=1

(xi − x)2 = sx

Page 67: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

5.1. TRASFORMAZIONI DI SCALA 65

Lo scarto quadratico medio non cambia se si somma o se si sottrae una costante.

Supponiamo adesso che invece che essere tutte diminuite di 4 kg, tutte le donne

abbiano perso il 10% del loro peso. Indichiamo con zi il peso dopo la diminuzione

del 10%. Si ha zi = xi − 0.1 · xi ovvero zi = 0.9 · xi. La media del nuovo peso e

z = 54 e la standard deviation e sz =√

814

= 4.5. I conti per ottenere la media e lo

scarto quadratico medio sono riportati nella seguente tabella.

i zi (zi − z) (zi − z)2

1 49.5 -4.5 20.252 60.3 6.3 39.693 50.4 -3.6 12.964 56.7 2.7 7.295 53.1 -0.1 0.81

270 0 81

Osserviamo che 54 e il 10% meno di 60, e 4.5 e il 10% meno di 5. Quindi se si

moltiplica o si divide ogni osservazione per una costante sia la media che lo scarto

quadratico medio dei dati trasformati risultano moltiplicati o divisi per quella stessa

costante. Abbiamo quindi la seguente proposizione

Proposizione 5.1.2. Siano x1, x2, . . . , xn, n osservazioni. Indichiamo con x la

media campionaria e con sx la deviazione standard delle n osservazioni. Sia b una

costante qualunque (positiva). Consideriamo la trasformazione

yi = bxi

Abbiamo

y = bx sy = bsx

Dimostrazione. Poiche yi = bxi per ogni i = 1, 2, , . . . , n abbiamo

y =1

n

n∑i=1

(bxi) =1

nb

n∑i=1

xi = bx.

Si noti infatti che nella prima somma scritta per esteso abbiamo

1

n

n∑i=1

(bxi) =bx1 + bx2 + · · · bxn

n=b(x1 + x2 + · · ·+ xn)

n=

1

nb

n∑i=1

xi

ovvero la media dei dati trasformati y e uguale alla media dei dati da cui siamo par-

titi x moltiplicati per la stessa costante b. Denotiamo ora con sx lo scarto quadratico

Page 68: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

66 CAPITOLO 5. OPERAZIONI SUI DATI

medio delle osservazioni x1, . . . , xn, e analogamente con sy lo scarto quadratico me-

dio delle osservazioni trasformate. Poiche abbiamo appena dimostrato che y = bx

abbiamo

sy =

√√√√ 1

n− 1

n∑i=1

(yi − y)2 =

√√√√ 1

n− 1

n∑i=1

(bxi − bx)2

=

√√√√ 1

n− 1b2

n∑i=1

(xi − x)2 = bsx

ovvero lo scarto quadratico medio dei dati trasformati sy e uguale allo scarto qua-

dratico medio dei dati da cui siamo partiti sx moltiplicati per la stessa costante

b.

La Figura 5.1 rappresenta come la variabilita di una distribuzione aumenti se mol-

tiplichiamo per una costante piu grande di uno, mentre diminuisce se moltiplichiamo

per una costante piu piccola di uno.

2*x

densità

0.00.1

0.20.3

0.4

x

densità

0.00.1

0.20.3

0.4

1/2*x

densità

0.00.1

0.20.3

0.4

Figura 5.1: La variabilita aumenta (a sinistra) o diminuisce (a destra) a seconda sesi moltiplica per una costante minore o maggiore di uno una distribuzione qualunque(in centro).

Un vantaggio di questo tipo di trasformazioni e che se sappiamo con che tipo

di trasformazione di scala si passa da una osservazione all’altra possiamo calcolare

la media e lo scarto quadratico medio per i dati trasformati senza rifare i conti per

i dati trasformati ma semplicemente trasformando con la stessa trasformazione la

media e lo scarto quadratico medio dei dati trasformati.

Page 69: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

5.2. STANDARDIZZAZIONE 67

5.2 Standardizzazione

L’operazione di standardizzazione di un dato e un’operazione che riveste un ruolo

fondamentale in gran parte di tutta la statistica. La standardizzazione ci permette

di confrontare e riportare ad una stessa scala dati provenienti da fonti, casi e unita

diverse. Per capire l’importanza partiamo da un esempio. Due studentesse Ada

e Bea hanno superato una l’esame di glottologia con voto 28, l’altra l’esame di

filologia germanica con voto 27. Chi ha ottenuto il miglior risultato? Se si guarda

solo al voto si sarebbe tentati di rispondere che ha ottenuto il miglior risultato Ada

prendendo il voto piu alto rispetto al 27 di Bea. Il confronto fatto in questo modo

sarebbe corretto se entrambe avessero sostenuto lo stesso esame. Essendo l’esame

diverso non possiamo rispondere senza fare qualche considerazione. Nel corso di

laurea seguito dalle due studentesse per l’esame di Glottologia la media di tutti gli

studenti che hanno superato l’esame e 26.5 mentre la deviazione standard e 1.5. Per

il corso di Filologia germanica invece la media e 24.2 e la deviazione standard e 2.

Quindi sembra essere molto piu difficile prendere un voto alto a Filologia germanica

che a Glottologia. Calcoliamo gli score di entrambi i voti di Ada e Bea. Significa

esprimere quante volte lo scarto quadratico medio il loro voto si e discostato dal

valor medio.

Ada:28− 26.5

1.5= 1 Bea:

27− 24.2

2= 1.4

Bea ha ottenuto il risultato migliore, il suo risultato e 1.4 volte la standard deviation

sopra la media, mentre il risultato di Ada e solo 1 volta la s.d. sopra la media.

In sostanza standardizzare un dato vuol dire esprimere la sua distanza dal valor

medio come multipli dello scarto quadratico medio. In pratica si calcola quante

volte lo scarto quadratico medio sta nella differenza tra valore osservato e media.

Supponiamo che una terza studentessa Clio, abbia preso in filologia germanica voto

23. In questo caso il suo voto e inferiore al valor medio, quindi la differenza tra il

voto riportato e la media dei voti in quella materia e negativo. Lo score risulta

Clio:23− 24.2

2= −0.60.

Quindi Clio ha ottenuto un voto che e 6/10 lo scarto quadratico medio inferiore alla

media.

In generale il valore standardizzato di una osservazione proveniente da una

popolazione con media µ e standard deviation σ si puo sempre scrivere come

z =x−Media

Standard Deviationovvero z =

x− µσ

Possiamo scrivere

z =x− µσ

⇒ x = µ+ z · σ

Page 70: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

68 CAPITOLO 5. OPERAZIONI SUI DATI

ovvero si puo sempre scrivere

x = Media + z · Standard Deviation ovvero x = µ+ z · σ

Definizione 5.2.1. Lo score o valore standardizzato di un’osservazione xi da una

popolazione con media µ e standard deviation σ e calcolato come segue:

zi =xi − µσ

Se µ e σ non sono note non e possibile ricavare il valore standardizzato di una

osservazione, allora lo score si puo calcolare come

zi =xi − xsx

dove x e la media calcolata su tutte le osservazioni e sx e la standard deviation

calcolata su tutte le osservazioni.

Lo score misura il numero di standard deviation che un’osservazione si allontana

dal valore medio.

• score positivo: l’osservazione e sopra la media di z volte la standard deviation.

• score negativo: l’osservazione e sotto la media di z volte la standard deviation.

• score nullo: l’osservazione e uguale alla media.

Gli score hanno uno proprieta molto utile. Cerchiamo di derivarla partendo da

un esempio. Per i valori del paso delle 5 donne considerate all’inzio della sezione

precedente, calcoliamo i valori standardizzati (gli score) dei 5 pesi e quindi calcoliamo

la media e lo scarto quadratico medio dei valori standardizzati per i pesi delle 5

donne. I conti sono riportati nella seguente tabella. Ricordiamo che il peso medio

delle 5 donne e x = 60 kg con una standard deviation sx = 5 kg.

1 2 3 4 5 sommaPeso: xi 55 67 56 63 59 300Peso-media: xi − x -5 7 -4 3 -1 0score: zi = xi−x

sx-1.00 1.40 -0.80 0.60 -0.20 0

score2: z2i 1.00 1.96 0.64 0.36 0.04 4

Possiamo quindi calcolare la media e lo scarto quadratico medio dei pesi stan-

dardizzati

media score: z = 0, s.d. score sz =

√4

4= 1

Il fatto che la media degli score sia zero e lo scarto quadratico medio degli score sia

1, non e un caso.

Page 71: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

5.2. STANDARDIZZAZIONE 69

Proposizione 5.2.2. Siano x1, x2, . . . , xn, n osservazioni. Indichiamo con x la

media campionaria e con sx la deviazione standard delle n osservazioni. Indichiamo

con zi i valori standardizzati

zi =xi − xsx

.

Allora

z =1

n

n∑i=1

zi = 0 e sz =

√√√√ 1

n− 1

n∑i=1

(zi − z)2 = 1

Dimostrazione. Poiche sx e una costante e la somma di tutti gli scarti e nulla

(ricordare l’Osservazione 4.2.2), abbiamo

z =1

n

n∑i=1

zi =1

n

n∑i=1

(xi − xsx

)=

1

n

1

sx

n∑i=1

(xi − x) = 0

Passando al calcolo per la standard deviation, poiche z = 0 e per la definizione di

sx, abbiamo

sz =

√√√√ 1

n− 1

n∑i=1

(zi − z)2 =

√√√√ 1

n− 1

n∑i=1

z2i =

√√√√ 1

n− 1

n∑i=1

(xi − x)2

sx=

√sxsx

= 1.

Esempio 5.2.3. Per 6 esami del corso di laurea in lettere le medie e gli scarti qua-

dratici medi sono riportati nella seguente tabella. Tre studentesse hanno sostenuto

media sdInglese 24.3 1.3Tedesco 25.5 2.1Francese 23.8 1.4Giapponese 26.1 1.8Russo 25.6 2.2Statistica sociale 24.4 2.3

i seguenti esami con le votazioni riportate:

• Ada: Inglese 25, Francese 25, Giapponese 27, Russo 28

• Bea: Tedesco 24, Francese 26, Russo 27, Stat. Sociale 28

• Clio: Inglese 23, Tedesco 26, Francese 22, Giapponese 27, Russo 24

Page 72: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

70 CAPITOLO 5. OPERAZIONI SUI DATI

Chi ha ottenuto il migliore risultato?

Esercizio 5.2.4. L’indice di deprivazione si basa su tre variabili rilevate in ogni

comune: la percentuale di persone che non possiede un auto, riportata in tabella

nella colonna NO Auto, la percentuale di persone che e affetto da una patologia

debilitante grave, riportate nella colonna Malattia e la percentuale di coloro che non

sono proprietari della casa dove abitano, nella colonna NO Casa. Nella seguente

tabella sono riportate le percentuali di queste variabili rilevate in un campione non

specificato in 6 comuni della provincia di Bergamo. Determinare in quale comune

della provincia l’indice di deprivazione e il piu elevato.

comuni NO Auto % Malattia % NO Casa %Bergamo 25.4 11.3 29.9Trescore 56.9 16.1 56.4Dalmine 31.6 11.8 35.3Albino 32.6 12.5 32.9Clusone 25.6 12.2 34.7Osio 24.4 11.3 43.8

Quale e il comune piu deprivato?

Page 73: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

Capitolo 6

Siamo tutti normali?

In questo capitolo studiamo una distribuzione fondamentale per tutta la statistica:

la distribuzione normale. Supporremo che tutti i fenomeni che abbiamo incontrato

siano distribuiti con questa distribuzione: la distribuzione normale. Quindi per

rispondere alla domanda che da il titolo al capitolo: sı siamo tutti normali! A

cominciare dalla forma della collina che compare nella foto riportata in Figura 6.1 e

dalla forma della campana riportata in Figura 6.2. Infatti la distribuzione normale

e conosciuta anche come la bell shaped distribution: la distribuzione a forma di

campana.

Top » Catalog » Easter Island » My Account | Cart Contents | Checkout

Categories

CityscapesDark and LightForestHistoric SitesLakesLandscapesMan-MadeMountainsOcean and BeachSnow and IceStreet ScenesSunsetsWaterfallsFlora and Fauna

Photo Location

Easter Island

What's New?

Street in Nafplio,Peloponese

Rolling Hills

Available Sizes/Finishes: Finish: Gloss

Size: 5 x 7 (+$20.00)

ShoppingCart

0 photos

Tell A Friend

Tell someone youknow about this

photo.

Information

Shipping &ReturnsPrivacy NoticeConditions of UseContact Us

FREE SHIPPING ON ALL ORDERS!! About Steve Topper

Copyright © 2009 Steve Topper PhotographyPowered by osCommerce

Figura 6.1: La collina normale. foto di Steve Topper.

71

Page 74: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

72 CAPITOLO 6. SIAMO TUTTI NORMALI?

Figura 6.2: La campana normale. Foto Ditta Colaci.

6.1 La curva e normale!

La distribuzione normale e una distribuzione teorica. Le distribuzioni teoriche si

distinguono da quelle empiriche perche non sono determinate partendo dai dati (o

almeno non direttamente) ma perche sono date da una formula matematica che ne

fornisce la forma e le caratteristiche salienti come media e scarto quadratico medio.

Fino ad ora abbiamo avuto a che fare con distribuzioni empiriche: partendo dai dati

osservati di una certa distribuzione venivano costruite le forme delle distribuzioni

attraverso l’istogramma e i valori di sintesi come media (aritmetica) mediana, quar-

tili, percentili, scarto quadratico medio, varianza, range, scarto interquartile. La

distribuzione teorica invece e data da una formula matematica (che non riportiamo

qui ma che riportiamo alla fine del capitolo per i piu curiosi) le cui caratteristiche

sono le seguenti:

1. La distribuzione normale e simmetrica attorno al suo valore centrale che coin-

cide con la media (aritmetica) la mediana e la moda della distribuzione.

2. La maggiorparte dei valori si distribuisce attorno a questo valore centrale

secondo modalita che verrano specificate tra poco.

3. Pochi valori si distribuiscono lontano da questo valore centrale.

Page 75: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

6.1. LA CURVA E NORMALE! 73

4. La curva man mano che si allontana dal valore centrale si avvicina sempre piu

all’asse delle ascisse senza pero mai toccarlo.

La Figura 6.3 riporta il grafico di tre curve normali per le quali il valore centrale e

lo stesso. Il valore centrale viene indicato con la lettera greca mu, µ. Quindi per

le distribuzioni in figura µ = 15. Le curve delle distribuzioni normali in Figura 6.3

0 5 10 15 20 25 30

0.0

0.1

0.2

0.3

0.4

Curva Normale

x

dens

ità

Figura 6.3: Distribuzioni normali con la stessa media ma diverso scarto quadraticomedio.

hanno tutte la stessa media, ma non si puo negare che siano molto diverse tra loro: i

fenomeni che rappresentano sono molto diversi tra loro. Questa diversita e data dalla

forma, da quanto i valori della distribuzione si distribuiscono attorno alla media in

termini di multipli dello scarto quadratico medio. La distribuzione normale e molto

comoda perche e caratterizzata oltre che dalla media da solo un’altra grandezza che

e lo scarto quadratico medio, che viene indicato con la lettera greca sigma, che si

scrive σ. Le distribuzioni in Figura 6.3 hanno rispettivamente σ = 1 la blu, σ = 2 la

nera e σ = 5 la rossa. E importante notare che dati i valori di µ e σ caratterizziamo

completamente la distribuzione normale, cioe la identifichiamo e siamo in grado di

disegnarla. Ad esempio se sappiamo che una certa distribuzione di redditi e normale

con media µ = 15000 e standard deviation σ = 3000, il grafico e quello riportato in

Figura 6.4.

Se sappiamo che l’eta a cui viene dato il primo bacio (esempio presentato nella

Sezione 2.6.3) e distribuita come una normale con media µ = 14 anni e scarto

quadratico medio σ = 2.5 anni (due anni e mezzo) il grafico e riportato in Figura

6.5.

Page 76: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

74 CAPITOLO 6. SIAMO TUTTI NORMALI?

0 5000 10000 15000 20000 25000 30000

0.00

000

0.00

004

0.00

008

0.00

012

Distribuzione dei redditi

x

dnor

m(x

, 150

00, 3

000)

Figura 6.4: Distribuzioni dei redditi normale con µ = 15000 euro σ = 3000 euro.

Ancora dall’esperienza personale basata su 1200 esami effettuati, posso ritenere

che la distribuzione del voto di statistica alla facolta di ingegneria sia normale con

media µ = 24 e scarto quadratico medio σ = 1.5. Il grafico e riportato nella Figura

6.6

Le curve dei tre esempi sono molto diverse tra loro, ma quello che hanno in

comune sono alcune caratteristiche. Queste sono date dall’area della curva sotto

determinati intervalli di valori. Precisamente valgono le seguenti proprieta per le

aree sotto la curva normale. Indichiamo con µ la media e con σ lo s.q.m di una

normale (ad esempio per i voti µ = 24, σ = 1.5). Per ogni distribuzione normale

1. L’area sotto la curva e 1

2. L’area tra µ− σ e µ+ σ e 0.6826 (il 68.26% delle osservazione sta tra µ− σ e

µ+ σ)

3. L’area tra µ−2σ e µ+ 2σ e 0.9546 (il 95.46% delle osservazione sta tra µ−2σ

e µ+ 2σ)

4. L’area tra µ−3σ e µ+ 3σ e 0.9972 (il 99.72% delle osservazione sta tra µ−3σ

e µ+ 3σ)

Quindi possiamo rispondere alle seguenti domande.

1. Che proporzione di popolazione di studenti ha preso un voto che sta tra µ e

µ+ 2σ, cioe un voto tra 24 e 27?

Page 77: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

6.1. LA CURVA E NORMALE! 75

0 5 10 15 20 25 30

0.00

0.05

0.10

0.15

Distribuzione dell'età al primo bacio

x

dnor

m(x

, 14,

2.5

)

Figura 6.5: Distribuzioni dell’eta al primo bacio con µ = 14 anni σ = 2.5 anni.

2. Che proporzione di popolazione di redditieri ha un reddito compreso tra µ−σe µ, ovvero un reddito comrpeso tra 12000 euro e 15000 euro?

3. Che proporzione di popolazione di redditieri ha un reddito minore di µ − σ,

ovvero un reddito minore di 12000 euro?

4. Che proporzione di popolazione di giovani uomini ha dato il primo bacio ad un

eta minore di µ−2σ o maggiore di µ+2σ, ovvero minore di 9 anni o maggiore

di 19 anni?

Nell’ordine abbiamo

1. L’area sotto la curva normale tra µ e µ + 2σ e 0.9546/2, ovvero 0.4773. La

proporzione richiesta e il 47.73%.

2. L’area sotto la curva normale tra µ − σ e µ e 0.6826/2, ovvero 0.3413. La

proporzione richiesta e il 34.13%.

3. L’area sotto la curva normale dal limite inferiore a µ − σ e 0.50 − 0.3413 =

0.1587. La proporzione cercata e quindi il 15.87 %

4. L’area sotto la curva normale dal limite inferiore a µ− 2σ e l’area da µ + 2σ

e data da 1− 0.9546 = 0.0454. La proporzione richiesta e il 4.54%.

Page 78: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

76 CAPITOLO 6. SIAMO TUTTI NORMALI?

18 20 22 24 26 28 30

0.00

0.05

0.10

0.15

0.20

0.25

Distribuzione dei voti normale teorica

x

dnor

m(x

, 24,

1.5

)

Figura 6.6: Distribuzioni dei voti all’esame di statistica µ = 24 trentesimi σ = 1.5trentesimi.

Come abbiamo detto la distribuzione normale e una distribuzione teorica. Noi

avremo a che fare con distribuzioni empiriche. Il legame tra la distribuzione empi-

rica e quella teorica e pero molto stretto. La distribuzione empirica dei voti di 1200

studenti che hanno sostenuto l’esame di statistica e riportato nella Figura 6.7. La

media calcolata e x = 24.002 la Mediana e 24, la moda e 24. La standard deviation

s = 1.5. Possiamo pensare adesso ad una distribuzione teorica che abbia media

µ = 24 e σ = 1.5. Se tracciamo questa distribuzione sopra il grafico dell’istogram-

ma otteniamo la Figura 6.8 dove abbiamo tracciato l’istogramma dei voti di 1200

studenti che hanno sostenuto l’esame di statistica. Nella Figura la linea continua

rappresenta la distribuzione di una normale con media µ = 24 e standard deviation

σ = 1.5. Come si vede la curva teorica si sovrappone molto bene all’istogramma

ricavato empiricamente.

6.2 La normale standardizzata

Esistono quindi un’infinita di distribuzioni normali, una per ogni valore della media

µ e ogni valore dello scarto quadratico o medio σ. Tra tutte le normali c’e n’e

una un po’ piu normale delle altre. Si tratta della normale standardizzata che e

una distribuzione normale con media µ = 0 e scarto quadratico medio σ = 1.

Questa distribuzione riveste un ruolo particolare perche e la distribuzione degli Z-

scores di ogni distribuzione normale. Prendiamo uno dei tre esempi della sezione

Page 79: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

6.2. LA NORMALE STANDARDIZZATA 77

Distribuzione dei voti, normale empirica

x

Den

sity

18 20 22 24 26 28 30

0.00

0.05

0.10

0.15

0.20

0.25

Figura 6.7: Distribuzione empirica dei voti di 1200 studenti. Istogramma dei votiall’esame di statistica: Media=24.002, Mediana= 24, moda=24, sd= 1.5

precedente. La distribuzione dei redditi. Indichiamo con x un reddito generico.

La distribuzione di tutti i possibili redditi e una distribuzione normale con media

µ = 15000 e standard deviation σ = 3000. Consideriamo adesso per un reddito

generico x il suo z-score. Lo score del reddito e definito come

z =x− 15000

3000

per ogni reddito x. La distribuzione di tutti i possibili z-scores dei redditi segue una

distribuzione normale standardizzata, ovvero con media µ = 0 e scarto quadratico

medio σ = 1. Se consideriamo la distribuzione dei voti all’esame di statistica, si

tratta di una distribuzione normale con media µ = 24 e scarto quadratico medio

σ = 1.5. Se indico con x il voto generico, lo z-score del voto e

z =x− 24

1.5

Anche in questo caso la distribuzione di tutti i possibili z-scores dei voti segue una

distribuzione normale standardizzata, ovvero con media µ = 0 e scarto quadratico

medio σ = 1. Si puo generalizzare per ogni tipo di distribuzione normale con media

µ e scarto quadratico medio σ. La distribuzione di tutti i possibili score

z =x− µσ

segue una distribuzione normale standardizzata.

Page 80: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

78 CAPITOLO 6. SIAMO TUTTI NORMALI?

Distribuzione dei voti, normale

x

Den

sity

18 20 22 24 26 28 30

0.00

0.05

0.10

0.15

0.20

0.25

Figura 6.8: Distribuzione empirica e distribuzione teorica dei voti di 1200 studenti.Istogramma dei voti all’esame di statistica: Media=24.002, Mediana= 24, moda=24,sd= 1.5, curva normale con media 24 e sd=1.5

Se quindi voglio sapere che proporzione di studenti ha uno z-score compreso tra

−1 e 1, trattandosi dell’area sotto una curva normale di media µ = 0 e s.q.m. σ = 1,

so che tale proporzione e pari al 68.26%. Se voglio sapere la proporzione di redditieri

con uno z-score tra −2 e 2, cioe la proporzione di redditieri che hanno un reddito

compreso tra il valor medio e piu o meno due standard deviation del reddito, ancora

so che tale proporzione e il 95.46%. Ma la distribuzione degli z score permette di

rispondere a domande piu interessanti come quelle nel seguente esempio.

Esempio 6.2.1. La distribuzione dei voti all’esame di statistica e normale con media

µ = 24 e s.q.m. σ = 1.5.

1. Prendete 23. Qual e la proporzione di studenti che e stato peggio di voi?

2. Prendete 28. Di che proporzione di studenti siete stato piu bravo?

3. Qual e il voto minimo che dovete prendere per essere tra il 60% degli studenti

piu bravi?

Si noti che 23 ha uno z score di (23− 24)/1.5 = −0.67. Quindi non e esprimibile

come multiplo intero di σ. Io devo poter calcolare la proporzione di studenti che

hanno lo z score minore di −0.67. In questo modo conoscero la proporzione di

studenti di cui sono stato piu bravo, ovvero con uno z score minore del mio. Si

Page 81: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

6.2. LA NORMALE STANDARDIZZATA 79

noti che 28 ha uno z score di (28 − 24)/1.5 = 1.67. Quindi non e esprimibile come

multiplo intero di σ. Io devo poter calcolare la proporzione di studenti che hanno lo

z score minore di 1.67. Per rispondere alla terza domanda, devo trovare quel voto

per cui la proporzione di voti maggiori di quel voto sia il 60%. Devo trovare lo z

score tale per cui l’area sotto la curva normale standardizzata dal valore z in poi sia

pari a 0.60.

Prima di rispondere a queste domande dobbiamo introdurre la tavola dei valori

della normale standardizzata. Questi valori sono riportati nella Tabella 6.1. I valori

nella prima colonna sono i valori degli z score fino alla prima cifra decimale. Sono i

valori da 0.0 a −3.0. La seconda cifra decimale la troviamo invece nella prima riga,

sono i valori 0.00, fino a −0.09. I valori interni alla tavola corrispondono all’area

sotto la curva normale dallo z score corrispondente per tutti i valori a sinistra. Se

si guarda la Figura 6.9 il valore all’interno della tabella corrisponde all’area della

regione sotto la curva tratteggiate. Quindi per rispondere alla prima domanda devo

cercare nella tabella lo z-score −0.67. Lo trovo in corrispondenza della riga con −0.6

e della colonna con −0.07. Il valore all’incrocio tra questa riga e questa colonna

riporta il valore: 0.125143. Posso concludere che la percentuale cercata e il 12.51%.

Per rispondere alle altre domande occorre fare un grafico, tratteggiare la parte di

area che interessa e quindi ragionare con la simmetria degli z score e delle area. In

particolare per ogni z score negativo c’e uno z score positivo. L’area sotto la curva

prima dello z score negativo e uguale all’area sotto la curva dopo lo z score positivo.

Per rispondere alla seconda domanda dobbiamo fare un’ulteriore considerazione: La

proporzione di z score piu piccoli di 1.67 che e positivo e uguale alla proporzione

di z score piu grandi di −1.67 che e negativo. Quest’ultima proporzione e uguale

a 1 meno l’area prima dello z score negativo. Quindi cerco sulle tavole il valore

dell’area sotto la curva normale standardizzata prima di z = −1.67. il valore lo trovo

all’incrocio tra la riga di −1.6 e la colonna di −0.07: si tratta del valore 0.04746.

Quindi l’area cercata e 1 − 0.04746 = 0.9526 e la proporzione cercata e dunque

il 95.26%. Per rispondere all’ultima domanda devo utilizzare le tavole in maniera

inversa. In questo caso conosco un valore di un area (trasformo la proporzione 60%

in 0.60) e devo trovare il valore dello z score che lascia alla sua destra sotto la curva

normale un’area pari a 0.60. Il valore di z sara quello in corrispondenza di un’area

di 0.40. Cerco quindi tale valore nelle tavole e noto che nella tavola ci sono i valori

0.40129 che lo approssima per eccesso e che corrisponde allo z score −2.05 e il valore

0.39743 che lo approssima per difetto e che corrisponde allo z score −2.06. Il valore

z che cerco puo essere scelto un due modi: o prendo il valore tra i due z score con

l’errore piu basso, in questo caso −2.05, perche 0.40129 − 0.40 = 0.00129 e minore

di 0.40− 0.39743 = 0.00257. Oppure prendo il punto intermedio −2.055 tra −2.06

Page 82: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

80 CAPITOLO 6. SIAMO TUTTI NORMALI?

e −2.05.

z 0

Φ(z) = P(Z ≤ z) = ⌠⌡−∞

zf(x)dx

Figura 6.9: Area sotto la curva normale standardizzata della regione di valori minoridel generico z score.

Esercizio 6.2.2. Il QI nella popolazione e noto che si distribuisce come una normale

con µ = 100 e standard deviation σ = 15.

• Tra quali valori di QI sta il 68.26% della popolazione centrale?

• Quale proporzione di popolazione ha un QI minore di 75?

• Quale proporzione di popolazione ha un QI minore di 105?

• Quale proporzione di popolazione ha un QI maggiore di 105?

• Quale proporzione di popolazione ha un QI maggiore di 130?

• Quale proporzione di popolazione ha un QI compreso tra 90 e 115?

• Quale proporzione di popolazione ha un QI compreso tra 95 e 105?

• A che QI corrisponde il 10% della popolazione con QI piu alto?

Page 83: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

6.3. UN PO’ DI FORMULE MATEMATICHE E UN PO’ DI STORIA 81

z 0.00 -0.01 -0.02 -0.03 -0.04 -0.05 -0.06 -0.07 -0.08 -0.090.0 0.50000 0.49601 0.49202 0.48803 0.48405 0.48006 0.47608 0.47210 0.46812 0.46414-0.1 0.46017 0.45620 0.45224 0.44828 0.44433 0.44038 0.43644 0.43251 0.42858 0.42465-0.2 0.42074 0.41683 0.41294 0.40905 0.40517 0.40129 0.39743 0.39358 0.38974 0.38591-0.3 0.38209 0.37828 0.37448 0.37070 0.36693 0.36317 0.35942 0.35569 0.35197 0.34827-0.4 0.34458 0.34090 0.33724 0.33360 0.32997 0.32636 0.32276 0.31918 0.31561 0.31207-0.5 0.30854 0.30503 0.30153 0.29806 0.29460 0.29116 0.28774 0.28434 0.28096 0.27760-0.6 0.27425 0.27093 0.26763 0.26435 0.26109 0.25785 0.25463 0.25143 0.24825 0.24510-0.7 0.24196 0.23885 0.23576 0.23270 0.22965 0.22663 0.22363 0.22065 0.21770 0.21476-0.8 0.21186 0.20897 0.20611 0.20327 0.20045 0.19766 0.19489 0.19215 0.18943 0.18673-0.9 0.18406 0.18141 0.17879 0.17619 0.17361 0.17106 0.16853 0.16602 0.16354 0.16109-1.0 0.15866 0.15625 0.15386 0.15151 0.14917 0.14686 0.14457 0.14231 0.14007 0.13786-1.1 0.13567 0.13350 0.13136 0.12924 0.12714 0.12507 0.12302 0.12100 0.11900 0.11702-1.2 0.11507 0.11314 0.11123 0.10935 0.10749 0.10565 0.10383 0.10204 0.10027 0.09853-1.3 0.09680 0.09510 0.09342 0.09176 0.09012 0.08851 0.08691 0.08534 0.08379 0.08226-1.4 0.08076 0.07927 0.07780 0.07636 0.07493 0.07353 0.07215 0.07078 0.06944 0.06811-1.5 0.06681 0.06552 0.06426 0.06301 0.06178 0.06057 0.05938 0.05821 0.05705 0.05592-1.6 0.05480 0.05370 0.05262 0.05155 0.05050 0.04947 0.04846 0.04746 0.04648 0.04551-1.7 0.04457 0.04363 0.04272 0.04182 0.04093 0.04006 0.03920 0.03836 0.03754 0.03673-1.8 0.03593 0.03515 0.03438 0.03362 0.03288 0.03216 0.03144 0.03074 0.03005 0.02938-1.9 0.02872 0.02807 0.02743 0.02680 0.02619 0.02559 0.02500 0.02442 0.02385 0.02330-2.0 0.02275 0.02222 0.02169 0.02118 0.02068 0.02018 0.01970 0.01923 0.01876 0.01831-2.1 0.01786 0.01743 0.01700 0.01659 0.01618 0.01578 0.01539 0.01500 0.01463 0.01426-2.2 0.01390 0.01355 0.01321 0.01287 0.01255 0.01222 0.01191 0.01160 0.01130 0.01101-2.3 0.01072 0.01044 0.01017 0.00990 0.00964 0.00939 0.00914 0.00889 0.00866 0.00842-2.4 0.00820 0.00798 0.00776 0.00755 0.00734 0.00714 0.00695 0.00676 0.00657 0.00639-2.5 0.00621 0.00604 0.00587 0.00570 0.00554 0.00539 0.00523 0.00508 0.00494 0.00480-2.6 0.00466 0.00453 0.00440 0.00427 0.00415 0.00402 0.00391 0.00379 0.00368 0.00357-2.7 0.00347 0.00336 0.00326 0.00317 0.00307 0.00298 0.00289 0.00280 0.00272 0.00264-2.8 0.00256 0.00248 0.00240 0.00233 0.00226 0.00219 0.00212 0.00205 0.00199 0.00193-2.9 0.00187 0.00181 0.00175 0.00169 0.00164 0.00159 0.00154 0.00149 0.00144 0.00139-3.0 0.00135 0.00131 0.00126 0.00122 0.00118 0.00114 0.00111 0.00107 0.00104 0.00100

Tabella 6.1: Tavola della Normale standard. Valori di Φ(z) = P (Z < z) per z negativi.Per calcolare P (Z < −1.51) = Φ(−1.51) si cerca il valore all’incrocio della riga −1.5 edella colonna −0.01, cioe Φ(−1.51) = 0.06552.

6.3 Un po’ di formule matematiche e un po’ di

storia

La formula matematica della curva della distribuzione normale con generica media

µ e generico scarto quadratico medio σ > 0 e la seguente:

f(x) =1√

2πσ2e−

(x−µ)2

2σ2 , x ∈ R

Nella formula oltre ai parametri µ e σ compaiono anche π il numero noto come pi

greco il cui valore approssimato alla seconda cifra decimale e 3.14 e la x. La x e la

variabile. Per ogni valore di x ∈ R, dove R e l’insieme dei numeri reali, tutti quanti,

f(x) ci da il valore in ordinata della curva normale. Si noti che al crescere di x

verso valori sempre piu grandi o al diminuire di x verso valori sempre piu piccoli,

ma grandi in valore assoluto, ad esempio per x = −100 o x = 100, il valore di

f(x) per µ = 10 e σ = 4 vale 0.0 . . . 110zeri0117. Questo e praticamente 0 ma non

lo e di fatto! Si noti che l’esponente del numero e (altra costante universale della

matematica, il numero di Nepero, la base dei logaritmi naturali, che approssimata

alla seconda cifra decimale vale 2.27) e negativo, il che significa che al crescere

dell’esponente, diventa sempre piu vicino allo zero, ma non lo raggiunge mai. Solo

Page 84: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

82 CAPITOLO 6. SIAMO TUTTI NORMALI?

al limite e−∞ = 0. Il simbolo∞ e il simbolo matematico che denota il valore infinito,

che non e un valore vero e proprio ma solo una quantita molto molto molto grande.

La distribuzione della normale standard, la distribuzione di tutti gli z-scores e invece

data dalla formula:

f(z) =1√2πe−

12z2 , z ∈ R.

Si tratta delle stessa formula dove abbiamo sostituito a µ il valore zero e a σ abbiamo

sostituito il valore 1 (nella distribuzione normale standardizzata abbiamo µ = 0 e

σ = 1). Abbiamo utilizzato la lettera z invece della lettera x ma questo non ha

nessuna importanza. Avremmo potuto utilizzare ancora la lettera x per indicare

un valore qualunque dello z score. La distribuzione normale prende anche il nome

di distribuzione Gaussiana, dal nome del matematico tedesco Carl F. Gauss (1777-

1855) che per primo dedusse il teorema centrale del limite, o il teorema di normalita

asintotica, che studieremo nel prossimo capitolo e che vide apparire per la prima

volta la distribuzione gaussiana. Per una biografia di Gauss consiglio la lettura del

libro La misura del mondo di Daniel Kehlmann (Feltrinelli) dove la personalita e

il carattere molto particolari di Gauss sono descritti in modo sublime insieme alla

personalita di un altro grande scienziato tedesco: Alexander von Humboldt.

Page 85: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

Capitolo 7

Dal campione alla popolazione

Nelle scienze sociali, come in ogni altra scienza, l’interesse e in genere rivolto ad

un particolare gruppo (di persone o di altro tipo). Ad esempio siamo interessati a

sapere qual e la percentuale di giovani che sono disoccupati in Italia. Per trovare

questa percentuale potremmo domandare a tutti i giovani d’Italia se siano o meno

disoccupati e quindi calcolarla come numero dei disoccupati diviso numero totale

dei giovani in Italia. Si capisce bene che tale procedura e di fatto irrealizzabile.

Fortunatamente non occorre fare questo per sapere qual e la percentuale dei

giovani senza lavoro. Se lo domandiamo solo ad un campione purche questo sia

scelto in maniera appropriata il calcolo della percentuale di giovani disoccupati nel

campione potra essere esteso a tutta la popolazione dei giovani. La percentuale

dei disoccupati valutata sul campione costituisce una stima della percentuale dei

disoccupati nell’intera popolazione.

7.1 Campionamento

Ci sono due concetti molto importanti alla base del campionamento, il concetto di

popolazione e quello di campione. La popolazione e il gruppo sul quale vogliamo co-

noscere qualche cosa (nell’esempio di prima: la popolazione sono i giovani italiani,

l’oggetto di nostro interesse e la percentuale di disoccupati). Non sempre la popo-

lazione e tangibile o reale, come in questo caso, dove per forza di cose e finita. A

volte la popolazione e concettuale e non tangibile. Questo e tipico degli esperimenti

fisici o dove interessa misurare una quantita e vengono eseguiti un certo numero

di esperimenti per ottenere questa misura. Ogni misura ottenuta in ognuno degli

esperimenti e il campione ma la popolazione e costituita da tutte le possibili misu-

razioni che si sarebbero potute avere. In genere nelle scienze sociali la popolazione

83

Page 86: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

84 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE

e costituita da un gruppo ben specificato di persone, quindi sara sempre tangibile e

costituita da un numero finito di unita.

Definizione 7.1.1 (Popolazione). L’intera collezione di oggetti o persone o eventi

sui quali si ricerca l’informazione di interesse.

Prima di tutto la popolazione deve essere ben definita. Se ad esempio si vuole

condurre un’indagine per sapere se gli adulti sono favorevoli alla liberazione della

cannabis, occorre ben definire la categoria adulti. Anche la variabile di interesse deve

essere ben definita. Se vogliamo conoscere il reddito medio, dobbiamo specificare

cosa intendiamo per reddito medio. La media aritmetica o la mediana? Il secondo

concetto e invece quello di campione.

Definizione 7.1.2 (Campione). E un sottoinsieme della popolazione che contiene

gli oggetti o le persone o gli eventi sui quali si osserva la quantite di interesse.

La caratteristica fondamentale di un campione e che deve essere rappresentativo

della popolazione dalle quale e stato scelto. Ad esempio se torniamo al problema di

conoscere la percentuale di disoccupati per stimare questa percentuale non possiamo

scegliere come campione 100 giovani laureati da tre anni all’universita di Milano.

Quello che stimeremmo in questo caso sarebbe la percentuale di disoccupati tra i gio-

vani laureati da tre anni all’universita di Milano, non la percentuale dei disoccupati

tra i giovani in Italia.

Vi sono molte ragioni per cui la caratteristica valutata sulle unita del campione

non e in genere uguale alla caratteristica della popolazione. Si tenga presente che noi

non saremo mai in grado di dire quanto e la percentuale dei disoccupati in Italia! Le

quantita sulla popolazione sono di solito chiamate parametri. I parametri possono

assumere determinati valori, uno solo e il vero valore del parametro e noi non lo

conosceremo mai: il lavoro dello statistico e molto triste! Studia per qualcosa che

non sara mai in grado di conoscere!

Quello che pero si puo fare e fare una stima di questo parametro (la percentuale

dei disoccupati ad esempio) sulla base di un campione scelto bene, e dire quanto si

puo sbagliare.

I tipi di errore nel campionamento possono essere di diverso tipo e occorre sceglie-

re il campione in modo appropriato in modo da minimizzare questi errori. Vediamo

alcuni di questi errori di campionamento.

1. Variabilita del campione. Questo errore e detto anche errore casuale ed e

dovuto al fatto che scegliendo diversi campioni la quantita di interesse calcolata

su diversi campioni sara diversa. Ad esempio se scegliamo in modo appropriato

Page 87: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

7.1. CAMPIONAMENTO 85

1000 campioni di cento giovani per stimare la percentuale di disoccupati, non

osserveremo sempre la stessa percentuale di disoccupati in ogni campione.

2. Errore di campionamento. Questo tipo di errore detto anche sistematico e

piu difficile da individuare e produce in genere stime distorte cioe con un bias.

Ad esempio se si sceglie un campione da un elenco telefonico, si escludono

automaticamente tutti coloro che non possiedono un telefono producendo una

stima distorta. Errori di questo tipo sono legati al modo sbagliato con cui

viene scelto il campione.

3. Errori non dovuti al campionamento. Questi sono errori che non sono

dovuti al modo con cui e selezionato il campione. Ad esempio: le domande

possono essere poste in modo scorretto e che possono essere interpretate in

modo sbagliato dai rispondenti. Oppure gli intervistati possono di proposito

rispondere in maniera diversa da cio che pensano. Questo ad esempio succe-

de spesso nelle elezioni in cui i voti ai partiti di estrema destra sono spesso

sottostimati negli exit pool perche all’uscita del seggio colui che ha votato un

tale partito non lo rileva agli intervistatori. Altri errori di questo tipo sono ad

esempio quelli dovuti alla codificazione o digitalizzazione delle risposte.

Per ridurre questo tipo di errori vi sono corsi interi nei corsi di laurea di statistica

per cui non possiamo pretendere di essere esaustivi qui. Ci basta pero dare due regole

di base che devono sempre essere applicate. Per tutto il resto si supporra di avere

dei campioni scelti in modo appropriato. La prima regola e che ogni elemento della

popolazione deve avere la stessa probabilita di essere selezionato come elemento del

campione. Si deve percio immaginare tutte le unita di una popolazione come delle

palline inserite in una grande urna e la scelta del campione consiste nell’estrarre

un certo numero di palline da quest’urna. In questo caso ogni pallina ha la stessa

probabilita di essere selezionata. Un campione ottenuto in questo modo si chiama

campione casuale semplice.

L’altra regola e che il campione deve essere stratificato. Questo tipo di cam-

pionamento deve essere utilizzato quando si sa che vi sono diversi gruppi in una

popolazione diversi tra loro. Ad esempio la stratificazione puo avvenire per eta o

per regione di residenza o per genere.

Una questione di cui non abbiamo ancora parlato ma che e fondamentale in tutta

la teoria e la grandezza del campionaria: quando deve essere grande un campione?

La scelta dell’ampiezza del campione dipende in generale dai seguenti fattori:

1. La variabilita tra i membri della popolazione. Se in una popolazione

e presente una grande variabilita allora il campione deve essere grande. Per

Page 88: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

86 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE

capire questo fatto pensiamo invece ad una popolazione dove la variabile di

interesse non varia affatto sugli elementi della popolazione, cioe e costante. In

questo caso per stimare questa caratteristica basterebbe solo osservarla su un

elemento. Basterebbe un campione di ampiezza campionaria n = 1, e la stima

sarebbe perfetta.

2. Il livello di precisione necessario alla stima. Piu abbiamo bisogno di

stime precise piu il campione deve essere numeroso. Vedremo che il migliora-

mento nella precisione della stima non varia uniformemente con l’aumentare

della numerosita del campione su cui si basa la stima.

3. Costi di campionamento. Intervistare tante persone costa in generale molto

non solo in termini di costo vero e proprio ma anche di tempo. Occorre valutare

bene i benefici che se ne ricavano prima di selezionare campioni troppo grandi

con un costo non sostenibile.

7.2 Dalla popolazione al campione: il caso della

media

Il titolo della sezione costituisce il viaggio di andata del titolo del capitolo. Vedremo

come e fatta la distribuzione della media campionaria. Consideriamo la popolazione

femminile in eta fertile. Siamo interessati al numero medio di figli che una donna ha

in questa popolazione. Supponiamo di aver estratto diversi campioni di numerosita

5 da questa popolazione. I campioni sono riportati nella tabella seguente

Campione numero di figli x s1 0 2 2 1 1 1.2 0.832 0 3 0 2 1 1.2 1.303 1 2 0 2 2 1.4 0.894 0 2 4 1 0 1.4 1.675 3 1 2 0 2 1.6 1.14

La penultima colonna della tabella riporta la media del numero di figli calcolato in

ogni campione. Le medie di questi diversi campioni sono le medie campionarie. Se i

campioni sono stati scelti in modo corretto la maggiorparte delle medie campionarie

sara molto vicina alla media della popolazione (il parametro incognito) ma comunque

qualcuna di queste medie avra un valore che si discosta dalla media della popolazione.

Se calcoliamo la media delle medie otteniamo

¯x =1.2 + 1.2 + 1.4 + 1.4 + 1.6

5= 1.36.

Page 89: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

7.2. DALLA POPOLAZIONE AL CAMPIONE: IL CASO DELLA MEDIA 87

Si noti che abbiamo indicato con ¯x la media delle medie (quante medie!) Questo

numero possiamo dire che e la migliore stima che possiamo dare della media della

popolazione. consideriamo adesso lo scarto quadratico medio delle medie osservate

sui 5 campioni

sx =

√(1.2− 1.36)2 + (1.2− 1.36)2 + (1.4− 1.36)2 + (1.4− 1.36)2 + (1.6− 1.36)2

4= 0.167

Si noti che questa variabilita e molto piu piccola della variabilita della popolazione

che puo essere stimata calcolando la media delle standard deviation in ogni campione

(riportata nell’ultima colonna della tabella) che e pari a 1.17. Questo non e dovuto

al caso ma e una proprieta della media campionaria che si puo riassumere nei due

seguenti fatti:

1. La media della media campionaria e uguale alla media della popolazione.

2. Lo scarto quadratico medio della media campionaria e uguale allo scarto qua-

dratico medio della popolazione diviso per la radice quadrata della numerosita

campionaria.

In formula la seconda proprieta si puo scrivere, se denotiamo con sigma lo s.q.m.

della popolazione e con n la numerosita campionaria, come

σx =σ√n.

Accanto a questi due fatti abbiamo un risultato ancora piu interessante, al punto da

essere noto come teorema fondamentale della statistica. Tale teorema ci assicura che

se il campione e scelto in maniera appropriata non solo valgono i due fatti appena

detti ma la distribuzione della media campionaria e normale.

Teorema 7.2.1 (Fondamentale della statistica). Se abbiamo un campione casuale

di ampiezza n estratto da una popolazione con media µ e scarto quadratico medio

σ allora la media campionaria ha una distribuzione che per n elevato e appros-

simativamente una normale con la media µ e lo scarto quadratico medio pari aσ√n

.

Siamo quindi in grado di svolgere il seguente esercizio

Esercizio 7.2.2. Si consideri la popolazione costituita da tutti i lavoratori di imprese

di pulizia. Si supponga che per tale popolazione valgano i seguenti fatti:

Page 90: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

88 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE

• Valore medio paga oraria netta: 4.60 euro

• Deviazione standard: 0.40 centesimi di euro

Tenendo presente il teorema fondamentale della statistica rispondere alle domande

seguenti.

1. Qual e la probabilita che un singolo lavoratore scelto a caso guadagni meno di

4.50 euro all’ora?

2. Qual e la probabilita che la media della paga oraria di un campione casuale di

20 lavoratori scelti a caso sia meno di 4.50 euro all’ora?

3. Qual e la probabilita che la media della paga oraria di un campione casuale di

50 lavoratori scelti a caso sia meno di 4.50 euro all’ora?

4. Perche le risposte ai quesiti precedenti sono diverse?

Page 91: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

Capitolo 8

Intervalli di confidenza

Possiamo riassumere quanto detto nel capitolo precedente. Abbiamo una popola-

zione ed una informazione da ricercare su questa popolazione. L’informazione da

ricercare supponiamo sia la media di una certa variabile di interesse (ad esempio ci

interessa il numero medio di figli di una donna italiana). La vera media che ricerchia-

mo e il parametro di interesse che non e noto. Non potendo conoscere il vero valore

del parametro (qual e il vero valore del numero medio di figli che ha una donna

italiana? non lo potremo mai conoscere) ne facciamo una stima. Scelto propria-

mente un campione dalla popolazione, rileviamo per ogni elemento del campione il

valore della variabile di interesse e ne calcoliamo la media aritmetica. Questo valore

della media aritmetica ottenuta dai valori rilevati su ogni elemento del campione e

la nostra stima del parametro incognito. Quello descritto sopra e come usualmente

si procede alla stima puntuale della media incognita della variabile di interesse in

una popolazione. Per un momento pensiamo pero di poter agire in un altro modo e

di poter effettuare la scelta di quanti campioni voglio dalla mia popolazione.

Abbiamo infatti osservato che se avessimo scelto un altro campione dalla po-

polazione e avessimo rilevato su ogni elemento di questo campione la variabile di

interesse e avessimo calcolato la media, avremmo osservato un altro valore per la

media aritmetica e quindi avremmo ottenuto un’altra stima per il parametro inco-

gnito. Possiamo immaginare di scegliere tantissimi campioni e calcolare la media

aritmetica dei valori osservati in ogni campione e otterremo tantissime stime per il

nostro valore osservato.

Quello che abbiamo concluso nel precedente capitolo e che questi tantissimi va-

lori hanno una distribuzione normale con media la stessa media della variabile di

interesse sulla popolazione (e quindi non nota) ma uno scarto quadratico medio

molto minore, pari allo scarto quadratico medio della variabile di interessa nella

popolazione diviso per radice quadrata di n, il numero di osservazioni nel campione.

89

Page 92: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

90 CAPITOLO 8. INTERVALLI DI CONFIDENZA

8.1 La media campionaria

Ricordiamo come abbiamo denotato la media e lo scarto quadratico medio di una

normale standardizzata nella Sezione 6.2. Abbiamo denotato la media con µ e lo

scarto quadratico medio con σ. Possiamo immaginare che la media della nostra

variabile di interesse sia µ nella popolazione e lo s.q.m sia σ entrambi incogniti.

Ora pensiamo alla variabile media campionaria e a tutti i possibili valori che puo

assumere nei diversi campioni tutti di numerosita n. Il teorema fondamentale della

statistica ci dice che questa variabile media campionaria, se n e grande, ha una

distribuzione normale, con media che e ancora µ e scarto quadratico medio che e

invece pari a σ√n.

Per tornare all’esempio del numero di figli medio per una donna italiana tale nu-

mero non lo conosciamo e lo indichiamo con µ la media incognita della popolazione.

Prendiamo un campione di n = 5 donne (il primo dell’esempio) e stimiamo il valore

incognito con la media del numero di figli calcolato per questo campione x = 1.2.

Quindi abbiamo una stima per il parametro µ e tale stima e 1.2. Un altro risultato

molto importante della statistica ci dice che tale stima e la migliore che possiamo

ottenere per la media.

Chiunque di voi potra obbiettare che se avessimo preso un altro campione e

avessimo osservato un altro valore per la media (ad esempio il terzo campione)

allora anche quest’altro valore e la stima migliore che potevamo dare per la media.

Ad esempio per il terzo campione abbiamo x = 1.4. Questo fatto potrebbe sembrare

assurdo perche ho due stime diverse per la media incognita µ e tutte e due sono la

migliore stima possibile! Questo fatto non e un paradosso se pensiamo che nella

realta la media campionaria ha una distribuzione normale e quindi se ne osservo piu

di una esse saranno diverse secondo la distribuzione normale. La media campionaria

e il migliore stimatore puntuale per la media, cioe e la migliore stima costituita da

un solo numero.

Teorema 8.1.1. La media campionaria e la migliore stima puntuale per la media

di una popolazione.

Quello che invece studiamo nella prossima sezione e come dare un intervallo di

valori possibili per la media incognita della popolazione.

8.2 Gli ingredienti e la ricetta

Come dicevamo a volte invece che dare un solo numero e meglio dare un intervallo di

valori per la media incognita di una popolazione. Se vogliamo stimare la percentuale

Page 93: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

8.2. GLI INGREDIENTI E LA RICETTA 91

di votanti per un partito in un sistema bipolare, un conto e dire, stimo la percentuale

di votanti per il partito SX con il 48%, oppure dire che la percentuale di votanti per

il partito SX e un valore nell’intervallo (45%, 51%).

Per il Teorema 8.1.1 l’intervallo di confidenza sara costruito attorno alla media

campionaria. Quindi il primo ingrediente e la media campionaria. L’ingrediente

fondamentale per gli intervalli di confidenza e invece dedotto dal livello di confidenza.

Questo livello esprime il grado di confidenza col quale confido che il vero valore

del parametro stia nell’intervallo che fornisco. Si possono costruire intervalli di

confidenza a qualunque livello di confidenza, qui considereremo i livelli 95% e 99%

che sono i piu utilizzati nei fenomeni sociali, ma credo che tutti saranno in grado di

dedurre poi come costruire un intervallo di confidenza a livello 98% o al 99.9%.

Per dedurre questo ingrediente fondamentale torniamo un attimo al teorema

fondamentale della statistica. Sappiamo che la media campionaria ha distribuzione

normale con media µ e scarto quadratico medio σ√n. Gli score della media campiona-

ria hanno una distribuzione normale standardizzata. Allora se cerchiamo quei valori

sotto una curva normale standardizzata per cui l’area della parte centrale della di-

stribuzione tra quei valori sia il 95% del totale (area tratteggiata nella Figura 8.1).

Dalle tavole troviamo che questi valori sono −1.96 quello a sinistra, e 1.96 quello a

destra. Allora possiamo spingerci a sinistra della media campionaria per il fattore

Area 0.95

−1.96 0 1.96

Figura 8.1: L’area tratteggiata vale 0.95. Entrambe le aree non tratteggiate sono0.025.

−1.96 moltiplicato per la standard deviation divisa per radice quadrata di n e a

Page 94: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

92 CAPITOLO 8. INTERVALLI DI CONFIDENZA

destra della stessa quantita positiva. In formula avremo che

Intervallo di confidenza al 95% =

(x− 1.96

s√n, x+ 1.96

s√n

).

Esempio 8.2.1. Consideriamo l’eta del primo bacio dell’esempio considerato nella

Sezione 2.6.3. L’eta media del primo bacio in un campione di numerosita n = 42

e x = 14. Lo scarto quadratico medio e s = 2.41. La formula per l’intervallo di

confidenza al 95% e

I.C. al 95% =

(14− 1.96 · 2.41√

42, 14 + 1.96 · 2.41√

42

)Facendo i conti abbiamo 2.41√

42= 0.37 questa e la stima dello scarto quadratico medio

della media campionaria. Poi ricaviamo 1.96 · 0.37 = 0.73. Questa e l’ampiezza (o

meglio la semi ampiezza) dell’intervallo di confidenza. Quindi possiamo concludere

che

I.C. al 95% = (14− 0.73, 14 + 0.73) = (13.27, 14.73)

Si noti che in termini di anni 0.73 sono circa 9 mesi, e quindi l’intervallo di confidenza

e ampio 18 mesi. Il primo bacio viene dato tra i 13 anni e 3 mesi e i 14 anni e 9

mesi con una confidenza del 95%.

Torniamo ancora un attimo sul significato del livello di confidenza. 95% significa

che se fosse possibile ripetere questo esperimento un numero grande di volte saremmo

confidenti nel credere che tra gli intervalli calcolati circa il 95% contiene il vero valore

del parametro e solo 5 su cento, ovvero uno su venti non lo contiene.

Ricapitolando possiamo dire che per calcolare l’intervallo di confidenza al 95%

servono questi ingredienti:

1. La numerosita campionaria n.

2. La media campionaria x.

3. Lo scarto quadratico medio s.

4. Il valore 1.96.

Con questi ingredienti ricaviamo l’intervallo di confidenza per la media incognita

della popolazione come

I.C. al 95% =

(x− 1.96

s√n, x+ 1.96

s√n

).

Page 95: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

8.2. GLI INGREDIENTI E LA RICETTA 93

Se invece che al 95% volessimo l’intervallo di confidenza al 99%, dobbiamo trovare

quei valori sotto una curva normale standardizzata per cui l’area della parte centrale

della distribuzione tra quei valori sia il 99% del totale (area tratteggiata nella Figura

8.2). Dalle tavole troviamo che questi valori sono −2.575 quello a sinistra, e 2.575

quello a destra.

Area 0.99

−2.575 0 2.575

Figura 8.2: L’area tratteggiata vale 0.95. Entrambe le aree non tratteggiate sono0.025.

Quindi ripetendo i ragionamenti sopra l’intervallo di confidenza al 99% per la

media incognita di una popolazione e

I.C. al 99% =

(x− 2.575

s√n, x+ 2.575

s√n

).

Gli ingredienti per ottenere questo intervallo sono

1. La numerosita campionaria n.

2. La media campionaria x.

3. Lo scarto quadratico medio s.

4. Il valore 2.575.

Come si puo notare sono gli stessi ingredienti per l’intervallo di confidenza al 95%

tranne l’ultimo valore. Da questo deduciamo che l’intervallo di confidenza al 99%

Page 96: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

94 CAPITOLO 8. INTERVALLI DI CONFIDENZA

se gli altri ingredienti sono uguali (in particolare se il campione e lo stesso) sara piu

ampio di quello al 95%.

Ad esempio tornando all’esempio precedente l’intervallo di confidenza al 99% per

l’eta media in cui gli uomini danno il primo bacio e

I.C. al 95% =

(14− 2.575 · 2.41√

42, 14 + 2.575 · 2.41√

42

)= (14− 0.96, 14 + 0.96)

= (13.04, 14.96).

Siamo confidenti al 99% che l’eta in cui un ragazzo da il primo bacio e compreso tra

13 anni e 15 anni. In questo caso siamo piu confidenti ma l’ampiezza dell’intervallo

e piu grande: quasi due anni (abbiamo approssimato 0.96 di un anno con 1).

Esercizio 8.2.2. Ad un campione di 40 studenti e stato chiesto di dare un voto da

1 a 20 all’operato del primo ministro Letta nei primi 6 mesi del suo mandato su una

scala da 1 a 20. La media e stata 12.1 con standard deviation di 3.5.

1. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza

del 95%.

2. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza

del 99%. Questo intervallo come e rispetto al precedente? Piu ampio o piu

stretto? Perche?

3. Supponete che la stessa medio e lo stesso s.q.m. sono stati osservati su un

campione di 100 studenti. Stimare il voto dato a Letta da tutti gli studenti

con un intervallo di confidenza del 95%. Questo intervallo come e rispetto al

primo intervallo? Piu ampio o piu stretto? Perche?

Esercizio 8.2.3. Con riferimento ai dati dell’esempio della sezione 2.6.3, calcolare

Intervallo di confidenza al 95% per l’eta del primo rapporto e confrontarla con quella

calcolata per il primo bacio. Quale dei due intervalli e piu ampio? I due intervalli

si sovrappongono?

Page 97: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

Capitolo 9

La proporzione

Fino ad ora abbiamo considerato variabili continue dove la statistica considerata

per lo studio era la media campionaria. In questo capitolo consideriamo invece la

proporzione di un certo evento di interesse valutata su un campione rappresentativo

di una popolazione. Ad esempio possiamo essere interessati alla proporzione di

studenti maschi nella facolta di lettere e letterature straniere, o alla proporzione

di fumatori nella popolazione italiana o ancora alla proporzione di lavoratori della

provincia di Bergamo con un reddito inferiore a 20000 euro all’anno.

9.1 Il modello

In tutti e tre gli esempi di prima possiamo immaginare la popolazione in cui l’inte-

resse e per una caratteristica (che viene codificata come successo: il fatto di essere

maschi nella popolazione degli studenti di lettere e letterature straniere, il fatto

di essere fumatori nella popolazione degli italiani, il fatto di essere un lavoratore

bergamasco con un reddito di meno di 20000 euro all’anno).

Indichiamo con π, la lettera pi greca, la vera proporzione di successo nella popola-

zione in oggetto. Se vogliamo avere qualche informazione su questo valore incognito

π possiamo scegliere in modo rappresentativo un campione di n elementi nella popo-

lazione e vedere (contare) quante volte si realizza il successo. Ad esempio possiamo

scegliere un campione di 40 studenti e studentesse dell’Universita di Bergamo e con-

tare i maschi. Oppure un campione di 6000 italiani e contare i fumatori, oppure

ancora un campione di 500 lavoratori della provincia di Bergamo e contare quelli

che hanno un reddito inferiore ai 20000 euro.

In tutti questi casi scegliamo un campione di ampiezza n e codifichiamo con

1 il successo e con 0 l’insuccesso. Registriamo quindi 1 ogni volta che sull’unita

del campione osserviamo il successo e 0 ogni volta che registriamo insuccesso. Se

95

Page 98: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

96 CAPITOLO 9. LA PROPORZIONE

indichiamo con k il numero di successi avremo che la proporzione di successi nel

campione e data dal rapporto tra il numero dei successi e il numero delle unita nel

campione

p =

1 + 1 + . . .+ 1︸ ︷︷ ︸k volte

+0 + . . .+ 0︸ ︷︷ ︸n−k volte

n=k

n.

La quantita p = kn

e detta proporzione campionaria e costituisce la grandezza

fondamentale per l’inferenza sulla proporzione vera π.

In particolare vale il seguente risultato, analogo a quello della media campionaria

per la media incognita µ.

Teorema 9.1.1. p e la migliore stima puntuale per π basata su un campione di

numerosita n.

In effetti se si guarda a come e definita p, essa e una media campionaria di n

grandezze x1, x2, . . . , xn, che possono solo assumere il valore 1 o il valore 0.

Quindi, ad esempio, stimeremo la proporzione vera di studenti maschi alla fa-

colta di lettere con la proporzione campionaria valutata sul campione di 40 studenti.

Naturalmente sara preferibile fornire un intervallo come stima fornendo anche l’infor-

mazione su quanto siamo confidenti che il vero valore stia nell’intervallo fornito come

stima. Per costruire quindi l’intervallo di confidenza con un certo grado di fiducia

abbiamo il seguente risultato che deriva dal teorema fondamentale della statistica.

Teorema 9.1.2. Se n e grande la distribuzione di p e approssimativamente normale

con media π e scarto quadratico medio√

π(1−π)n

.

L’importanza di questo risultato e evidente. Se abbiamo qualche informazione

sulla proporzione di una evento di interesse in una popolazione e osserviamo su un

campione di numerosita n una certa proporzione campionaria p, possiamo, dopo

aver calcolato lo score di questa proporzione campionaria, valutare se e un valore

attendibile per la popolazione che stiamo considerando. Prima quindi di vedere

come costruire l’intervallo di confidenza per la proporzione incognita π, vediamo

questo esempio.

Esempio 9.1.3. Nell’esame di statistica la proporzione di promossi ad un generico

appello e stata comunicata dalla docente ed e del 70%. Durante l’appello per gli

studenti fuori corso si presentano 17 studenti e 10 passano l’esame di statistica.

Possiamo dire che gli studenti che si sono presentati all’appello per i fuori corso

sono particolarmente non bravi? Al primo appello utile dopo la fine del corso si

presentano 92 studenti e 80 passano l’esame. Cosa possiamo concludere per questi

studenti?

Page 99: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

9.2. INTERVALLO DI CONFIDENZA PER LA PROPORZIONE π 97

La percentuale di studenti che passa l’esame all’appello riservato agli studenti

fuori corso e p = 1017

= 0.59. Lo score di questa proporzione lo ottengo calcolan-

do prima lo standard error per la proporzione di studenti che passano l’esame di

statistica in questo appello. Questo e dato da√

0.70∗0.3017

= 0.11. Quindi lo score e

z =0.59− 0.70

0.11= −1

Calcolando l’area sotto la distribuzione normale standardizzata prima di -1 ho un’in-

dicazione relativa alla probabilita con cui avrei potuto osservare un numero di stu-

denti che ha passato l’esame inferiore a quello che ho realmente osservato. Dalle

tavole ricavo che il valore della propabilita cercata e circa 0.16. Quindi con una

probabilita di circa il 16 % avrei potuto osservare un numero inferiore di successi.

Quindi concludo che gli studenti fuori corso non sono particolarmente non bravi.

Veniamo al primo appello utile dopo aver seguito il corso. La proporzione di

studenti che ha passato l’esame e p = 0.87. Lo standard error e√

0.70∗0.3092

= 0.05 La

probabilita di osservare piu di 80 studenti che passano l’esame su 92 e 0.0003 cioe

solo in 3 appelli su 10000 avrei osservato una simile percentuale di successi, quindi

sono particolarmente preparati gli studenti che sostengono il primo appello utile.

Esercizio 9.1.4. Due sondaggi rappresentativi a livello nazionale sono stati condotti

nel 2011 e 2012 su un campione totale di 6167 adulti. La percentuale dei fumatori

in Italia diminuisce, passando dal 22.7% nel 2011 al 20.8% nel 2012. Gli uomini

fumano piu delle donne: 25.3% contro il 18.4%.

Su un campione di 50 studenti presenti oggi in aula osserviamo p = 650

= 0.12.

1. Calcolare la probabilita che un campione abbia la proporzione piu bassa di

quella osservata.

9.2 Intervallo di confidenza per la proporzione π

Quando non si possiede nessuna informazione sulla popolazione e vogliamo stimare

la proporzione incognita di un certo evento che rappresenta il successo, possiamo

invece che fornire solo la stima puntuale, valutata come la proporzione campionaria

p del numero di successi in n osservazioni, fornire un intervallo di confidenza per la

proporzione incognita π. L’intervallo di confidenza al 95% di fiducia e dato dalla

seguente formula:

I.C al 95% =

(p− 1.96

√p(1− p)

n; p+ 1.96

√p(1− p)

n

).

Page 100: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

98 CAPITOLO 9. LA PROPORZIONE

Si osservi che nello standar error (o scarto quadratico medio di p) non compare il

valore incognito π (e come potrebbe: non ne conosciamo il valore, ne stiamo cercando

una stima con un intervallo di confidenza!), ma compare invece la miglior stima di

π dove nella formula dello standard error compariva π. Si tenga poi presente che

tale intervallo e un intervallo che e tanto migliore tanto piu e grande n. In modo

analogo l’intervallo di confidenza al 99% di fiducia e dato dalla seguente formula:

I.C al 99% =

(p− 2.575

√p(1− p)

n; p+ 2.575

√p(1− p)

n

).

Esercizio 9.2.1. Supponendo che il campione osservato nell’ Esercizio 9.1.4, sia

rappresentativo della popolazione italiana, sulla base del risultato campionario ri-

levato, calcolare l’intervallo di confidenza per la proporzione di fumatori in Italia.

Tale intervallo contiene la proporzione fornita dallo studio per il 2012?

Esercizio 9.2.2. La seguente tabella riporta i risultati pubblicati sui quotidiani The

Indipendent e The Daily Telegraph nel 1992 sulle intenzioni di voto dei britannici.

Fonte Intenzione di voto (in %)n Consevatori Laburisti

The Indipendent 1746 39.0 42.0The Daily Telegraph 2478 38.5 38.0

1. Calcolare l’intervallo di confidenza per le quattro proporzioni.

2. Gli intervalli per la proporzione di votanti per i conservatori e per i laburisti

dei due quotidiani si sovrappongono?

3. Potete concludere da questi dati chi sara il vincitore delle elezioni e con che

distacco?

4. Fare una ricerca per trovare il vincitore e il distacco.

Page 101: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

Capitolo 10

Test statistici

I test statistici (detti anche verifica di ipotesi) occupano un posto di rilievo in tutta

l’inferenza statistica. Insieme alla stima costituiscono il fulcro di tutta l’inferenza

statistica. Se nel problema della stima si stratta di trovare un valore plausibile per

i parametri incogniti di una popolazione (o meglio del modello sulla popolazione),

nella verifica d’ipotesi si tratta di formulare una affermazione sul parametro incogni-

to. La statistica ci fornisce gli strumenti per arrivare ad una scelta riguardo a questa

ipotesi sul parametro (se accettarla o rifiutarla) quantificando il rischio connesso a

questa scelta.

10.1 Verifica d’ipotesi: la teoria

Supponiamo di avere un modello su una popolazione d’interesse e che questo mo-

dello dipenda da un parametro generico θ che e il nostro interesse. (Ad esempio

un modello normale con il parametro di interesse la media µ). Il nostro interes-

se per il parametro e costituito da un’affermazione sul possibile valore di questo

parametro che noi riteniamo plausibile. Questo valore dichiarato per il parametro

e sottoposto ad una verifica basata sulle osservazioni sperimentali di un campione

scelto dalla popolazione sulla quale e stata fatta l’affermazione riguardante il valore

del parametro.

Definizione 10.1.1. Una ipotesi statistica e una affermazione su θ.

L’ipotesi sottoposta a verifica sperimentale viene di solito chiamata ipotesi

nulla ed indicata con H0. Di solito H0 specifica il valore di un parametro della

popolazione indicato genericamente con θ. Quindi

H0 : θ = θ0

99

Page 102: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

100 CAPITOLO 10. TEST STATISTICI

dove θ0 e un valore fissato. Ad esempio se il parametro della popolazione da

sottoporre a verifica e la media µ scriveremo

H0 : µ = µ0

dove µ0 e un valore della media specificato e noto.

Definizione 10.1.2. Un test statistico e una regola per decidere sulla compatibilita

dei dati con l’affermazione definita dall’ipotesi nulla.

Un test statistico e come un sistema d’allarme che suona in presenza di dati non

compatibili con l’ipotesi nulla. Come tutti i sistemi di allarme il test statistico puo

produrre falsi allarmi o dar luogo a mancati allarmi.

Un test conduce sempre a due sole alternative:

• rifiutiamo l’ipotesi nulla H0

• non rifiutiamo l’ipotesi nulla H0

Tale decisione viene presa sulla base delle osservazioni x1, . . . , xn, di un campione ca-

suale di ampiezza n proveniente dalla popolazione. Sulla base di queste osservazioni

prenderemo la nostra decisione tramite il valore assunto da quella che e chiamata

statistica test e che sara diversa per ogni verifica d’ipotesi. La statistica test ci de-

finisce una regola per cui se la statistica test assume certi valori, che appartengono

ad una regione detta regione di rifiuto si rifiutera l’ipotesi nulla, se invece assume

valori che non appartengono a tale regione, non si potra rifiutare l’ipotesi nulla. Si

tenga pero presente che accettare l’ipotesi nulla non significa che questa sia vera.

Significa che la riteniamo plausibile sulla base delle nostre osservazioni. Noi non

potremo mai sapere qual e il vero valore del parametro.

Trattandosi di un problema di decisione ogni decisione porta con se la possibilita

di commettere un errore facendo la scelta sbagliata. Se i dati portano a rifiutare

un’ipotesi nulla che e vera si commette un errore chiamato di primo tipo.

La probabilita di commettere questo errore viene indicata con α:

α = P (rifiutare H0|H0 e vera).

L’errore di primo tipo α e chiamato anche livello di significativita del test.

Nella pratica si deve scegliere la regione di rifiuto in modo da garantire un pre-

assegnato livello di significativita α e in modo da minimizzare la probabilita dell’altro

tipo di errore che si puo commettere: l’errore di secondo tipo indicato con β.

Page 103: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

10.1. VERIFICA D’IPOTESI: LA TEORIA 101

Se i dati portano ad accettare una ipotesi nulla che e falsa si commette un errore

di secondo tipo. La probabilita di questo errore viene indicata con β:

β = P (non rifiutare H0|H0 e falsa).

I due tipi di errore che si possono commettere in relazione alla realta sono riassunti

nella seguente tabella

Decisione→Realta↓ Rifiuto H0 Non Rifuto H0

H0 vera errore Io tipo nessun errore (OK)α 1− α

H0 falsa nessun errore (OK) errore di IIo tipo1− β β

I test che presenteremo nella prossima sezione sono tali da fissare ad un livello che

si ritiene soddisfacente l’errore di primo tipo (nei fenomeni di tipo sociale di solito

α = 0.05 o α = 0.01) e hanno il piu piccolo errore di secondo tipo.

Il nome errore di primo tipo ha origine storica perche rappresenta l’errore piu

grave che si possa commettere dal punto di vista di chi sottoporne il parametro alla

verifica. Ad esempio nell’ottica dell’allarme l’errore piu grave e quello del mancato

allarme, perche stanno rubando la macchina (qui H0 vera significa che il ladro sta

agendo) ma l’allarme non suona (rifiutoH0, i dati mi portano a non credere all’ipotesi

H0).

La decisione se accettare o rifiutare l’ipotesi nulla viene fatta sulla base della

determinazione di una regione di rifiuto nella quale puo rientrare la statistica test

basata sui dati. La regione di rifiuto viene determinata in base all’errore di primo

tipo α e in base a quella che viene chiamata ipotesi alternativa e indicata con HA.

A volte l’ipotesi alternativa viene indicata anche con H1. Se H0 e data da θ = θ0

l’ipotesi alternativa potra essere di tre tipi.

• HA : θ 6= θ0, detta ipotesi alternativa bilaterale;

• HA : θ > θ0, detta ipotesi alternativa unilaterale destra;

• HA : θ < θ0, e detta ipotesi alternativa unilaterale sinistra.

A parita di ipotesi nulla diverse ipotesi alternative producono diversi modi di

utilizzare i dati sperimentali per verificare l’ipotesi nulla.

Nella prossima sezione vedremo come si costruisce la regione di rifiuto per il

primo tipo di ipotesi alternativa, che e in un certo senso la piu sicura. Per gli altri

Page 104: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

102 CAPITOLO 10. TEST STATISTICI

due tipi di ipotesi occorre prestare piu attenzione perche per applicarli occorre essere

ben certi della direzione in cui si e convinti si sia modificato il parametro.

Riassumendo per i test statistici occorre:

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.

2. Trovare la statistica test per il sistema d’ipotesi.

3. Trovare la regione di rifiuto per il sistema d’ipotesi.

4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare

o rifiutare H0.

Nelle prossime sezioni vedremo come si applicheranno questi passi a vari problemi

di verifica d’ipotesi.

10.2 Verifica d’ipotesi: la pratica

Nella pratica la verifica di ipotesi si basa sulla ricerca di statistiche test, che saranno

diverse a seconda dei diversi modelli sulla popolazione e dei diversi parametri da

sottoporre a verifica. Noi prenderemo in considerazione popolazione con distribu-

zione normale e saremo interessati a verifiche di ipotesi sulla media nel caso in cui la

standard deviation σ sia nota e nel caso in cui non lo sia. L’altro caso che tratteremo

sara la verifica d’ipotesi per la proporzione del successo di un certo evento.

10.2.1 Test per la media di popolazione normale: σ nota

Supponiamo di avere un modello normale su una popolazione d’interesse. Ad esem-

pio un’azienda per la ricerca del personale dichiara che i suoi candidati sono dotati

di un quoziente intellettivo di 120 con una standard deviation di 10. Quello che in

sostanza sta dichiarando l’azienda e che la media µ della sua popolazione normale

e 120 e la standard deviation e σ = 10. Si tratta di dichiarazioni sui parametri di

una popolazione. Supponiamo ancora che voi vogliate verificare l’affermazione del-

l’azienda sul fatto che fornisca candidati con un quoziente intellettivo di 120. Quello

che dovete fare e impostare un test d’ipotesi per la media della popolazione. In que-

sto caso la popolazione e costituita dai candidati dell’azienda e la media dichiarata

e µ0 = 120. In questo caso siamo interessati ad una verifica d’ipotesi sul parametro

µ, mentre il parametro σ e considerato un parametro di disturbo che in questo caso

e noto. Il primo passo consiste nel scrivere il sistema d’ipotesi:{H0 : µ = 120HA : µ 6= 120

Page 105: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

10.2. VERIFICA D’IPOTESI: LA PRATICA 103

Il secondo passo consiste nel trovare la statistica test. Se dobbiamo verificare la

veridicita di una affermazione sul valore di una media sembra abbastanza sensato

testarla sul valore della media campionaria calcolata su un campione scelto della

popolazione. Quindi dobbiamo avere i dati relativi al quoziente intellettivo di un

certo numero n di aspiranti candidati selezionati dall’azienda in questione. I dati

sono i seguenti: il quoziente intellettivo medio di n = 36 candidati e stato calcolato

e risulta x = 114. L’idea e quella di rifiutare l’ipotesi nulla se lo z score del valore

calcolato della media sul campione risulta troppo lontano dal valore zero. Perche se

lo z score assume valori troppo grandi positivi o troppo piccoli negativi vuol dire

che riteniamo poco plausibile l’ipotesi nulla. Quindi la statistica test richiesta dal

secondo punto e lo z score

z =x− µ0

σ√n

.

Nel caso in considerazione esso vale

z =114− 120

10√36

= −3.6.

A questo punto per determinare la regione di rifiuto (terzo passo) occorre scegliere

una soglia tale per cui se lo z score e oltre tale soglia rifiutiamo l’ipotesi nulla, se non

supera tale soglia accettiamo l’ipotesi nulla. Tale soglia che determinera la regione

di rifiuto viene calcolata sulla base dell’errore di primo tipo, o livello del test α.

Supponiamo che α = 0.05. Sappiamo che se la popolazione normale ha media 120

solo il 2.5% della popolazione ha uno z score maggiore di 1.96 e solo il 2.5% della

popolazione ha uno z score minore di -1.96. Allora se la regione di rifiuto e definita

come:

R = {z < −1.96 o z > 1.96} ,

in questo caso la probabilita di rifiutare H0 quando H0 e vera e del 5%. Essa

corrisponde all’area tratteggiata nella Figura 10.1.

Poiche −3.6 e minore di −1.96, il valore z calcolato appartiene alla regione

di rifiuto R e siamo portati a credere che l’ipotesi nulla non sia vera e quindi la

conclusione e: rifiutiamo l’ipotesi nulla. E anche il quarto e ultimo punto e stato

eseguito. Quindi riassumendo in questo specifico problema i quattro passi sono i

seguenti:

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA:{H0 : µ = 120HA : µ 6= 120

Page 106: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

104 CAPITOLO 10. TEST STATISTICI

2. Trovare la statistica test per il sistema d’ipotesi:

z =x− µ0

σ√n

=114− 120

10√36

= −3.6.

3. Trovare la regione di rifiuto per il sistema d’ipotesi:

R = {z < −1.96 o z > 1.96}

4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare

o rifiutare H0: Poiche −3.6 e minore di −1.96, rifiutiamo l’ipotesi nulla H0 :

µ = 120.

Regione di rifiuto

−3.6 −1.96 0 1.96

α 2 = 0.025 α 2 = 0.025

Figura 10.1: Entrambe le aree tratteggiate sono 0.025. z = −3.6 cade nella regionedi rifiuto di sinistra.

Un modo equivalente per verificare il sistema d’ipotesi{H0 : µ = 120HA : µ 6= 120

consiste nel metodo dell’intervallo di confidenza. Esso si puo riassumere in questi

passi:

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA:{H0 : µ = 120HA : µ 6= 120

Page 107: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

10.2. VERIFICA D’IPOTESI: LA PRATICA 105

2. Calcolare l’intervallo di confidenza al 95% (si noti che il livello di confidenza e

l’(1− α)%) per la media µ della popolazione:

Intervallo di confidenza al 95% =

(x− 1.96

s√n, x+ 1.96

s√n

)= (111, 117)

3. Decidere se accettare o rifiutare H0 sulla base dell’appartenenza all’intervallo

calcolato del valore della media definito dall’ipotesi nulla. Poiche 120 non

appartiene all’intervallo calcolato, rifiutiamo l’ipotesi nulla H0 : µ = 120.

I due metodi sono equivalenti per costruzione. Infatti il valore specificato dall’ipotesi

nulla µ = µ0 appartiene all’intervallo di confidenza all’(1 − α)% se e solo se la

statistica test z score cade nella regione di rifiuto del test con livello α.

10.2.2 Test per la media di popolazione normale: σ non nota

Se la standard deviation di una popolazione non e nota, possiamo ancora utilizzare

il metodo della statistica test z score, purche la numerosita campionaria sia grande

(in genere maggiore di n = 30). In questo caso occorre sostituire al parametro σ

la stima s ottenuta dai dati rilevati sul campione. In questo caso l’unico punto che

cambia e il secondo dove lo z score e calcolato come

z =x− µ0

s√n

.

Per il resto se il livello del test e α = 0.05 la regione di rifiuto e la stessa

R = {z < −1.96 o z > 1.96} ,

e la decisione e quella di rifiutare H0 se z appartiene alla regione di rifiuto.

Se invece la numerosita n del campione e piu piccola di di 30 occorre ricorrere ad

un altra statistica, chiamata t di Student. La distribuzione di questa statistica non

e normale standardizzata ma dipende dal numero di osservazioni. In particolare se

abbiamo n osservazioni allora la statistica t di Student si dice che ha n − 1 gradi

di liberta. Per il resto il grafico della distribuzione della t di Student e simmetrico,

assomiglia alla distribuzione normale standardizzata, ma ha le code piu alte e la

campana piu bassa, cioe ha una maggior variabilita rispetto alla normale standard,

nel senso che ci si aspetta di osservare una percentuale di valori oltre 3 valori della

deviazione standard maggiori di quelli di una normale standardizzata.

La Figura 10.2 riporta il grafico della distribuzione t di Student al variare dei

gradi di liberta. Come si puo notare al crescere dei gradi di liberta la distribuzione

Page 108: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

106 CAPITOLO 10. TEST STATISTICI

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

N(0,1) e t−Student

x

f(x)

−5 −4 −3 −2 −1 0 1 2 3 4 5

N(0,1)t(1)t(2)t(10)t(30)

Figura 10.2: Distribuzione t di Student al variare dei gradi di liberta e distribuzionenormale standard.

della t di Student assomiglia sempre piu alla distribuzione normale standard. La

distribuzione t di Student deve il suo nome allo statistico William Sealy Gosset che

dedusse la distribuzione t di Student mentre lavorava come statistico alla famosa

birreria irlandese Guinness. La ditta non gli permise di utilizzare il suo vero nome e

lui pubblico i risultati ottenuti lavorando presso la Guinness con lo pseudonimo di

Student. Vediamo la procedura per un test t con livello α = 0.05 (viene chiamato in

questo modo il test per verificare il valore di una media di una popolazione normale

con σ non noto e numerosita campionaria n piccola, cioe minore di 30).

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.

Anche in questo scriveremo: {H0 : µ = µ0

HA : µ 6= µ0

2. Calcolare la statistica test t. Osservati i valori del campione x1, x2, . . . , xn,

questa e data da

t =x− µ0

s√n

3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare

la soglia occorre cercare nella tavola della t di Student con n − 1 gradi di

liberta, quei valori che lasciano a destra un’area pari a 0.025, indichiamo tale

Page 109: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

10.2. VERIFICA D’IPOTESI: LA PRATICA 107

valore con tn−10.025, e il valore che lascia alla sua sinistra un’area di 0.025 sara per

simmetria il valore −tn−10.025. La regione di rifiuto e riportata nella Figura 10.3

e si scrive:

R ={t < −tn−1

0.025 o t > tn−10.025

}Il valore tn−1

0.025 si deve cercare nella tavola 10.1 come spiegato nell’esempio.

4. Decidere sulla base del valore della statistica e la regione di rifiuto se accet-

tare o rifiutare H0. Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla,

altrimenti l’accettiamo.

Regione di rifiuto

− t0.025(n−1)

−1 0 1 t0.025(n−1)

α 2 = 0.025 α 2 = 0.025

Figura 10.3: Regione di rifiuto per il test t. L’area tratteggiata sotto la distribuzionet di Student con n− 1 gradi di liberta e 0.05.

Esempio 10.2.1. La distribuzione del consumo di alcool tra le donne di eta com-

presa tra 15 e 25 anni in Italia si puo considerare normale con media pari 9.5 unita

per settimana. Per capire se il consumo di alcool tra le studentesse dell’universita

si possa considerare con la stessa distribuzione si osserva il consumo di alcool di un

campione di 14 studentesse. La media dei valori osservati e risultata x = 10.64.

Sulla base di questi dati si puo accettare l’ipotesi che il consumo di alcool delle

studentesse sia lo stesso di quello delle donne italiane?

Il sistema di ipotesi e il seguente{H0 : µ = 9.5HA : µ 6= 9.5

Page 110: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

108 CAPITOLO 10. TEST STATISTICI

La statistica test e:

t =x− µ0

s√n

=10.64− 9.5

7.26√14

= 0.59

Il valore soglia per costruire la regione di rifiuto lo cerchiamo nella Tabella 10.1 della

t di Student. In questa tabella p indica la probabilita sotto la curva della distribu-

zione di una t di Student con g gradi di liberta. Tale probabilita e data dall’area

tratteggiata in Figura 10.4. Quindi il valore che noi cerchiamo e in corrispondenza

della colonna con p = 0.975 in quanto questo valore lascera alla sua destra un’area

sotto la curva pari a 0.025. Essendo le osservazioni n = 14 i gradi di liberta sono

13, per cui dobbiamo incrociare la colonna con p = 0.975 con la riga avente g = 13.

Il valore corrispondente e 2.16. Quindi la regione di rifiuto puo essere scritta come

R = {t < −2.16 o t > 2.16} .

Poiche la statistica test t = 0.59 non appartiene a questa regione accettiamo l’ipotesi

nulla. Il consumo delle studentesse si puo ritenere in linea con il consumo delle donne

italiane.

Area sotto la distribuzione t di Student

−5 −3 −1 0 1 tpg

3 5

Figura 10.4: Area sotto la curva di una distribuzione t di Student al variare deigradi di liberta e di p come riportati in Tabella 10.1.

10.2.3 Test per la proporzione

La procedura per la verifica d’ipotesi puo essere applicata anche al caso in cui si

voglia sottoporre a verifica il valore della proporzione di un certo evento d’interesse

su una popolazione. Vediamo in questo caso i 4 passi.

Page 111: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

10.2. VERIFICA D’IPOTESI: LA PRATICA 109

p 0.75 0.90 0.95 0.975 0.99 0.995 0.9995g

1 1.00000 3.07768 6.31375 12.70620 31.82052 63.65674 636.619252 0.81650 1.88562 2.91999 4.30265 6.96456 9.92484 31.599053 0.76489 1.63775 2.35338 3.18245 4.54070 5.84091 12.923984 0.74070 1.53321 2.13185 2.77645 3.74695 4.60410 8.610305 0.72669 1.47588 2.01505 2.57058 3.36493 4.03216 6.868836 0.71756 1.43976 1.94318 2.44691 3.14267 3.70743 5.958827 0.71114 1.41492 1.89458 2.36462 2.99795 3.49948 5.407908 0.70639 1.39682 1.85955 2.30600 2.89646 3.35539 5.041319 0.70272 1.38303 1.83311 2.26216 2.82144 3.24984 4.78091

10 0.69981 1.37218 1.81246 2.22814 2.76377 3.16927 4.5868911 0.69745 1.36343 1.79588 2.20099 2.71808 3.10581 4.4369812 0.69548 1.35622 1.78229 2.17881 2.68100 3.05454 4.3177913 0.69383 1.35017 1.77093 2.16037 2.65031 3.01228 4.2208314 0.69242 1.34503 1.76131 2.14479 2.62449 2.97684 4.1404515 0.69120 1.34061 1.75305 2.13145 2.60248 2.94671 4.0727716 0.69013 1.33676 1.74588 2.11991 2.58349 2.92078 4.0150017 0.68920 1.33338 1.73961 2.10982 2.56693 2.89823 3.9651318 0.68836 1.33039 1.73406 2.10092 2.55238 2.87844 3.9216519 0.68762 1.32773 1.72913 2.09302 2.53948 2.86093 3.8834120 0.68695 1.32534 1.72472 2.08596 2.52798 2.84534 3.8495221 0.68635 1.32319 1.72074 2.07961 2.51765 2.83136 3.8192822 0.68581 1.32124 1.71714 2.07387 2.50832 2.81876 3.7921323 0.68531 1.31946 1.71387 2.06866 2.49987 2.80734 3.7676324 0.68485 1.31784 1.71088 2.06390 2.49216 2.79694 3.7454025 0.68443 1.31635 1.70814 2.05954 2.48511 2.78744 3.7251426 0.68404 1.31497 1.70562 2.05553 2.47863 2.77871 3.7066127 0.68368 1.31370 1.70329 2.05183 2.47266 2.77068 3.6895928 0.68335 1.31253 1.70113 2.04841 2.46714 2.76326 3.6739129 0.68304 1.31143 1.69913 2.04523 2.46202 2.75639 3.6594130 0.68276 1.31042 1.69726 2.04227 2.45726 2.75000 3.6459640 0.68067 1.30308 1.68385 2.02108 2.42326 2.70446 3.5509760 0.67860 1.29582 1.67065 2.00030 2.39012 2.66028 3.46020

120 0.67654 1.28865 1.65765 1.97993 2.35782 2.61742 3.37345∞ 0.67449 1.28155 1.64485 1.95996 2.32635 2.57583 3.29053

Tabella 10.1: Tavola della t di Student. La tavola restituisce i valori di tgp dove g sono igradi di liberta. Si tenga sempre conto della relazione tgp = −tg1−p.

Page 112: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

110 CAPITOLO 10. TEST STATISTICI

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.

Abbiamo un’affermazione sul parametro π:{H0 : π = π0

HA : π 6= π0

2. Per il teorema 9.1.2 calcoliamo lo z score della proporzione campionaria cal-

colata sull’osservazione di un campione di ampiezza n. Indicata con p tale

proporzione abbiamo:

z =p− π0√π0(1−π0)

n

3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare

la soglia sempre il Teorema 9.1.2 garantisce che se n e abbastanza grande la

distribuzione degli score e normale standardizzata. Quindi la regione di rifiuto

a livello α = 0.05 e ancora

R = {z < −1.96 o z > 1.96}

4. Decidere sulla base del valore z. Se z appartiene a R rifiutiamo l’ipotesi nulla,

altrimenti accettiamo l’ipotesi nulla.

Esempio 10.2.2. Un magazzino dichiara di non commettere discriminazione sulla

base dell’etnia dei suoi dipendenti. Meta di essi appartengono infatti a una mino-

ranza etnica. Osservando i dati dei licenziati nell’ultimo anno i dati dicono che di 28

persone licenziate 23 appartengono alla minoranza etnica. Il magazzino commette

il reato di discriminazione della minoranza?

Se l’affemazione del magazzino fosse vera, cioe se non ci fosse discriminazione

il valore di p = 2328

= 0.82 dovrebbe essere tale da non far rifiutare l’ipotesi nulla.

Applichiamo i passi per la verifica di ipotesi per la proporzione a questo problema.

Il sistema di ipotesi e {H0 : π = 0.50HA : π 6= 0.50

Calcoliamo quindi lo z score della proporzione osservata p = 0.82:

z =p− π0√π0(1−π0)

n

=0.82− 0.50√

0.50(1−0.50)28

= 3.39.

Poiche il valore 3.39 appartiene alla regione di rifiuto R = {z < −1.96 o z > 1.96},rifiutiamo l’ipotesi nulla. Quindi non possiamo credere all’affermazione del magaz-

zino riguardo alla mancanza di discriminazione.

Page 113: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

10.3. IL LIVELLO DI SIGNIFICATIVIA DEL TEST: α 111

Esercizio 10.2.3. Determinare il numero massimo di licenziati appartenenti alla

minoranza etnica affiche l’ipotesi nulla non sia rifiutata.

Esempio 10.2.4. Un gruppo di n = 9 studenti laureati in sociologia si sottopone

ad un test psicometrico prima di essere assunti da una compagnia. La performance

in questo test di tutti partecipanti ha una distribuzione normale con media µ0 = 62.

La media aritmetica ottenuta dai 9 studenti nel test e x = 66.33, mentre la standard

deviation misurata sui 9 studenti e stata s = 4.04. Si puo ritenere, a livello α =

0.05, che gli studenti laureati in sociologia che hanno partecipato al test hanno una

performance diversa da quella di tutti gli altri studenti?

Svolgiamo l’esercizio passo per passo.

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.{H0 : µ = 62HA : µ 6= 62

2. Calcolare la statistica test t. I valori del campione x1, x2, . . . , x9 non li cono-

sciamo ma conosciamo la media x e s. La statistica test e

t =x− µ0

s√n

=66.33− 62

4.04√9

= 3.22

3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare

la soglia occorre cercare nella tavola della t di Student con n− 1 = 8 gradi di

liberta, quei valori che lasciano a destra un’area pari a 0.025, indichiamo tale

valore con t80.025, e il valore che lascia alla sua sinistra un’area di 0.025 sara per

simmetria il valore−t80.025. Il valore cercato lo troviamo nella tavola all’incrocio

con i gradi di liberta g = 8 e probabilita p = 0.975 ed e t80.025 = 2.306. La

regione di rifiuto e

R = {t < −2.306 o t > 2.306}

4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare

o rifiutare H0. Poiche t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla,

infatti 3.22 e maggiore di 2.306.

10.3 Il livello di significativia del test: α

Abbiamo visto nelle sezioni precedenti le regioni di rifiuto per verifiche d’ipotesi con

errore di primo tipo α uguale a 0.05. Se il livello di significativia del test varia, anche

Page 114: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

112 CAPITOLO 10. TEST STATISTICI

la regione di rifiuto cambia. Ad esempio se il livello diventa α = 0.01 la regione di

rifiuto per il primo caso pratico trattato e

R = {z < −2.575 o z > 2.575}

Il valore −2.575 e quel valore che lascia alla sua sinistra sotto la curva della distribu-

zione normale standardizzata un’area pari a 0.005. Mentre per simmetria il valore

2.575 lascia alla sua destra sotto la curva della distribuzione normale standardizzata

un’area pari a 0.005. Adottiamo un po’ di notazioni. Se indichiamo con α2

la meta

del livello di significativita, siamo in grado di calcolare la regione di rifiuto per qua-

lunque valore di significativia α. Infatti se indichiamo con zα2

il valore sotto la curva

normale che lascia alla sua destra un’area pari a α2

la generica regione di rifiuto puo

essere scritta come

R ={z < −zα

2o z > zα

2

}Si noti che se α = 0.05, α

2= 0.025 e zα

2= 1.96 mentre se α = 0.01, α

2= 0.005 e

zα2

= 2.575. Risulta percio evidente che se vogliamo calcolare la regione di rifiuto a

livello α = 0.02 poiche α2

= 0.01 il valore nelle tavole della Normale standardizzata

che lascia alla sua destra un’area di 0.01 e 2.325. Quindi la regione di rifiuto e

R = {z < −2.325 o z > 2.3255}

Nel caso della verifica d’ipotesi per la proporzione le regioni di rifiuto sono le stesse.

Nel caso invece in cui la verifica d’ipotesi sia per la media della popolazione normale

nel caso in cui σ non sia noto e l’ampiezza campionaria n sia bassa, occorre ricorrere

alla tavola della t di Student per diversi valori di α. Nella tavola fornita occorrera

cercare il valore per p = 1− α2

in corrispondenza ai gradi di liberta g = n− 1.

10.4 Test con alternativa unilaterale

A volte si e praticamente sicuri della direzione in cui si e spostato il valore del-

la media, per cui invece di verificare l’ipotesi se la media e un certo valore contro

l’alternativa che sia diversa (test bilaterale) si verifica se la media e un certo valore

contro l’alternativa che sia maggiore (oppure minore) del valore specificato con l’ipo-

tesi nulla. Si tratta del test ad una coda ovvero del test con alternativa unilaterale.

Per questo tipo di test l’ipotesi nulla e la stessa

H0 : µ = µ0

mentre l’alternativa puo essere di tipo unilaterale destra

HA : µ > µ0

Page 115: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

10.4. TEST CON ALTERNATIVA UNILATERALE 113

quando siamo convinti che il valore della media sia cresciuto rispetto al valore

dichiarato. Oppure l’alternativa puo essere di tipo unilaterale sinistra

HA : µ < µ0

quando siamo convinti che il valore della media sia diminuito rispetto al valore

dichiarato.

A questo punto fissato il livello del test α = 0.05 occorre determinare la regione

di rifiuto ed e a questo punto che sta la grossa differenza tra test unilaterali e quelli

bilaterali. In questi ultimi abbiamo visto che l’errore α veniva spezzato in due parti

(una a sinistra e una a destra) della distribuzione della statistica test. Nei test

unilaterali questo errore e invece tutto da una parte. Tale parte ovviamente dipende

dal tipo di alternativa unilaterale che stiamo verificando. Se ad esempio abbiamo

l’ipotesi unilaterale destra µ > µ0 la regione di rifiuto a livello α = 0.05 e

R = {z > 1.645}

dove 1.645 e il valore sotto la curva normale standardizzata che lascia alla sua destra

un’area pari a 0.05. La regione di rifiuto e riportata in Figura 10.5. Se invece il tet

Regione di rifiuto

0 1.645

α = 0.05

Figura 10.5: Regione di rifiuto per il test unilaterale con alternava destra a livelloα = 0.05.

consiste nel verificare l’ipotesi nulla µ = µ0 contro l’alternativa unilaterale sinistra

µ < µ0, la regione di rifiuto a livello α = 0.05 e

R = {z < −1.645}

Page 116: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

114 CAPITOLO 10. TEST STATISTICI

dove −1.645 e il valore sotto la curva normale standardizzata che lascia alla sua

sinistra un’area pari a 0.05. La regione di rifiuto e riportata in Figura 10.6.

Regione di rifiuto

−1.645 0

α = 0.05

Figura 10.6: Regione di rifiuto per il test unilaterale con alternava sinistra a livelloα = 0.05.

Se cambia il livello del test cambia solo il valore soglia da ricavare dalla tavola

in corrispondenza del valore α specificato.

Per il test per la media di una popolazione normale quando lo scarto quadratico

medio non e noto e la numerosita del campione minore di 30 si procede con la

statistica t e si utilizza la tavola della t di Student per determinare la regione di

rifiuto quando l’alternativa e una delle due unilaterale destra o sinistra. Vediamo i

passi per questo test nei due casi. Fissato α = 0.05 consideriamo l’ipotesi alternativa

unilaterale destra.

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.{H0 : µ = µ0

HA : µ > µ0

2. Calcolare la statistica test t. Osservati i valori del campione x1, x2, . . . , xn,

questa e data da

t =x− µ0

s√n

3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare

la soglia occorre cercare nella tavola della t di Student con n−1 gradi di liberta,

Page 117: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

10.4. TEST CON ALTERNATIVA UNILATERALE 115

quel valore che lascia a destra un’area pari a 0.05, indichiamo tale valore con

tn−10.05 . La regione e:

R ={t > tn−1

0.05

}4. Decidere sulla base del valore della statistica e la regione di rifiuto se accet-

tare o rifiutare H0. Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla,

altrimenti l’accettiamo.

Consideriamo ora l’ipotesi alternativa unilaterale sinistra

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.{H0 : µ = µ0

HA : µ < µ0

2. Calcolare la statistica test t. Osservati i valori del campione x1, x2, . . . , xn,

questa e data da

t =x− µ0

s√n

3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare

la soglia occorre cercare nella tavola della t di Student con n − 1 gradi di

liberta, quel valore che lascia a sinistra un’area pari a 0.05, indichiamo tale

valore con −tn−10.05 . La regione e:

R ={t < −tn−1

0.05

}4. Decidere sulla base del valore della statistica e la regione di rifiuto se accet-

tare o rifiutare H0. Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla,

altrimenti l’accettiamo.

Si noti che rispetto ai test bilaterali quello che cambia e unicamente il valore soglia

a parita di statistica test e livello del test in quanto tutto l’errore di prima specie

viene scaricato nella direzione dell’ipotesi alternativa. Se l’ipotesi nulla e vera si

sbaglia sono in una direzione. A parita di livello α la soglia della regione di rifiuto

per un test unilaterale e sempre minore del corrispondente test bilaterale e quindi

si rifiutera l’ipotesi nulla con piu facilita.

Vediamo un esempio

Esempio 10.4.1. Riprendiamo l’Esercizio 10.2.4 Gli studenti laureati in sociologia

sono convinti di essere nettamente sopra la media della performance in questo test.

Impostare una verifica d’ipotesi per stabilire se tale affermazione e credibile.

Page 118: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

116 CAPITOLO 10. TEST STATISTICI

Svolgiamo l’esercizio passo per passo, anche se con le considerazioni fatte se

abbiamo rifiutato l’ipotesi nulla nel caso di test bilaterale, questa allo stesso livello

sara rifiutata anche per il test unilaterale destra. Vediamo cosa accade.

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.{H0 : µ = 62HA : µ > 62

2. Calcolare la statistica test t. I valori del campione x1, x2, . . . , x9 non li cono-

sciamo ma conosciamo la media x e s. La statistica test e

t =x− µ0

s√n

=66.33− 62

4.04√9

= 3.22

Come si vede il valore della statistica test non cambia.

3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare

la soglia occorre cercare nella tavola della t di Student con n − 1 = 8 gradi

di liberta, quel valori che lascia a destra un’area pari a 0.05, indichiamo tale

valore con t80.05.Il valore cercato lo troviamo nella tavola all’incrocio con i gradi

di liberta g = 8 e probabilita p = 0.95 ed e t80.05 = 1.86. La regione di rifiuto e

R = {t > 1.86}

Come si vede la regione di rifiuto a destra e piu grande della parte destra nel

caso di alternativa bilaterale.

4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare

o rifiutare H0. Poiche t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla,

infatti 3.22 e maggiore di 1.86 come lo era di 2.306.

Page 119: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

Capitolo 11

Tabelle di contingenza

In questo capitolo studiamo le relazioni che possono esistere tra piu variabili cate-

goriali, cioe che assumono come valori delle categorie. Lo scopo sara capire se dal

valore di una di queste variabili dipende il valore dell’altra variabile. Limiteremo

il nostro studio a due variabili e vorremo capire quando e in che misura una delle

due variabili influenza l’altra. Trattandosi di variabili qualitative, non possiamo fare

operazioni sui valori (le categorie) assunte da tali variabili ma solo sul numero di

volte in cui una tale categoria si presenta, cioe sulle frequenze.

11.1 Il test χ2 per l’associazione tra due variabili

Il test χ2 (la lettera greca χ si legge chi e il test si legge test chi quadrato o test chi

quadro) per l’indipendenza di due variabili vuole andare a verificare l’ipotesi:

H0 : le variabili sono indipendenti

contro l’alternativa

HA : le variabili non sono indipendenti

Se la variabili non sono indipendenti c’e una certa dipendenza o associazione tra loro

e quindi se una di loro assume un valore, l’altra sara piu propensa ad assumerne uno

che dipende dal valore assunto dalla prima piuttosto che un altro. Se denotiamo con

Y la variabile di interesse e con A la variabile che pensiamo influenzi la variabile

Y entrambe qualitative, possiamo, partendo dalla tabella di contingenza riportare

le frequenze su un campione di ampiezza N con cui vengono rilevate entrambe le

variabili. La tabella di contingenza non e altro che una tabella in cui vengono

riportate le frequenze con le quali vengono rilevate le modalita congiunte delle due

variabili. Nella Tabella 11.1 N rappresenta il numero totale di osservazioni (detto

117

Page 120: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

118 CAPITOLO 11. TABELLE DI CONTINGENZA

A Y Marginale Ay1 . . . yc

a1 n11 . . . n1c n1...

.... . .

......

ar nr1 . . . nrc nr

Marginale Y m1 . . . mc N

Tabella 11.1: Una tabella di contingenza. Vi sono le due distribuzioni marginali eil numero totale di osservazioni N

anche grande totale). Sono rilevate le due variabili Y che e quella di interesse che

si presenta con c modalita e A che si presenta con r modalita. Le modalita di Y

sono indicate con y1, . . . , yc. Le modalita di A con a1, . . . , ar. I numeri all’interno

della tabella rappresentano la distribuzione congiunta delle variabili Y e A. Ad

esempio n11 rappresenta il numero di volte che la modalita 1 della Y e la modalita

1 della A si presenta. Vale a dire sono il numero di unita delle N nel campione nel

quale la variabile Y assume la modalita y1 e la variabile A la modalita a1. I valori

n1, . . . , nr e m1, . . . ,mc che appainoo nell’ultima colonna e nell’ultima riga sono dette

distribuzioni marginali ed hanno un ruolo molto importante nell’analisi che faremo.

Esse sono la distribuzione della variabile A e della variabile Y , indipendentemente

dal valore assunto dall’altra variabile. Ad esempio n1 rappresenta il numero di unita

tra le N del campione nelle quali la variabile A assume la modalita a1, mentre ad

esempio mc rappresenta il il numero di unita tra le N del campione nelle quali la

variabile Y assume la modalita yc.

Se le variabili Y e A fossero indipendenti la distribuzione congiunta (la parte cen-

trale della tabella) dovrebbe contenere dei valori particolari, detti frequenze attese

in caso di indipendenza, che sono ottenuti in questo modo. La frequenza attesa in

corrispondenza della riga generica e della colonna generica di ottiene facendo il pro-

dotto delle due corrispondenti marginali e si divide per N , il grande totale. Quindi

la frequenza attesa della prima frequenza congiunta n11 si ottiene moltiplicando n1

per m1 e dividendo per N . In modo analogo si procede per calcolare tutte le altre.

Tali frequenze vengono indicate con eij, dove i sta per il numero di riga e j per il

numero della colonna. Se nij rappresenta in modo analogo la frequenza osservata

della modalita ai per la variabile A e la modalita yj per la variabile Y la formula

che ci da la generica frequenza attesa e

eij =nimj

N, i = 1, . . . , r, j = 1, . . . , c

Calcolando per ogni valore di riga e per ogni valore di colonna tutte le frequenze

Page 121: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

11.1. IL TEST χ2 PER L’ASSOCIAZIONE TRA DUE VARIABILI 119

attese otteniamo la tabella in caso di indipendenza tra le variabili Y e A. Quindi piu

si e in presenza di una associazione tra Y e A ovvero di una qualche dipendenza di

Y da A tanto piu i valori osservati nij saranno diversi da quelli attesi eij. A questo

punto si calcolano tutte le differenze nij − eij, si elevano al quadrato e si dividono

per le frequenze attese e quindi si sommano tutti. Tale quantita e la statistica test

di interesse e viene denotata con il simbolo X2. In formula

X2 =∑ (nij − eij)2

eij

dove la somma e estesa a tutti i termini all’interno della tabella di contingenza,

ovvero a tutti i termini delle frequenze congiunte. Abbiamo quindi un importante

risultato della statistica.

Teorema 11.1.1. Data una tabella di contingenza come la 11.1, sotto l’ipotesi nulla

che Y e A siano indipendenti, la quantita

X2 =∑ (nij − eij)2

eij

ha una distribuzione χ2.

La distribuzione χ2 (si legge chi quadrato o chi quadro) e una distribuzione asim-

metrica che si ottiene come somme di normali standardizzate elevate al quadrato,

la cui distribuzione dipende, come la t di Student da un parametro, detto gradi di

liberta. La Tabella 11.2 riporta per i diversi gradi di liberta g e per diversi valori

dell’area, i valori per i quali l’area sotto la distribuzione di una χ2 per valori da zero

fino a quello indicato e pari a p. Nella Figura 11.1 l’area in questione e tratteggiata

e vale p. Se vogliamo che l’area oltre il valore x sotto la distribuzione di una χ2

con 8 gradi di liberta sia ad esempio α = 0.05, dobbiamo cercare nella tabella la

riga corrispondente a 8 gradi di liberta, cie g = 8, e nella colonna corrispondente a

p = 1− α = 0.95. In questo caso avremo quindi x = 15.50731.

Quindi una volta calcolata la quantita X2, fissato un livello del test α, cioe fissato

l’errore di primo tipo, dobbiamo stabilire i gradi di liberta della distribuzione χ2. I

gradi di liberta sono dati dal prodotto tra il numero delle modalita delle due variabili

diminuito di uno. Vale a dire, se r sono il numero delle modalita di una variabile

e c il numero delle modalita della seconda variabile, avremo che i gradi di liberta

associati alla statistica χ2 sono

g = (r − 1) · (c− 1).

A questo punto la regole di decisione a livello α e: rifiuto l’ipotesi nulla se il valore

X2 calcolato sulla tabella di contingenza supera il valore x che troviamo nella tavola

in corrispondenza dei gradi di liberta calcolati e p = 1− α.

Page 122: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

120 CAPITOLO 11. TABELLE DI CONTINGENZA

p 0.750 0.900 0.950 0.975 0.990 0.995 0.9995g

1 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944 12.115672 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663 15.201803 4.10834 6.25139 7.81473 9.34840 11.34487 12.83816 17.730004 5.38527 7.77944 9.48773 11.14329 13.27670 14.86026 19.997355 6.62568 9.23636 11.07050 12.83250 15.08627 16.74960 22.105336 7.84080 10.64464 12.59159 14.44938 16.81189 18.54758 24.102807 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774 26.017778 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495 27.868059 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935 29.66581

10 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818 31.4198111 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685 33.1366212 14.84540 18.54935 21.02607 23.33666 26.21697 28.29952 34.8212713 15.98391 19.81193 22.36203 24.73560 27.68825 29.81947 36.4777914 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935 38.1094015 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132 39.7187616 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719 41.3080717 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847 42.8792118 21.60489 25.98942 28.86930 31.52638 34.80531 37.15645 44.4337719 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226 45.9731220 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685 47.4984521 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106 49.0108122 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565 50.5111223 27.14134 32.00690 35.17246 38.07563 41.63840 44.18128 52.0001924 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851 53.4787525 29.33885 34.38159 37.65248 40.64647 44.31410 46.92789 54.9474626 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988 56.4068927 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492 57.8575928 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338 59.3000329 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562 60.7346530 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196 62.16185

Tabella 11.2: Tavola del χ2 . La tavola restituisce i valori di χgp dove g sono i gradi diliberta.

.

Page 123: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

11.2. PRIMA LE DONNE E I BAMBINI 121

Regione di rifiuto

0 x

p = 0.95

Figura 11.1: L’area tratteggiata sotto la curva di una distribuzione χ2 con g gradidi liberta da 0 a x vale p. I diversi valori di x per p fissato e g fissati sono riportatinella Tabella 11.2.

11.2 Prima le donne e i bambini

La seguente tabella riporta i dati relativi al disastro del Titanic. Si tratta di una

tabella a 4 vie nel senso che sono presenti 4 variabili. La variabile di interesse

che possiamo denominare Y=Deceduti, si presenta con due modalita: SI (i morti)

e NO (i vivi o sopravvissuti). Poi abbiamo la variabile Eta (con le due modalita

Bambini e Adulti), la variabile Sesso (anche questa con le due modalita Uomini e

Donne) e infine la variabile Classe di viaggio (con 4 modalita: prima classe, seconda

classe, terza classe ed equipaggio). Dalla Tabella 11.3 che riporta tutte le variabili

possiamo andare a costruire le tabelle a doppia entrata per cercare di capire quale

delle variabili, tra Sesso, Eta e Classe di viaggio e la piu associata con la variabile

Deceduti.

Le tre tabelle in questione sono riportate di seguito.

Esercizio 11.2.1. Calcolare l’indice X2 per le tre tabelle di contingenza ricavate

dai dati del disastro del titanic e stabilire se a livello α = 0.05 si rigetta l’ipotesi

che la variabile Deceduti sia indipendente dalle variabili considerate nelle tre tabelle

(Classe di viaggio, Sesso ed Eta).

Page 124: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

122 CAPITOLO 11. TABELLE DI CONTINGENZA

DecedutiSI NO

Classe Sesso Eta (Morti) (Vivi)1a Uomini Bambini 0 5

Adulti 118 57Donne Bambini 0 1

Adulti 4 1402a Uomini Bambini 0 11

Adulti 154 14Donne Bambini 0 13

Adulti 13 803a Uomini Bambini 35 13

Adulti 387 75Donne Bambini 17 14

Adulti 89 76Equipaggio Uomini Bambini 0 0

Adulti 670 192Donne Bambini 0 0

Adulti 3 201490 711

Tabella 11.3: Dati relativi al disastro del Titanic. Erano presenti un totale di 2201passeggeri

Vediamo passo per passo come calcolare l’indice X2 per la Tabella 11.6. Prima

di tutto scriviamo l’ipotesi nulla:

H0 : L’essere deceduto e indipendente dall’eta.

L’alternativa possiamo definirla come

HA : L’essere deceduto dipende dall’eta.

Andiamo a mettere in una tabella tutte le quantita necessarie per il calcolo di X2.

Nella Tabella 11.2 nij indica le frequenze osservate. La i indica la riga, la j

la colonna. Nella Tabella 11.6 la frequenza osservata n11 e il numero dei bambini

morti, n12 il numero dei bambini vivi, n21 e il numero degli adulti morti, n22 e il

numero degli adulti sopravvissuti. Le frequenze attese eij sono calcolate utilizzando

le frequenze delle distribuzioni marginali: e11 = 1490∗1092201

e la frequenza attesa in caso

di indipendenza del numero di bambini morti. In modo analogo si calcolano le altre

frequenze attese.

Page 125: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

11.2. PRIMA LE DONNE E I BAMBINI 123

SI (Morti) NO (Vivi)1st 122 203 325

2nd 167 118 2853rd 528 178 706

Crew 673 212 8851490 711 2201

Tabella 11.4: Il disastro del Titanic, Deceduti e Classe di viaggio

SI (Morti) NO (Vivi)Uomini 1364 367 1731Donne 126 344 470

1490 711 2201

Tabella 11.5: Il disastro del Titanic, Deceduti e Sesso

I valori nell’ultima colonna sommati danno il valore di X2. In questo caso X2 =

20.95.

Dobbiamo calcolare i gradi di liberta associati alla tabella: essendo una tabella

2× 2 i gradi di liberta sono (2− 1) · (2− 1) = 1.

Se andiamo nella tabella della distribuzione χ2 con un grado di liberta (valori

nella prima riga, per g = 1 notiamo che l’ultimo valore per p = 09995 e poco piu di

12. Questo significa che il valore 20 lascia alla sua sinistra un’area che e quasi 1, e

quindi rifiutiamo con molta convinzione l’ipotesi nulla.

La conclusione di questo test e: rifiutiamo l’ipotesi nulla che il sopravvivere sia

indipendente dall’eta.

Riassumendo i passi per un test χ2 per l’indipendenza sono i seguenti:

1. Scrivere l’ipotesi nulla esprimendo l’indipendenza delle variabili considerate.

2. Calcolare le frequenze attese per ogni frequenza osservata.

3. Sistemare in una tabella le frequenze osservate, le frequenze attese, la differenza

tra queste. Eleviamo quindi al quadrato ogni differenza e dividiamo per la

frequenza attesa.

4. Sommiamo queste ultime quantita per ottenere il valore X2.

5. Calcolare i gradi di liberta g.

6. Cercare nella tabella della distribuzione χ2 in corrispondenza della riga g il

valore della statistica X2.

Page 126: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

124 CAPITOLO 11. TABELLE DI CONTINGENZA

SI (Morti) NO (Vivi)Bambini 52 57 109

Adulti 1438 654 20921490 711 2201

Tabella 11.6: Il disastro del Titanic, Deceduti ed Eta

nij eij nij − eij (nij − eij)2 (nij−eij)2eij

bambini morti 52 73.79 -21.79 474.77 6.43bambini vivi 57 35.21 21.79 474.77 13.48adulti morti 1438 1416.21 21.79 474.77 0.34

adulti vivi 654 675.79 -21.79 474.77 0.70somme 20.95

Tabella 11.7: I passaggi per il calcolo della statistica X2 per le variabili Esseredeceduti ed Eta

7. In base al valore trovato in tabella si trae la conclusione del test come segue:

(a) Se X2 e piu grande di ogni valore rappresentato si rifiute l’ipotesi nulla

che le due variabili siano indipendenti, per qualunque livello α del test.

(b) Se il valore X2 e piu piccolo del valore in corrispondenza della colonna

0.95 si accetta l’ipotesi nulla di indipendenza a livello α = 0.05. Se e piu

grande del valore trovato si rifiuta a livello α = 0.05.

(c) Se il valore X2 e piu piccolo del valore in corrispondenza della colonna

0.99 si accetta l’ipotesi nulla di indipendenza a livello α = 0.01. Se e piu

grande del valore trovato si rifiuta a livello α = 0.01

11.3 Dire qualcosa di piu sulla dipendenza

Negli esempi visti nella sezione precedente la variabile Essere sopravvissuto risulta

dipendere dalle altre variabili. Il calcolo delle quantita necessarie per ottenere X2

possono essere utilizzate per raccontare qualcosa di piu di questa dipendenza.

Il calcolo dei residui ci puo dare qualche informazione al riguardo. I residui sono

calcolati come

rij =nij − eij√

eij.

I residui per la Tabella 11.6 sono riportati nella Tabella 11.8.

Page 127: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

11.4. ODDS RATIO 125

SI (Morti) NO (Vivi)Bambini -2.54 3.67

Adulti 0.58 -0.84

Tabella 11.8: Il disastro del Titanic. Residui per la tabella relativa alle variabiliDeceduti ed Eta

Un residuo negativo significa che ci sono meno unita in quella cella rispetto a

quelle che mi aspetterei in caso di indipendenza. Cioe il valore osservato e piu

grande di quello atteso. Viceversa un residuo positivo significa che ci sono piu unita

in quella cella rispetto a quelle che mi aspetterei in caso di indipendenza. Cioe il

valore osservato e piu piccolo di quello atteso.

In secondo luogo andiamo a vedere quanto sono grandi i residui. Si puo dimo-

strare che i residui in ogni cella hanno una distribuzione normale, quindi possiamo

dire se siano grandi o meno. Dal punto di vista statistico effettuiamo un test per ve-

rificare l’ipotesi nulla che i residui siano nulli. Essendo distribuiti come una normale

standard, rifiutiamo l’ipotesi nulla a livello 5% se i residui sono maggiori di 1.96.

Rifiutare l’ipotesi nulla in questo caso significa che le differenze osservate in quella

cella sono significative. Quindi in questo caso l’essere bambini ha molta influenza

sulla variabile Essere sopravvissuto.

11.4 Odds Ratio

Nelle tabelle a doppia entrata 2 × 2 l’odds ratio puo dare informazioni importanti

sull’associazione tra i valori delle variabili per le quali si e riscontrato associazione

(il test χ2 ha rifiutato l’ipotesi nulla di indipendenza tra le variabili). L’odds ra-

tio, indicato con OR, viene calcolato come rapporto tra il prodotto delle frequenze

osservate incrociate. Piu facile scriverlo che dirlo!

OR =n11n22

n12n21

.

L’odds ratio puo assumere un qualunque valore positivo (non si calcola l’odds ratio

per tabelle in cui una delle frequenze osservate e nulla. Un valore dell’odds ratio

maggiore di 1 significa che i soggetti nella prima riga tendono a propendere piu per

la prima risposta che per la seconda. Odds ratio minori di 1 significa che i soggetti

nella prima riga tendono a propendere pi`u per la seconda risposta che per la prima.

Calcoliamo l’odds ratio per la Tabella 11.6. Abbiamo

OD =52 ∗ 653

1438 ∗ 57= 0.41

Page 128: Appunti di Statistica sociale (Draft)tutto uguale ad una media! I metodi utilizzati sono principalmente i gra ci, e poi metodi numerici (occorrer a fare qualche calcolo) per dare informazioni

126 CAPITOLO 11. TABELLE DI CONTINGENZA

Questo significa che i bambini tendono ad assumere piu la modalita SI della variabile

Essere sopravvissuto.