153
Appunti di Statistica sociale (Draft) Ilia Negri [email protected] 30 novembre 2014

Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

  • Upload
    tranbao

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Appunti di Statistica sociale

(Draft)

Ilia [email protected]

30 novembre 2014

Page 2: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2

Page 3: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Indice

1 Indroduzione: perche la statistica sociale 3

1.1 Perche la statistica serve a tutti . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 La statistica nella vita di tutti i giorni . . . . . . . . . . . . . . . . . . . . . 5

2 Rappresentare i dati e le loro distribuzioni 9

2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 Prime definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 Diversi dati diverse variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 Dati e tavole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.4.1 Frequenze assolute, relative e percentuali . . . . . . . . . . . . . . . 16

2.5 Distribuzioni di piu variabili congiuntamente . . . . . . . . . . . . . . . . . 19

2.5.1 Frequenze cumulate . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.6 Dati e grafici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.7 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.7.1 Il geyser Old Faithful . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.7.2 Un caso di attribuzione letteraria . . . . . . . . . . . . . . . . . . . . 37

2.7.3 Il primo bacio non si scorda mai . . . . . . . . . . . . . . . . . . . . 40

2.8 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3 Valori medi 47

3.1 La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.2 La media artitmetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.3 La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.4 Medie per i dati in classi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.5 Simmetria e asimmetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.6 Quale media scegliere? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.7 Quartili, perentili e quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.8 Il box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

3.9 Soluzione degli esercizi assegnati . . . . . . . . . . . . . . . . . . . . . . . . 63

1

Page 4: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2 INDICE

4 La variabilita 65

4.1 Il range e lo scarto interquartile . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.2 Scarto quadratico medio e varianza . . . . . . . . . . . . . . . . . . . . . . . 67

5 Operazioni sui dati 71

5.1 Trasformazioni di scala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.2 Standardizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

6 Siamo tutti normali? 79

6.1 La curva e normale! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

6.2 La normale standardizzata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

6.3 Un po’ di formule matematiche e un po’ di storia . . . . . . . . . . . . . . . 90

7 Dal campione alla popolazione 93

7.1 Campionamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

7.2 Dalla popolazione al campione: il caso della media . . . . . . . . . . . . . . 96

8 Intervalli di confidenza 101

8.1 La media campionaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

8.2 Gli ingredienti e la ricetta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

9 La proporzione 107

9.1 Il modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

9.2 Intervallo di confidenza per la proporzione π . . . . . . . . . . . . . . . . . . 109

10 Test statistici 113

10.1 Verifica d’ipotesi: la teoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

10.2 Verifica d’ipotesi: la pratica . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

10.2.1 Test per la media di popolazione normale: σ nota . . . . . . . . . . 116

10.2.2 Test per la media di popolazione normale: σ non nota . . . . . . . . 118

10.2.3 Test per la proporzione . . . . . . . . . . . . . . . . . . . . . . . . . 121

10.3 Il livello di significativia del test: α . . . . . . . . . . . . . . . . . . . . . . . 124

10.4 Test con alternativa unilaterale . . . . . . . . . . . . . . . . . . . . . . . . . 125

11 Tabelle di contingenza 129

11.1 Il test χ2 per l’associazione tra due variabili . . . . . . . . . . . . . . . . . . 129

11.2 Prima le donne e i bambini . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

11.3 Dire qualcosa di piu sulla dipendenza . . . . . . . . . . . . . . . . . . . . . . 135

11.4 Odds Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

A Tavole Statistiche 137

Page 5: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Capitolo 1

Indroduzione: perche la statisticasociale

1.1 Perche la statistica serve a tutti

Che ci pensiate o meno e che ci crediate o meno la vostra vita e piena degli embrioni dei

concetti che trovano la loro esatta formulazione nella statistica. Qualche esempio? Pensate

a quando la mattina prima di uscire di casa decidete se prendere o meno l’ombrello. Se

avrete successo o meno ad un incontro che vi interessa particolarmente. O al voto che

prevedete di prendere in questo esame. Quello che state facendo e elaborare un concetto

statistico sulla base dei dati che avete immagazzinato con la vostra esperienza.

La statistica non e altro che quella disciplina che si occupa di capire e che utilizza i

dati. I dati possono essere di qualunque tipo o natura. Qualche esempio? La serie storica

delle precipitazioni in una qualunque citta, la rilevazione del quoziente di intelligenza, il

numero di volte che uno scrittore usa un certo tipo di parole non contestuali ogni mille

parole (tipo: da, allora, quindi, . . . ), il numero di giorni che una persona passa in vacanza

in un anno.

Nel nostro corso ci occuperemo di due tipi di statistica. Il primo tipo e la statistica

descrittiva che consiste nei metodi per descrivere e sintetizzare le caratteristiche salienti

di un certo insieme di dati. Le caratteristiche salienti di un insieme di dati sono in genere

la loro distribuzione, il loro valore medio e la loro variabilita.

I metodi utilizzati per descrivere i dati che abbiamo a disposizione e per prepararli per

essere analizzati sono principalmente i grafici e le distribuzioni di frequenza, che vedremo

nel Capitolo 2, e poi metodi numerici (occorrera fare qualche calcolo) per dare informazioni

sulla media, che vedremo nel Capitolo 3, e sulla variabilita, introdotta nel Capitolo 4.

Osservazione importante: la variabilita e la caratteristica fondamentale della statistica.

Se non ci fosse variabilita non ci sarebbe la statistica e vivremmo in un mondo banale

tutto uguale ad una media!

3

Page 6: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

4 CAPITOLO 1. INDRODUZIONE: PERCHE LA STATISTICA SOCIALE

Il secondo tipo di statistica e quella inferenziale, che si occupa di utilizzare quel poco di

cui siamo a conoscenza (e che abbiamo descritto con i metodi della statistica descrittiva)

per estenderlo, facendo una stima o delle previsioni, a tutto quello che non possiamo

conoscere.

Per questo tipo di statistica un ruolo importante riveste la teoria della probabilita. La

teoria della probabilita e infatti in grado di fornire un modello matematico per l’incertezza

dei possibili risultati di un fenomeno. In questo senso la probabilita puo essere vista

come una misura dell’incertezza. Possiamo dire che la statistica e capace di quantificare

l’incertezza, tramite la probabilita. Essa mette gli statistici in grado di fare affermazioni

categoriche, cioe in completa sicurezza, circa il loro grado di incertezza!

Ad esempio, l’istat conduce ogni anno le indagini sul benessere delle famiglie italiane.

Si registrano in ogni provincia il numero di famiglie monogenitoriali su un certo numero di

capifamiglia intervistati. La percentuale di famiglie monogenitoriali in una certa provin-

cia rilevata tra gli intervistati, puo essere usata come stima per la percentuale di famiglie

monogenitoriali in quella provincia, e sulla base di questa stima il governo locale puo pre-

vedere una serie di servizi legati al welfare. Con la teoria della probabilita potremo avere

un modello di questa percentuale e saremo in grado di dire ad esempio: la percentuale di

famiglie monogenitoriali in Italia non e uguale in tutte le province. La teoria della proba-

bilita ci permette di dire con certezza che questa affermazione potrebbe essere sbagliata

nel 5% dei casi. Cioe si fa un’affermazione certa sul grado di incertezza!

Naturalmente non saremo mai in grado di dire quante sono le famiglie monogenitoriali

in una certa provincia in un certo istante, ma saremo in grado di prevedere in maniera

verosimile la proporzione di tali famiglie.

La statistica e importante nella vita di tutti i giorni perche senza la vita reale non ci

sarebbe bisogno della statistica! Come si diceva sopra, se tutti la pensassero e agissero allo

stesso modo e se tutto fosse sempre uguale a se stesso, non avremmo bisogno di prevedere

nulla! E sarebbe un mondo senza statistica ma molto noioso!

Nella vita reale ogni cosa e diversa e ogni individuo pensa e agisce in modo diverso.

Nelle scienze sociali la statistica e utilizzata per spiegare le differenze tra gruppi di persone

o luoghi. Ad esempio possiamo essere interessati a come varia il numero di famiglie

monogenitoriali rispetto alle condizioni economiche e sociali di un gruppo di famiglie,

oppure rispetto alla posizione geografica.

Come potete rendervi conto se aprite un giornale o un sito web, la statistica viene uti-

lizzata pressoche ovunque, con grafici, opinioni basate su dati e previsioni su andamenti di

vari fenomeni. Spesso queste informazioni possono influenzare anche la vita delle persone

in modo rilevante. Questo corso cerchera di mostrarvi come utilizzare varie tecniche della

statistica, e anche se non le utilizzerete mai piu nella vita, come il detto, impara l’arte e

mettila da parte, sarete almeno in grado di capire come vengono fatte certe analisi e come

Page 7: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

1.2. LA STATISTICA NELLA VITA DI TUTTI I GIORNI 5

Figura 1.1: Il grafico trasmesso da Fox News

vengono proposte certe previsioni e non vi farete ingannare da chi a volte usa i dati in

modo non appropriato per ingannare o attirare favori!

1.2 La statistica nella vita di tutti i giorni

Questo e un esercizio utile. Prendiamo un giornale qualunque e andiamo a vedere quanti

grafici vengono riportati e in che contesto. Cerchiamo di capire se ci sono descrizioni dei

dati o previsioni. Ci renderemo conto durante il corso come cambiera la nostra sensibilita

di fronte alle notizie che riportano questo tipo di informazioni. Come compito durante il

corso dovrete sempre prendere un giornale e analizzare questo tipo di informazioni.

Se lo farete sarete in grado una volta che lavorerete in una redazione di fermare la messa

in onda di un grafico di questo tipo. Nella Figura 1.1 appare il grafico a torta presentato

durante la trasmissione televisiva Fox News molto seguita negli Stati Uniti d’America.

A un certo numero di persone era stato chiesto quali candidati vedevano favorevolmente

per contrastare Obama. Casa c’e di sbagliato? Cosa puo avere indotto questo errore?

Proveremo a rispondere nella Sezione 2.6.

Page 8: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

6 CAPITOLO 1. INDRODUZIONE: PERCHE LA STATISTICA SOCIALE

Come dicevamo nella sezione precedente l’Istat conduce ogni anno l’indagine campio-

naria Aspetti della vita quotidiana, che fa parte di un sistema integrato di indagini sociali

(le Indagini Multiscopo sulle famiglie) che ha come scopo quello di rilevare le informazioni

fondamentali relative alla vita quotidiana degli individui e delle famiglie. A partire dal

1993, l’indagine viene svolta ogni anno e le informazioni raccolte consentono di conoscere

le abitudini dei cittadini e i problemi che essi affrontano ogni giorno. Aree tematiche va-

riegate si susseguono nei questionari, permettendo di capire come vivono gli individui e se

sono soddisfatti del funzionamento di quei servizi di pubblica utilita che devono contribui-

re al miglioramento della qualita della vita. Scuola, lavoro, vita familiare e di relazione,

abitazione e zona in cui si vive, tempo libero, partecipazione politica e sociale, salute,

stili di vita e rapporto con i servizi sono indagati in un’ottica in cui oggettivita dei com-

portamenti e soggettivita delle aspettative, delle motivazioni, dei giudizi contribuiscono

a definire l’informazione sociale. L’indagine rientra tra quelle comprese nel Programma

statistico nazionale, che raccoglie l’insieme delle rilevazioni statistiche necessarie al Pae-

se. (http://www.istat.it/it/archivio/91926). Si tratta di un indagine campionaria,

cioe viene intervistato un campione (la definizione viene data piu avanti, Definizione 2.2.2

della popolazione (Definizione 2.2.1) costituita da tutte le famiglie italiane. L’indagine e

eseguita su un campione di circa 24mila famiglie (per un totale di circa 54mila individui)

distribuite in circa 850 Comuni italiani di diversa ampiezza demografica. Ogni famiglia

che rientra nel campione viene estratta con un criterio di scelta casuale dalle liste anagra-

fiche comunali, secondo una strategia di campionamento volta a costituire un campione

statisticamente rappresentativo della popolazione residente in Italia. L’indagine si svolge

nel primo trimestre di ogni anno. Un rilevatore comunale si reca presso le abitazioni delle

famiglie munito di cartellino identificativo per rivolgere alcune domande ai componenti

del nucleo familiare. Le informazioni vengono raccolte tramite due questionari: uno che

rappresenta il questionario base della rilevazione, contiene i quesiti familiari e una scheda

individuale per ogni componente della famiglia e un questionario che deve essere compilato

da ogni componente in modo autonomo (autocompilazione). I principali risultati dell’in-

dagine vengono resi disponibili sul sito dell’Istat attraverso sia il Datawarehouse I.stat sia

le statistiche report pubblicate nei settori con argomento: Opinioni dei cittadini, Salute e

sanita, Cultura, comunicazione, tempo libero, Partecipazione sociale. Ogni anno, inoltre, i

dati raccolti vengono analizzati e pubblicati anche su volumi a carattere generale (Rappor-

to annuale, Annuario statistico italiano, Noi Italia, Italia in cifre) e, occasionalmente, nelle

collane di approfondimento o analisi del medesimo Istituto (Collana argomenti, Metodi

e norme). Inoltre, i dati elementari rilevati nel corso dell’indagine sono resi disponibili,

gratuitamente, per gli utenti e i ricercatori che ne facciano richiesta motivata per fini di

ricerca scientifica attraverso i file standard. I dati comunicati, in ogni caso, sono privi degli

elementi identificativi del soggetto al quale si riferiscono, nonche di ogni altro elemento

Page 9: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

1.2. LA STATISTICA NELLA VITA DI TUTTI I GIORNI 7

che consenta, anche indirettamente, il collegamento con le famiglie o gli individui intervi-

stati. In questo corso utilizzeremo questi dati (eventualmente opportunamente modificati

a scopo didattico) per gli esempi e gli esercizi.

Page 10: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

8 CAPITOLO 1. INDRODUZIONE: PERCHE LA STATISTICA SOCIALE

Page 11: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Capitolo 2

Rappresentare i dati e le lorodistribuzioni

In questo capitolo dopo aver dato alcune definizioni importanti e fondamentali per comin-

ciare a studiare e a capire la statistica, presenteremo i diversi tipi di dati con cui possiamo

avere a che fare in indagini statistiche, e quindi mostreremo come questi dati possano

essere rappresentati sia in forma di tabelle che in forma di grafici e disegni.

2.1 Introduzione

Cercheremo di capire il significato della parola distribuzione che e un concetto fondamen-

tale di tutta la statistica. Prima di cominciare ad analizzare i dati occorre introdurre

qualche termine specifico della statistica per capirci e capire di cosa stiamo parlando.

Ogni qualvolta si vuole studiare un fenomeno in cui e presente una certa variabilita della

risposta in presenza delle stesse condizioni entra in gioco la statistica. Proviamo a cercare

qualche esempio nella vita di tutti i giorni. Le famiglie della provincia di Bergamo aventi

un certo reddito e composte da un certo numero di componenti scelgono luoghi diversi e

tempi diversi per le loro vacanze. Se vogliamo studiare il fenomeno riguardante le vacanze

delle famiglie della provincia di Bergamo (fenomeno di interesse per gli enti pubblici, e

o privati e che interessa diversi tipi di studiosi, di sociologia o di economia ad esempio)

entra in gioco la statistica.

I tecnici incaricati di uno studio sulla fattibilita di un impianto in grado di trasformare

in energia elettrica l’energia scaturita durante le eruzioni di vapore acqueo di un geyser

registrano per ogni eruzione il tempo di pausa tra un’eruzione e la successiva e il tipo di

eruzione. Anche in questo caso per decidere sulla fattibilia (dal punto di vista economico,

di impatto ambientale e di gestione delle risorse) entra in gioco la statistica.

I metodi statistici si occupano principalmente

1. di raccogliere i dati;

9

Page 12: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

10 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

2. della presentazione dei dati;

3. dell’analisi dei dati.

Sulla base delle informazioni fornite dai dati ed elaborate dagli statistici stara ai tecnici e

agli studiosi delle diverse discipline prendere decisioni sul fenomeno oggetto di studio, sia

esso un’indagine sulle famiglie monogenitoriali, sulle vacanze degli italiani o sulla fattibilia

di un impianto industriale, piuttosto che risolvere problemi concernenti il disegno e la

progettazione di prodotti e processi industriali. Sulla base delle stesse informazioni si puo

considerare anche l’impiego dei dati a fini previsivi e conoscitivi di un fenomeno.

In ultima analisi si puo dire che il primo scopo della statistica e la la comprensione

delle cause della variabilita. Per parafrasare e ricordare questo scopo citiamo la Legge di

Murphy (si veda [1]): “Anche sotto le condizioni piu rigorosamente controllate un sistema

si comporta come gli pare e piace”; e la sua trasposizione sul territorio coniata dal Prof.

Roberto Colombi come Legge bergamasca: “Non tutte le ciambelle riescono col buco!”

2.2 Prime definizioni

Supponiamo di aver fatto un indagine per capire come lo stato civile, il grado di scolarita e

il reddito influenzino il numero di figli presenti in un certo nucleo famigliare rappresentato

dal capofamiglia (non necessariamente di sesso maschile). Il fenomeno studiato in questo

caso e di tipo sociale. Si intervistano 20 capofamiglia e le loro risposte sono elencate nella

Tavola 2.1.

Le 20 persone intervistate costituiscono un campione della popolazione di tutte le

famiglie. La popolazione in statistica non necessariamente sara riferita a persone. Si

tratta in generale di un concetto astratto che non puo essere osservato nella sua interezza

e completezza e per questo motivo se ne sceglie un campione. Ad esempio nell’esempio

sulla fattibilia dell’impianto per la generazione dell’energia dalle eruzioni del geyser, la

popolazione e costituita da tutte le possibili eruzioni passate, presenti e future del geyser.

Tornaniamo ora all’ultimo esempio, per introdurre l’oggetto principale della statistica. I

quattro argomenti di cui viene richiesto il valore (stato civile, grado di scolarita, numero

dei figli, reddito) sono chiamate variabili. Ogni rispondente e detto unita statistica o caso.

Le risposte che ogni unita statistica da, ovvero i valori delle variabili osservati sulle unita

statistiche, sono dette osservazioni. In ogni insieme di dati (chiamato dataset) i casi o

le unita statistiche sono gli individui o le unita del campione. Le variabili sono invece le

caratteristiche che assumono valori diversi su ogni unita del campione o individuo. Poiche

repetita iuvant vediamo di fissare questi primi concetti.

Definizione 2.2.1. La popolazione e l’intera collezione di individui, oggetti, eventi,

astratta o concreta, sulla quale si ricercano informazioni.

Page 13: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.2. PRIME DEFINIZIONI 11

u X Y Z W

unita stato grado di numero di redditostat. civile scolarita figli in ¤

1 N L 0 72.502 S O 1 54.283 V A 3 50.024 V O 4 88.885 C L 1 62.306 N S 1 45.217 C S 0 57.508 C O 2 78.409 V L 3 75.13

10 N O 0 58.0011 N S 1 53.7012 N A 0 91.2913 S S 1 74.7014 C S 4 41.2215 N S 3 65.2016 C L 0 63.5817 V O 2 48.2718 S O 2 52.5219 C S 4 69.5020 C S 4 85.98

Tabella 2.1: Stato civile X, grado di scolarita Y , numero di figli Z, reddito W di 20capofamiglia intervistati per un indagine sociale.

Page 14: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

12 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Non e possibile osservare interamente la popolazione, per cui si ricorre ad un sottoin-

sieme di essa.

Definizione 2.2.2. Un sottoinsieme della popolazione e detto campione. Sono gli ele-

menti della popolazione che si osservano realmente.

Vale la pena osservare che un campione non garantisce di riflettere sempre le caratte-

ristiche della popolazione. A volte puo essere sostanzialmente diverso dalla popolazione

da cui viene estratto. Due campioni della stessa popolazione sono diversi uno dall’altro a

volte anche enormemente diversi.

Definizione 2.2.3. Unita statistica o caso e ogni elemento del campione.

Definizione 2.2.4. Variabile e ogni caratteristica di interesse che viene rilevata sugli

elementi del campione.

Definizione 2.2.5. Dataset e l’insieme di tutti i valori di ogni variabile che e rilevata

sugli elementi del campione.

2.3 Diversi dati diverse variabili

Le variabili possono essere di diverso tipo a seconda delle modalita con cui si manifestano

i diversi valori che assumono. I valori che assumono sulle unita del campione sono i nostri

dati. Le due grandi categorie sono le variabili quantitative (o numeriche) e le qualitative

(o categoriche). Tra le quantitative distinguiamo le variabili numeriche discrete (risultato

di un conteggio) e le continue (risultato in genere di una misura di qualunque tipo). Tra

le qualitative distinguiamo tra quelli ordinali (dove e possibile stabilire un ordine tra le

categorie) e nominali (dove questo ordine non e possibile). Il modo migliore per riconoscere

il tipo di variabile e pensare alle operazioni che si possono fare su di loro. La prima

domanda e sicuramente: sono numeri oppure no? Se sono numeri si tratta di variabili

quantitative altrimenti qualitative. Prestare attenzione che a volte nei risultati di un

indagine le qualita possono essere codificate con un codice numerico! Questo non significa

che ad esempio, se il sesso viene codificato con 1 (femmina) e 2 (maschio), il sesso sia una

variabile numerica! Se sono numeri la seconda domanda e: sono il risultato di un conteggio

o di una misurazione (con cronometro, bilancia, o qualsiasi altro strumento) espressa in

una certa unita di misura? Nel primo caso si tratta di variabili numeriche discrete nel

secondo caso di variabili continue. Tutte le variabili inerenti il denaro (reddito, prezzo

di un’azione ad esempio) sono in genere considerate come variabili continue (si misurano

nella unita di valuta corrente, ad esempio ¤). Se non si tratta di numeri la domanda e:

posso ordinare le categorie? Se la risposta e affermativa si tratta di variabili qualitative

ordinabili, altrimenti si tratta di una variabile nominale. Si noti che tutte le variabili

Page 15: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.3. DIVERSI DATI DIVERSE VARIABILI 13

qualitative presentano al piu un numero finito di modalita, quindi anche loro a volte sono

chiamate discrete. Il seguente schema riassume quanto appena descritto per i diversi tipi

di dati o variabili con anche alcuni esempi.

• Numerici o quantitativi

– Risultato di una misura: continui (distanza, reddito, durata, peso)

– Risultato di un conteggio: discreti (numero di figli, numero di esami, numero

di giorni)

• Categorici o qualitativi (nominali o ordinali)

– Ordinali (titolo di studio, scala Mercalli per l’intensita di un terremoto)

– Nominali (genere, religione, trattamento)

Vediamo alcuni esempi.

Esempio 2.3.1. Su un campione di n = 20 capofamiglia sono state rilevate le seguenti

variabili: stato civile (X), livello di scolarita (Y ), numero di figli (Z), reddito in migliaia

di euro (W ). Lo stato civile presenta le seguenti modalita

X =

N = Nubile o celibe

C = Coniugato

V = Vedovo

S = Separato, divorziato

Si tratta di una variabile qualitativa nominale. Il livello di scolarita (Y ), presenta le

seguenti modalia

Y =

A = Analfabeta, alfabeta

O = Scuola dell’obbligo

S = Diploma di scuola superiore

L = Laurea e superiore

Si tratta di una variabile qualitativa ordinale (e possibile dire sempre quale modalita

viene prima di un’altra) La variabile numero di figli (Z) e una variabile numerica discreta.

La variabile reddito (W ) e una variabile numerica continua (misurata in ¤). I risultati

dell’indagine sono riportati nella Tabella 2.1, che rappresenta il nostro dataset.

Esempio 2.3.2. La Tabella 2.2 rappresenta i valori della scala Mercalli per misurare

l’intensita di un terremoto in base agli effetti prodotti. In questo caso non si tratta di un

dataset. Provate pero a descrivere un possibile campione e a capire chi e la popolazione.

Page 16: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

14 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Grado Denominazione Effetti

1 Strumentale E percepita solo dai sismografi.

2 Leggerissima E avvertita solo dalle persone ipersensibili inmomenti di quiete e ai piani piu elevati.

3 Leggera

Viene avvertita da un numero maggiore di per-sone, le quali non si allarmano perche gene-ralmente non si rendono conto che si trattaeffettivamente di scosse telluriche.

4 Mediocre

Le persone che sono in casa l’avvertono e qual-cuna anche tra quelle che si trovano all’aperto.I lampadari oscillano, i pavimenti possono daredegli scricchiolii.

5 Forte

Sentita tanto dalle persone che si trovano in casaquanto da quelle fuori casa. Gli oggetti sospe-si oscillano ampiamente, gli orologi a pendolo sifermano, si hanno tremiti dei vetri e delle sto-viglie. Si ha risveglio brusco dal sonno e puogenerare panico senza danni alle persone.

6 Molto forte

Gli oggetti cadono e cosı i calcinacci dei mu-ri in cui si possono formare lievi lesioni. Lapopolazione, presa dal panico, abbandona lecase.

7 FortissimaPossono cadere comignoli e tegole, mentre i muripresentano lesioni non molto gravi. Suono dicampane.

8 RovinosaLesioni gravi ai fabbricati, crollo di qual-che muro interno. Qualche ferito, raramentevittime.

9 DisastrosaAlcuni crolli di case, altri edifici gravementelesionati. Molti i feriti, non numerose le vittime.

10 DistruttriceCrolli di molti fabbricati. Parecchie le vittime,moltissimi i feriti.

11 Catastrofe Numerose vittime. Quasi tutti gli edifici crollati.

12 Grande catastrofeFormazione di crepacci e frane. Distruzione diqualsiasi opera umana.

Tabella 2.2: Descrizione delle diverse modalita della scala Mercalli che misura l’intensitadi un terremoto in base agli effetti sulla popolazione.

Page 17: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.3. DIVERSI DATI DIVERSE VARIABILI 15

Attesa Tipo Attesa Tipo Attesa Tipo Attesa Tipo

76 Lunga 90 Lunga 45 Corta 84 Lunga80 Lunga 42 Corta 88 Lunga 70 Lunga84 Lunga 91 Lunga 51 Corta 79 Lunga50 Corta 51 Corta 80 Lunga 60 Lunga93 Lunga 79 Lunga 49 Corta 86 Lunga55 Corta 53 Corta 82 Lunga 71 Lunga76 Lunga 82 Lunga 75 Lunga 67 Corta58 Corta 51 Corta 73 Lunga 81 Lunga74 Lunga 76 Lunga 67 Lunga 76 Lunga75 Lunga 82 Lunga 68 Lunga 83 Lunga80 Lunga 84 Lunga 86 Lunga 76 Lunga56 Corta 53 Corta 72 Lunga 55 Corta80 Lunga 86 Lunga 75 Lunga 73 Lunga69 Lunga 51 Corta 75 Lunga 56 Corta57 Lunga 85 Lunga 66 Corta 83 Lunga

Tabella 2.3: Durata del periodo dormiente (Attesa) e tipo di eruzione precedente (Tipo)di un campione di 60 eruzioni del geyser Old Faithful (Wyoming, USA).

Esempio 2.3.3. La Tabella 2.3 registra la durata (in minuti) del periodo dormiente

delle eruzioni e tipo dell’eruzione precedente del geyser Old Faithful (Wyoming, USA).

In questo caso la popolazione sono tutte le possibili eruzioni del geyser. Il campione e

costituito dalle n = 60 eruzioni analizzate. Per ciascuna eruzione viene registrato sia il

tempo di attesa (in minuti) prima di osservare l’eruzione, sia il tipo di pausa dell’eruzione

precedente (classificata semplicemente in Corta o Lunga). Si noti che le eruzioni non sono

prese sequenzialmente, ma scelte a caso tra tutte quelle a disposizione e per ognuna di esse

interessano le due variabili descritte. Le variabili considerate quindi sono due. La prima

nella tabella e indicata con Attesa. Si tratta di una variabile continua (durata dell’attesa,

viene misurata in minuti con un cronometro). La seconda e il Tipo di eruzione precedente

a quella considerata. Si tratta di una variabile qualitativa ordinale. Le eruzioni precedenti

sono classificate secondo questa variabile in due categorie (le modalita della variabile):

Corta o Lunga. E una variabile ordinale poiche si puo sempre dire che Corta viene prima

di Lunga. Obiettivo dello studio era capire se periodi di attesa lunghi per l’eruzione

tendessero a raggrupparsi.

Esercizio 2.3.4. Raccogliere da giornali e riviste esempi di indagini statistiche ed identi-

ficare il fenomeno, la popolazione, il campione, le unita statistiche, le variabili analizzate.

Page 18: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

16 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

2.4 Dati e tavole

Quando si hanno i dati relativi ad una o piu variabili rilevate su un campione di n unita

statistiche la prima volonta dello statistico e quella di rappresentare i dati. Rappresentare

i dati significa in realta dare un immagine di come si distribuiscono questi dati, cioe dare

un’immagine della distribuzione dei dati. Le tavole di dati sono il primo esempio della

rappresentazione della distribuzione dei dati.

Da qui inseguito per indicare la generica variabile useremo la lettera maiuscola, as

esempio X o Y , mentre per indicare le modalita assunte dalle variabili useremo le lettere

minuscole, as esempio x o y. I valori delle modalita a seconda del tipo di variabili, potranno

essere: categorie (nel caso di variabili categoriche o qualitative), numeri interi (nel caso di

variabili numeriche discrete) oppure numeri reali (nel caso di variabili numeriche continue).

A questo punto e necessaria una precisazione. Esiste una distribuzione della variabile

che stiamo studiando sulla popolazione che non potremo mai sapere come e fatta. Prove-

remo a immaginarla e a fare qualche ipotesi su di essa. (Ricordiamoci che solo Dio, per

chi crede, conosce questa distribuzione). Noi mortali statistici possiamo solo ricavare la

distribuzione della variabile su un campione e descrivere questa distribuzione (statistica

descrittiva). Dopo questa descrizione, potremo mettere un modello sulla variabile e sulla

base dei dati ricavati sul campione potremo dire se il modello proposto e corretto oppure

no (statistica inferenziale).

Quindi veniamo alle tavole. Torniamo all’Esempio 2.3.1. Concorderete sul fatto che

mostrare la Tavola 2.1 dell’intero dataset non da molte informazioni al lettore. Questo

fatto e ancora piu evidente se guardiamo la Tavola 2.3 dei dati dell’Esempio 2.3.3.

Lo scopo delle tavole e quello di rappresentare un insieme di dati. Il tipo di tavole

e le informazioni contenute in essa naturalmente dipendono dal tipo di dati e di quante

variabili andiamo a descrivere la distribuzione.

Anche se si puo pensare che fare una tavola sia un operazione assai semplice, come

ci si puo rendere conto leggendo un giornale, non sempre sono di facile comprensione.

Dobbiamo tenere presente quando andiamo a fare una tavola che lo scopo principale di

una tavola e trasformare un insieme di dati in un formato che sia facile da capire e che

faccia capire le caratteristiche salienti della distribuzione che andiamo a rappresentare.

2.4.1 Frequenze assolute, relative e percentuali

Le frequenze assolute, relative e percentuali sono le prime quantita statistiche che in-

contriamo in questo corso e che sintetizzano le informazioni contenute in un data set.

Ricordiamo che in un data set possono essere riportate per ogni singola unita statistica

i valori di piu variabili. Per ciascuna di queste variabili prese singolarmente possiamo

calcolare la distribuzione di frequenza di interesse (assoluta, relativa o percentuale). Per

Page 19: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.4. DATI E TAVOLE 17

X ni fi = ni/n pi = fi · 100%

N 6 0.30 30C 7 0.35 35V 4 0.20 20S 3 0.15 15

Totale n = 20 1.00 100

Tabella 2.4: Tavola delle frequenze assolute (ni), relative (fi) e percentuali (pi) per lavariabile X stato civile nel campione dell’esempio 2.3.1. X assume i seguenti valori:N=nubile o celibe, C=coniugato/a, V=vedovo/a, S=separato/a o didorziato/a

due o piu variabili prese contemporaneamente potremo invece calcolare le distribuzioni di

frequenza congiunte o le frequenze condizionate.

Torniamo per adesso al caso di una variabile. Le frequenze assolute, le frequenze

relative e le frequenze percentuali rispondono a domande del tipo: quante unita statistiche

presentano la modalita x per la variabile X? Esse si possono calcolare per ogni tipo di

variabile. In particolare per le variabili di tipo qualitativo nominali sono le prime e uniche

quantita statistiche che possiamo calcolare.

Come dicevamo sopra il tipo di tavola e le informazioni che puo contenere dipendono

dal tipo di variabile i cui dati osservati andiamo a rappresentare. Cominciamo con i dati

dell’Esempio 2.3.1.

Consideriamo la variabile X=Stato Civile. Come abbiamo visto si tratta di una va-

riabile qualitativa non ordinale. Supponiamo di essere interessati a quanti vedovi ci sono

nel campione e alla loro percentuale. Possiamo rispondere a queste domande calcolando

le frequenze assolute, relative e percentuali della distribuzione della variabile Stato Civile.

La Tabella 2.4 le riporta tutte e tre. Si tratta delle frequenze assolute, delle frequenze

relative e delle frequenze percentuali.

Come si calcolano? Le frequenze assolute si calcolano semplicemente contando

quante volte si presenta una certa modalita. Nel campione considerato ad esempio sono

presenti 6 nubili o celibi, 7 coniugati e cosı via. Le frequenze assolute si indicano in

genere con ni dove la i in basso e un indice che sta ad indicare la generica modalita

ovvero la i-esima modalita. Nel nostro esempio n1 (quindi per i = 1) sta and indicare

la frequenza assoluta dei nubili o celibi, n2 sta ad indicare il numero dei coniugati, n3

il numero dei vedovi ed n4 il numero dei separati. Abbiamo cosı le quattro frequenze

assolute n1, n2, n3 ed n4 che si possono anche scrivere ni con i da 1 a 4 ovvero ni,

i = 1, . . . , 4. Naturalmente la somma delle frequenze assolute deve essere uguale al numero

delle osservazioni, nell’esempio abbiamo: 6+7+4+3 = 20 in formula n1+n2+n3+n4 = n,

dove n = 20. In generale se ci sono k modalita avremo k frequenze assolute (nell’esempio

Page 20: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

18 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

k = 4) e abbiamo la prima formula di questo testo:

k∑i=1

ni = n, ovvero n1 + n2 + · · ·+ nk = n

che si legge: la somma delle frequenze assolute e uguale al numero delle osservazioni.

Le frequenze relative sono invece calcolate dividendo ogni frequenza assoluta per

il numero totale di osservazioni. In sostanza fatto un intero la totalita delle osservazioni

(nell’esempio le venti osservazioni diventano l’intero) si va a vedere che parte di questo

intero si prende ciascuna modalita. Ad esempio la frequenza relativa dei nubili e 0.30 e

si ottiene da 620 = 0.30. In formula, indicate con fi le frequenze relative esse si ottengono

come

fi =nin, i = 1, . . . , k

La somma di tutte le frequenze relative e 1, ovvero abbiamo la seconda formula di questo

librok∑i=1

fi = f1 + f2 + . . .+ fk =n1

n+n2

n+ . . .+

nkn

=n

n= 1.

Le frequenze percentuali sono praticamente la stessa cosa delle frequenze relative,

ma l’intero si considera uguale a 100. Nell’esempio, il 30% del campione osservato e

costituito da nubili o celibi. Indicate con pi le frequenze percentuali, il loro calcolo avviene

in questo modo

pi =nin· 100% = fi · 100%, i = 1, . . . , k

La somma delle frequenze percentuali e 100%.

k∑i=1

pi = 100%.

Le frequenze relative e quelle percentuali a differenza delle frequenze assolute permettono

un confronto immediato tra distribuzioni con numerosita diverse. Quindi quanti vedovi ci

sono e che percentuale ricoprono? Dalla Tabella 2.4, ricaviamo che ci sono 4 vedovi che

sono il 20% del nostro campione.

Quando si calcolano le tabelle con le distribuzioni di frequenza occorre prestare par-

ticolare attenzione agli arrotondamenti e alle cifre decimali. In una tabella occorre che

tutte le frequenze relative abbiano sempre lo stesso numero di decimali. Il problema e

quante cifre decimali? In genere non esiste una regola fissa, a volte puo dipendere anche

da esigenze grafiche. Una regola empirica e quella di utilizzare due cifre decimali in piu

rispetto a quelle dei numeri sui quali si compie l’operazione. Quindi se abbiamo numeri

interi, cioe numeri con zero cifre decimali, il rapporto puo essere espresso con due cifre.

L’importante e che tutti i numeri abbiano lo stesso numero di cifre decimali. Con le cifre

Page 21: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.5. DISTRIBUZIONI DI PIU VARIABILI CONGIUNTAMENTE 19

decimali abbiamo anche il problema dell’arrotondamento. Il numero π = 3.141593 arro-

tondato alla seconda cifra significativa decimale e 3.14, arrotondato a tre cifre decimali

e 3.142. Infatti arrotondiamo al numero con tre cifre decimali piu vicino al numero π.

Abbiamo che 4.141 < 3.141593 < 3.142 e π e piu vicino a 3.142. Quindi ogni volta che la

cifra che segue il decimale al quale si vuole arrotondare e maggiore o uguale a 5 si arro-

tonda al decimale successivo. Ogni volta che e minore di 5 si arrotonda al decimale stesso.

Quando si fanno gli arrotondamenti occorre prestare attenzione anche ad un altro fatto.

La somma totale delle frequenze relative deve essere uno. Puo capitare che in seguito agli

arrotondamenti la somma sia piu grande o piu piccola di uno. In questo caso occorre fare

degli aggiustamenti diversi per far si che la somma dia uno. La regola puo essere quella,

se ad esempio la somma delle frequenze relative e maggiore di 1, di arrotondare per difet-

to il numero decimale tra quelli arrotondati per eccesso che si discosta meno dal 5. Ad

esempio se abbiamo arrotondato a due cifre decimali le frequenze relative 0.1791, 0.1753,

0.1771, 0.4685 otteniamo 0.18, 0.18, 0.18, 0.47. La somma di dei numeri arrotondati e

1.01. osservando i 4 numeri tutti arrotondati per eccesso notiamo che quello che era piu

lontano dal suo arrotondamento e 0.1753 e quindi questo sara arrotondato a 0.17. Quindi

le frequenze relative sono 0.18, 0.17, 0.18, 0.47 e in questo caso la somma e uno. Lo stesso

ragionamento deve essere fatto se la somma e minore di 1, ma questa volta arrotondando

per eccesso il numero che arrotondato per difetto presenta il piu piccolo scarto.

2.5 Distribuzioni di piu variabili congiuntamente

In molti fenomeni interessa studiare la relazione, se sussiste, tra le variabili. Un caso tipico

e quello di capire se vi sia discriminazione di genere. Ad esempio ci possiamo chiedere se

vi sia una differenza tra uomini e donne nell’accesso al lavoro, nella retribuzione o anche

solo nella presa di posizione in determinate questioni politiche, sociali o economiche. In

questo caso le variabili di interesse sono almeno due, il Sesso e a seconda dell’interesse, il

Reddito o la Condizione lavorativa o altro ancora. Per studiare se esiste una qualche rela-

zione tra le variabili prima di tutto occorre costruire la tavola delle frequenze congiunte.

Per introdurre il concetto consideriamo di nuovo i dati della Tabella 2.1. In particola-

re consideriamo le due variabili X=Stato Civile e Y=Grado di scolarita. Per costruire

la tabella delle frequenze delle due variabili congiuntamente dobbiamo considerare ogni

coppia di possibili valori delle due variabili. Dobbiamo contare ad esempio quanti sono i

capofamiglia coniugati e laureati. E questo va fatto per ogni modalita delle due variabili.

Dalla Tabella 2.1 e facile contare quanti sono i capofamiglia coniugati e laureati: 2. Se lo

facciamo per ogni coppia di modalita otteniamo la Tabella 2.5. Si noti che se si sommano

le frequenze assolute per riga (nella tabella sono riportate nell’ultima colonna dopo la

barra, si ottiene la distribuzione della variabile X cioe lo stato civile. In effetti la somma

Page 22: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

20 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Y

X A O S L

N 1 1 3 1 6C 0 1 4 2 7V 1 2 0 1 4S 0 2 1 0 3

Totali 2 6 8 4 20

Tabella 2.5: Tabella della distribuzione congiunta delle variabili X=Stato civile eY=Grado di scolarita. Frequenze assolute. Campione di n = 20 unita.

Y

X A O S L

N 0.05 0.05 0.15 0.05 0.30C 0 0.05 0.20 0.10 0.35V 0.05 0.10 0 0.05 0.20S 0 0.10 0.05 0 0.15

Totali 0.10 0.30 0.40 0.20 1

Tabella 2.6: Tabella della distribuzione congiunta delle variabili X=Stato civile eY=Grado di scolarita. Frequenze relative. Campione di n = 20 unita.

delle frequenze della prima riga corrisponde al numero di capofamiglia che sono nubili o

celibi, indipendentemente dal grado di scolarita. Analogamente se si sommano le frequen-

ze per colonna (nella tabella sono riportate nell’ultima riga dopo la barra) si ottiene la

distribuzione della variabile Y . Tali distribuzioni all’interno della tabella a doppia entrato

sono dette distribuzioni marginali, per distinguerle dalla distribuzione congiunta

delle due variabili considerate congiuntamente.

Da questa tabella si possono ricavare tutte le frequenze relative e percentuali di una

variabile dato il valore di un’altra. Ad esempio, la frequenza relativa di capofamiglia

coniugati e laureati la otteniamo dividendo la frequenza congiunta 2 per la frequenza totale

n = 20 quindi abbiamo fCL = 220 = 0.10. Possiamo calcolare anche la frequenza relativa

dei coniugati e diploma di scuola superiore, fCS = 420 = 0.20, la frequenza relativa di

coniugati e scuola dell’obbligo, fCO = 120 = 0.05, mentre la frequenza relativa di coniugati e

alfabeti e analfabeti, fCA = 0. Da queste si ricavano poi le frequenze percentuale nell’usuale

modo. Si puo quindi costruire la distribuzione congiunta con le frequenze relative. Essa

e riportata nella Tabella 2.6. Si noti che in questa tabella occorre dare l’informazione

della numerosita campionaria, altrimenti non si e in grado di ricavarla dalla tabella delle

frequenze relativa congiunte. Dalla Tabella 2.5 possiamo ricavare anche le frequenze

condizionate. Esse rispondono a domande del tipo: tra i capofamiglia coniugati, che

Page 23: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.5. DISTRIBUZIONI DI PIU VARIABILI CONGIUNTAMENTE 21

Iscritti alla Societa Avviati al lavoro

Maschi 53.40 59.00Femmine 46.60 41.00

100 100

Tabella 2.7: Percentuali degli iscritti ad una societa di lavoro interinale in base al ses-so e alla condizione rispetto all’avviamento al lavoro. Campione di 10000 unita. Datidell’autore. Tra parentesi le numerosita assolute.

parte o che percentuale sono laureati? Per calcolare questa frequenza occorre considerare

solo il gruppo dei capofamiglia coniugati (che sono 7) e contare quanti tra questi sono

laureati (che sono 2). La frequenza relativa condizionata dei capofamiglia laureati tra

quelli che sono coniugati e 27 = 0.29. Ovvero il 29% dei capifamiglia coniugati e laureato.

Si noti che questa percentuale e fatta rispetto al gruppo dei capofamiglia coniugati e

non rispetto a tutti. E si noti come e diversa dalla percentuale di capofamiglia che sono

coniugati e laureati. Quest’ultima e infatti pari al 10%.

Vediamo adesso un esempio in cui occorre ricostruire le frequenze assolute di due

variabili da una tabella di frequenze percentuali.

Esempio 2.5.1. Un campione di 10000 iscritti ad una societa di lavoro interinale sono

analizzati in base al sesso e all’avviamento al lavoro. Lo studio ha come obiettivo quello di

capire se ci sia discriminazione di genere. I dati percentuali sono riportati in nella Tabella

2.7. La tabella ci dice che delle 10000 unita intervistate il 53.4% sono maschi e il 46.6% sono

femmine. Per quanto riguarda la condizione lavorativa la tabella ci dice solo che tra coloro

che sono inviati al lavoro dall’agenzia di lavoro, il 59% sono uomini, il 41% sono donne.

Non ci dice pero qual e, tra le donne che si e rivolta all’agenzia, la percentuale che e stata

avviata al lavoro. Per farlo dobbiamo risalire alla tabella delle frequenze assolute delle

due variabili. Le frequenze assolute si possono ricavare dalla Tabella 2.7 solo se forniamo

l’ulteriore informazione che gli avviati al lavoro sono 1700, cioe se sono date le numerosita

totali. In questo caso allora possiamo dedurre che ad esempio Il 59% di 1700 e 1003, quindi

sono 1003 gli uomini avviati al lavoro dei 5340 mentre il 41% di 1700 e 697 che sono le donne

avviate al lavoro delle 46601. Le percentuali in questo caso ci forniscono un indicazione

del fenomeno nel suo complesso permettendo un confronto. Ricaviamo quindi la tabella

a doppia entrata delle due variabili rilevate. In questo esempio il campione e composto

da n = 10000 unita sulle quali sono state rilevate due variabili. La prima e il Sesso.

Variabile qualitativa nominale, con modalita M e F (maschio e femmina). La seconda

variabile e la Condizione lavorativa. Anche questa e una variabile qualitativa nominale, con

1Per calcolare la quota q di un certo numero n relativa ad una percentuale p occorre risolvere laproporzione q : t = p : 100 da cui q = t·p

100. Nel primo esempio 1003 = 59·1700

100.

Page 24: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

22 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Avviato

Sesso SI NO

M 1003 4337 5340F 697 3963 4660

1700 8300 10000

Tabella 2.8: Tabella delle frequenze assolute degli iscritti ad una societa di lavoro interinalein base al sesso e alla condizione rispetto all’avviamento al lavoro. Campione di 10000unita. Dati dell’autore.

modalita SI e NO. La Tabella 2.8 riporta distribuzione congiunta delle due variabili. Con

la tabella della distribuzione congiunta possiamo calcolare diverse percentuali di interesse.

Occorre fare attenzione alla numerosia rispetto alla quale si basa la percentuale. Se non

fossero fornite le frequenze marginali delle due variabili Sesso e Condizione lavorativa

non potremmo risalire alle frequenze assolute e quindi, ad esempio, calcolare la frequenza

relativa di donne avviate al lavoro: 697/4660 = 0.15 cioe il 15% e la frequenza relativa

di uomini avviati al lavoro 1003/5340 = 0.19 cie il 19%. Si osservi che quando abbiamo

calcolato la frequenza relativa di donne avviate al lavoro: 697/4660 = 0.1495708 il risultato

e stato arrotondato a 0.15. Quindi in una tabella di frequenze relative o percentuali

occorre dare le informazioni che permettano di risalire ai dati originali, cioe occorre dare

la numerosita totale da cui si ricavano le percentuali.

2.5.1 Frequenze cumulate

Per le variabili qualitative ordinali si possono calcolare le frequenze cumulate, sia assolute

che relative che percentuali. Esse rispondono a domande del tipo: quante osservazioni vi

sono che si presentano con meno di un certo valore? Oppure: quante osservazioni vi sono

che si presentano con almeno un certo valore? Per ottenere la frequenza cumulata di una

modalita si sommano la frequenza di quella modalita e di tutte le precedenti. Per calcolare

le frequenze cumulate assolute si procede in questo modo. Siano k le modalita con

frequenze assolute n1, n2, . . . , nk tali che∑k

i=1 ni = n. La prima frequenza assoluta

cumulata e uguale al valore della frequenza assoluta della prima modalita, N1 = n1,

la seconda frequenza assoluta cumulata e data dalla somma delle prime due frequenze

assolute, N2 = n1 + n2. In generale la i-esima frequenza cumulata e ottenuta sommando

le prime i frequenze assolute Ni = n1 + n2 + · · · + ni =∑i

j=1 nj . L’ultima frequenza

cumulata, la k-esima si ottiene sommando tutte le frequenze assolute e quindi e uguale a

n, Nk =∑n

j=1 nj = n

Le frequenze cumulate relative si ottengono sommando le frequenze relative. Se

ci sono k modalita con frequenze relative f1, f2, . . . , fk tali che∑k

i=1 fi = 1, la pri-

ma frequenza relativa cumulata e uguale al valore della frequenza relativa della prima

Page 25: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.5. DISTRIBUZIONI DI PIU VARIABILI CONGIUNTAMENTE 23

Y ni fi = ni/n pi = fi · 100% Ni Fi Pi%

A 2 0.10 10 2 0.10 10%O 6 0.30 30 8 0.40 40%S 8 0.40 40 16 0.80 80%L 4 0.20 20 20 1 100%

Totale n = 20 1.00 100 - - -

Tabella 2.9: Tavola delle frequenze assolute (ni), relative (fi) e percentuali (pi) e frequenzecumulate assolute (Ni), telativa (Fi) e percentuali (Pi) per la variabile Y grado di scolaritanel campione dell’esempio 2.3.1. Y assume i seguenti valori: A=analfabeta o alfabeta,O=scuala dell’obbligo, S=Diploma di scuola superiore, L=laurea o superiore

modalita, F1 = f1, la seconda frequenza relativa cumulata F2 = f1 + f2. In gene-

rale la i-esima frequenza cumulato e ottenuta sommando le prime i frequenze relative

Fi = f1 + f2 + · · ·+ fi =∑i

j=1 fj , i = 1, . . . , k.

Torniamo ai dati dell’Esempio 2.3.1 e consideriamo la variabile Y Grado di scolarita.

Si tratta di una variabile qualitativa ordinale perche le sue modalita hanno un ordine

naturale. Se chiedo quanti sono i capofamiglia con meno della laurea come grado di

scolarita e una domanda a cui sono in grado di rispondere. Per calcolare le frequenze

cumulate (assolute, relative o percentuali) occorre prima calcolare le frequenze assolute,

relative e percentuali. I risultati per questa variabile sono riportati nella Tabella 2.9.

Si noti che nella riga finale, dove per le frequenze assolute, relative e percentuali, si

riportano i totali (n, la numerosita campionaria, 1, e 100% rispettivamente), per le frequen-

ze cumulate non si riportano in quanto gia presenti come ultimo valore in corrispondenza

della modalita maggiore. Quindi il numero di capofamiglia con un grado di scolarita in-

feriore alla laurea e data dalla frequenza assoluta cumulata corrispondente alla modalita

S. Si noti che meno non include quelli con grado di scolarita pari o superiore alla laurea.

Chiudiamo questa sezione con un altro esempio.

Esempio 2.5.2. E sto rilevato il rendimento su 350 studenti di una scuola superiore

americana. La variabile Rendimento e stata classificata secondo le seguenti modalita (I

insufficiente, S = sufficiente, B = buono e O = ottimo). I dati sono i seguenti. S, S, O,

S, O, O, B, B, B, O, O, B, O, B, B, O, I, B, O, O, B, O, B, B, B, B, O, I, S, I, I, O, B,

O, O, B, O, O, B, S, O, B, O, B, O, I, B, O, I, I, O, O, O, I, B, S, B, B, B, O, B, I, O, I,

B, O, O, O, O, B, O, B, O, B, B, B, O, O, B, S, I, O, O, O, S, S, B, S, O, I, O, B, B, I,

B, O, I, O, O, S, I, O, O, O, B, I, O, O, I, O, B, O, S, I, B, I, O, I, B, B, B, O, O, B, I, S,

O, I, O, O, O, B, B, I, B, B, B, I, S, O, O, B, B, O, S, I, B, B, I, O, B, S, O, B, B, B, B,

O, S, O, O, O, O, O, O, B, B, O, O, O, I, B, B, O, O, O, B, O, B, B, O, B, B, O, B, I,

O, O, O, B, O, O, O, I, O, O, B, O, B, O, O, O, B, S, O, O, B, O, I, O, O, S, I, O, B, O,

I, B, O, B, B, O, O, O, I, B, O, O, S, O, B, O, O, O, B, B, B, O, B, I B, B, B, O, B, B,

Page 26: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

24 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

xi ni fi pi Ni Fi PiI 45 0.13 13% 45 0.13 13%S 23 0.07 7% 68 0.20 20%B 124 0.35 35% 192 0.55 55%O 158 0.45 45% 350 1 100%

Totale 350 1.00 100% 350 1.00 100%

Tabella 2.10: Tavola delle frequenze assolute, relative, percentuali, cumulate assolute,cumulate relative e cumulate percentuali per la variabile Rendimento, rilevata su 350studenti, I=insufficiente, S=sufficiente, B=buono, O=ottimo.

O, O, O, I, O, O, O, B, I, O, O, B, O, B, O, O, O, B, I, B, B, B, O, I, O, I, B, B, O, O,

O, B, O, S, O, I, O, O, O, B, B, B, B, B, B, B, I, O, O, B, O, B, O, O, B, O, O, O, B, B,

O, B, O, O, B, O, S, B, B, I, O, B, B, B, O, I, B, B, I, B, O, O, B, O, S, O, O, I, O, O,

B, O, O, O, O, B, O, B, B, O, O, B, O, B

Come si puo facilmente immaginare se non vengono riassunti in una tabella questi dati

non ci forniscono nessuna informazione utile. La Tabella 2.10 riporta le frequenze assolute

ni, le frequenze relative fi, le frequenze percentuali pi, le frequenze cumulate assolute Ni, le

frequenze relative cumulate Fi e le frequenze cumulate percentuali Pi. Possiamo rispondere

alle seguenti domande direttamente dalle frequenze cumulate. Che proporzione di studenti

hanno un rendimento superiore o uguale a sufficiente? Poice il 13% ha un rendimento

inferiore a sufficiente, il 100-13=87% ha un rendimento superiore a sufficiente. Quanti

studenti hanno un rendimento superiore o uguale a sufficiente? L’87% degli studenti ha

un rendimento superiore o uguale a sufficiente, prendendo la frequenza relativa 0.87 e

moltiplicandola per il numero di studenti 0.87*350=304.5! come e possibile? Il motivo e

legato agli arrotondamenti sulle frequenze relative. Se consideriamo le frequenze assolute il

numero di studenti con un rendimento superiore o uguale a sufficiente e 23+124+158=305!

Che proporzione di studenti hanno un rendimento inferiore a buono? Equivale a chiedere

la proporzione di studenti che hanno un rendimento inferiore o uguale a sufficiente e quindi

0.20. Che proporzione di studenti hanno un rendimento inferiore o uguale a buono? Questo

valore e dato direttamente dal valore 0.55.

Riassumendo per i dati qualitativi nominali si possono calcolare e rappresentare in una

tabella le seguenti frequenze

• frequenze assolute: n1, n2, . . . , ni, . . . , nk;∑k

i=1 ni = n

• frequenze relative: fi = nin ;∑k

i=1 fi = 1

• frequenze percentuali: pi = fi100%;∑k

i=1 pi = 100%

Se la variabile e ordinale si possono aggiungere le

Page 27: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.5. DISTRIBUZIONI DI PIU VARIABILI CONGIUNTAMENTE 25

Corta Lunga Totale

ni 17 43 60fi 0.28 0.72 1Ni 17 60 –Fi 0.28 1 –

Tabella 2.11: Frequenze assolute, relative e cumulate della variabile tipo di eruzioneprecedente per dati dell’Esempio 2.3.3.

• frequenze cumulate assolute: Ni =∑i

j=1 nj , i = 1, . . . , k.

• frequenze cumulate relative: Fi =∑i

j=1 fj , i = 1, . . . , k.

Chiudiamo questo paragrafo con un ultimo esempio

Esempio 2.5.3. Calcoalre le frequenze cumulate assolute e relative per la variabile tipo di

eruzione precedente nell’esempio dei dati del geyser Old Faithful. La Tabella 2.11 calcola

le tre frequenze per la variabile tipo di eruzione precedente. Si noti che essendoci solo due

modalita calcoliamo solo due frequenze assolute e relative e una sola cumulata, in quanto

la seconda e ultima e sempre 1.

Infine riassumiamo nel seguente elenco alcuni suggerimenti da tenere presente quando

si fornisce una tabella di frequenze:

1. Indicare sempre chiaramente cosa contiene la tabella. A chi o a cosa, dove e quando

sono stati rilevati i dati. Se necessario numerare la tavola.

2. Indicare sempre il nome ad ogni colonna e ad ogni riga. Se si usano acronimi indicare

sempre il significato.

3. Indicare sempre l’unita di misura.

4. Indicare i valori totali.

5. Incolonnare propriamente i numeri (i decimali devono stare allineati).

6. Utilizzare lo stesso numero di decimali.

7. Indicare la fonte dei dati.

Per i dati di tipo numerico discreto e continuo le tabelle di frequenza verranno presen-

tate nel prossimo paragrafo dove saranno di ausilio per la rappresentazione grafica ti tali

distribuzioni.

Page 28: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

26 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

01

23

45

67

stato civile

freq

C N S V

Figura 2.1: Grafico delle frequenze assolute della variabile Stato civile nell’Esempio 2.3.1.

2.6 Dati e grafici

Produrre bei grafici permette di capire molto dei dataset con solo uno sguardo. Inoltre in

genere per le persone e molto meglio capire un grafico che una tavola piena di numeri.

Vi sono diversi grafici che e possibile utilizzare per rappresentare i dati. Il tipo di

grafico dipende dal tipo di dati.

Se i dati sono qualitativi nominali possono essere rappresentati graficamente in diversi

modi:

• tramite rettangoli

• grafici a torta

• rappresentazione tramite figure

Nella rappresentazione tramite rettangoli, o barre, le modalita x1, x2, . . . , xk del ca-

rattere si sistemano su un segmento orizzontale in qualsiasi ordine e in modo equispaziato.

In corrispondenza di ciascuna modalita si disegnano rettangoli di stessa base e altezza

proporzionale alle frequenze ni, fi o pi.

Page 29: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.6. DATI E GRAFICI 27

C

N

S

V

stato civile

Figura 2.2: Grafico a torta delle frequenze assolute della variabile Stato civile nell’Esempio2.3.1.

Se nello stesso grafico si rappresentano piu fenomeni occorre che l’altezza sia propor-

zionale alle frequenze fi o pi in modo da poterli confrontare.

Nella rappresentazione tramite diagrammi a torta (detti anche grafici a torta) si disegna

un cerchio e si identificano dei settori circolari la cui ampiezza (o la cui area) e propor-

zionale alle frequenze relative fi o percentuali pi. L’intero cerchio rappresenta quindi la

totalita del fenomeno, cioe vale 1 o 100% a seconda delle frequenze rappresentate. Anche

in questo caso i settori vengono disegnati in un ordine qualsiasi e vengono colorati con

colori diversi a seconda della modalita del carattere. Tornando al grafico riportato in

Figura 1.1 risulta lampante come l’area dell’intero cerchio non possa essere pari al 100%

in quanto sommando le frequenze percentuali il valore 100 e superato abbondantemente.

L’errore nella rappresentazione e dovuta al fatto che ogni intervistato poteva esprimere

scelte multiple sui candidati possibili e quindi la somma delle frequenze relative non poteva

essere 1.

Nella rappresentazione tramite figure si sceglie una figura per rappresentare l’unita di

Page 30: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

28 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

N ��|^

��|^

��|^

��|^

��|^

��|^

6C ��

|^

��|^

��|^

��|^

��|^

��|^

��|^

7S ��

|^

��|^

��|^

3V ��

|^

��|^

��|^

��|^

4

Tabella 2.12: Rappresentazione delle frequenze assolute della variabile Stato civilenell’Esempio 2.3.1.

xi ni fi pi Ni Fi

A 2 0.1 10 2 0.1O 6 0.3 30 8 0.4S 8 0.4 40 16 0.8L 4 0.2 20 20 1.0

Totali 20 1.0 100 20 1

Tabella 2.13: Frequenze assolute, relative, percentuali, cumulate assolute e cumulaterelative del livello di scolarita nell’Esempio 2.3.1.

misura:��|^ = 1

Si rappresentano le modalita del carattere riportando un numero di figure proporziona-

le alla frequenza ni. Anche in questo caso le modalita vengono sistemate in un ordine

qualsiasi.

Se la variabile e di tipo qualitativo ordinale come ad esempio la variabile livello di

scolarita (Y ) nell’Esempio 2.3.1, il grafico da utilizzare e preferibilmente il grafico a barre

o a rettangoli dove occorre solo prestare attenzione all’ordine con cui si rappresentano le

modalita che deve andare dal piu basso a sinistra al piu alto a destra. Si possono anche

utilizzare i grafici a torta ma sono sconsigliati perche si perte l’informazione dell’ordine. I

grafici con i disegni si possono utilizzare con l’accortezza di ordinare anche qui le modalita.

Nel caso della variabile livello di scolarita nell’Esempio 2.3.1 le modalita con cui si presenta

il fenomeno sono k = 4

x1 = A x2 = O x3 = S x4 = L

La Tabella 2.6 riporta le frequenze, mentre nella Figura 2.3 vengono rappresentati tramite

rettangoli le frequenze assolute.

Se la variabile e di tipo quantitativo numerico discreto (conteggio) la rappresentazione

grafica deve essere di tipo a bastoncino o segmento e l’asse su cui rappresentano i valori

Page 31: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.6. DATI E GRAFICI 29

A O S L

grado scolarita'

freq

02

46

8

Figura 2.3: Grafico delle frequenze assolute del livello di scolarita nell’Esempio 2.3.1.

Page 32: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

30 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

xi ni fi pi Ni Fi

0 5 0.25 25 5 0.251 5 0.25 25 10 0.502 3 0.15 15 13 0.653 3 0.15 15 16 0.804 4 0.20 20 20 1.00

20 1.00 100

Tabella 2.14: Frequenze assolute, relative, percentuali, cumulate assolute e cumulaterelative del numero di figli nell’Esempio 2.3.1.

e di tipo numerico, per cui si deve prestare attenzione a come si rappresentano i valori

rispettando l’unita di misura dell’asse.

Nell’Esempio 2.3.1 la variabile numero di figli a carico (Z) e di tipo quantitativo

discreto. Le intensita con cui si presenta il fenomeno sono k = 5

x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4.

Nella Tabella 2.6 sono riportate le frequenze, mentre nella Figura 2.4 sono rappresentate

le frequenze assolute.

Se la variabile e di tipo quantitativo continuo, la frequenza con cui si ripete una

qualunque modalita e in genere uno. Quindi i tipi di grafici visti fino ad ora sarebbero privi

di informazione per dati di questo tipo. Occorre dividere i valori possibili per la variabile

in classi o intervalli e contare quanti valori cascano in ogni classe e quindi rappresentare i

dati tramite un istogramma.

Ad esempio la variabile reddito in euro (W ) dell’esempio 2.3.1 e una variabile quanti-

tativa continua

Le modalita o intensita con cui si presenta il fenomeno sono tutte distinte. Ricorriamo

allora al raggruppamento dei dati in classi. Introduciamo 4 classi e andiamo a contare i

valori che cascano in ogni classe e quindi calcoliamo le frequenze assolute relative e cumu-

late per ogni classe. Accanto a queste frequenze e importante anche riportare l’ampiezza

di ogni classe che denotiamo con ai e la densita di frequenza definita come il rapporto tra

la frequenza della classe e l’ampiezza della classe. Ha il significato di come le unita che

cascano in quella classe si distribuiscono nella classe. Piu e alta la densita piu le unita

sono dense nell’intervallo. La densita e denotata con li ed e definita come li = ni/ai. Si

possono anche definire le densita relative, come rapporto tra le frequenze relative di una

classe fi e l’ampiezza della classe, di = fi/ai. Il numero di classi e l’ampiezza delle classi

dipende dal numero di dati e dai valori. In genere meno sono i dati meno sono le classi

e l’ampiezza deve essere fissata in modo che in ciascun intervallo caschi almeno un certo

numero di unita. Anche la scelta degli estremi inferiore e superiore del primo e dell’ultimo

Page 33: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.6. DATI E GRAFICI 31

01

23

45

numero di figli

freq

. ass

olut

e

0 1 2 3 4

Figura 2.4: Frequenze assolute del numero di figli nell’Esempio 2.3.1.

Page 34: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

32 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

xi ni fi Ni ai li

40 a 50 3 0.15 3 10 0.3050 a 58 6 0.30 9 8 0.7558 a 70 4 0.20 13 12 0.3370 a 95 7 0.35 20 25 0.28

20 1.00 20

Tabella 2.15: Frequenze assolute, relative, percentuali, cumulate assolute ampiezza degliintervalli e densita assoluta del reddito in euro nell’Esempio 2.3.1. Gli estremi destri degliintervalli sono inclusi.

intervallo rispettivamente e arbitraria. Il calcolo delle frequenze e la determinazione delle

classi per la variabile reddito in euro dell’esempio 2.3.1 sono riportati nella Tabella 2.15,

mentre l’istogramma e rappresentato nella Figura 2.5.

Per costruire un istogramma i passi da seguire sono i seguenti:

1. Si suddividono i valori osservati in r classi: si denota con ai l’ampiezza della i-esima

classe, i = 1, . . . , r

2. Si dispongono i valori degli estremi degli intervalli delle classi sull’asse delle ascisse

rispettando l’unita di misura dell’asse.

3. Si calcolano le frequenza assolute o relative per ogni classe: ni o fi, i = 1, . . . , r.

4. Si calcolano le densita di frequenza assoluta relativa per ogni classe: li = niai

o di = fiai

5. Si tracciano dei rettangoli che hanno come base gli estremi dell’intervallo e come

altezza la densita di frequenza li o di.

In questo modo l’area di ogni rettangolo dell’istogramma e uguale alla frequenza assoluta

(se l’altezza e li) o relativa (se l’altezza e di) della classe che costituisce la base. Infatti

l’area del rettangolo e data da li · ai = ni nel primo caso e di · ai = fi nel secondo caso.

E molto importante che l’altezza dei rettangoli sia la densita (relativa o assoluta) e non

la frequenza assoluta o relativa della classe. In quest’ultimo caso si otterrebbero dei grafici

fuorvianti sul comportamento della variabile. Ad esempio si osservi come nell’istogramma

riportato nella Figura 2.6 si abbia la percezione che vi sia una grandissima parte di redditi

molto alti rispetto all’istogramma nella Figura 2.5.

2.7 Esempi

2.7.1 Il geyser Old Faithful

Per i dati considerati nell’Esempio 2.3.3 vogliamo:

Page 35: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.7. ESEMPI 33

Istrogramma corretto

w

Den

sity

40 50 60 70 80 90

0.0

0.2

0.4

0.6

Figura 2.5: Istogramma della variabile reddito in euro nell’Esempio 2.3.1. Gli estremidestri degli intervalli sono inclusi.

Page 36: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

34 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Istogramma sbagliato!

w

Fre

quen

cy

40 50 60 70 80 90

01

23

45

67

Figura 2.6: Istogramma NON CORRETTO della variabile reddito in euro nell’Esempio2.3.1 dove l’altezza dei rettangoli e la frequenza assoluta della classe.

Page 37: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.7. ESEMPI 35

xi ni fi ai di

40 ` 45 1 0.017 5 0.003345 ` 50 2 0.033 5 0.006750 ` 55 7 0.117 5 0.023055 ` 60 6 0.100 5 0.020060 ` 65 1 0.017 5 0.003365 ` 70 5 0.083 5 0.017070 ` 75 6 0.100 5 0.020075 ` 80 11 0.183 5 0.037080 ` 85 13 0.217 5 0.043085 ` 90 5 0.083 5 0.017090 ` 95 3 0.050 5 0.0100

60 1

Tabella 2.16: Tavola dei vari tipi di frequenze della variabile Tempo di attesa tra dueeruzioni successive dai dati dell’esempio 2.3.3.

1. rappresentare la distribuzione dei tempi di attesa per tutte le eruzioni;

2. rappresentare la distribuzione dei tempi di attesa per le eruzioni che hanno l’eruzione

di tipo prcedente Corta;

3. rappresentare la distribuzione dei tempi di attesa per le eruzioni che hanno l’eruzione

di tipo prcedente Lunga;

4. calcolare la percentuale di eruzioni ha un tempo di attesa minore di 60 minuti;

5. calcolare la percentuale di eruzioni, tra quelle che hanno l’eruzione precedente di

tipo Corta, ha un tempo di attesa minore di 60 minuti;

6. calcolare la percentuale di eruzioni, tra quelle che hanno l’eruzione precedente di

tipo Lunga, ha un tempo di attesa minore di 60 minuti.

Per fare l’istogramma della distribuzione dei tempi di attesa per tutte le eruzioni

dobbiamo raccogliere i dati in classi. Costruiamo l’istogramma per la durata dei periodi

di attesa dopo ogni eruzione del geyser Old Faithful. Nella Tabella 2.16 riportiamo le

frequenze assolute ni le frequenze relative fi = nin l’ampiezza di ogni classe ai che in

questo caso e 5 per ogni classe, e la densita di frequenza relativa di = fiai

. Sono le quantita

necessarie per costruire l’istogramma richiesto. L’istogramma per tutti i dati e riportato

in Figura 2.7.

Consideriamo ora il sottocampione costituito dalle eruzioni con Eruzione precedente

Corta e costruiamo l’istogramma per questa distribuzione. La tabella delle frequenze e la

2.17. Le quantita che ci servono per costruire l’istogramma sono riportate nella Tavola

Page 38: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

36 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Istogramma delle durate per tutti i dati

Durata (minuti)

Den

sity

40 50 60 70 80 90 100

0.00

0.01

0.02

0.03

0.04

0.05

Figura 2.7: Istogramma della variabile Tempo di pausa. Il tempo e misurato in minuti.

Page 39: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.7. ESEMPI 37

xi 42 45 49 50 51 53 55 56 58 66 67ni 1 1 1 1 4 2 2 2 1 1 1

Tabella 2.17: Frequenze assolute della variabile Tempo di pausa tra due eruzioni successivedai dati dell’esempio 2.3.3 solo per il sottocampione con eruzione precedente di tipo corto.

xi ni fi ai di

40 ` 45 1 0.06 5 0.0145 ` 50 2 0.12 5 0.0250 ` 55 7 0.41 5 0.0855 ` 60 5 0.29 5 0.0660 ` 65 0 0 5 065 ` 70 2 0.12 5 0.02

17 1

Tabella 2.18: Vari tipi di frequenze della variabile Tempo di pausa tra due eruzioni succes-sive dai dati dell’esempio 2.3.3 solo per il sottocampione con eruzione precedente di tipocorto.

2.18. L’istogramma e riportato nella Figura 2.8 mentre lasciamo come esercizio di costruire

una tavola analoga alla 2.18 per la variabile Durata del tempo di pausa per il sottocampione

relativo alle eruzioni con eruzione precedente lunga. L’istogramma e riportato nella Figura

2.9.

2.7.2 Un caso di attribuzione letteraria

Questo esempio riguarda gli 85 articoli sul federalismo che furono pubblicati negli Stati

Uniti per convincere i cittadini dello stato di New York a ratificare la costituzione. Gli

storici si diedero l’arduo compito di individuare chi erano gli autori di questi articoli. Per

73 di questi articoli non ci sono stati problemi di attribuzione, mentre per i restanti 12

gli storici non erano d’accordo se attribuire questi 12 scritti a Hamilton o a Madison,

entrambi due scrittori di testi politici molto famosi e attivi a quell’epoca. Il contenuto

politico non riesce a determinare quale dei due sia l’autore dei 12 scritti perche entrambi

avevano le stesse idee politiche. Gli istogrammi possono aiutare a dirimere la questione.

Gli autori tendono ad avere differenti stili di scrittura in particolare tendono ad usare

parole non contestuali con un tasso (numero di parole ogni mille) con una distribuzione

che li caratterizza. La Tabella 2.19 riporta il tasso della parola by rilevata ogni 1000

parole in 48 scritti di Hamilton (non solo quelli attribuiti a lui degli 85 sul federalismo) e

in 50 scritti di Madison (anche in questo caso non sono stati considerati solo gli scritti sul

federalismo). In un articolo del 1963, Mosteller e Wallace utilizzarono una metodologia

Page 40: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

38 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Durata del tempo di pausa per eruzione precedente corta

Durata (minuti)

Den

sity

40 50 60 70 80 90 100

0.00

0.02

0.04

0.06

0.08

0.10

Figura 2.8: Istogramma della variabile Durata del tempo di pausa per il sottocampionecon eruzione precedente di tipo Corta.

Page 41: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.7. ESEMPI 39

Durata del tempo di pausa per eruzione precedente lunga

Durata (minuti)

Den

sity

40 50 60 70 80 90 100

0.00

0.02

0.04

0.06

0.08

0.10

Figura 2.9: Istogramma della variabile Durata del tempo di pausa per il sottocampionecon eruzione precedente di tipo Lunga.

Page 42: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

40 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Tasso by

H M

0 a 2 2 –2 a 4 7 –4 a 6 12 56 a 8 18 78 a 10 4 810 a 12 5 1612 a 14 – 614 a 16 – 516 a 18 – 3

Totali 48 50

Tabella 2.19: Tasso della parola by in 48 scritti di Hamilton (H) e in 50 scritti di Madison(M) (numero di ricorrenze ogni 1000 parole).

Rate 0 a 2 2 a 4 4 a 6 6 a 8 8 a 10 10 a 12 12 a 14 14 a 16 16 a 18ni – – 2 1 2 4 2 1 –

Tabella 2.20: Tasso della parola by nei 12 scritti contesi sul federalismo (numero diricorrenze ogni 1000 parole).

statistica per l’attribuzione dei 12 scritti ad uno dei due autori. Qui prendiamo i loro dati

e tracciamo gli istogrammi (anche per i dati numerici discreti possiamo farlo).

La Tabella 2.20 riporta invece il tasso della parola by nei 12 scritti contesi sul federa-

lismo.

Dopo aver tracciato gli istogrammi per la variabile tasso sia per gli scritti di Hamilton

che per quelli di Madison che per gli scritti contesi, il grafico riportato in Figura 2.10

sembra propendere per attribuire gli scritti contesi ad uno dei due autori senza molti

dubbi.

Si noti che per fare il confronto occorre prestare attenzione affinche in tutti i grafici

la scala sia la stessa e si utilizzano frequenze relative perche il numero di scritti e diverso

nelle tre distribuzioni.

2.7.3 Il primo bacio non si scorda mai

In questo esempio vediamo invece come le frequenze cumulate possono aiutare a capire

meglio un fenomeno. Nella Tabella 2.21 sono riportate le frequenze assolute ni, le frequenze

assolute cumulate Ni e le frequenze relative cumulate della variabile eta a cui e stato dato

il primo bacio a sfondo sessuale. Si tratta di una variabile continua (l’eta) ed e rilevata su

un campione di 42 giovani uomini (dati privati). Abbiamo calcolato la frequenza cumulata

Page 43: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.7. ESEMPI 41

Scritti di Madison

Rate

De

nsity

0 5 10 15

0.0

00

.0

50

.1

00

.1

5

Scritti di Hamilton

Rate

De

nsity

0 5 10 15

0.0

00

.1

0

Scritti contesi

Rate

De

nsity

0 5 10 15

0.0

00

.0

50

.1

00

.1

5

Figura 2.10: Istogramma della variabile Tasso della parola by nei 50 scritti di Madison(M), nei 48 scritti di Hamilton (H) e nei 12 scritti contesi sul federalismo.

Page 44: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

42 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Eta ni Ni Fi7 1 1 0.0248 0 1 0.0249 1 2 0.04810 0 2 0.04811 3 5 0.11912 6 11 0.26213 5 16 0.38114 6 22 0.52415 12 34 0.81016 2 36 0.85717 4 40 0.95218 1 41 0.97619 0 41 0.97620 1 42 1.000

Totali 42 – –

Tabella 2.21: Eta del primo bacio a carattere sessuale di 42 giovani uomini. Frequenzeassolute, frequenze cumulate e frequenze cumulate relative.

relativa perche ci interessa confrontare questo fenomeno con quello riportato nella Tabella

2.22 in cui viene rilevata sullo stesso gruppo di giovani uomini l’eta in cui hanno avuto il

primo rapporto sessuale. La tabella riporta anche in questo caso le frequenze assolute ni,

le frequenze assolute cumulate Ni e le frequenze relative cumulate.

Dalla Tabella 2.21 ad esempio leggiamo che il piu alto numero di uomini ha dato il

primo bacio all’eta di 15 anni (frequenza assoluta 12). Ma il dato che descrive meglio il

fenomeno e il fatto che all’eta di 15 anni, 34 uomini dei 42 (ovvero l’81%) hanno gia dato

il primo bacio (frequenza cumulata 34, frequenza cumulate relativa 0.81). Si deduce anche

che almeno il 50% degli uomini ha dato il primo bacio ad un’eta inferiore o uguale ai 14

anni (frequenza cumulata relativa 0.52).

Dalla Tabella 2.22 invece leggiamo che che il primo rapporto sessuale e avvenuto dopo

il primo bacio (prima osservazione eta=11), che il piu alto numero di uomini ha avuto il

primo rapporto all’eta di 18 anni (frequenza assoluta 15). Anche in questo caso il dato che

descrive meglio il fenomeno e il fatto che all’eta di 18 anni, 36 uomini dei 42 (ovvero l’86%)

hanno gia avuto il primo rapporto sessuale (frequenza cumulata 36, frequenza cumulate

relativa 0.86). Si deduce anche che il 50% degli uomini ha avuto il primo rapporto sessuale

ad un’eta inferiore o uguale ai 17 anni (frequenza cumulata relativa 0.50). La tabella 2.23

riporta le due distribuzioni insieme. Per effettuare il confronto l’eta e stata fissata da 7 a 21

anni per entrambe le distribuzioni. Le frequenze cumulate relative sono state arrotondate

alla seconda cifra significativa.

Page 45: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.7. ESEMPI 43

Eta ni Ni Fi11 1 1 0.0212 0 1 0.0213 1 2 0.0514 4 6 0.1415 4 10 0.2416 5 15 0.3617 6 21 0.5018 15 36 0.8619 4 40 0.9520 1 41 0.9821 1 42 1

Totali 42 – –

Tabella 2.22: Eta del primo rapporto sessuale di 42 giovani uomini. Frequenze assolute,frequenze cumulate e frequenze cumulate relative.

Eta nBi NBi FBi nRi NR

i FRi7 1 1 0.02 0 0 08 0 1 0.02 0 0 09 1 2 0.05 0 0 010 0 2 0.05 0 0 011 3 5 0.12 1 1 0.0212 6 11 0.26 0 1 0.0213 5 16 0.38 1 2 0.0514 6 22 0.52 4 6 0.1015 12 34 0.81 4 10 0.2416 2 36 0.86 5 15 0.3617 4 40 0.95 6 21 0.5018 1 41 0.98 15 36 0.8619 0 41 0.98 4 40 0.9520 1 42 1 1 41 0.9821 0 42 1 1 42 1

Totali 42 – – 42 – –

Tabella 2.23: Eta del primo bacio a carattere sessuale e del primo rapporto sessuale di42 giovani uomini. Frequenze assolute, frequenze cumulate e frequenze cumulate relative.(Apice B si riferiscono all’eta del primo bacio, apice R all’eta del primo rapporto).

Page 46: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

44 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

10 15 20

0.0

0.2

0.4

0.6

0.8

1.0

Età al primo bacio e del primo rapporto sessuale

età

Fetà primo bacioetà primo rapporto

Figura 2.11: Grafico delle frequenze cumulate relative per l’eta al primo bacio e l’eta delprimo rapporto sessuale per 42 giovani uomini. La retta rappresenta F = 0.50.

Nella figura 2.11 le due distribuzioni sono messe a confronto. Come si puo osservare

il grafico delle frequenze cumulate relative della distribuzione dell’eta del primo rapporto

sessuale sta sempre sotto il grafico delle frequenze cumulate relative dell’eta del primo

bacio. Questo significa che la prima distribuzione e sempre maggiore della seconda. Cioe

l’eta del primo rapporto sessuale e maggiore dell’eta del primo bacio. La linea orizzontale

tracciata per F = 0.50 ci informa che l’eta in cui almeno il 50% del campione ha dato il

primo bacio e 14 anni, mentre l’eta in cui almeno il 50% del campione ha avuto il primo

rapporto sessuale e 17 anni. La lunghezza del segmento tra i due punti in cui la retta

F = 0.50 interseca le due linee delle frequenze cumulate relative ci informa sul fatto che

la meta della campione ha avuto il primo rapporto sessuale tre anni dopo che la meta del

campione ha dato il primo bacio.

2.8 Esercizi

Esercizio 2.8.1.

Si considerino le variabili stato civile e numero di figli della tabella 2.1.

Page 47: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

2.8. ESERCIZI 45

1. Si costruisca la tabella delle frequenze assolute congiunte delle due variabili.

2. Che percentuale di capofamiglia non ha figli?

3. Che percentuale di capofamiglia e nubile o celibe e non ha figli?

4. Tra i capofamiglia che sono nubili o celibi, che percentuale non hanno figli?

5. Tra i capofamiglia che non hanno figli che percentuale e nubile o celibe?

Esercizio 2.8.2.

Si faccia riferimento ai dati del Gayser Old Faithful.

1. Costruire la tabella a doppia entrata per le frequenze relative delle due variabili. Per

la variabile tempo di pausa tra due eruzioni successive si mantenga la suddivisione

in classi riportata nella Tabella 2.16.

2. Che percentuale di eruzioni hanno una durata maggiore o uguale a 60 minuti e hanno

quella precedente breve?

3. Che percentuale di eruzioni hanno una durata maggiore o uguale a 60 minuti e hanno

quella precedente lunga?

4. Tra le eruzioni che hanno la precedente di tipo breve, che percentuale hanno una

durata inferiore ai 55 minuti?

5. Che percentuale di eruzioni lunghe dura meno di 65 minuti?

6. Che percentuale di eruzioni dura meno di 65 minuti?

Page 48: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

46 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

Page 49: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Capitolo 3

Valori medi

Il titolo di questo capitolo e al plurale perche come vedremo ci sono diversi tipi di medie

per un certo tipo di dati e diverse medie per diversi tipi di dati (numerici o nominali).

In inglese il termine average puo indicare questo tipo di media mentre viene lasciato al

termine mean il significato di media (aritmetica) di un certo numero di valori numerici. In

italiano non abbiamo una tale ricchezza di vocaboli per cui dovremo prestare attenzione al

fatto se con il termine media ci riferiamo ad un concetto, cioe se indichiamo quel valore che

sintetizza l’intera distribuzione, oppure alla media aritmetica che e solo una delle medie

a cui si riferisce il titolo del capitolo. In genere dal contesto si capira a cosa ci stiamo

riferendo. Quello che si vuole fare in questo capitolo e condensare in un solo numero

(quando i dati sono di tipo numerico) o in una sola caratteristica (quando sono nominali)

un intero insieme di dati relativi ad una certa variabile. Questo unico numero (nel caso

delle variabili numeriche) viene chiamato, a seconda dei casi, moda, mediana o media

(aritmetica, ma in realta esiste anche la media armonica e altri tipi di media che non

studieremo) Concludiamo questa introduzione con una poesia del poeta romano Trilussa

(pseudonimo di Carlo Alberto Salustri, nato nel 1871 e morto nel 1950) dal titolo che non

ha bisogno di presentazioni in questo volume e che sottolinea come il valore medio debba

essere considerato con attenzione e non con leggerezza.

LA STATISTICA

Sai ched’e la statistica? E ’na cosa

che serve pe fa un conto in generale

de la gente che nasce, che sta male,

che more, che va in carcere e che sposa.

Ma pe me la statistica curiosa

e dove c’entra la percentuale,

pe via che, lı , la media e sempre eguale

47

Page 50: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

48 CAPITOLO 3. VALORI MEDI

puro co’ la persona bisognosa.

Me spiego: da li conti che se fanno

seconno le statistiche d’adesso

risurta che te tocca un pollo all’anno:

e, se nun entra nelle spese tue,

t’entra ne la statistica lo stesso

perch’e c’e un antro che ne magna due.

Come vedremo non sempre la media aritmetica di cui parla Trilussa va bene per

descrivere fenomeni come questo.

3.1 La moda

La moda puo essere calcolata per qualunque tipo di variabile (o di dati).

Definizione 3.1.1. La moda e la modalita per le variabili nominali (o il numero per le

variabili numeriche) che si presenta con la frequenza maggiore.

Per trovare la moda di una distribuzione bisogna allora calcolare tutte le frequenze

(e indifferente se assolute o relative) e andare a vedere a quale modalita corrisponde la

frequenza maggiore. Tale modalita e la moda della distribuzione o la moda della variabile.

A volte puo capitare che due modalita abbiano la frequenza maggiore, in questo caso si

dice che la distribuzione e bi-modale. Anche quando rappresentando i dati graficamente si

osservano due picchi distanti per le frequenze si puo dire che la distribuzione e bi-modale.

Ad esempio nel caso dei dati sui tempi di pausa del geyser Old Faithful dell’Esempio 2.3.3.

Nella Figura 2.7 si notano due frequenze distinte nettamente piu alte delle altre. In questo

caso sono presenti due nette distribuzioni come lo studio dividendo le osservazioni rispetto

alla variabile tipo di eruzione precedente mette in luce.

Esercizio 3.1.2. Calcolare la moda per i dati dell’Esempio 2.5.2 [Ris: Moda= ottimo]

Esercizio 3.1.3. Calcoalre la moda per la variabile X stato civile e Z titolo di studio dei

dati dell’Esempio 2.3.1

3.2 La media artitmetica

La media aritmetica si puo fare per le variabili numeriche. Se abbiamo la distribuzione del

numero dei figli possiamo calcolare la media (aritmetica) del numero di figli, se abbiamo

Page 51: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

3.2. LA MEDIA ARTITMETICA 49

la distribuzione dei redditi possiamo calcolare la media (aritmetica) dei redditi. La media

aritmetica si calcola in due passi:

1. Si sommano tutti i valori osservati

2. Si divide la somma ottenuta per il numero di valori osservati

Non si puo calcolare la media aritmetica di un carattere nominale. Ad esempio se abbiamo

la seguente distribuzione

M 22F 12

Tot. 44

non possiamo fare la media tra M e F. Possiamo solo dire che in questo campione e

maggiore il numero di maschi, cioe la moda e il carattere o modalita maschio. Neppure se

fossero codificati

M=1 22F=2 12

Tot. 44

non possiamo calcolare

1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1+

1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1+

2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 = 46

e quindi dire che la media e 46/44 = 1.05.

La definizione di media aritmetica e un po’ complessa ma la diamo lo stesso. (Quella

data sopra e la regola di calcolo non la definizione).

Definizione 3.2.1. La media aritmetica di n valori e quel valore che se sostituito a tutti

i valori lascia inalterata la somma totale degli n valori.

Per rivederla con Trilussa, se io mangio due polli e tu zero, i due valori sono 2 e 0, il

totale dei polli in gioco, anzi meglio, mangiati e 2+0=2. La media aritmetica e 1, per la

statistica io mangio un pollo e anche tu un pollo, in totale sempre due polli si mangiano.

Se si sostituisce sia a 2 che a 0 la media, 1, la somma totale dei polli mangiati non cambia,

1+1=2.

Riprendiamo i dati relativi alla durata dei tempi di pausa nell’esempio 2.3.3. Consi-

deriamo la variabile Durata del tempo di pausa nel caso l’eruzione precedente sia di tipo

corto. Sono 17 osservazioni del campione che per comodita riportiamo nella seguente

tabella.

Page 52: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

50 CAPITOLO 3. VALORI MEDI

xi 42 45 49 50 51 53 55 56 58 66 67ni 1 1 1 1 4 2 2 2 1 1 1

Calcoliamo la media aritmetica del tempo di pausa per questo sottocampione.

1. Prima si sommano tutti i valori tenendo presente che alcuni di essi si presentano piu

di una volta:

42 + 45 + 49 + 50 + 51 + 51 + 51 + 51 + 53 + 53 + 55 + 55 + 56 + 56 + 58 + 66 + 67=909

2. Si divide il risultato per il numero di valori, in questo caso n = 17:

909

17= 53.47

Si dice che la media aritmetica dei tempi di pausa tre due eruzioni successive quando

la precedente e di tipo Corto e di 53.47 minuti. La media aritmetica si denota quasi

universalmente con la x barrata. Ovvero si scrive

x = 53.47.

Tale scrittura viene dal fatto che se si indicano con xi gli n valori di una generica variabile

X la media aritmetica di ottiene applicando i due passi in uno solo come

x =1

n

n∑i=1

xi.

Dal punto di vista inferenziale si puo interpretare che se mi metto seduto accanto al geyser

che ha appena avuto un eruzione di tipo corto, mi aspetto di dover aspettare (scusate il

gioco di parole!) circa 53 minuti prima di vedere il geyser emettere il suo spruzzo di vapore.

Tornando alla definizione, se si sostituisce ai 17 valori osservati il valore medio calcolato

x = 53.47 abbiamo che la somma totale dei tempi di attesa non cambia, infatti sommare

per 17 volte il valore 53.47 equivale a calcolare il prodotto 53.47 · 17 = 908.99 che e uguale

a 909 a meno degli arrotondamenti.

In modo analogo si puo calcolare la media aritmetica per il tempo di attesa tra due

eruzioni quando il tipo di pausa prcedente e di tipo lungo. Si ottiene x = 78.19. Mentre

il tempo medio di attesa calcolato per tutte le 60 eruzioni risulta: x = 71.183

Sfruttando la definizione di media aritmetica la media totale di tutti i tempi di attesa

si puo anche ottenere come

17 ∗ 53.47 + 43 ∗ 78.19

60=

4271.16

60= 71.186

che a meno degli arrotondamenti e la media calcolata.

Esercizio 3.2.2. Calcolare la media aritmetica della variabile Numero di figli nell’Esem-

pio 2.3.1. Risultato: x = 1.8. Cosa significa che la media aritmetica e 1.8 figli?

Esercizio 3.2.3. Calcolare la media aritmetica della variabile Reditoi nell’Esempio 2.3.1.

Page 53: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

3.3. LA MEDIANA 51

3.3 La mediana

La mediana e un modo alternativo di calcolare il valor medio di una distribuzione inteso

come quel valore che sintetizza al meglio la distribuzione dei dati (l’average inglese) e quindi

descrive meglio il fenomeno oggetto di studio. Forziamo la mano a Trilussa. Supponiamo

di avere 10 persone, una di essa che mangia 10 polli e le altre nove che non ne mangiano

neppure uno. Abbiamo 10 valori, x1 = 10 e gli altri valori xi = 0 per i = 2, 3, . . . , 10. La

media aritmetica del numero di polli mangiati a testa e ancora 1, cioe per dirla con Trilussa

il pollo di media t’entra ne la statistica lo stesso perch’e c’e un antro che ne magna dieci!.

Si capisce che in questo caso la media non descrive bene la distribuzione del numero di

polli che si mangiano questi 10 cristiani! La mediana e un modo alternativo di riassumere

la distribuzione che tiene conto di questa disparita.

Definizione 3.3.1. La mediana e l’osservazione, cioe quel valore tra quelli osservati, che

ha alla sua sinistra (cioe piu bassi o uguali a se) almeno la meta piu una delle osservazioni

e alle sua destra, (cioe piu alti) al piu l’altra meta delle osservazioni.

La mediana e quindi quel valore che divide divide in due parti uguali le osservazioni.

Vediamo le operazioni per calcolarla.

1. Si ordinano le n osservazioni dalla piu piccola alla piu grande.

2. Si calcola il valore n+12 .

(a) Se n e dispari l’osservazione che sta nella posizione n+12 -esima e la mediana.

(b) Se n e pari si prendono le due osservazioni centrali, quella che occupa la posi-

zione n2 -esima e quella che occupa la posizione n

2 + 1-esima e la mediana e data

dalla media aritmetica di queste due osservazioni.

La mediana puo essere calcolata per tutte le variabili le cui modalita possono essere ordi-

nate, quindi per le variabili numeriche, sia discrete che continue, ma anche per le variabili

qualitative ordinali. Vediamo un esempio.

Esempio 3.3.2. Si considerino i dati relativi al titolo di studio osservato su n = 11

persone. Il titolo di studio e classificato secondo le modalita: Licenza Media=M, Diploma

di scuola Superiore=S, Laurea=L, Master o Dottorato=D. Le osservazioni sono

D L L M S M L S S M S

Cominciamo con ordinare le osservazioni:

Osservazioni : M M M S S S S L L L DPosizione : 1a 2a 2a 4a 5a 6a 7a 8a 9a 10a 11a

Page 54: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

52 CAPITOLO 3. VALORI MEDI

Calcoliamo la posizione mediana:

PosMe =n+ 1

2=

11 + 1

2= 6

La mediana e il valore dell’osservazione che occupa la 6a posizione cioe:

Me = S

La mediana e Diploma di scuola Superiore. Si noti che 7 osservazioni (quindi almeno la

meta) hanno un titolo di studio inferiore o uguale a quello mediano, mentre 4 osservazioni

(al piu la meta) hanno un titolo di studio superiore a quello mediano.

Si considerino ora i dati relativi al titolo di studio osservato su n = 10 persone. Le

osservazioni sono

D L L M S M L S S S

Rispetto al campione di prima abbiamo un’osservazione in meno. Ordiniamo le osserva-

zioni:Osservazioni : M M S S S S L L L DPosizione : 1a 2a 2a 4a 5a 6a 7a 8a 9a 10a

Calcoliamo la posizione mediana:

PosMe =n+ 1

2=

10 + 1

2= 5.5

Devo considerare i valori che occupano la 5a e la 6a posizione. In entrambi i casi il valore

e S per cui la mediana e:

Me = S.

Nel caso in cui le osservazioni fossero state (le riportiamo gia ordinate)

Osservazioni : M M M S S L L L L DPosizione : 1a 2a 2a 4a 5a 6a 7a 8a 9a 10a

Poiche le due posizioni centrali sono occupate da ue modalita diverse la mediana non e

definita perche non si puo fare la media aritmetica di due valori nominali S e L.

La mediana puo essere calcolata con la tabella delle frequenze relative cumulate. Infatti

poiche la mediana e quel valore che lascia alla propria sinistra almeno la meta delle os-

servazioni piu una, essa puo essere determinata come la modalita la cui frequenza relativa

cumulata supera per la prima volta il valore 0.50. Ad esempio per la prima distribuzione

la tabella delle frequenze relative cumulate e

Titolo ni fi FiM 3 0.27 0.27S 4 0.37 0.64L 3 0.27 0.91D 1 0.09 1

Totali 11 1 −

Page 55: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

3.3. LA MEDIANA 53

La prima frequenza relativa cumulate che supera 0.50 e 0.64 e la modalita corrispondente

e S. Per la seconda distribuzione la tabella per il calcolo delle frequenze cumulate relative

e:

Titolo ni fi FiM 2 0.20 0.20S 4 0.40 0.60L 3 0.30 0.90D 1 0.10 1

Totali 10 1 −

La prima frequenza relativa cumulate che supera 0.50 e 0.60 e la modalita corrispondente

e S.

Consideriamo le n = 17 osservazioni nell’esempio 2.3.3 relative alla variabile Durata

del tempo di pausa nel caso l’eruzione precedente sia di tipo corto. Le 17 osservazioni

ordinate dalla piu piccola alla piu grande sono:

42, 45, 49, 50, 51, 51, 51, 51, 53, 53, 55, 55, 56, 56, 58, 66, 67

Poiche n e dispari, calcoliamo il valore n+12 = 9. La nona osservazione e il valore 53,

dunque la mediana e 53. Scriveremo Me = 53.

Consideriamo adesso le n = 60 osservazioni nell’esempio 2.3.3 relative alla variabile

Durata del tempo di pausa indipendentemente dal valore della variabile Tipo di pausa

precedente.

Questi sono i valori ordinati della durata della pausa dopo un eruzione del Gaiser Old

Faithful.

42 45 49 50 51 51 51 51 53 53 55 55 56 56 57 58 60 66 67 6768 69 70 71 72 73 73 74 75 75 75 75 76 76 76 76 76 79 79 8080 80 80 81 82 82 82 83 83 84 84 84 85 86 86 86 88 90 91 93

Per calcolare la mediana, poiche n e pari, 60+12 = 30.5, prendiamo i valori nella posizione

n2 = 30 e n

2 + 1 = 31, sono 75 e 75, per cui la mediana e Me = 75.

Tornando all’esempio dei polli, se una persona mangia 10 polli e nove persone zero

polli, la distribuzione ordinata delle osservazioni e

0, 0, 0, 0, 0, 0, 0, 0, 0, 10

il valore (10+1)/2 = 5.5, i due valori che occupano la quinta e la sesta posizione sono 0 e 0,

per cui la mediana e zero. Quindi la mediana di questa distribuzione descrive molto meglio

il fenomeno: il numero medio (inteso come sintesi della distribuzione) di polli mangiati da

ciascuno e zero, non 1, con buona pace di Trilussa.

Page 56: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

54 CAPITOLO 3. VALORI MEDI

eta Uomini Donne totale

0-12 84 75 15913-24 282 297 57925-34 391 355 74635-44 281 168 44945-54 187 127 31455-64 168 137 30565-74 79 82 161

75 e piu 45 132 177

Totale 1517 1373 2890

Tabella 3.1: Persone pendolari verso un luogo diverso dalla propria abitazione per sesso eclasse di eta - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali.

3.4 Medie per i dati in classi

I dati che provengono da variabili continue di solito vengono forniti direttamente in classi.

Occorre verificare che essendo il dato la realizzazione di una variabile continua le classi

abbiano sempre la forma (a, b] dove con la parentesi tonda si intende che il valore a non

appartiene a quella classe, mentre con la parentesi quadra il valore b appartiene alla classe.

Se le modalita nelle classi non dovessero essere in questa forma dobbiamo sempre riscriverle

in questo modo per facilitare i conti che dovremo fare per calcolare i valori medi.

Vediamo un esempio. Dall’indagine dell’ISTAT sulle famiglie e i soggetti sociali sono

presi i dati della Tabella 3.1. Si tratta di tre distribuzioni dell’eta dei pendolari considerati

in base al sesso. Vogliamo calcolare l’eta media dei pendolari e capire se c’e differenza

tra l’eta degli uomini e delle donne. Quando i dati sono raccolti in classi e non possiamo

risalire ai dati originari da cui sono state costruite le classi per calcolare la media aritmetica

e la mediana dobbiamo fare delle ipotesi.

Poiche l’eta e un carattere continuo tutti i valori devono essere compresi. Nella Tabella

3.2, abbiamo quindi modificato gli estremi dell’intervallo, perche chi ad esempio ha 24 anni

e mezzo appartiene alla terza classe non alla seconda. In questa tabella l’intervallo (a, b]

e rappresentato con i simboli a a b. Si noti che per l’ultima classe non era dato l’estremo

superiore quindi abbiamo fatto l’ipotesi che fosse 84, per analogia alle classi precedenti.

Capita spesso che per la prima e l’ultima classe non siano dati gli estremi inferiore e

superiore rispettivamente.

Per la moda possiamo dire che la classe modale e sia per gli uomini che per le donne

(24, 34]. La moda pero non e molto informativa in questo caso. Di solito non si usa per i

dati raccolti in classi.

Per la media aritmetica dovremmo conoscere l’eta di ogni unita che casca in una classe.

Poiche non la conosciamo facciamo l’ipotesi che le unita siano distribuite uniformemente

Page 57: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

3.4. MEDIE PER I DATI IN CLASSI 55

eta valore centrale Uomini Donne totale

0 a 12 6 84 75 15912 a 24 18 282 297 57924 a 34 29 391 355 74634 a 44 39 281 168 44944 a 54 49 187 127 31454 a 64 59 168 137 30564 a 74 69 79 82 16174 a 84 79 45 132 177

Totale – 1517 1373 2890

Tabella 3.2: Persone pendolari verso un luogo diverso dalla propria abitazione per sesso eclasse di eta - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali.

all’interno della classe, che equivale a ipotizzare che tutti abbiano l’eta che casca nel punto

centrale dell’intervallo che determina la classe. Ad esempio il punto centrale della classe

(24, 34] e 29. Per determinare i punti centrali abbiamo una formula: se l’intervallo e [a, b)

il punto medio si ottiene sommano gli estremi e dividendo per due

Punto medio =a+ b

2

Quindi per calcolare la media dobbiamo calcolare tutti i punti medi e quindi calcolare la

media della nuova distribuzione. Per i nostri dati i conti sono fatti nella Tabella 3.2. Per

calcolare la media quindi consideriamo la distribuzione in cui l’eta 6 si presenta 84 volte,

l’eta 18 si presenta 282 volte e cos via. La media dell’eta dei pendolari uomini e

6 ∗ 84 + 18 ∗ 282 + 29 ∗ 391 + 39 ∗ 281 + 49 ∗ 187 + 59 ∗ 168 + 69 ∗ 79 + 79 ∗ 45 = 55959

e quindi55959

1517= 36.89

In modo analogo calcoliamo la media dell’eta per le donne e la media dell’eta per tutto il

campione. I risultati sono: media ete donne 38.62, media eta per tutto il campione 37.71.

Possiamo concludere che le donne che fanno le pendolari hanno quasi due anni di piu degli

uomini in media.

Per il calcolo della mediana quando i dati sono raccolti in classe il metodo migliore e

il metodo grafico. Vediamo i passi per ottenerla

1. Costruiamo il grafico delle frequenze cumulate relative.

2. Individuiamo sull’asse delle ordinate il valore F = 0.50.

3. Tracciamo la retta orizzontale in corrispondenza di F = 0.50 fino ad incontrare la

spezzata delle frequenze cumulate relative.

Page 58: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

56 CAPITOLO 3. VALORI MEDI

eta Uomini Ni Fi0 a 12 84 84 0.0612 a 24 282 366 0.2424 a 34 391 757 0.5034 a 44 281 1038 0.6844 a 54 187 1225 0.8154 a 64 168 1393 0.9264 a 74 79 1472 0.9774 a 84 45 1517 1

Totale 1517 – –

Tabella 3.3: Uomini pendolari verso un luogo diverso dalla propria abitazione per sesso eclasse di eta - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali.

4. Tracciamo la retta verticale dal punto dove la retta F = 0.50 incontra la spezzata

delle frequenze cumulate relative fino all’incontro dell’asse.

5. La mediana e il punto dove questa retta incontra l’asse delle ascisse.

Questo metodo grafico e in realta dedotto da un metodo analitico, si individua la classe

mediana, come quella classe in cui la frequenza cumulata relativa e uguale o supera il valore

F = 0.50. Se la cumulata relativa e esattamente 0.50 la mediana e l’estremo superiore della

classe. Sia che sia incluso sia che non lo sia nell’intervallo. Se il valore della frequenza

cumulata supera 0.50, si cerca il valore sull’asse delle ascisse al quale corrisponde sulla

spezzata delle frequenze cumulate il valore sull’asse delle ordinate di 0.50. La formula

e la seguente. Indichiamo con F− e F+ i valori delle frequenze cumulate della classe

prima della classe mediana e della classe mediana rispettivamente. Indichiamo con xa e xb

l’estremo inferiore e l’estremo superiore della classe mediana, indipendentemente se siano

inclusi o esclusi dall’intervallo. La mediana e data da

Me = xa +xb − xaF+ − F−

(0.50− F−) (3.1)

Si noti che se la classe mediana ha come frequenza cumulata esattamente 0.50, allora

nella formula sopra F+ = 0.50 e la mediana e proprio xb, l’estremo superiore della classe

mediana. Vediamo un esempio con i dati dell’esempio dell’indagine dell’ISTAT sulle fa-

miglie e i soggetti sociali. Nella Tabella 3.3 sono calcolate le frequenze cumulate relative.

Dalla colonna delle frequenze cumulate relative deduciamo che la classe (24, 34] e la classe

mediana. Notiamo poi che la frequenza relativa cumulata e proprio 0.50. La mediana

in questo caso e l’estremo superiore della classe mediana, 34 anni. Consideriamo ora la

Tabella 3.4, che riporta i dati del reddito dell’Esempio 2.3.1.

La classe mediana e (58, 70]. Quindi xa = 58 xb = 70. La frequenza cumulata della

classe mediana e F+ = 0.65, la frequenza cumulata della classe prima della mediana e

Page 59: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

3.4. MEDIE PER I DATI IN CLASSI 57

xi ni fi Ni ai Fi

40 a 50 3 0.15 3 10 0.1550 a 58 6 0.30 9 8 0.4558 a 70 4 0.20 13 12 0.6570 a 95 7 0.35 20 25 1

20 1.00 20

Tabella 3.4: Redditi di 20 capofamiglia.

eta Donne Ni Fi0 a 12 75 75 0.0512 a 24 297 372 0.2724 a 34 355 727 0.5334 a 44 168 895 0.6544 a 54 127 1022 0.7454 a 64 137 1159 0.8464 a 74 82 1254 0.9075 a 84 45 1373 1

Totale 1373 – –

Tabella 3.5: Donne pendolari verso un luogo diverso dalla propria abitazione per sesso eclasse di eta - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali.

0.45. Applicando la formula per la mediana otteniamo

Me = 58 +70− 58

0.65− 0.45(0.50− 0.45) = 61

La mediana del reddito e 61000 euro. (Ricordiamo che i dati del reddito erano in migliaia

di euro). Vediamo un ultimo esempio. L’eta mediana delle donne pendolari. La Tabella

3.5 contiene i dati per il calcolo della mediana. Dalla formula 3.1 abbiamo

Me = 24 +34− 24

0.53 +−0.27(0.50− 0.27) = 32.85

L’ete mediana delle donne pendolari e 33 anni.

Esercizio 3.4.1. Fare il grafico delle frequenze cumulate relative dei dati nelle Tabelle 3.3,

3.4 e 3.5. Dedurre con il metodo grafico il valore della mediana per le tre distribuzioni.

Esercizio 3.4.2. Calcolare la mediana dell’eta del primo bacio e dell’eta del primo rap-

porto sessuale per i dati nella Tabella 2.23. Dedurre con il metodo grafico il valore della

mediana per le due distribuzioni facendo riferimento alla Figura 2.11.

Page 60: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

58 CAPITOLO 3. VALORI MEDI

t

Den

sity

0 5 10 15

0.00

0.05

0.10

0.15

0.20

Figura 3.1: Tempi di sopravvivenza di 128 pazienti operati per un tumore ai polmoni. Lamedia aritmetica dei tempi e 10 anni. La mediana e 2.3 anni (2 anni e poco piu di 3 mesi).

3.5 Simmetria e asimmetria

L’istogramma dei dati ci permette di capire se la distribuzione dei dati e di tipo asimmetri-

co o simmetrico. Possiamo tracciare seguendo la forma dell’istogramma una curva continua

che mostra la distribuzione dei dati. La Figura 3.1 si riferisce ai tempi di sopravvivenza di

128 pazienti operati per un tumore ai polmoni (dati personali). Quando la distribuzione,

come quella in figura, mostra la maggior parte dei dati nella parte sinistra o mostra valori

bassi, con pochi valori alti, si dice che la distribuzione presenta un’asimmetria positiva. In

questo caso la media assume un valore piu alto della mediana. Quando succede il contrario

(tanti valori alti e pochi bassi), e quindi la media aritmetica e minore della mediana si di-

ce che la distribuzione presenta un’asimmetria negativa. Quando invece la distribuzione e

simmetrica la media e la mediana hanno lo stesso valore. La piu importante distribuzione

simmetrica della statistica e la distribuzione Normale. Se i dati sono distribuiti in modo

simmetrico attorno ad una valore centrale e la loro distribuzione ha la cosiddetta forma a

campana, come nella Figura 3.2 dove abbiamo l’istogramma relativo a 1000 osservazioni

di una distribuzione simmetrica, si dice che i dati seguono una distribuzione Normale, che

qui e tracciata con una linea continua. Torneremo ancora molte volte a questa distribu-

zione perche e la distribuzione piu importante di tutta la statistica. I dati provenienti

da indagini sul peso e sull’altezza di una popolazione seguono spesso una distribuzione

Normale. Questo poiche la maggior parte dei pesi o delle altezze, si distribuiscono attorno

Page 61: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

3.6. QUALE MEDIA SCEGLIERE? 59

Distribuzione simmetrica, normale

x

Den

sity

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Figura 3.2: Istogramma di 1000 osservazioni normale e distribuzione Normale (lineacontinua). La distribuzione e simmetrica.

ad un valore centrale, in modo simmetrico a sinistra o a destra e di solito con pochi valori

particolarmente alti o bassi.

3.6 Quale media scegliere?

Il compito della media (average) o valore centrale e quello di sintetizzare un’intera distri-

buzione di dati, quindi l’informazione che ci fornisce deve essere il piu possibile vicino alla

distribuzione che li sintetizza. Diamo qui qualche suggerimento non esaustivo per la scelta

della media per una distribuzione di dati.

1. La moda va usata solo per i dati qualitativi. Quasi mai per i dati quantitativi a

meno che la distribuzione sia bimodale. In questo caso fornire il valore delle due

mode e piu indicativo che fornire la media o la mediana che farebbero scomparire

l’informazione sulle due sottopopolazioni probabilmente presenti.

2. Quando si e in presenza di distribuzioni asimmetriche e meglio utilizzare la Mediana,

perche la media aritmetica risente dei pochi valori particolarmente alti o bassi come

nel caso dell’Esempio rappresentato in Figura 3.1.

3. Se i dati hanno una distribuzione simmetrica e preferibile utilizzare la media arit-

metica.

Page 62: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

60 CAPITOLO 3. VALORI MEDI

4. Se i dati sono soggetti ad errori (ad esempio dovuti alla registrazione) e meglio

anche in questo caso utilizzare la Mediana, in quanto la media e molto influenzata

da osservazioni particolarmente diverse o inusuali. La mediana invece non risente di

questi valori.

3.7 Quartili, perentili e quantili

I quartili e i percentlli o piu in generale i quantili sono indici di posizione. Individuano

l’osservazione che lascia alla sua sinistra almeno il 25% delle osservazioni (primo quartile),

almeno il 75% delle osservazioni (terzo quartile), almeno una percentuale p di osservazioni

(p-esimo percentile).

Definizione 3.7.1 (Primo quartile). Quel valore che lascia alla sua sinistra il (o almeno

il) 25% delle osservazioni.

Definizione 3.7.2 (Terzo quartile). Quel valore che lascia alla sua sinistra il (o almeno

il) 75% delle osservazioni.

Definizione 3.7.3 (p-esimo percentile). Per p = 1, 2, . . . , 100 e quel valore che lascia alla

sua sinistra il (o almeno il) p% delle osservazioni.

Dalle definizioni appena date risulta evidente che il 25-esimo, il 50-esimo e il 75-esimo

percentile sono rispettivamente il primo quartile, la mediana e il terzo quartile. Inoltre il

secondo quartile e la mediana. La procedura per calcolare un’approssimazione dei quartili

o dei percentili si puo riassumere nei seguenti passi.

• Si ordinano i valori osservati dal piu piccolo al piu grande.

• Si calcolano i valori 0.25(n+ 1) (primo quartile), 0.75(n+ 1), (terzo quartile) ovvero

il valore p100(n+ 1) (p-percentile).

• Se e intero l’osservazione che occupa la posizione data dal valore calcolato e il primo

quartile o il terzo quartile o p-esimo percentile.

• Se non e intero si calcola la media tra i due valori le cui posizioni precedono e seguono

il valore calcolato.

Si osservi che prendere il valore medio e solo una questione di semplicita. Il valore del

quantile corrispondente dovrebbe essere il valore proporzionale alla parte decimale tra

le due osservazioni nelle posizioni date dai due interi che precedono e seguono il valore

non intero calcolato. Se n e elevato conviene procedere calcolando le frequenze relative

cumulate. Il valore dell’osservazione per la quale la frequenza relativa cumulata supera

0.25, 0.75, ovvero p/100 dove p = 1, . . . , 99 e detto primo quartile, terzo quartile o p-esimo

percentile.

Page 63: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

3.8. IL BOX-PLOT 61

Esempio 3.7.4. Calcoliamo i quartili e i percentili per i dati dei tempi di pausa prima

di un’eruzione del geyser Old Faithful. I valori ordinati della durata della pausa dopo un

eruzione sono

42 45 49 50 51 51 51 51 53 53 55 55 56 56 5758 60 66 67 67 68 69 70 71 72 73 73 74 75 7575 75 76 76 76 76 76 79 79 80 80 80 80 81 8282 82 83 83 84 84 84 85 86 86 86 88 90 91 93

• Mediana: 60+12 = 30.5. Posizioni 30 e 31, sono i valori 75 e 75, per cui la mediana e

Me = 75.

• Primo Quartile: 0.25(61) = 15.25. Posizioni 15 e 16: sono i valori 57 e 58. Il primo

quartile e Q1 = 57.5

• Terzo Quartile: 0.75(61) = 45.75. Posizioni 45 e 46: sono i valori 82 e 82. Il terzo

quartile e Q3 = 82

• Quinto percentile: 0.05(61) = 3.05. Posizioni 3 e 4: sono i valori 49 e 50. Il quinto

percentile e P5 = 49.5

• 95-esimo percentile: 0.95(61) = 57.95. Posizioni 57 e 58: sono i valori 88 e 90. Il

novantacinquesimo percentile e P95 = 89

3.8 Il box-plot

Il box blot e un grafico che permette di dare una rappresentazione della distribuzione di

una variabile molto immediata tramite il calcolo dei quartili e della mediana. Il nome

deriva dal fatto che la distribuzione di una variabile statistica viene rappresentata come

una scatola. Per disegnare il box plot la procedura puo essere riassunta dai seguenti passi.

1. gli estremi della scatola sono Q1 e Q3

2. la scatola e tagliata dalla mediana

3. Si calcola il valore Q3 + 1.5 · (Q3−Q1). Il basso superiore coincide con la piu grande

osservazione minore o uguale a questo valore.

4. Si calcola il valore Q1 − 1.5 · (Q3 −Q1). Il baffo inferiore coincide con la piu piccola

osservazione maggiore o uguale a questo valore.

5. Tutti i valori fuori dai baffi si segnano come punti isolati.

Esempio 3.8.1. Consideriamo sempre i dati del geyser Old Faithful nei due gruppi ri-

spetto al tipo di eruzione precedente. Le 43 osservazioni con eruzione precedente di tipo

Lunga ordinate sono le seguenti.

Page 64: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

62 CAPITOLO 3. VALORI MEDI

57 60 67 68 69 70 71 72 73 7374 75 75 75 75 76 76 76 76 7679 79 80 80 80 80 81 82 82 8283 83 84 84 84 85 86 86 86 8890 91 93

Le 17 osservazioni con eruzione precedente di tipo Corta ordinate sono le seguenti.

42 45 49 50 51 51 51 51 53 5355 55 56 56 58 66 67

Per disegnare il box plot del primo gruppo calcoliamo prima le posizioni della mediana e

del primo e terzo quartile. Esse sono rispettivamente le posizioni

n+ 1

2=

44

2= 22,

n+ 1

4=

44

4= 11, 3

n+ 1

4= 3

44

4= 33,

Quindi la mediana occupa la 22-esima posizione, e il valore 79. Il primo quartile occupa

la 11-esima posizione, si tratta del valore 74. Il terzo quartile occupa la posizione 33, si

tratta del valore 84. Per calcolare i baffi valutiamo dapprima la distanza interquartile.

Q3 −Q1 = 10

Quindi

Q3 + 1.5 · (Q3 −Q1) = 99, Q1 − 1.5 · (Q3 −Q1) = 59.

La piu grande delle osservazioni minori o uguali a 99 e 93. Quindi il baffo superiore viene

posto in corrispondenza a 93 poiche non ci sono altre osservazioni maggiori. Per il baffo

inferiore una osservazione e piu piccola di 60. Quindi il baffo inferiore viene posto in

corrispondenza del valore 60. Essendoci ancora un valore piu piccolo di 60, il 57, questo

viene rappresentato singolarmente. Analogamente per il secondo gruppo otteniamo

n+ 1

2=

18

2= 9,

n+ 1

4=

18

4= 4.5, 3

n+ 1

4= 3

18

4= 13.5,

Quindi la mediana e 53. Il primo quartile e la media tra i valori che occupano la quarta

e la quinta posizione, Q1 = 50.5. Il terzo quartile e la media tra valori che occupano

la tredicesima e la quattordicesima posizione indi ragion per cui Q3 = 56. Abbiamo che

Q1− 1.5(Q3−Q1) = 42.25 mentre Q3 + 1.5(Q3−Q1) = 64.25. Poiche c’e un’osservazione

piu piccola di 42.25, il 42, in questo gruppo il baffo viene posto in corrispondenza della

piu grande osservazione minore o uguale a 42.25 cioe 45. L’osservazione minore viene

disegnata singolarmente. Per quanto riguarda il baffo superiore abbiamo due osservazioni

maggiori di 64.25, precisamente 66 e 67 che vengono disegnate singolarmente, mentre il

baffo viene tracciato all’altezza della piu grande osservazione minore di 64.25 ovvero di 58.

Nella Figura 3.3 e riportato il box plot dei tempi di attesa per un’eruzione quando quella

precedente era di tipo lungo e quando era di tipo corto.

Page 65: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

3.9. SOLUZIONE DEGLI ESERCIZI ASSEGNATI 63

●●

Long Short

4050

6070

8090

Figura 3.3: Boxplot dei tempi di attesa per un’eruzione quando quella precedente era ditipo lungo (a sinistra) e quando era di tipo corto (a destra)

3.9 Soluzione degli esercizi assegnati

Esercizio 3.4.1. La classe mediana per la distribuzione dell’eta degli uomini e la classe

(24, 34]. Poiche 0.50 viene raggiunto esattamente alla fine di questa classe la Mediana

dell’eta e 34 anni. Del resto anche dalla formula 3.1 si deduce Me = 34. La classe

mediana per la distribuzione dei redditi e 58 a 70. Ci sono 4 unita dalla decima alla

tredicesima. Quella che corrisponde alla mediana e la 10.5 che sta tra la decima e la

undicesima. La mediana e 61. La formula per ottenerla e

Me = 58 +70− 58

0.65− 0.45(0.50− 0.45) = 61.

Per la distribuzione dell’eta delle pendolari donne, la classe mediana a 24 a 34. La mediana

e 33 anni, infatti

Me = 24 +34− 24

0.53 +−0.27(0.50− 0.27) = 32.85.

La Figura 3.4 riporta il grafico delle frequenze cumulate relative per l’eta delle pendolari

donne e dei pendolari uomini. Abbiamo tracciato le rette F = 0.50 e dove queste interse-

cano la curva delle frequenze relative abbiamo tracciato la corrispondente retta verticale.

Page 66: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

64 CAPITOLO 3. VALORI MEDI

0 20 40 60 80

0.00.2

0.40.6

0.81.0

Frequenze cumulate donne

età

F F=50

età=32.85

0 20 40 60 80

0.00.2

0.40.6

0.81.0

Frequenze cumulate uomini

età

F F=50

età=34

Figura 3.4: Frequenze cumulate relative per l’eta delle pendolari donne e dei pendolariuomini

Esercizio 3.4.2 L’eta del primo bacio e 14 anni. Lo scarto quadratico medio e 2.41 che

possiamo arrotondare a due anni e mezzo. L’eta media del primo rapporto risulta 16.88

che possiamo arrotondare a 17 anni, con una standard deviation di 2 anni.

Page 67: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Capitolo 4

La variabilita

Come abbiamo sottolineato all’inizio di questa dispensa si puo affermare senza troppi dub-

bi che lo scopo principale della statistica e la comprensione delle cause della variabilita.

In questo capitolo presentiamo alcuni indici di variabilita che, insieme agli indici dati nel

capitolo precedente che sintetizzano con un numero tutti i valori osservati sul campione

della variabile, invece ci danno informazioni su quanto e come i valori osservati si distri-

buiscano attorno al valore centrale. Presenteremo tre di questi indici: il range, lo scarto

interquartile e lo scarto quadratico medio o standard deviation. Accanto a quest’ultimo

daremo anche la definizione di varianza che tanta importanza avra nella parte di statistica

inferenziale. Prima di introdurre tali indici facciamo qualche considerazione di carattere

generale sulla variabilita. Prima di tutto cerchiamo di capire perche non basta dare solo

l’informazione sintetizzata da un valore medio. Osserviamo le due distribuzioni nel grafico

seguente.

Istogramma di x

x

Density

50 100 150

0.000

0.005

0.010

0.015

0.020

0.025

0.030

0.035

Istogramma di y

y

Density

50 100 150

0.000

0.005

0.010

0.015

0.020

0.025

0.030

0.035

Si tratta di due distribuzioni che hanno la stessa media e la stessa mediana, ma non

possiamo certo dire che fornendo solo l’informazione sul valor medio possiamo descrivere

65

Page 68: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

66 CAPITOLO 4. LA VARIABILITA

due situazioni cosı diverse. D’altro canto anche senza conoscere il valor medio di due

distribuzioni, l’informazione che ricaviamo dalla variabilita osservando le due distribuzioni

nel grafico seguente e fondamentale. Il fenomeno nel grafico di sinistra e poco variabile

e molto concentrato attorno al suo valore centrale. Il fenomeno di destra e molto meno

concentrato e molto piu variabile attorno al suo valore medio.

Piccola variabilità

x

densità

0.00.1

0.20.3

0.4

Grande variabilità

x

densità

0.00.1

0.20.3

0.4

Il fenomeno rappresentato potrebbe essere l’eta al matrimonio di un campione di donne

negli anni ’40 e di un altro campione di donne negli anni 2000. Non sapendo quale che sia

l’eta media in cui queste donne si sposavano, l’informazione sulla variabilita e fondamentale

per dire che negli anni 2000 l’eta del primo matrimonio e molto piu variabile.

4.1 Il range e lo scarto interquartile

Il range e lo scarto interquartile sono due misure della variabilita che di solito accom-

pagnano la mediana come misura del valor medio (inteso come valore centrale) di una

distribuzione. Vediamo la definizione di entrambi e poi calcoliamo entrambi gli indici per

i dati di un esempio. Il range (si utilizza il termine inglese che in italiano potrebbe essere

tradotto con campo di variazione) misura l’ampiezza totale del dataset o delle osservazioni.

Definizione 4.1.1 (Range). E definito come la differenza tra il valore piu grande osservato

e il valore piu piccolo osservato. In formula:

Range = max{x1, x2, . . . xn} −min{x1, x2, . . . xn}

Lo scarto interquartile a differenza del range non considera tutto il campo di variazione

delle osservazioni ma solo la parte centrale.

Page 69: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

4.2. SCARTO QUADRATICO MEDIO E VARIANZA 67

Definizione 4.1.2 (Scarto interquartile). Date n osservazioni x1, . . . , xn, siano Q1 e Q3

rispettivamente il primo e il terzo quartile. Lo scarto interquartile e dato da

IQ = Q3 −Q1.

Di solito lo scarto interquartile viale utilizzato quando le osservazioni hanno una

distribuzione asimmetrica e si e utilizzata la mediana come misura del valore centrale.

Esempio 4.1.3. Durante la visita dei servizi sociali ad un campo rom alla periferia di

Roma e stato chiesto alle 13 madri presenti al campo il peso dei loro 13 primogeniti alla

nascita. La seguente tabella riporta i pesi dei 13 neonati. Calcolare la mediana il range e

1 2 3 4 5 6 7 8 9 10 11 12 13

kg 2.5 4.0 3.5 3.0 3.1 3.0 4.0 2.5 3.5 3.0 2.8 3.0 4.7

Tabella 4.1: Peso in kg di 13 neonati in un campo rom.

lo scarto interquatile del peso dei tredici neonati. Prima di tutto ordiniamo le osservazioni

dalla piu piccola alla piu grande. La seguente tabella riporta i dati ordinati.

2.5 2.5 2.8 3.0 3.0 3.0 3.0 3.1 3.5 3.5 4.0 4.0 4.7

Il peso mediano e l’osservazione che occupa la settima posizione (ricordare: (n + 1)/2 =

14/2 = 7). Quindi Me = 3.0 kg. Il range e dato dalla differenza tra l’osservazione piu

grande e l’osservazione piu piccola:

Range = 4.7− 2.5 = 2.2

Mentre il primo e il terzo quartile occupano rispettivamente la posizione 0.25(n+ 1) = 3.5

e 0.75(n+ 1) = 10.5. Quindi

Q1 =2.8 + 3.0

2= 2.9, Q3 =

3.5 + 4.0

2= 3.75, IQ = Q3 −Q1 = 3.75− 2.9 = 0.85.

Possiamo quindi concludere che il il peso mediano dei neonati e 3 kg con un campo di

variazione di 2.2 kg. Oppure concludere che il il peso mediano dei neonati e 3 kg con una

variabilita (data dallo scarto interquartile) di 0.85 kg, ovvero di 850 g.

4.2 Scarto quadratico medio e varianza

Lo scarto quadratico medio (in inglese standard deviation) misura la variabilita come media

degli scarti al quadrato di ogni osservazione dalla media aritmetica. Di solito si utilizza

quando la media aritmetica viene usata come misura della tendenza centrale.

Page 70: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

68 CAPITOLO 4. LA VARIABILITA

Definizione 4.2.1 (Scarto quadratico medio). Siano x1, . . . , xn, n osservazioni e sia x la

media aritmetica delle n osservazioni. La quantita

s =

√√√√ 1

n− 1

n∑i=1

(xi − x)2 (4.1)

si chiama scarto quadratico medio ovvero deviazione standard.

In pratica per calcolare lo scarto quadratico medio occorre calcolare nell’ordine:

1. la media aritmetica x = 1n

∑ni=1 xi;

2. gli n scarti (o residui) delle osservazioni della media: xi − x per ogni i = 1, 2, . . . , n;

3. elevare ogni scarto al quadrato: (xi − x)2 per ogni i = 1, 2, . . . , n;

4. sommare tutti i residui al quadrato:∑n

i=1(xi − x)2;

5. dividere la somma dei residui al quadrato per n− 1: 1n−1

∑ni=1(xi − x)2;

6. calcolare la radice quadrata:√

1n−1

∑ni=1(xi − x)2.

Il risultato ottenuto si denota con s.

Osservazione 4.2.2. La somma di tutti i residui e nulla. Infatti

n∑i=1

(xi − x) =n∑i=1

xi − nx

Dividendo entrambi i membri per n e ricordando la definizione di media aritmetica otte-

niamo1

n

n∑i=1

xi −n

nx = x− x = 0.

Da questa osservazione deriva il fatto che la somma di tutti i residui non puo essere

usata come indicatore della variabilita perche e sempre nulla. La varianza e semplice-

mente lo scarto quadratico medio elevato al quadrato, oppure possiamo dire che lo scarto

quadratico medio e la radice quadrata della varianza!

Definizione 4.2.3 (Varianza). Date n osservazioni x1, . . . , xn, sia x la media aritmetica

delle n osservazioni. La quantita

s2 =1

n− 1

n∑i=1

(xi − x)2 (4.2)

si chiama varianza.

Page 71: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

4.2. SCARTO QUADRATICO MEDIO E VARIANZA 69

La varianza e una statistica che rivestira un ruolo molto importante nell’inferenza

statistica. Come indice di variabilita e invece poco usato perche non e espresso nella

stessa untia di misura delle osservazioni, bensı al quadrato.

Viene spontaneo chiedersi perche dividiamo per n− 1 invece che per n la somma degli

n residui al quadrato per ottenere la varianza e lo scarto quadratico medio. Dopotutto

abbiamo definito la media di n valori come la loro somma divisa per n. Il motivo e legato

al fatto che dividendo per n − 1 si ottiene una stima piu precisa della varianza di una

distribuzione. Osserviamo che quando si divide una quantita per n−1 si ottiene un valore

piu grande che se avessimo diviso per n. Cioe se avessimo diviso per n avremmo ottenuto

una stima troppo bassa per la varianza. Questo si puo giustificare con il fatto che le n

osservazioni si utilizzano gia una volta per ottenere la media (quindi per stimare il valore

centrale) e poi ancora una volta per calcolare la somma egli scarti. Con questa seconda

operazione si dice che si perde un grado di liberta. Ma torneremo piu avanti su questo

concetto.

Esempio 4.2.4. Riprendiamo i dati dell’Esempio 4.1.3. La tabella riporta i dati per il

calcolo della standard deviation. La media e x = 3.28 Quindi

xi (xi − x) (xi − x)2

1 2.50 -0.777 0.6042 4.00 0.723 0.5233 3.50 0.223 0.0504 3.00 -0.277 0.0775 3.10 -0.177 0.0316 3.00 -0.277 0.0777 4.00 0.723 0.5238 2.50 -0.777 0.6049 3.50 0.223 0.050

10 3.00 -0.277 0.07711 2.80 -0.477 0.22712 3.00 -0.277 0.07713 4.70 1.423 2.025

sum 42.6 0.000 4.943

s =

√1

124.943 =

√0.411 = 0.641.

Possiamo concludere che il peso medio dei neonati e di 3.28 kg con uno scarto quadratico

medio di 641 grammi. Si scrive x± s ovvero in questo esempio 3.28± 0.64.

Esercizio 4.2.5. Si calcoli la mediana, il range e lo scarto interquartile e quindi la media

aritmetica, la standard deviation e la varianza per i dati dell’Esempio 4.1.3 togliendo

l’ultima osservazione.

Page 72: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

70 CAPITOLO 4. LA VARIABILITA

Esercizio 4.2.6. I dati nella seguente tabella rappresentano le altezze in cm di 11 giocatori

di una squadra di pallavolo. Calcolare la media aritmetica e lo scarto quadratico medio.

1 2 3 4 5 6 7 8 9 10 11

h (cm) 9 190 185 182 208 186 187 189 179 183 191 179

Fare il grafico dei residui. Calcolare la media e lo scarto quadratico medio quando viene

tolta la quarta osservazioni 208 cm.

Esercizio 4.2.7. La seguente tabella riporta il numero di partner maschili nell’ultimo

anno di 21 donne che hanno usufruito dei servizi offerti da un consultorio nel territorio di

Milano Calcolare la media aritmetica, lo scarto quadratico medio, la mediana e lo scarto

1 1 1 16 0 1 22 3 0 1 1 1 30 2 2 12 0 3 4

interquartile. Quale dei due gruppi di indici (uno per il valore centrale e uno per la

variabilita descrivono meglio il fenomeno? Perche?

Page 73: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Capitolo 5

Operazioni sui dati

Molto spesso i dati vengono trasformati. Trasformare i dati non significa manipolarli o

falsificarli ma semplicemente renderli piu comprensibili o piu facili da studiare e analizzare.

Le ragioni per cui trasformare i dati sono le piu diverse. Le principali sono dovute al

bisogno di confrontare distribuzioni registrate in diverse scale, per trovare errori nei dati

e per migliorare la qualita dei dati stessi. Ad esempio puo essere di interesse studiare

come e se e cambiato il PIL nei paesi della zona Euro prima e dopo l’avvento della moneta

unica. In questo caso dovremo convertire i dati degli anni precedenti il passaggio all’Euro

nella monete comunitaria. Oppure quando vogliamo sapere se un certo punteggio (score) e

sopra o sotto la media. Per quanto riguarda la qualita dei dati a volte alcune informazioni

sono inconsistenti, come ad esempio se l’eta del licenziamento avviene prima dell’eta del

primo impiego.

Le operazioni che presenteremo sui dati sono le trasformazioni di scala e la standar-

dizzazione.

5.1 Trasformazioni di scala

La seguente tabella riporta il peso di 5 donne prima di una dieta, gli scarti dalla media e gli

scarti al quadrato. Calcoliamo il peso medio x = 60 e la deviazione standard s =√

1005−1 =

i xi (xi − x) (xi − x)2

1 55 -5 252 67 7 493 56 -4 164 63 3 95 59 -1 1

300 0 100

5. Dopo 2 settimane di dieta il peso, gli scarti dalla media e gli scarti al quadrato sono

riportati nella seguente tabella. Tutte le donne sono calate di 4 kg. Il peso medio e x = 56

71

Page 74: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

72 CAPITOLO 5. OPERAZIONI SUI DATI

i xi (xi − x) (xi − x)2

1 51 -5 252 63 7 493 52 -4 164 59 3 95 55 -1 1

280 0 100

mentre la deviazione standard e ancora s = 5. Si osservi infatti che nella seconda tabella

gli scarti e gli scarti al quadrato non sono cambiati per nessuna delle osservazioni. Questa

e una regola generale: aggiungendo o sottraendo una costante a tutte le osservazioni la

media cambia per il valore di quella costante mentre lo scarto quadratico medio rimane

inalterato. Abbiamo quindi piu formalmente la seguente proposizione.

Proposizione 5.1.1. Siano x1, x2, . . . , xn, n osservazioni. Indichiamo con x la media

campionaria e con sx la deviazione standard delle n osservazioni. Sia a una costante

qualunque (positiva o negativa). Consideriamo la trasformazione

yi = xi + a

Abbiamo

y = x+ a

Mentre la deviazione standard non cambia.

Dimostrazione. Poiche yi = xi + a per ogni i = 1, 2, , . . . , n abbiamo

y =1

n

n∑i=1

(xi + a) =1

n

n∑i=1

xi +1

nna = x+ a.

ovvero la media dei dati trasformati y e uguale alla media dei dati da cui siamo par-

titi x piu la costante a. Denotiamo ora con sx lo scarto quadratico medio delle osser-

vazioni x1, . . . , xn, e analogamente con sy lo scarto quadratico medio delle osservazioni

trasformate. Poiche abbiamo appena dimostrato che y = x+ a abbiamo

sy =

√√√√ 1

n− 1

n∑i=1

(yi − y)2 =

√√√√ 1

n− 1

n∑i=1

(xi + a− (x+ a))2

=

√√√√ 1

n− 1

n∑i=1

(xi − x)2 = sx

Lo scarto quadratico medio non cambia se si somma o se si sottrae una costante.

Page 75: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

5.1. TRASFORMAZIONI DI SCALA 73

Supponiamo adesso che invece che essere tutte diminuite di 4 kg, tutte le donne abbiano

perso il 10% del loro peso. Indichiamo con zi il peso dopo la diminuzione del 10%. Si ha

zi = xi − 0.1 · xi ovvero zi = 0.9 · xi. La media del nuovo peso e z = 54 e la standard

deviation e sz =√

814 = 4.5. I conti per ottenere la media e lo scarto quadratico medio

sono riportati nella seguente tabella.

i zi (zi − z) (zi − z)2

1 49.5 -4.5 20.252 60.3 6.3 39.693 50.4 -3.6 12.964 56.7 2.7 7.295 53.1 -0.1 0.81

270 0 81

Osserviamo che 54 e il 10% meno di 60, e 4.5 e il 10% meno di 5. Quindi se si moltiplica

o si divide ogni osservazione per una costante sia la media che lo scarto quadratico medio

dei dati trasformati risultano moltiplicati o divisi per quella stessa costante. Abbiamo

quindi la seguente proposizione

Proposizione 5.1.2. Siano x1, x2, . . . , xn, n osservazioni. Indichiamo con x la media

campionaria e con sx la deviazione standard delle n osservazioni. Sia b una costante

qualunque (positiva). Consideriamo la trasformazione

yi = bxi

Abbiamo

y = bx sy = bsx

Dimostrazione. Poiche yi = bxi per ogni i = 1, 2, , . . . , n abbiamo

y =1

n

n∑i=1

(bxi) =1

nb

n∑i=1

xi = bx.

Si noti infatti che nella prima somma scritta per esteso abbiamo

1

n

n∑i=1

(bxi) =bx1 + bx2 + · · · bxn

n=b(x1 + x2 + · · ·+ xn)

n=

1

nb

n∑i=1

xi

ovvero la media dei dati trasformati y e uguale alla media dei dati da cui siamo partiti x

moltiplicati per la stessa costante b. Denotiamo ora con sx lo scarto quadratico medio delle

osservazioni x1, . . . , xn, e analogamente con sy lo scarto quadratico medio delle osservazioni

Page 76: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

74 CAPITOLO 5. OPERAZIONI SUI DATI

trasformate. Poiche abbiamo appena dimostrato che y = bx abbiamo

sy =

√√√√ 1

n− 1

n∑i=1

(yi − y)2 =

√√√√ 1

n− 1

n∑i=1

(bxi − bx)2

=

√√√√ 1

n− 1b2

n∑i=1

(xi − x)2 = bsx

ovvero lo scarto quadratico medio dei dati trasformati sy e uguale allo scarto quadratico

medio dei dati da cui siamo partiti sx moltiplicati per la stessa costante b.

La Figura 5.1 rappresenta come la variabilita di una distribuzione aumenti se moltipli-

chiamo per una costante piu grande di uno, mentre diminuisce se moltiplichiamo per una

costante piu piccola di uno.

2*x

densità

0.00.1

0.20.3

0.4

x

densità

0.00.1

0.20.3

0.4

1/2*x

densità

0.00.1

0.20.3

0.4

Figura 5.1: La variabilita aumenta (a sinistra) o diminuisce (a destra) a seconda se simoltiplica per una costante minore o maggiore di uno una distribuzione qualunque (incentro).

Un vantaggio di questo tipo di trasformazioni e che se sappiamo con che tipo di tra-

sformazione di scala si passa da una osservazione all’altra possiamo calcolare la media e lo

scarto quadratico medio per i dati trasformati senza rifare i conti per i dati trasformati ma

semplicemente trasformando con la stessa trasformazione la media e lo scarto quadratico

medio dei dati trasformati.

5.2 Standardizzazione

L’operazione di standardizzazione di un dato e un’operazione che riveste un ruolo fonda-

mentale in gran parte di tutta la statistica. La standardizzazione ci permette di confrontare

Page 77: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

5.2. STANDARDIZZAZIONE 75

e riportare ad una stessa scala dati provenienti da fonti, casi e unita diverse. Per capire

l’importanza partiamo da un esempio. Due studentesse Ada e Bea hanno superato una

l’esame di glottologia con voto 28, l’altra l’esame di filologia germanica con voto 27. Chi

ha ottenuto il miglior risultato? Se si guarda solo al voto si sarebbe tentati di rispondere

che ha ottenuto il miglior risultato Ada prendendo il voto piu alto rispetto al 27 di Bea. Il

confronto fatto in questo modo sarebbe corretto se entrambe avessero sostenuto lo stesso

esame. Essendo l’esame diverso non possiamo rispondere senza fare qualche considerazio-

ne. Nel corso di laurea seguito dalle due studentesse per l’esame di Glottologia la media

di tutti gli studenti che hanno superato l’esame e 26.5 mentre la deviazione standard e

1.5. Per il corso di Filologia germanica invece la media e 24.2 e la deviazione standard e 2.

Quindi sembra essere molto piu difficile prendere un voto alto a Filologia germanica che

a Glottologia. Calcoliamo gli score di entrambi i voti di Ada e Bea. Significa esprimere

quante volte lo scarto quadratico medio il loro voto si e discostato dal valor medio.

Ada:28− 26.5

1.5= 1 Bea:

27− 24.2

2= 1.4

Bea ha ottenuto il risultato migliore, il suo risultato e 1.4 volte la standard deviation

sopra la media, mentre il risultato di Ada e solo 1 volta la s.d. sopra la media. In sostanza

standardizzare un dato vuol dire esprimere la sua distanza dal valor medio come multipli

dello scarto quadratico medio. In pratica si calcola quante volte lo scarto quadratico medio

sta nella differenza tra valore osservato e media. Supponiamo che una terza studentessa

Clio, abbia preso in filologia germanica voto 23. In questo caso il suo voto e inferiore al

valor medio, quindi la differenza tra il voto riportato e la media dei voti in quella materia

e negativo. Lo score risulta

Clio:23− 24.2

2= −0.60.

Quindi Clio ha ottenuto un voto che e 6/10 lo scarto quadratico medio inferiore alla media.

In generale il valore standardizzato di una osservazione proveniente da una popolazione

con media µ e standard deviation σ si puo sempre scrivere come

z =x−Media

Standard Deviationovvero z =

x− µσ

Possiamo scrivere

z =x− µσ

⇒ x = µ+ z · σ

ovvero si puo sempre scrivere

x = Media + z · Standard Deviation ovvero x = µ+ z · σ

Definizione 5.2.1. Lo score o valore standardizzato di un’osservazione xi da una popo-

lazione con media µ e standard deviation σ e calcolato come segue:

zi =xi − µσ

Page 78: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

76 CAPITOLO 5. OPERAZIONI SUI DATI

Se µ e σ non sono note non e possibile ricavare il valore standardizzato di una osser-

vazione, allora lo score si puo calcolare come

zi =xi − xsx

dove x e la media calcolata su tutte le osservazioni e sx e la standard deviation calcolata

su tutte le osservazioni.

Lo score misura il numero di standard deviation che un’osservazione si allontana dal

valore medio.

• score positivo: l’osservazione e sopra la media di z volte la standard deviation.

• score negativo: l’osservazione e sotto la media di z volte la standard deviation.

• score nullo: l’osservazione e uguale alla media.

Gli score hanno uno proprieta molto utile. Cerchiamo di derivarla partendo da un

esempio. Per i valori del paso delle 5 donne considerate all’inzio della sezione precedente,

calcoliamo i valori standardizzati (gli score) dei 5 pesi e quindi calcoliamo la media e lo

scarto quadratico medio dei valori standardizzati per i pesi delle 5 donne. I conti sono

riportati nella seguente tabella. Ricordiamo che il peso medio delle 5 donne e x = 60 kg

con una standard deviation sx = 5 kg.

1 2 3 4 5 somma

Peso: xi 55 67 56 63 59 300Peso-media: xi − x -5 7 -4 3 -1 0score: zi = xi−x

sx-1.00 1.40 -0.80 0.60 -0.20 0

score2: z2i 1.00 1.96 0.64 0.36 0.04 4

Possiamo quindi calcolare la media e lo scarto quadratico medio dei pesi standardizzati

media score: z = 0, s.d. score sz =

√4

4= 1

Il fatto che la media degli score sia zero e lo scarto quadratico medio degli score sia 1, non

e un caso.

Proposizione 5.2.2. Siano x1, x2, . . . , xn, n osservazioni. Indichiamo con x la media

campionaria e con sx la deviazione standard delle n osservazioni. Indichiamo con zi i

valori standardizzati

zi =xi − xsx

.

Allora

z =1

n

n∑i=1

zi = 0 e sz =

√√√√ 1

n− 1

n∑i=1

(zi − z)2 = 1

Page 79: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

5.2. STANDARDIZZAZIONE 77

Dimostrazione. Poiche sx e una costante e la somma di tutti gli scarti e nulla (ricordare

l’Osservazione 4.2.2), abbiamo

z =1

n

n∑i=1

zi =1

n

n∑i=1

(xi − xsx

)=

1

n

1

sx

n∑i=1

(xi − x) = 0

Passando al calcolo per la standard deviation, poiche z = 0 e per la definizione di sx,

abbiamo

sz =

√√√√ 1

n− 1

n∑i=1

(zi − z)2 =

√√√√ 1

n− 1

n∑i=1

z2i =

√√√√ 1

n− 1

n∑i=1

(xi − x)2

sx=

√sxsx

= 1.

Esempio 5.2.3. Per 6 esami del corso di laurea in lettere le medie e gli scarti quadratici

medi sono riportati nella seguente tabella. Tre studentesse hanno sostenuto i seguenti

media sd

Inglese 24.3 1.3Tedesco 25.5 2.1Francese 23.8 1.4Giapponese 26.1 1.8Russo 25.6 2.2Statistica sociale 24.4 2.3

esami con le votazioni riportate:

• Ada: Inglese 25, Francese 25, Giapponese 27, Russo 28

• Bea: Tedesco 24, Francese 26, Russo 27, Stat. Sociale 28

• Clio: Inglese 23, Tedesco 26, Francese 22, Giapponese 27, Russo 24

Chi ha ottenuto il migliore risultato?

Esercizio 5.2.4. L’indice di deprivazione si basa su tre variabili rilevate in ogni comune:

la percentuale di persone che non possiede un auto, riportata in tabella nella colonna NO

Auto, la percentuale di persone che e affetto da una patologia debilitante grave, riportate

nella colonna Malattia e la percentuale di coloro che non sono proprietari della casa dove

abitano, nella colonna NO Casa. Nella seguente tabella sono riportate le percentuali di

queste variabili rilevate in un campione non specificato in 6 comuni della provincia di

Bergamo. Determinare in quale comune della provincia l’indice di deprivazione e il piu

elevato.

Quale e il comune piu deprivato?

Page 80: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

78 CAPITOLO 5. OPERAZIONI SUI DATI

comuni NO Auto % Malattia % NO Casa %

Bergamo 25.4 11.3 29.9Trescore 56.9 16.1 56.4Dalmine 31.6 11.8 35.3Albino 32.6 12.5 32.9Clusone 25.6 12.2 34.7Osio 24.4 11.3 43.8

Page 81: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Capitolo 6

Siamo tutti normali?

In questo capitolo studiamo una distribuzione fondamentale per tutta la statistica: la di-

stribuzione normale. Supporre che un fenomeno sia Normale (cioe abbia una distribuzione

Normale) e abbastanza nomale in diversi settori della ricerca in particolare anche nello

studio dei fenomeni sociali. Ad esempio di qui in avanti supporremo che dal punto di

vista teoriche tutti i fenomeni che abbiamo incontrato siano distribuiti con questa distri-

buzione: la distribuzione normale. Quindi per rispondere alla domanda che da il titolo al

capitolo: sı siamo tutti normali! A cominciare dalla forma della collina che compare nella

foto riportata in Figura 6.1 e dalla forma della campana riportata in Figura 6.2. Infatti la

distribuzione normale e conosciuta anche come la bell shaped distribution: la distribuzione

a forma di campana.

6.1 La curva e normale!

La distribuzione normale e una distribuzione teorica. Le distribuzioni teoriche si distin-

guono da quelle empiriche perche non sono determinate partendo dai dati (o almeno non

direttamente) ma perche sono date da una formula matematica che ne fornisce la forma

e le caratteristiche salienti come media e scarto quadratico medio. Fino ad ora abbiamo

avuto a che fare con distribuzioni empiriche: partendo dai dati osservati di una certa

distribuzione venivano costruite le forme delle distribuzioni attraverso l’istogramma e i

valori di sintesi come media (aritmetica) mediana, quartili, percentili, scarto quadratico

medio, varianza, range, scarto interquartile. La distribuzione teorica invece e data da una

formula matematica (che non riportiamo qui ma che riportiamo alla fine del capitolo per

i piu curiosi) le cui caratteristiche sono le seguenti:

1. La distribuzione normale e simmetrica attorno al suo valore centrale che coincide

con la media (aritmetica) la mediana e la moda della distribuzione.

79

Page 82: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

80 CAPITOLO 6. SIAMO TUTTI NORMALI?

Figura 6.1: La collina normale.

2. La maggior parte dei valori si distribuisce attorno a questo valore centrale secondo

modalita che verrano specificate tra poco.

3. Pochi valori si distribuiscono lontano da questo valore centrale.

4. La curva man mano che si allontana dal valore centrale si avvicina sempre piu all’asse

delle ascisse senza pero mai toccarlo.

La Figura 6.3 riporta il grafico di tre curve normali per le quali il valore centrale e lo stesso.

Il valore centrale viene indicato con la lettera greca mu, µ. Quindi per le distribuzioni in

figura µ = 15.

Le curve delle distribuzioni normali in Figura 6.3 hanno tutte la stessa media, ma non

si puo negare che siano molto diverse tra loro: i fenomeni che rappresentano sono molto

diversi tra loro. Questa diversita e data dalla forma, da quanto i valori della distribuzione

si distribuiscono attorno alla media in termini di multipli dello scarto quadratico medio.

La distribuzione normale e molto comoda perche e caratterizzata oltre che dalla media

µ da solo un’altra grandezza che e lo scarto quadratico medio, che viene indicato con la

lettera greca sigma, che si scrive σ. Le distribuzioni in Figura 6.3 hanno rispettivamente

σ = 1 la blu, σ = 2 la nera e σ = 5 la rossa.

Page 83: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

6.1. LA CURVA E NORMALE! 81

Figura 6.2: La campana normale. Foto Ditta Colaci.

Le curve in Figura 6.3 sono molto diverse tra loro, ma quello che hanno in comune sono

alcune caratteristiche. Queste sono date dall’area della curva sotto determinati intervalli

di valori. Precisamente valgono le seguenti proprieta per le aree sotto la curva normale.

Indichiamo con µ la media e con σ lo s.q.m di una Normale. Per ogni distribuzione normale

1. L’area sotto la curva e 1

2. L’area tra µ− σ e µ+ σ e 0.682 (il 68.2% delle osservazione sta tra µ− σ e µ+ σ)

3. L’area tra µ−2σ e µ+2σ e 0.954 (il 95.4% delle osservazione sta tra µ−2σ e µ+2σ)

4. L’area tra µ−3σ e µ+3σ e 0.998 (il 99.8% delle osservazione sta tra µ−3σ e µ+3σ)

La distribuzione Normale ammette, almeno in via teorica che la variabile di interesse

possa assumere valori sempre piu grandi e anche sempre piu piccoli del valore medio

µ. Il valore piu grande che non potra mai essere raggiunto e piu infinito, si indica col

simbolo +∞ e giace all’estremita destra dell’asse dove rappresentiamo il fenomeno (l’asse

delle ascisse). Il valore piu piccolo che non potra mai essere raggiunto e meno infinito,

si indica col simbolo −∞ e giace all’estremita sinistra dell’asse dove rappresentiamo il

fenomeno (l’asse delle ascisse). La curva della distribuzione nomale quindi e centrata in

µ e simmetrica rispetto a µ e tanto piu stretta e alta tanto piu il valore dello scarto

quadratico medio σ e piccolo (cioe c’e poca variabilita attorno al valor medio µ), mentre

e tanto piu larga e bassa tanto piu il valore dello scarto quadratico medio σ e grande

Page 84: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

82 CAPITOLO 6. SIAMO TUTTI NORMALI?

0 5 10 15 20 25 30

0.0

0.1

0.2

0.3

0.4

Curva Normale

x

dens

ità

Figura 6.3: Distribuzioni normali con la stessa media ma diverso scarto quadratico medio.

(cioe c’e tanta variabilita attorno al valor medio µ). Per ogni valore di µ e σ la curva della

distribuzione Normale si avvicina all’asse delle ascisse da entrambi i lati senza mai toccarla

se non all’infinito (si dice che e asintotica all’asse delle ascisse). L’area complessiva tra la

curva Normale e l’asse delle ascisse vale sempre 1 e la maggior parte di quest’area si trova

tra i valori µ−3σ e µ+3σ. Solo per rendere un idea di cosa significa maggior parte, l’area

sotto la curva Normale da µ− 5σ a −∞ e 0.0000003, cioe in genere 3 casi ogni 10 milioni!

Come abbiamo detto la distribuzione normale e una distribuzione teorica. Noi avremo

a che fare con distribuzioni empiriche. Il legame tra la distribuzione empirica e quella

teorica e pero molto stretto. Un fenomeno empirico e lecito ritenere che abbia una distri-

buzione Normale quando calcolati x e s su un campione abbastanza numeroso, e disegnato

l’istogramma delle frequenze relative si osserva che:

1. l’istogramma e simmetrico rispetto alla media aritmetica x;

2. circa il 68.2% delle osservazioni del campione sta tra x− s e x+ s;

3. circa il 95.4% delle osservazioni del campione sta tra x− 2s e x+ 2s;

4. circa il 99.8% delle osservazioni del campione sta tra x− 3s e x+ 3s;

5. praticamente nessun valore sta oltre x− 4s e x+ 4s

Se un fenomeno riteniamo si possa distribuire come una Normale, secondo quanto descritto

sopra, possiamo ritenere noti la media µ e lo scarto quadratico medio σ della distribuzione

(nella pratica saranno considerati µ = x e σ = s).

Page 85: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

6.1. LA CURVA E NORMALE! 83

Esempio 6.1.1. La distribuzione empirica dei voti di 1200 studenti che hanno sostenuto

l’esame di statistica e riportato nella Figura Figura 6.4. Insieme all’istogramma dei voti

di 1200 studenti che hanno sostenuto l’esame di statistica abbiamo tracciato il grafico della

distribuzione Normale con mu pari alla media calcolata sul campione che e x = 24.002 e

deviazione standard σ pari a quella calciata sul campii che e s = 1.5. Come si vede la curva

teorica si sovrappone molto bene all’istogramma ricavato empiricamente e le porzioni di

frequenze relative descritte sopra vengono rispettate.

Distribuzione dei voti, normale

x

Den

sity

18 20 22 24 26 28 30

0.00

0.05

0.10

0.15

0.20

0.25

Figura 6.4: Distribuzione empirica e distribuzione teorica dei voti di 1200 studenti. Isto-gramma dei voti all’esame di statistica: Media=24.002, Mediana= 24, moda=24, sd= 1.5,curva normale con media 24 e sd=1.5

E importante notare che dati i valori di µ e σ caratterizziamo completamente la di-

stribuzione normale, cioe la identifichiamo e siamo in grado di disegnarla. Ad esempio se

sappiamo che una certa distribuzione di redditi e normale con media µ = 15000 e standard

deviation σ = 3000, il grafico e quello riportato in Figura 6.5.

Se sappiamo che l’eta a cui viene dato il primo bacio (esempio presentato nella Sezione

2.7.3) e distribuita come una normale con media µ = 14 anni e scarto quadratico medio

σ = 2.5 anni (due anni e mezzo) il grafico e riportato in Figura 6.6.

Ancora dall’esperienza personale basata su 1200 esami effettuati, posso ritenere che la

distribuzione del voto di statistica alla facolta di ingegneria sia normale con media µ = 24

e scarto quadratico medio σ = 1.5. Il grafico e riportato nella Figura 6.7

Possiamo ora rispondere alle seguenti domande e ad altre simili:

1. Che proporzione di popolazione di studenti ha preso un voto che sta tra µ e µ+ 2σ,

cioe un voto tra 24 e 27?

Page 86: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

84 CAPITOLO 6. SIAMO TUTTI NORMALI?

0 5000 10000 15000 20000 25000 30000

0.00

000

0.00

004

0.00

008

0.00

012

Distribuzione dei redditi

x

dnor

m(x

, 150

00, 3

000)

Figura 6.5: Distribuzioni dei redditi normale con µ = 15000 euro σ = 3000 euro.

2. Che proporzione di popolazione di redditieri ha un reddito compreso tra µ− σ e µ,

ovvero un reddito comrpeso tra 12000 euro e 15000 euro?

3. Che proporzione di popolazione di redditieri ha un reddito minore di µ− σ, ovvero

un reddito minore di 12000 euro?

4. Che proporzione di popolazione di giovani uomini ha dato il primo bacio ad un eta

minore di µ − 2σ o maggiore di µ + 2σ, ovvero minore di 9 anni o maggiore di 19

anni?

Nell’ordine abbiamo

1. L’area sotto la curva normale tra µ e µ+2σ e 0.954/2, ovvero 0.477. La proporzione

richiesta e il 47.7%.

2. L’area sotto la curva normale tra µ− σ e µ e 0.682/2, ovvero 0.341. La proporzione

richiesta e il 34.1%.

3. L’area sotto la curva normale dal limite inferiore a µ− σ e 0.50− 0.341 = 0.159. La

proporzione cercata e quindi il 15.9 %

4. L’area sotto la curva normale dal limite inferiore a µ− 2σ e l’area da µ+ 2σ e data

da 1− 0.954 = 0.046. La proporzione richiesta e il 4.6%.

Per ogni distribuzione Normale con valore medio µ e scarto quadratico medio σ pos-

siamo dividere l’area tra la curva e l’asse delle ascisse in settori simmetrici per multipli di

Page 87: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

6.2. LA NORMALE STANDARDIZZATA 85

0 5 10 15 20 25 30

0.00

0.05

0.10

0.15

Distribuzione dell'età al primo bacio

x

dnor

m(x

, 14,

2.5

)

Figura 6.6: Distribuzioni dell’eta al primo bacio con µ = 14 anni σ = 2.5 anni.

σ e l’area di questi settori e riassunta in questa tabella:

Settore (−∞, µ− 3σ) (µ− 3σ, µ− 2σ) (µ− 2σ, µ− σ) (µ− σ, µ)Area 0.001 0.022 0.136 0.341

Settore (µ, µ+ σ) (µ+ σ, µ+ 2σ) (µ+ 2σ, µ+ 3σ) (µ+ 3σ,+∞, )Area 0.341 0.136 0.022 0.001

6.2 La normale standardizzata

Esistono quindi un’infinita di distribuzioni normali, una per ogni valore della media µ e

ogni valore dello scarto quadratico o medio σ. Tra tutte le normali c’e n’e una un po’

piu normale delle altre. Si tratta della normale standardizzata che e una distribuzione

normale con media µ = 0 e scarto quadratico medio σ = 1. Questa distribuzione riveste

un ruolo particolare perche e la distribuzione degli Z-scores di ogni distribuzione normale.

Prendiamo uno dei tre esempi della sezione precedente. La distribuzione dei redditi.

Indichiamo con x un reddito generico. La distribuzione di tutti i possibili redditi e una

distribuzione normale con media µ = 15000 e standard deviation σ = 3000. Consideriamo

adesso per un reddito generico x il suo z-score. Lo score del reddito e definito come

z =x− 15000

3000

per ogni reddito x. La distribuzione di tutti i possibili z-scores dei redditi segue una

distribuzione normale standardizzata, ovvero con media µ = 0 e scarto quadratico medio

σ = 1. Se consideriamo la distribuzione dei voti all’esame di statistica, si tratta di una

Page 88: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

86 CAPITOLO 6. SIAMO TUTTI NORMALI?

18 20 22 24 26 28 30

0.00

0.05

0.10

0.15

0.20

0.25

Distribuzione dei voti normale teorica

x

dnor

m(x

, 24,

1.5

)

Figura 6.7: Distribuzioni dei voti all’esame di statistica µ = 24 trentesimi σ = 1.5trentesimi.

distribuzione normale con media µ = 24 e scarto quadratico medio σ = 1.5. Se indico con

x il voto generico, lo z-score del voto e

z =x− 24

1.5

Anche in questo caso la distribuzione di tutti i possibili z-scores dei voti segue una distri-

buzione normale standardizzata, ovvero con media µ = 0 e scarto quadratico medio σ = 1.

Si puo generalizzare per ogni tipo di distribuzione normale. Abbiamo infatti il seguente

risultato.

Proposizione 6.2.1. Sia X un fenomeno con una distribuzione Normale con media µ e

scarto quadratico medio σ. Sia x uno dei possibili valori assunti da X. La distribuzione

di tutti i possibili score per ogni valore possibile x,

z =x− µσ

segue una distribuzione normale standardizzata.

Gli z-score sono importanti nella pratica perche riconducono ogni problema ad un

problema relativo a una sola distribuzione. Facendo riferimento agli esempi precedenti,

se si vuole conoscere la proporzione di studenti che ha un voto compreso tra 24 − 1.5 e

24 + 1.5, questa e pari alla proporzione di studenti che ha uno z-score del voto compreso

tra −1 e 1. Se si vuole conoscere la proporzione di redditieri che ha un reddito compreso

tra 15000 − 3000 e 15000 + 3000, questa e pari alla proporzione di redditieri che ha uno

Page 89: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

6.2. LA NORMALE STANDARDIZZATA 87

Distribuzione dei voti, normale empirica

x

Den

sity

18 20 22 24 26 28 30

0.00

0.05

0.10

0.15

0.20

0.25

Figura 6.8: Distribuzione empirica dei voti di 1200 studenti. Istogramma dei voti all’esamedi statistica: Media=24.002, Mediana= 24, moda=24, sd= 1.5

z-score del reddito compreso tra −1 e 1. In entrambi i casi trattandosi dell’area sotto una

curva normale di media µ = 0 e s.q.m. σ = 1, so che tale proporzione e pari al 68.26%. Se

voglio sapere la proporzione di redditieri con uno z-score tra −2 e 2, questa e equivalente

alla proporzione di redditieri che hanno un reddito compreso tra il valor medio e piu o

meno due standard deviation del reddito, ancora so che tale proporzione e il 95.46%. Ma la

distribuzione degli z score permette di rispondere a domande piu interessanti come quelle

nel seguente esempio.

Esempio 6.2.2. La distribuzione dei voti all’esame di statistica e normale con media

µ = 24 e s.q.m. σ = 1.5.

1. Prendete 28. Che proporzione di studenti hanno preso un voto maggiore del vostro?

2. Prendete 23. Che proporzione di studenti ha preso un voto minore del vostro?

3. Qual e il voto minimo che dovete prendere per essere tra il 60% degli studenti piu

bravi?

Per la rispondere alla prima domanda occorre calcolare l’area sotto la curva nomale

con media µ = 24 e σ = 1.5 dal valore 28 fino a piu infinito. Si noti che 28 non e esprimibile

come µ+kσ per k pari a 1, 2 o 3. Infatti 28 ha uno z score di (28−24)/1.5 = 2.67. Quindi

non e esprimibile come multiplo intero di σ, ma invertendo la definizione di z-score,

x = µ+ zσ

Page 90: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

88 CAPITOLO 6. SIAMO TUTTI NORMALI?

possiamo scrivere 28 = 24+2.67 ·1.5. L’area da 28 a +∞ sotto la curva normale con media

µ = 24 e s.q.m. σ = 1.5 e uguale all’area sotto la curva nomale standardizzata da 2.67 a

+∞. Si noti che 23 ha uno z score di (23 − 24)/1.5 = −0.67. Quindi non e esprimibile

come multiplo intero di σ. Io devo poter calcolare la proporzione di studenti che hanno

lo z score minore di −0.67. In questo modo conoscero la proporzione di studenti di cui

sono stato piu bravo, ovvero con uno z score minore del mio. Per rispondere alla terza

domanda, devo trovare quel voto per cui la proporzione di voti maggiori di quel voto sia

il 60%. Devo trovare lo z score tale per cui l’area sotto la curva normale standardizzata

dal valore z in poi sia pari a 0.60.

Prima di rispondere a queste domande dobbiamo introdurre la tavola dei valori della

normale standardizzata. Tali tavole riportano i valori dell’area sotto la curva Normale

standardizzata per diversi valori degli z score. Ne riportiamo alcune nell’Appendice A.

Esse sono tutte equivalenti, nel senso che i valori di una tavola possono essere dedotti da

una qualunque delle altre con semplici considerazioni geometriche basate sulla simmetria

della distribuzione Normale. Prendiamo ad esempio la Tabella A.1. I valori nella prima

colonna sono i valori degli z score fino alla prima cifra decimale. Sono i valori da 0.0

a 3.5. La seconda cifra decimale la troviamo invece nella prima riga, sono i valori 0.00,

fino a 0.09. I valori interni alla tavola corrispondono all’area sotto la curva normale da

0 fino al valore dello z score come mostra il grafico sopra la tavola. Per calcolare l’area

sotto la curva per l’intervallo (0, 1.51) si cerca il valore all’incrocio della riga 1.5 e della

colonna 0.01, cioe l’area e 0.434. Quest’area corrisponde alla probabilita che lo z score

assuma valori tra 0 e 1.51. Per capire come le tavole sono tutte equivalenti e chiaro che se

volessimo calcolare la probabilita che lo z score sia maggiore di 1.51, questa probabilita e

data dall’area sotto la curva da 1.51 all’infinito e tale area la ricaviamo da quella da 0 a

piu infinito che e 0.5 togliendo l’area da 0 a 1.51 che abbiamo ricavato dalla tavola, cioe

0.500− 0.434 = 0.066. Il valore 0.066 puo essere ricavato direttamente dalla Tabella A.2.

Questa tavola fornisce i valori delle aree da un qualunque z score positivo a piu infinito.

In corrispondenza dell’incrocio tra 1.5 e 0.01 di questa tavola troviamo infatti 0.066.

Quindi per rispondere alla prima domanda devo cercare nella Tabella A.2 lo z-score

2.67 e trovare il valore dell’area corrispondente. Il valore lo trovo all’incrocio tra la riga

di 2.6 e la colonna di 0.07: si tratta del valore 0.004. Quindi solo lo 0.4% di studenti

prendera un voto maggiore di 28. Si noti che tale valore poteva anche essere ricavato

da una qualunque delle altre tavole. Ad esempio dalla Tabella A.4 cercando il valore

corrispondente a 2.67, che e 0.996. L’area cercata e 1 − 0.994 = 0.004. Oppure dalla

Tavola A.3 cercando il valore corrispondente a -2.67, che e 0.496. L’area cercata in questo

caro e 0.500− 0.496 = 0.004.

Per quanto riguarda il secondo punto devo calcolare l’area da −∞ al valore −0.67.

Posso cercare il valore -0.67 nella Tabella A.3. Lo trovo in corrispondenza della riga con

Page 91: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

6.2. LA NORMALE STANDARDIZZATA 89

−0.6 e della colonna con −0.07. Il valore all’incrocio tra questa riga e questa colonna

riporta il valore: 0.249. L’area cercata e quindi 0.500 − 0.249 = 0.251. Posso concludere

che la percentuale cercata e il 25.1%. Lo stesso valore poteva essere ricavato direttamente

osservando che l’area cercata e la stessa calcolata da 0.67 a +∞ e quindi dalla Tabella A.2

incorrispondenza di 0.67, troviamo 0.251.

Per rispondere all’ultima domanda devo utilizzare le tavole in maniera inversa. In

questo caso conosco il valore di un area (trasformo la proporzione 60% in 0.60) e devo

trovare il valore dello z score che lascia alla sua destra sotto la curva normale un’area pari

a 0.60 ovvero alla sua sinistra un’area di 0.40. Cerco quindi tale valore ad esempio nella

Tabella A.4 e noto che nella tavola ci sono i valori 0.599 che lo approssima per difetto e che

corrisponde allo z score 0.25 e il valore 0.603 che lo approssima per eccesso e che corrisponde

allo z score 0.26. Il valore z che cerco puo essere scelto un due modi: o prendo il valore

tra i due z score con l’errore piu basso, in questo caso 0.25, perche 0.600− 0.599 = 0.001 e

minore di 0.603− 0.600 = 0.003. Oppure prendo il punto intermedio 0.255 tra 0.25 e 0.26.

z 0

Φ(z) = P(Z ≤ z) = ⌠⌡−∞

zf(x)dx

Figura 6.9: Area sotto la curva normale standardizzata della regione di valori minori delgenerico z score.

Esercizio 6.2.3. Il QI nella popolazione e noto che si distribuisce come una normale con

µ = 100 e standard deviation σ = 15.

• Tra quali valori di QI sta il 68.26% della popolazione centrale?

Page 92: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

90 CAPITOLO 6. SIAMO TUTTI NORMALI?

• Quale proporzione di popolazione ha un QI minore di 75?

• Quale proporzione di popolazione ha un QI minore di 105?

• Quale proporzione di popolazione ha un QI maggiore di 105?

• Quale proporzione di popolazione ha un QI maggiore di 130?

• Quale proporzione di popolazione ha un QI compreso tra 90 e 115?

• Quale proporzione di popolazione ha un QI compreso tra 95 e 105?

• A che QI corrisponde il 10% della popolazione con QI piu alto?

z 0.00 -0.01 -0.02 -0.03 -0.04 -0.05 -0.06 -0.07 -0.08 -0.090.0 0.50000 0.49601 0.49202 0.48803 0.48405 0.48006 0.47608 0.47210 0.46812 0.46414-0.1 0.46017 0.45620 0.45224 0.44828 0.44433 0.44038 0.43644 0.43251 0.42858 0.42465-0.2 0.42074 0.41683 0.41294 0.40905 0.40517 0.40129 0.39743 0.39358 0.38974 0.38591-0.3 0.38209 0.37828 0.37448 0.37070 0.36693 0.36317 0.35942 0.35569 0.35197 0.34827-0.4 0.34458 0.34090 0.33724 0.33360 0.32997 0.32636 0.32276 0.31918 0.31561 0.31207-0.5 0.30854 0.30503 0.30153 0.29806 0.29460 0.29116 0.28774 0.28434 0.28096 0.27760-0.6 0.27425 0.27093 0.26763 0.26435 0.26109 0.25785 0.25463 0.25143 0.24825 0.24510-0.7 0.24196 0.23885 0.23576 0.23270 0.22965 0.22663 0.22363 0.22065 0.21770 0.21476-0.8 0.21186 0.20897 0.20611 0.20327 0.20045 0.19766 0.19489 0.19215 0.18943 0.18673-0.9 0.18406 0.18141 0.17879 0.17619 0.17361 0.17106 0.16853 0.16602 0.16354 0.16109-1.0 0.15866 0.15625 0.15386 0.15151 0.14917 0.14686 0.14457 0.14231 0.14007 0.13786-1.1 0.13567 0.13350 0.13136 0.12924 0.12714 0.12507 0.12302 0.12100 0.11900 0.11702-1.2 0.11507 0.11314 0.11123 0.10935 0.10749 0.10565 0.10383 0.10204 0.10027 0.09853-1.3 0.09680 0.09510 0.09342 0.09176 0.09012 0.08851 0.08691 0.08534 0.08379 0.08226-1.4 0.08076 0.07927 0.07780 0.07636 0.07493 0.07353 0.07215 0.07078 0.06944 0.06811-1.5 0.06681 0.06552 0.06426 0.06301 0.06178 0.06057 0.05938 0.05821 0.05705 0.05592-1.6 0.05480 0.05370 0.05262 0.05155 0.05050 0.04947 0.04846 0.04746 0.04648 0.04551-1.7 0.04457 0.04363 0.04272 0.04182 0.04093 0.04006 0.03920 0.03836 0.03754 0.03673-1.8 0.03593 0.03515 0.03438 0.03362 0.03288 0.03216 0.03144 0.03074 0.03005 0.02938-1.9 0.02872 0.02807 0.02743 0.02680 0.02619 0.02559 0.02500 0.02442 0.02385 0.02330-2.0 0.02275 0.02222 0.02169 0.02118 0.02068 0.02018 0.01970 0.01923 0.01876 0.01831-2.1 0.01786 0.01743 0.01700 0.01659 0.01618 0.01578 0.01539 0.01500 0.01463 0.01426-2.2 0.01390 0.01355 0.01321 0.01287 0.01255 0.01222 0.01191 0.01160 0.01130 0.01101-2.3 0.01072 0.01044 0.01017 0.00990 0.00964 0.00939 0.00914 0.00889 0.00866 0.00842-2.4 0.00820 0.00798 0.00776 0.00755 0.00734 0.00714 0.00695 0.00676 0.00657 0.00639-2.5 0.00621 0.00604 0.00587 0.00570 0.00554 0.00539 0.00523 0.00508 0.00494 0.00480-2.6 0.00466 0.00453 0.00440 0.00427 0.00415 0.00402 0.00391 0.00379 0.00368 0.00357-2.7 0.00347 0.00336 0.00326 0.00317 0.00307 0.00298 0.00289 0.00280 0.00272 0.00264-2.8 0.00256 0.00248 0.00240 0.00233 0.00226 0.00219 0.00212 0.00205 0.00199 0.00193-2.9 0.00187 0.00181 0.00175 0.00169 0.00164 0.00159 0.00154 0.00149 0.00144 0.00139-3.0 0.00135 0.00131 0.00126 0.00122 0.00118 0.00114 0.00111 0.00107 0.00104 0.00100

Tabella 6.1: Tavola della Normale standard. Valori di Φ(z) = P (Z < z) per z negativi. Percalcolare P (Z < −1.51) = Φ(−1.51) si cerca il valore all’incrocio della riga −1.5 e della colonna−0.01, cioe Φ(−1.51) = 0.06552.

6.3 Un po’ di formule matematiche e un po’ di storia

La formula matematica della curva della distribuzione normale con generica media µ e

generico scarto quadratico medio σ > 0 e la seguente:

f(x) =1√

2πσ2e−

(x−µ)2

2σ2 , x ∈ R

Nella formula oltre ai parametri µ e σ compaiono anche π il numero noto come pi greco il

cui valore approssimato alla seconda cifra decimale e 3.14 e la x. La x e la variabile. Per

Page 93: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

6.3. UN PO’ DI FORMULE MATEMATICHE E UN PO’ DI STORIA 91

ogni valore di x ∈ R, dove R e l’insieme dei numeri reali, tutti quanti, f(x) ci da il valore in

ordinata della curva normale. Si noti che al crescere di x verso valori sempre piu grandi o

al diminuire di x verso valori sempre piu piccoli, ma grandi in valore assoluto, ad esempio

per x = −100 o x = 100, il valore di f(x) per µ = 10 e σ = 4 vale 0.0 . . . 110zeri0117.

Questo e praticamente 0 ma non lo e di fatto! Si noti che l’esponente del numero e (altra

costante universale della matematica, il numero di Nepero, la base dei logaritmi naturali,

che approssimata alla seconda cifra decimale vale 2.27) e negativo, il che significa che al

crescere dell’esponente, diventa sempre piu vicino allo zero, ma non lo raggiunge mai. Solo

al limite e−∞ = 0. Il simbolo ∞ e il simbolo matematico che denota il valore infinito,

che non e un valore vero e proprio ma solo una quantita molto molto molto grande. La

distribuzione della normale standard, la distribuzione di tutti gli z-scores e invece data

dalla formula:

f(z) =1√2πe−

12z2 , z ∈ R.

Si tratta delle stessa formula dove abbiamo sostituito a µ il valore zero e a σ abbiamo

sostituito il valore 1 (nella distribuzione normale standardizzata abbiamo µ = 0 e σ = 1).

Abbiamo utilizzato la lettera z invece della lettera x ma questo non ha nessuna importanza.

Avremmo potuto utilizzare ancora la lettera x per indicare un valore qualunque dello z

score. La distribuzione normale prende anche il nome di distribuzione Gaussiana, dal

nome del matematico tedesco Carl F. Gauss (1777-1855) che per primo dedusse il teorema

centrale del limite, o il teorema di normalita asintotica, che studieremo nel prossimo

capitolo e che vide apparire per la prima volta la distribuzione gaussiana. Per una biografia

di Gauss consiglio la lettura del libro La misura del mondo di Daniel Kehlmann (Feltrinelli)

dove la personalita e il carattere molto particolari di Gauss sono descritti in modo sublime

insieme alla personalita di un altro grande scienziato tedesco: Alexander von Humboldt.

Page 94: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

92 CAPITOLO 6. SIAMO TUTTI NORMALI?

Page 95: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Capitolo 7

Dal campione alla popolazione

Nelle scienze sociali, come in ogni altra scienza, l’interesse e in genere rivolto ad un par-

ticolare gruppo (di persone o di altro tipo). Ad esempio siamo interessati a sapere qual

e la percentuale di giovani che sono disoccupati in Italia. Per trovare questa percentuale

potremmo domandare a tutti i giovani d’Italia se siano o meno disoccupati e quindi cal-

colarla come numero dei disoccupati diviso numero totale dei giovani in Italia. Si capisce

bene che tale procedura e di fatto irrealizzabile.

Fortunatamente non occorre fare questo per sapere qual e la percentuale dei giovani

senza lavoro. Se lo domandiamo solo ad un campione, purche questo sia scelto in maniera

appropriata, il calcolo della percentuale di giovani disoccupati nel campione potra essere

esteso a tutta la popolazione dei giovani. La percentuale dei disoccupati valutata sul

campione costituisce una stima della percentuale dei disoccupati nell’intera popolazione.

7.1 Campionamento

Ci sono due concetti molto importanti alla base del campionamento, il concetto di popo-

lazione e quello di campione. La popolazione e il gruppo sul quale vogliamo conoscere

qualche cosa (nell’esempio di prima: la popolazione sono i giovani italiani, l’oggetto di

nostro interesse e la percentuale di disoccupati). Non sempre la popolazione e tangibile

o reale, come in questo caso, dove per forza di cose e finita. A volte la popolazione e

concettuale e non tangibile. Questo e tipico degli esperimenti fisici o dove interessa misu-

rare una quantita e vengono eseguiti un certo numero di esperimenti per ottenere questa

misura. Ogni misura ottenuta in ognuno degli esperimenti e il campione ma la popolazione

e costituita da tutte le possibili misurazioni che si sarebbero potute avere. In genere nelle

scienze sociali la popolazione e costituita da un gruppo ben specificato di persone, quindi

sara sempre tangibile e costituita da un numero finito di unita.

Definizione 7.1.1 (Popolazione). L’intera collezione di oggetti o persone o eventi sui

quali si ricerca l’informazione di interesse.

93

Page 96: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

94 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE

Prima di tutto la popolazione deve essere ben definita. Se ad esempio si vuole condurre

un’indagine per sapere se gli adulti sono favorevoli alla liberalizzazione della cannabis,

occorre ben definire la categoria degli adulti. Anche la variabile di interesse deve essere

ben definita. Se vogliamo conoscere il reddito medio, dobbiamo specificare cosa intendiamo

per reddito medio. La media aritmetica o la mediana? Il secondo concetto e invece quello

di campione.

Definizione 7.1.2 (Campione). E un sottoinsieme della popolazione che contiene gli

oggetti o le persone o gli eventi sui quali si osserva la quantite di interesse.

La caratteristica fondamentale di un campione e che deve essere rappresentativo della

popolazione dalle quale e stato scelto. Ad esempio se torniamo al problema di conoscere

la percentuale di disoccupati, per stimare questa percentuale non possiamo scegliere come

campione 100 giovani laureati da tre anni all’universita di Milano. Quello che stimeremmo

in questo caso sarebbe la percentuale di disoccupati tra i giovani laureati da tre anni

all’universita di Milano, non la percentuale dei disoccupati tra i giovani in Italia.

Vi sono molte ragioni per cui la caratteristica valutata sulle unita del campione non e

in genere uguale alla caratteristica della popolazione. Si tenga presente che noi non saremo

mai in grado di dire quanto e la percentuale dei disoccupati in Italia! Le quantita sulla

popolazione sono di solito chiamate parametri. I parametri possono assumere determinati

valori, uno solo e il vero valore del parametro e noi non lo conosceremo mai: il lavoro dello

statistico e molto triste! Studia per qualcosa che non sara mai in grado di conoscere!

Quello che pero si puo fare e fare una stima di questo parametro (la percentuale

dei disoccupati ad esempio) sulla base di un campione scelto bene, e dire quanto si puo

sbagliare.

I tipi di errore nel campionamento possono essere di diverso tipo e occorre scegliere il

campione in modo appropriato in modo da minimizzare questi errori. Vediamo alcuni di

questi errori di campionamento.

1. Variabilita del campione. Questo errore e detto anche errore casuale ed e dovuto

al fatto che scegliendo diversi campioni la quantita di interesse calcolata su diversi

campioni sara diversa. Ad esempio se scegliamo in modo appropriato 1000 campioni

di cento giovani per stimare la percentuale di disoccupati, non osserveremo sempre

la stessa percentuale di disoccupati in ogni campione.

2. Errore di campionamento. Questo tipo di errore detto anche sistematico e piu

difficile da individuare e produce in genere stime distorte cioe con un bias. Ad esem-

pio se si sceglie un campione da un elenco telefonico, si escludono automaticamente

tutti coloro che non possiedono un telefono producendo una stima distorta. Errori

di questo tipo sono legati al modo sbagliato con cui viene scelto il campione.

Page 97: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

7.1. CAMPIONAMENTO 95

3. Errori non dovuti al campionamento. Questi sono errori che non sono dovuti

al modo con cui e selezionato il campione. Ad esempio: le domande possono es-

sere poste in modo scorretto e che possono essere interpretate in modo sbagliato

dai rispondenti. Oppure gli intervistati possono di proposito rispondere in maniera

diversa da cio che pensano. Questo ad esempio succede spesso nelle elezioni in cui

i voti ai partiti di estrema destra sono spesso sottostimati negli exit pool perche

all’uscita del seggio colui che ha votato un tale partito non lo rileva agli intervista-

tori. Altri errori di questo tipo sono ad esempio quelli dovuti alla codificazione o

digitalizzazione delle risposte.

Per ridurre questo tipo di errori vi sono corsi interi nei corsi di laurea di statistica per

cui non possiamo pretendere di essere esaustivi qui. Ci basta pero dare due regole di base

che devono sempre essere applicate. Per tutto il resto si supporra di avere dei campioni

scelti in modo appropriato. La prima regola e che ogni elemento della popolazione deve

avere la stessa probabilita di essere selezionato come elemento del campione. Si deve

percio immaginare tutte le unita di una popolazione come delle palline inserite in una

grande urna e la scelta del campione consiste nell’estrarre un certo numero di palline da

quest’urna. In questo caso ogni pallina ha la stessa probabilita di essere selezionata. Un

campione ottenuto in questo modo si chiama campione casuale semplice.

L’altra regola e che il campione deve essere stratificato. Questo tipo di campionamento

deve essere utilizzato quando si sa che vi sono diversi gruppi in una popolazione diversi

tra loro. Ad esempio la stratificazione puo avvenire per eta o per regione di residenza o

per genere.

Una questione di cui non abbiamo ancora parlato ma che e fondamentale in tutta la

teoria e la grandezza del campionaria: quando deve essere grande un campione? La scelta

dell’ampiezza del campione dipende in generale dai seguenti fattori:

1. La variabilita tra i membri della popolazione. Se in una popolazione e presente

una grande variabilita allora il campione deve essere grande. Per capire questo fatto

pensiamo invece ad una popolazione dove la variabile di interesse non varia affatto

sugli elementi della popolazione, cioe e costante. In questo caso per stimare questa

caratteristica basterebbe solo osservarla su un elemento. Basterebbe un campione

di ampiezza campionaria n = 1, e la stima sarebbe perfetta.

2. Il livello di precisione necessario alla stima. Piu abbiamo bisogno di stime

precise piu il campione deve essere numeroso. Vedremo che il miglioramento nella

precisione della stima non varia uniformemente con l’aumentare della numerosita del

campione su cui si basa la stima.

Page 98: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

96 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE

3. Costi di campionamento. Intervistare tante persone costa in generale molto non

solo in termini di costo vero e proprio ma anche di tempo. Occorre valutare bene i

benefici che se ne ricavano prima di selezionare campioni troppo grandi con un costo

non sostenibile.

7.2 Dalla popolazione al campione: il caso della media

Il titolo della sezione costituisce il viaggio di andata del titolo del capitolo. Vedremo come

e fatta la distribuzione della media campionaria. Consideriamo la popolazione femminile

in eta fertile. Siamo interessati al numero medio di figli che una donna ha in questa

popolazione. Supponiamo di aver estratto diversi campioni di numerosita 5 da questa

popolazione. I campioni sono riportati nella tabella seguente

Campione numero di figli x s

1 0 2 2 1 1 1.2 0.832 0 3 0 2 1 1.2 1.303 1 2 0 2 2 1.4 0.894 0 2 4 1 0 1.4 1.675 3 1 2 0 2 1.6 1.14

La penultima colonna della tabella riporta la media del numero di figli calcolato in ogni

campione. Le medie di questi diversi campioni sono le medie campionarie. Se i campioni

sono stati scelti in modo corretto la maggior parte delle medie campionarie sara molto

vicina alla media della popolazione (il parametro incognito) ma comunque qualcuna di

queste medie avra un valore che si discosta dalla media della popolazione. Se calcoliamo

la media delle medie otteniamo

¯x =1.2 + 1.2 + 1.4 + 1.4 + 1.6

5= 1.36.

Si noti che abbiamo indicato con ¯x la media delle medie (quante medie!) Questo numero

possiamo dire che e la migliore stima che possiamo dare della media della popolazione.

consideriamo adesso lo scarto quadratico medio delle medie osservate sui 5 campioni

sx =

√(1.2− 1.36)2 + (1.2− 1.36)2 + (1.4− 1.36)2 + (1.4− 1.36)2 + (1.6− 1.36)2

4

= 0.167

Si noti che questa variabilita e molto piu piccola della variabilita della popolazione che puo

essere stimata calcolando la media delle standard deviation in ogni campione (riportata

nell’ultima colonna della tabella) che e pari a 1.17. Questo non e dovuto al caso ma e una

proprieta della media campionaria che si puo riassumere nei due seguenti fatti:

1. La media della media campionaria e uguale alla media della popolazione.

Page 99: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

7.2. DALLA POPOLAZIONE AL CAMPIONE: IL CASO DELLA MEDIA 97

2. Lo scarto quadratico medio della media campionaria e uguale allo scarto quadratico

medio della popolazione diviso per la radice quadrata della numerosita campionaria.

In formula la seconda proprieta si puo scrivere, se denotiamo con sigma lo s.q.m. della

popolazione e con n la numerosita campionaria, come

σx =σ√n.

Accanto a questi due fatti abbiamo un risultato ancora piu interessante, al punto da

essere noto come teorema fondamentale della statistica. Tale teorema ci assicura che se il

campione e scelto in maniera appropriata non solo valgono i due fatti appena detti ma la

distribuzione della media campionaria e normale.

Teorema 7.2.1 (Fondamentale della statistica). Se abbiamo un campione casuale di am-

piezza n estratto da una popolazione con media µ e scarto quadratico medio σ allora la

media campionaria ha una distribuzione che per n elevato e approssimativamente una

normale con la media µ e lo scarto quadratico medio pari a σ√n

.

Il teorema fondamentale della statistica in sostanza ci dice che quando stimiamo il

valore medio di una quantita che ci interessa con la media campionaria, quella stima ha

una distribuzione Nomale sempre, qualunque sia la popolazione di riferimento. Questo ci

permettera di valutare gli errori che commettiamo usando quella stima. Inoltre si capisce

il ruolo fondamentale della distribuzione Normale.

Il valore osservato sugli n elementi del campione della media campionaria x, e solo uno

dei possibili valori che la media campionaria avrebbe potuto assumere, se avessimo estratto

un altro campione. Se pensiamo alla distribuzione di tutti i possibili valori della media

campionaria, questa distribuzione e normale con media µ e scarto quadratico medio σ/√n.

Allora possiamo calcolare lo z-score, il valore standardizzato della media campionaria

z =x− µσ√n

Gli z- score della media campionaria hanno una distribuzione normale standardizzata.

Vediamo un’applicazione nel seguente esempio

Esempio 7.2.2. Si consideri la popolazione costituita da tutti i lavoratori di imprese di

pulizia. Si supponga che per tale popolazione valgano i seguenti fatti:

• Valore medio paga oraria netta: 4.60 euro

• Deviazione standard: 0.40 centesimi di euro

Tenendo presente il teorema fondamentale della statistica rispondere alle domande seguen-

ti.

Page 100: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

98 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE

1. Qual e la probabilita che un singolo lavoratore scelto a caso guadagni meno di 4.50

euro all’ora?

2. Qual e la probabilita che la media della paga oraria di un campione casuale di 20

lavoratori scelti a caso sia meno di 4.50 euro all’ora?

3. Qual e la probabilita che la media della paga oraria di un campione casuale di 50

lavoratori scelti a caso sia meno di 4.50 euro all’ora?

4. Perche le risposte ai quesiti precedenti sono diverse?

Per rispondere alla prima domanda dobbiamo sapere la distribuzione della paga oraria

per un lavoratore. Denotiamo con X la paga oraria per un lavoratore. Sappiamo dal

testo che X ha una distribuzione normale con media µ = 4.60 e scarto quadratico medio

σ = 0.40. Per calcolare la probabilita richiesta dobbiamo calcolare l’area sotto la curva

normale con media µ = 4.60 e scarto quadratico medio σ = 0.40 da −∞ a 4.50. Ovvero

dobbiamo calcolare l’area sotto la curva normale standardizzata da −∞ allo z score di

4.50. Lo z-score cercato e dato da

z =4.50− 4.60

0.40= −0.25.

L’area cercata e uguale all’area da 0.25 a +∞ e quindi dalla Tavola A.2 ricaviamo in

corrispondenza di 0.25 un area pari a 0.401. Concludiamo quindi che la probabilita che un

lavoratore abbia una paga inferiore a 4.50 euro e del 40.1%, ovvero se pensiamo all’intera

popolazione dei lavoratori delle imprese di pulizie, il 40.1% di essi ha una paga inferiore

ai 4.50 euro all’ora.

Per rispondere alla seconda domanda il teorema fondamentale della statistica ci dice

che la media delle paghe di n = 20 lavoratori ha una distribuzione normale con media

mu = 4.60 e scarto quadratico medio σ = 0.40√20

= 0.089. La probbilita cercata e quindi

data dall’area sotto la curva nomale con media mu = 4.60 e scarto quadratico medio

σ = 0.089 da −∞ a 4.50, ovvero l’area l’area sotto la curva normale standardizzata da

−∞ allo z score di 4.50. Lo z-score cercato e dato da

z =4.50− 4.60

0.40√20

=−0.10

0.089= −1.12.

L’area cercata e uguale all’area da 1.12 a +∞ e quindi dalla Tavola A.2 ricaviamo in

corrispondenza di 1.12 un area pari a 0.111. Concludiamo quindi che la probabilita che la

paga media di 20 lavoratori sia inferiore a 4.50 euro e del 11.1%.

In modo analogo si risponde alla terza domanda. In questo caso lo z-score va calcolato

rispetto allo scarto quadratico medio della media fatta su n = 50 lavoratori. Abbiamo

z =4.50− 4.60

0.40√50

=−0.10

0.0566= −1.77.

Page 101: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

7.2. DALLA POPOLAZIONE AL CAMPIONE: IL CASO DELLA MEDIA 99

L’area cercata e 0.038. Concludiamo quindi che la probabilita che la paga media di 50

lavoratori sia inferiore a 4.50 euro e del 3.8%.

Le risposte ai quesiti sono diverse perche diverso e lo scarto quadratico medio delle

grandezze considerate. La media campionaria ha lo scarto quadratico medio che diventa

sempre minore al crescere di n.

Page 102: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

100 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE

Page 103: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Capitolo 8

Intervalli di confidenza

Possiamo riassumere quanto detto nel capitolo precedente. Abbiamo una popolazione ed

una informazione da ricercare su questa popolazione. L’informazione da ricercare suppo-

niamo sia la media di una certa variabile di interesse (ad esempio ci interessa il numero

medio di figli di una donna italiana). La vera media che ricerchiamo e il parametro di in-

teresse che non e noto. Non potendo conoscere il vero valore del parametro (qual e il vero

valore del numero medio di figli che ha una donna italiana? non lo potremo mai conoscere)

ne facciamo una stima. Scelto propriamente un campione dalla popolazione, rileviamo per

ogni elemento del campione il valore della variabile di interesse e ne calcoliamo la media

aritmetica. Questo valore della media aritmetica ottenuta dai valori rilevati su ogni ele-

mento del campione e la nostra stima del parametro incognito. Quello descritto sopra e

come usualmente si procede alla stima puntuale della media incognita della variabile di

interesse in una popolazione. Per un momento pensiamo pero di poter agire in un altro

modo e di poter effettuare la scelta di quanti campioni voglio dalla mia popolazione.

Abbiamo infatti osservato che se avessimo scelto un altro campione dalla popolazione

e avessimo rilevato su ogni elemento di questo campione la variabile di interesse e avessimo

calcolato la media, avremmo osservato un altro valore per la media aritmetica e quindi

avremmo ottenuto un’altra stima per il parametro incognito. Possiamo immaginare di

scegliere tantissimi campioni e calcolare la media aritmetica dei valori osservati in ogni

campione e otterremo tantissime stime per il nostro valore osservato.

Quello che abbiamo concluso nel precedente capitolo e che questi tantissimi valori

hanno una distribuzione normale con media la stessa media della variabile di interesse

sulla popolazione (e quindi non nota) ma uno scarto quadratico medio molto minore, pari

allo scarto quadratico medio della variabile di interessa nella popolazione diviso per radice

quadrata di n, il numero di osservazioni nel campione.

101

Page 104: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

102 CAPITOLO 8. INTERVALLI DI CONFIDENZA

8.1 La media campionaria

Ricordiamo come abbiamo denotato la media e lo scarto quadratico medio di una normale

standardizzata nella Sezione 6.2. Abbiamo denotato la media con µ e lo scarto quadratico

medio con σ. Possiamo immaginare che la media della nostra variabile di interesse sia µ

nella popolazione e lo s.q.m sia σ entrambi incogniti. Ora pensiamo alla variabile media

campionaria e a tutti i possibili valori che puo assumere nei diversi campioni tutti di

numerosita n. Il teorema fondamentale della statistica ci dice che questa variabile media

campionaria, se n e grande, ha una distribuzione normale, con media che e ancora µ e

scarto quadratico medio che e invece pari a σ√n

.

Per tornare all’esempio del numero di figli medio per una donna italiana tale numero

non lo conosciamo e lo indichiamo con µ la media incognita della popolazione. Prendiamo

adesso un campione di n = 5 donne (il primo dell’esempio) e stimiamo il valore incognito

con la media del numero di figli calcolato per questo campione x = 1.2. Quindi abbiamo

una stima per il parametro µ e tale stima e 1.2. Un altro risultato molto importante della

statistica ci dice che tale stima e la migliore che possiamo ottenere per la media.

Chiunque di voi potra obbiettare che se avessimo preso un altro campione e avessi-

mo osservato un altro valore per la media (ad esempio il terzo campione) allora anche

quest’altro valore e la stima migliore che potevamo dare per la media. Ad esempio per

il terzo campione abbiamo x = 1.4. Questo fatto potrebbe sembrare assurdo perche ho

due stime diverse per la media incognita µ e tutte e due sono la migliore stima possibile!

Questo fatto non e un paradosso se pensiamo che nella realta la media campionaria ha

una distribuzione normale e quindi se ne osservo piu di una esse saranno diverse secondo

la distribuzione normale. La media campionaria e il migliore stimatore puntuale per la

media, cioe e la migliore stima costituita da un solo numero.

Teorema 8.1.1. La media campionaria e la migliore stima puntuale per la media di una

popolazione.

Quello che invece studiamo nella prossima sezione e come dare un intervallo di valori

possibili per la media incognita della popolazione.

8.2 Gli ingredienti e la ricetta

Come dicevamo a volte invece che dare un solo numero e meglio dare un intervallo di valori

per la media incognita di una popolazione. Se vogliamo stimare la percentuale di votanti

per un partito in un sistema bipolare, un conto e dire, stimo la percentuale di votanti per

il partito SX con il 48%, oppure dire che la percentuale di votanti per il partito SX e un

valore nell’intervallo (45%, 51%).

Page 105: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

8.2. GLI INGREDIENTI E LA RICETTA 103

Per il Teorema 8.1.1 l’intervallo di confidenza sara costruito attorno alla media cam-

pionaria. Quindi il primo ingrediente e la media campionaria. L’ingrediente fondamentale

per gli intervalli di confidenza e invece dedotto dal livello di confidenza. Questo livello

esprime il grado di confidenza col quale confido che il vero valore del parametro stia nel-

l’intervallo che fornisco. Si possono costruire intervalli di confidenza a qualunque livello

di confidenza, qui considereremo i livelli 95% e 99% che sono i piu utilizzati nei fenomeni

sociali, ma credo che tutti saranno in grado di dedurre poi come costruire un intervallo di

confidenza a livello 98% o al 99.9%.

Per dedurre questo ingrediente fondamentale torniamo un attimo al teorema fonda-

mentale della statistica e supponiamo che lo scarto quadratico medio σ sia noto. Sappiamo

che la media campionaria ha distribuzione normale con media µ e scarto quadratico medioσ√n

, e quindi gli score della media campionaria z = x−µσ/√n

hanno una distribuzione normale

standardizzata. Allora se cerchiamo quei valori sotto una curva normale standardizzata

per cui l’area della parte centrale della distribuzione tra quei valori sia il 95% del totale

(area tratteggiata nella Figura 8.1), dalle tavole troviamo che questi valori sono −1.96

quello a sinistra, e 1.96 quello a destra. Allora possiamo spingerci a sinistra della media

Area 0.95

−1.96 0 1.96

Figura 8.1: L’area tratteggiata vale 0.95. Entrambe le aree non tratteggiate sono 0.025.

campionaria per il fattore −1.96 moltiplicato per la standard deviation divisa per radice

quadrata di n e a destra della stessa quantita positiva. In formula avremo che

Intervallo di confidenza al 95% =

(x− 1.96

σ√n, x+ 1.96

σ√n

).

Possiamo cioe dire che

µ ∈(x− 1.96

σ√n, x+ 1.96

σ√n

)

Page 106: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

104 CAPITOLO 8. INTERVALLI DI CONFIDENZA

con un livello di confidenza (o livello di fiducia) pari al 95%. Se lo scarto quadratico medio

non e noto, lo si puo stimare con s e se n e sufficientemente grande (in genere maggiore

di 30) possiamo ancora scrivere l’intervallo di confidenza come

Intervallo di confidenza al 95% =

(x− 1.96

s√n, x+ 1.96

s√n

).

Esempio 8.2.1. Consideriamo l’eta del primo bacio dell’esempio considerato nella Sezione

2.7.3. L’eta media del primo bacio in un campione di numerosita n = 42 e x = 14. Lo

scarto quadratico medio e s = 2.41. La formula per l’intervallo di confidenza al 95% e

I.C. al 95% =

(14− 1.96 · 2.41√

42, 14 + 1.96 · 2.41√

42

)Facendo i conti abbiamo 2.41√

42= 0.37 questa e la stima dello scarto quadratico medio della

media campionaria. Poi ricaviamo 1.96 · 0.37 = 0.73. Questa e l’ampiezza (o meglio la

semi ampiezza) dell’intervallo di confidenza. Quindi possiamo concludere che

I.C. al 95% = (14− 0.73, 14 + 0.73) = (13.27, 14.73)

Si noti che in termini di anni 0.73 sono circa 9 mesi, e quindi l’intervallo di confidenza e

ampio 18 mesi. Il primo bacio viene dato tra i 13 anni e 3 mesi e i 14 anni e 9 mesi con

una confidenza del 95%.

Torniamo ancora un attimo sul significato del livello di confidenza. 95% significa che se

fosse possibile ripetere questo esperimento un numero grande di volte saremmo confidenti

nel credere che tra gli intervalli calcolati circa il 95% contiene il vero valore del parametro

e solo 5 su cento, ovvero uno su venti non lo contiene.

Ricapitolando possiamo dire che per calcolare l’intervallo di confidenza al 95% servono

questi ingredienti:

1. La numerosita campionaria n.

2. La media campionaria x.

3. Lo scarto quadratico medio σ.

4. Il valore 1.96.

Con questi ingredienti ricaviamo l’intervallo di confidenza per la media incognita della

popolazione come

I.C. al 95% =

(x− 1.96

σ√n, x+ 1.96

σ√n

).

Se σ non e noto e n e sufficientemente grande possiamo sostituire a σ la sua stimas.

Page 107: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

8.2. GLI INGREDIENTI E LA RICETTA 105

Se invece che al 95% volessimo l’intervallo di confidenza al 99%, dobbiamo trovare

quei valori sotto una curva normale standardizzata per cui l’area della parte centrale della

distribuzione tra quei valori sia il 99% del totale (area tratteggiata nella Figura 8.2). Dalle

tavole troviamo che questi valori sono −2.575 quello a sinistra, e 2.575 quello a destra.

Area 0.99

−2.575 0 2.575

Figura 8.2: L’area tratteggiata vale 0.99. Entrambe le aree non tratteggiate sono 0.005.

Quindi ripetendo i ragionamenti sopra l’intervallo di confidenza al 99% per la media

incognita di una popolazione e

I.C. al 99% =

(x− 2.575

s√n, x+ 2.575

s√n

).

Gli ingredienti per ottenere questo intervallo sono

1. La numerosita campionaria n.

2. La media campionaria x.

3. Lo scarto quadratico medio σ.

4. Il valore 2.575.

Come si puo notare sono gli stessi ingredienti per l’intervallo di confidenza al 95% tranne

l’ultimo valore. Da questo deduciamo che l’intervallo di confidenza al 99% se gli altri

ingredienti sono uguali (in particolare se il campione e lo stesso) sara piu ampio di quello

al 95%. Anche in questo caso se σ non e noto e n e sufficientemente elevato possiamo

sostituire a sigma la sua stima s.

Page 108: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

106 CAPITOLO 8. INTERVALLI DI CONFIDENZA

Ad esempio tornando all’esempio precedente l’intervallo di confidenza al 99% per l’eta

media in cui gli uomini danno il primo bacio e

I.C. al 95% =

(14− 2.575 · 2.41√

42, 14 + 2.575 · 2.41√

42

)= (14− 0.96, 14 + 0.96)

= (13.04, 14.96).

Siamo confidenti al 99% che l’eta in cui un ragazzo da il primo bacio e compreso tra 13

anni e 15 anni. In questo caso siamo piu confidenti ma l’ampiezza dell’intervallo e piu

grande: quasi due anni (abbiamo approssimato 0.96 di un anno con 1).

A parita di tute le condizioni (n, campione, quindi stessi valori per la media x e per lo

s.q.m. s calcolati sul campione) se si cambia il livello di confidenza prendendone uno piu

grande (voglio essere piu confidente che il vero valore sia nell’intervallo che fornisco, quindi

ad esempio passo dal 95% con la possibilita di sbagliare del 5% al 99% con la possibilita

di sbagliare solo dell1%) l’intervallo che fornisco non puo che essere piu grande. Poiche

l’ampiezza dell’intervallo dipende dal fattore√n a denominatore, per avere intervalli piu

precisi (cioe piu stretti) a parita di livello di confidenza dobbiamo aumentare la numerosita

campionaria. Lo vediamo in questo esempio.

Esercizio 8.2.2. Ad un campione di 40 studenti e stato chiesto di dare un voto da 1 a 20

all’operato del primo ministro Letta nei primi 6 mesi del suo mandato su una scala da 1

a 20. La media e stata 12.1 con standard deviation di 3.5.

1. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza del

95%.

2. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza del

99%. Questo intervallo come e rispetto al precedente? Piu ampio o piu stretto?

Perche?

3. Supponete che la stessa medio e lo stesso s.q.m. sono stati osservati su un campione

di 100 studenti. Stimare il voto dato a Letta da tutti gli studenti con un intervallo

di confidenza del 95%. Questo intervallo come e rispetto al primo intervallo? Piu

ampio o piu stretto? Perche?

Esercizio 8.2.3. Con riferimento ai dati dell’esempio della sezione 2.7.3, calcolare Inter-

vallo di confidenza al 95% per l’eta del primo rapporto e confrontarla con quella calcolata

per il primo bacio. Quale dei due intervalli e piu ampio? I due intervalli si sovrappongono?

Page 109: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Capitolo 9

La proporzione

Fino ad ora abbiamo considerato variabili continue dove la statistica considerata per lo

studio era la media campionaria. In questo capitolo consideriamo invece la proporzione di

un certo evento di interesse valutata su un campione rappresentativo di una popolazione.

Ad esempio possiamo essere interessati alla proporzione di studenti maschi nella facolta di

lettere e letterature straniere, o alla proporzione di fumatori nella popolazione italiana o

ancora alla proporzione di lavoratori della provincia di Bergamo con un reddito inferiore

a 20000 euro all’anno.

9.1 Il modello

In tutti e tre gli esempi di prima possiamo immaginare la popolazione in cui l’interesse e

per una caratteristica (che viene codificata come successo: il fatto di essere maschi nella

popolazione degli studenti di lettere e letterature straniere, il fatto di essere fumatori nella

popolazione degli italiani, il fatto di essere un lavoratore bergamasco con un reddito di

meno di 20000 euro all’anno).

Indichiamo con π, la lettera pi greca, la vera proporzione di successo nella popolazione

in oggetto. Se vogliamo avere qualche informazione su questo valore incognito π possiamo

scegliere in modo rappresentativo un campione di n elementi nella popolazione e vedere

(contare) quante volte si realizza il successo. Ad esempio possiamo scegliere un campione

di 40 studenti e studentesse dell’Universita di Bergamo e contare i maschi. Oppure un

campione di 6000 italiani e contare i fumatori, oppure ancora un campione di 500 lavoratori

della provincia di Bergamo e contare quelli che hanno un reddito inferiore ai 20000 euro.

In tutti questi casi scegliamo un campione di ampiezza n e codifichiamo con 1 il successo

e con 0 l’insuccesso. Registriamo quindi 1 ogni volta che sull’unita del campione osserviamo

il successo e 0 ogni volta che registriamo insuccesso. Se indichiamo con k il numero di

successi avremo che la proporzione di successi nel campione e data dal rapporto tra il

107

Page 110: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

108 CAPITOLO 9. LA PROPORZIONE

numero dei successi e il numero delle unita nel campione

p =

1 + 1 + . . .+ 1︸ ︷︷ ︸k volte

+0 + . . .+ 0︸ ︷︷ ︸n−k volte

n=k

n.

La quantita p = kn e detta proporzione campionaria e costituisce la grandezza fondamentale

per l’inferenza sulla proporzione vera π.

In particolare vale il seguente risultato, analogo a quello della media campionaria per

la media incognita µ.

Teorema 9.1.1. p e la migliore stima puntuale per π basata su un campione di numerosita

n.

In effetti se si guarda a come e definita p, essa e una media campionaria di n grandezze

x1, x2, . . . , xn, che possono solo assumere il valore 1 o il valore 0.

Quindi, ad esempio, stimeremo la proporzione vera di studenti maschi alla facolta di

lettere con la proporzione campionaria valutata sul campione di 40 studenti. Naturalmente

sara preferibile fornire un intervallo come stima fornendo anche l’informazione su quanto

siamo confidenti che il vero valore stia nell’intervallo fornito come stima. Per costruire

quindi l’intervallo di confidenza con un certo grado di fiducia abbiamo il seguente risultato

che deriva dal teorema fondamentale della statistica.

Teorema 9.1.2. Se n e grande la distribuzione di p e approssimativamente normale con

media π e scarto quadratico medio

√π(1−π)

n .

L’importanza di questo risultato e evidente. Se abbiamo qualche informazione sulla

proporzione di una evento di interesse in una popolazione e osserviamo su un campione di

numerosita n una certa proporzione campionaria p, possiamo, dopo aver calcolato lo score

di questa proporzione campionaria, valutare se e un valore attendibile per la popolazione

che stiamo considerando. Prima quindi di vedere come costruire l’intervallo di confidenza

per la proporzione incognita π, vediamo questo esempio.

Esempio 9.1.3. Nell’esame di statistica la proporzione di promossi ad un generico appello

e stata comunicata dalla docente ed e del 70%. Durante l’appello per gli studenti fuori

corso si presentano 17 studenti e 10 passano l’esame di statistica. Possiamo dire che gli

studenti che si sono presentati all’appello per i fuori corso sono particolarmente non bravi?

Al primo appello utile dopo la fine del corso si presentano 92 studenti e 80 passano l’esame.

Cosa possiamo concludere per questi studenti?

La percentuale di studenti che passa l’esame all’appello riservato agli studenti fuori

corso e p = 1017 = 0.59. Lo score di questa proporzione lo ottengo calcolando prima lo

Page 111: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

9.2. INTERVALLO DI CONFIDENZA PER LA PROPORZIONE π 109

standard error per la proporzione di studenti che passano l’esame di statistica in questo

appello. Questo e dato da√

0.70∗0.3017 = 0.11. Quindi lo score e

z =0.59− 0.70

0.11= −1

Calcolando l’area sotto la distribuzione normale standardizzata prima di -1 ho un’indica-

zione relativa alla probabilita con cui avrei potuto osservare un numero di studenti che

ha passato l’esame inferiore a quello che ho realmente osservato. Dalle tavole ricavo che

il valore della propabilita cercata e circa 0.16. Quindi con una probabilita di circa il 16 %

avrei potuto osservare un numero inferiore di successi. Quindi concludo che gli studenti

fuori corso non sono particolarmente non bravi.

Veniamo al primo appello utile dopo aver seguito il corso. La proporzione di studenti

che ha passato l’esame e p = 0.87. Lo standard error e√

0.70∗0.3092 = 0.05 La probabilita

di osservare piu di 80 studenti che passano l’esame su 92 e 0.0003 cioe solo in 3 appelli

su 10000 avrei osservato una simile percentuale di successi, quindi sono particolarmente

preparati gli studenti che sostengono il primo appello utile.

Esercizio 9.1.4. Due sondaggi rappresentativi a livello nazionale sono stati condotti nel

2011 e 2012 su un campione totale di 6167 adulti. La percentuale dei fumatori in Italia

diminuisce, passando dal 22.7% nel 2011 al 20.8% nel 2012. Gli uomini fumano piu delle

donne: 25.3% contro il 18.4%.

Su un campione di 50 studenti presenti oggi in aula osserviamo p = 650 = 0.12.

1. Calcolare la probabilita che un campione abbia la proporzione piu bassa di quella

osservata.

9.2 Intervallo di confidenza per la proporzione π

Quando non si possiede nessuna informazione sulla popolazione e vogliamo stimare la

proporzione incognita di un certo evento che rappresenta il successo, possiamo invece che

fornire solo la stima puntuale, valutata come la proporzione campionaria p del numero di

successi in n osservazioni, fornire un intervallo di confidenza per la proporzione incognita

π. L’intervallo di confidenza al 95% di fiducia e dato dalla seguente formula:

I.C al 95% =

(p− 1.96

√p(1− p)

n; p+ 1.96

√p(1− p)

n

).

Si osservi che nello standar error (o scarto quadratico medio di p) non compare il valore

incognito π (e come potrebbe: non ne conosciamo il valore, ne stiamo cercando una stima

con un intervallo di confidenza!), ma compare invece la miglior stima di π dove nella

formula dello standard error compariva π. Si tenga poi presente che tale intervallo e

Page 112: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

110 CAPITOLO 9. LA PROPORZIONE

un intervallo che e tanto migliore tanto piu e grande n. In modo analogo l’intervallo di

confidenza al 99% di fiducia e dato dalla seguente formula:

I.C al 99% =

(p− 2.575

√p(1− p)

n; p+ 2.575

√p(1− p)

n

). (9.1)

Esercizio 9.2.1. Supponendo che il campione osservato nell’ Esercizio 9.1.4, sia rappre-

sentativo della popolazione italiana, sulla base del risultato campionario rilevato, calcolare

l’intervallo di confidenza per la proporzione di fumatori in Italia. Tale intervallo contiene

la proporzione fornita dallo studio per il 2012?

Esercizio 9.2.2. La seguente tabella riporta i risultati pubblicati sui quotidiani The Indi-

pendent e The Daily Telegraph nel 1992 sulle intenzioni di voto dei britannici.

Fonte Intenzione di voto (in %)n Consevatori Laburisti

The Indipendent 1746 39.0 42.0The Daily Telegraph 2478 38.5 38.0

1. Calcolare l’intervallo di confidenza per le quattro proporzioni.

2. Gli intervalli per la proporzione di votanti per i conservatori e per i laburisti dei due

quotidiani si sovrappongono?

3. Potete concludere da questi dati chi sara il vincitore delle elezioni e con che distacco?

4. Fare una ricerca per trovare il vincitore e il distacco.

L’esercizio non fornisce il livello di confidenza. In questi casi si assume il livello

95%. Applicando la formula (9.1) otteniamo i seguenti intervalli per i dati forniti dai

due quotidiani:

1. Partito conservatore dati da The Indipendent :

I.C al 99% = (0.380, 0.400) = (38.0%; 40.0%)

2. Partito laburista dati da The Indipendent :

I.C al 99% = (0.410, 0.430) = (41.0%; 43.0%)

3. Partito conservatore dati da The Daily Telegraph:

I.C al 99% = (0.377, 0.393) = (37.7%; 39.3%)

Page 113: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

9.2. INTERVALLO DI CONFIDENZA PER LA PROPORZIONE π 111

4. Partito laburista dati da The Daily Telegraph:

I.C al 99% = (0.372, 0.388) = (37.2%; 38.8%)

Si noti come gli intervalli calcolati per il The Daily Telegraph siano piu precisi, cioe piu

stretti, hanno un’ampiezza di 0.016, cioe 1.6 punti percentuali, rispetto a quelli calcolati

per il The Indipendent, che hanno un’ampiezza di 0.020, cioe di 2 punti percentuali. Questo

e dovuto alla maggiore numerosita del campione. Il distacco stimato dal The Indipendent

si ottiene facendo la differenza delle due stime, e quindi e di tre punti percentuali, mentre

la stima data dal The Daily Telegraph e praticamente i due partiti con la stessa percentuale

di voti, stimando la differenza con solo mezzo punto percentuale.

I due intervalli calcolati per il giornale The Indipendent non si intersecano e danno la

vittoria al partito laburista. I due intervalli calcolati per il giornale The Daily Telegraph

si intersecano e sembrerebbe in leggero vantaggio il partito conservatore.

I risultati delle elezioni smentirono quasi tutti i sondaggi pre elettorali, soprattutto per

il distacco tra le percentuali dei due partiti.

Page 114: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

112 CAPITOLO 9. LA PROPORZIONE

Page 115: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Capitolo 10

Test statistici

I test statistici (detti anche verifica di ipotesi) occupano un posto di rilievo in tutta l’infe-

renza statistica. Insieme alla stima costituiscono il fulcro di tutta l’inferenza statistica. Se

nel problema della stima si stratta di trovare un valore plausibile per i parametri incogni-

ti di una popolazione (o meglio del modello sulla popolazione), nella verifica d’ipotesi si

tratta di formulare una affermazione sul parametro incognito. La statistica ci fornisce gli

strumenti per arrivare ad una scelta riguardo a questa ipotesi sul parametro (se accettarla

o rifiutarla) quantificando il rischio connesso a questa scelta.

10.1 Verifica d’ipotesi: la teoria

Supponiamo di avere un modello su una popolazione d’interesse e che questo modello

dipenda da un parametro generico θ che e il nostro interesse. (Ad esempio un modello

normale con il parametro di interesse la media µ). Il nostro interesse per il parametro e

costituito da un’affermazione sul possibile valore di questo parametro che noi riteniamo

plausibile. Questo valore dichiarato per il parametro e sottoposto ad una verifica basata

sulle osservazioni sperimentali di un campione scelto dalla popolazione sulla quale e stata

fatta l’affermazione riguardante il valore del parametro.

Definizione 10.1.1. Una ipotesi statistica e una affermazione su θ.

L’ipotesi sottoposta a verifica sperimentale viene di solito chiamata ipotesi nulla ed

indicata con H0. Di solito H0 specifica il valore di un parametro della popolazione indicato

genericamente con θ. Quindi

H0 : θ = θ0

dove θ0 e un valore fissato. Ad esempio se il parametro della popolazione da sottoporre a

verifica e la media µ scriveremo

H0 : µ = µ0

dove µ0 e un valore della media specificato e noto.

113

Page 116: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

114 CAPITOLO 10. TEST STATISTICI

Definizione 10.1.2. Un test statistico e una regola per decidere sulla compatibilita dei

dati con l’affermazione definita dall’ipotesi nulla.

Un test statistico e come un sistema d’allarme che suona in presenza di dati non

compatibili con l’ipotesi nulla. Come tutti i sistemi di allarme il test statistico puo produrre

falsi allarmi o dar luogo a mancati allarmi.

Un test conduce sempre a due sole alternative:

• rifiutiamo l’ipotesi nulla H0

• non rifiutiamo l’ipotesi nulla H0

Tale decisione viene presa sulla base delle osservazioni x1, . . . , xn, di un campione casuale

di ampiezza n proveniente dalla popolazione. Sulla base di queste osservazioni prenderemo

la nostra decisione tramite il valore assunto da quella che e chiamata statistica test e che

sara diversa per ogni verifica d’ipotesi. La statistica test ci definisce una regola per cui

se la statistica test assume certi valori, che appartengono ad una regione detta regione

di rifiuto si rifiutera l’ipotesi nulla, se invece assume valori che non appartengono a tale

regione, non si potra rifiutare l’ipotesi nulla. Si tenga pero presente che accettare l’ipotesi

nulla non significa che questa sia vera. Significa che la riteniamo plausibile sulla base delle

nostre osservazioni. Noi non potremo mai sapere qual e il vero valore del parametro.

Trattandosi di un problema di decisione ogni decisione porta con se la possibilita di

commettere un errore facendo la scelta sbagliata. Se i dati portano a rifiutare un’ipotesi

nulla che e vera si commette un errore chiamato di primo tipo.

La probabilita di commettere questo errore viene indicata con α:

α = P (rifiutare H0|H0 e vera).

L’errore di primo tipo α e chiamato anche livello di significativita del test.

Nella pratica si deve scegliere la regione di rifiuto in modo da garantire un pre-assegnato

livello di significativita α e in modo da minimizzare la probabilita dell’altro tipo di errore

che si puo commettere: l’errore di secondo tipo indicato con β.

Se i dati portano ad accettare una ipotesi nulla che e falsa si commette un errore di

secondo tipo. La probabilita di questo errore viene indicata con β:

β = P (non rifiutare H0|H0 e falsa).

I due tipi di errore che si possono commettere in relazione alla realta sono riassunti nella

seguente tabella

Page 117: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

10.1. VERIFICA D’IPOTESI: LA TEORIA 115

Decisione→Realta↓ Rifiuto H0 Non Rifuto H0

H0 vera errore Io tipo nessun errore (OK)α 1− α

H0 falsa nessun errore (OK) errore di IIo tipo1− β β

I test che presenteremo nella prossima sezione sono tali da fissare ad un livello che si

ritiene soddisfacente l’errore di primo tipo (nei fenomeni di tipo sociale di solito α = 0.05

o α = 0.01) e hanno il piu piccolo errore di secondo tipo.

Il nome errore di primo tipo ha origine storica perche rappresenta l’errore piu grave

che si possa commettere dal punto di vista di chi sottoporne il parametro alla verifica.

Ad esempio nell’ottica dell’allarme l’errore piu grave e quello del mancato allarme, perche

stanno rubando la macchina (qui H0 vera significa che il ladro sta agendo) ma l’allarme

non suona (rifiuto H0, i dati mi portano a non credere all’ipotesi H0).

La decisione se accettare o rifiutare l’ipotesi nulla viene fatta sulla base della determi-

nazione di una regione di rifiuto nella quale puo rientrare la statistica test basata sui dati.

La regione di rifiuto viene determinata in base all’errore di primo tipo α e in base a quella

che viene chiamata ipotesi alternativa e indicata con HA. A volte l’ipotesi alternativa

viene indicata anche con H1. Se H0 e data da θ = θ0 l’ipotesi alternativa potra essere di

tre tipi.

• HA : θ 6= θ0, detta ipotesi alternativa bilaterale;

• HA : θ > θ0, detta ipotesi alternativa unilaterale destra;

• HA : θ < θ0, e detta ipotesi alternativa unilaterale sinistra.

A parita di ipotesi nulla diverse ipotesi alternative producono diversi modi di utilizzare

i dati sperimentali per verificare l’ipotesi nulla.

Nella prossima sezione vedremo come si costruisce la regione di rifiuto per il primo

tipo di ipotesi alternativa, che e in un certo senso la piu sicura. Per gli altri due tipi di

ipotesi occorre prestare piu attenzione perche per applicarli occorre essere ben certi della

direzione in cui si e convinti si sia modificato il parametro.

Riassumendo per i test statistici occorre:

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.

2. Trovare la statistica test per il sistema d’ipotesi.

3. Trovare la regione di rifiuto per il sistema d’ipotesi.

4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o

rifiutare H0.

Page 118: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

116 CAPITOLO 10. TEST STATISTICI

Nelle prossime sezioni vedremo come si applicheranno questi passi a vari problemi di

verifica d’ipotesi.

10.2 Verifica d’ipotesi: la pratica

Nella pratica la verifica di ipotesi si basa sulla ricerca di statistiche test, che saranno

diverse a seconda dei diversi modelli sulla popolazione e dei diversi parametri da sottoporre

a verifica. Noi prenderemo in considerazione popolazione con distribuzione normale e

saremo interessati a verifiche di ipotesi sulla media nel caso in cui la standard deviation σ

sia nota e nel caso in cui non lo sia. L’altro caso che tratteremo sara la verifica d’ipotesi

per la proporzione del successo di un certo evento.

10.2.1 Test per la media di popolazione normale: σ nota

Supponiamo di avere un modello normale su una popolazione d’interesse. Ad esempio

un’azienda per la ricerca del personale dichiara che i suoi candidati sono dotati di un

quoziente intellettivo di 120 con una standard deviation di 10. Quello che in sostanza sta

dichiarando l’azienda e che la media µ della sua popolazione normale e 120 e la standard

deviation e σ = 10. Si tratta di dichiarazioni sui parametri di una popolazione. Suppo-

niamo ancora che voi vogliate verificare l’affermazione dell’azienda sul fatto che fornisca

candidati con un quoziente intellettivo di 120. Quello che dovete fare e impostare un test

d’ipotesi per la media della popolazione. In questo caso la popolazione e costituita dai

candidati dell’azienda e la media dichiarata e µ0 = 120. In questo caso siamo interessati

ad una verifica d’ipotesi sul parametro µ, mentre il parametro σ e considerato un para-

metro di disturbo che in questo caso e noto. Il primo passo consiste nel scrivere il sistema

d’ipotesi: {H0 : µ = 120HA : µ 6= 120

Il secondo passo consiste nel trovare la statistica test. Se dobbiamo verificare la veridicita

di una affermazione sul valore di una media sembra abbastanza sensato testarla sul va-

lore della media campionaria calcolata su un campione scelto della popolazione. Quindi

dobbiamo avere i dati relativi al quoziente intellettivo di un certo numero n di aspiranti

candidati selezionati dall’azienda in questione. I dati sono i seguenti: il quoziente intel-

lettivo medio di n = 36 candidati e stato calcolato e risulta x = 114. L’idea e quella di

rifiutare l’ipotesi nulla se lo z score del valore calcolato della media sul campione risulta

troppo lontano dal valore zero. Perche se lo z score assume valori troppo grandi positivi

o troppo piccoli negativi vuol dire che riteniamo poco plausibile l’ipotesi nulla. Quindi la

statistica test richiesta dal secondo punto e lo z score

z =x− µ0

σ√n

.

Page 119: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

10.2. VERIFICA D’IPOTESI: LA PRATICA 117

Nel caso in considerazione esso vale

z =114− 120

10√36

= −3.6.

A questo punto per determinare la regione di rifiuto (terzo passo) occorre scegliere una

soglia tale per cui se lo z score e oltre tale soglia rifiutiamo l’ipotesi nulla, se non supera

tale soglia accettiamo l’ipotesi nulla. Tale soglia che determinera la regione di rifiuto viene

calcolata sulla base dell’errore di primo tipo, o livello del test α. Supponiamo che α = 0.05.

Sappiamo che se la popolazione normale ha media 120 solo il 2.5% della popolazione ha

uno z score maggiore di 1.96 e solo il 2.5% della popolazione ha uno z score minore di

-1.96. Allora se la regione di rifiuto e definita come:

R = {z < −1.96 o z > 1.96} ,

in questo caso la probabilita di rifiutare H0 quando H0 e vera e del 5%. Essa corrisponde

all’area tratteggiata nella Figura 10.1.

Poiche −3.6 e minore di −1.96, il valore z calcolato appartiene alla regione di rifiuto R e

siamo portati a credere che l’ipotesi nulla non sia vera e quindi la conclusione e: rifiutiamo

l’ipotesi nulla. E anche il quarto e ultimo punto e stato eseguito. Quindi riassumendo in

questo specifico problema i quattro passi sono i seguenti:

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA:{H0 : µ = 120HA : µ 6= 120

2. Trovare la statistica test per il sistema d’ipotesi:

z =x− µ0

σ√n

=114− 120

10√36

= −3.6.

3. Trovare la regione di rifiuto per il sistema d’ipotesi:

R = {z < −1.96 o z > 1.96}

4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o

rifiutare H0: Poiche −3.6 e minore di −1.96, rifiutiamo l’ipotesi nulla H0 : µ = 120.

Un modo equivalente per verificare il sistema d’ipotesi{H0 : µ = 120HA : µ 6= 120

consiste nel metodo dell’intervallo di confidenza. Esso si puo riassumere in questi passi:

Page 120: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

118 CAPITOLO 10. TEST STATISTICI

Regione di rifiuto

−3.6 −1.96 0 1.96

α 2 = 0.025 α 2 = 0.025

Figura 10.1: Entrambe le aree tratteggiate sono 0.025. z = −3.6 cade nella regione dirifiuto di sinistra.

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA:{H0 : µ = 120HA : µ 6= 120

2. Calcolare l’intervallo di confidenza al 95% (si noti che il livello di confidenza e l’(1−α)%) per la media µ della popolazione:

Intervallo di confidenza al 95% =

(x− 1.96

σ√n, x+ 1.96

σ√n

)= (111, 117)

3. Decidere se accettare o rifiutare H0 sulla base dell’appartenenza all’intervallo cal-

colato del valore della media definito dall’ipotesi nulla. Poiche 120 non appartiene

all’intervallo calcolato, rifiutiamo l’ipotesi nulla H0 : µ = 120.

I due metodi sono equivalenti per costruzione. Infatti il valore specificato dall’ipotesi nulla

µ = µ0 appartiene all’intervallo di confidenza all’(1 − α)% se e solo se la statistica test z

score cade nella regione di rifiuto del test con livello α.

10.2.2 Test per la media di popolazione normale: σ non nota

Se la standard deviation di una popolazione non e nota, possiamo ancora utilizzare il

metodo della statistica test z score, purche la numerosita campionaria sia grande (in

genere maggiore di n = 30). In questo caso occorre sostituire al parametro σ la stima

Page 121: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

10.2. VERIFICA D’IPOTESI: LA PRATICA 119

s ottenuta dai dati rilevati sul campione. In questo caso l’unico punto che cambia e il

secondo dove lo z score e calcolato come

z =x− µ0

s√n

.

Per il resto se il livello del test e α = 0.05 la regione di rifiuto e la stessa

R = {z < −1.96 o z > 1.96} ,

e la decisione e quella di rifiutare H0 se z appartiene alla regione di rifiuto.

Se invece la numerosita n del campione e piu piccola di di 30 occorre ricorrere ad

un altra statistica, chiamata t di Student. La distribuzione di questa statistica non e

normale standardizzata ma dipende dal numero di osservazioni. In particolare se abbiamo

n osservazioni allora la statistica t di Student si dice che ha n−1 gradi di liberta. Per il resto

il grafico della distribuzione della t di Student e simmetrico, assomiglia alla distribuzione

normale standardizzata, ma ha le code piu alte e la campana piu bassa, cioe ha una

maggior variabilita rispetto alla normale standard, nel senso che ci si aspetta di osservare

una percentuale di valori oltre 3 valori della deviazione standard maggiori di quelli di una

normale standardizzata.

La Figura 10.2 riporta il grafico della distribuzione t di Student al variare dei gradi

di liberta. Come si puo notare al crescere dei gradi di liberta la distribuzione della t di

Student assomiglia sempre piu alla distribuzione normale standard. La distribuzione t di

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

N(0,1) e t−Student

x

f(x)

−5 −4 −3 −2 −1 0 1 2 3 4 5

N(0,1)t(1)t(2)t(10)t(30)

Figura 10.2: Distribuzione t di Student al variare dei gradi di liberta e distribuzionenormale standard.

Student deve il suo nome allo statistico William Sealy Gosset che dedusse la distribuzione

Page 122: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

120 CAPITOLO 10. TEST STATISTICI

t di Student mentre lavorava come statistico alla famosa birreria irlandese Guinness. La

ditta non gli permise di utilizzare il suo vero nome e lui pubblico i risultati ottenuti

lavorando presso la Guinness con lo pseudonimo di Student. Vediamo la procedura per

un test t con livello α = 0.05 (viene chiamato in questo modo il test per verificare il valore

di una media di una popolazione normale con σ non noto e numerosita campionaria n

piccola, cioe minore di 30).

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA. Anche

in questo scriveremo: {H0 : µ = µ0

HA : µ 6= µ0

2. Calcolare la statistica test t. Osservati i valori del campione x1, x2, . . . , xn, questa e

data da

t =x− µ0

s√n

3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la

soglia occorre cercare nella tavola della t di Student con n− 1 gradi di liberta, quei

valori che lasciano a destra un’area pari a 0.025, indichiamo tale valore con tn−10.025,

e il valore che lascia alla sua sinistra un’area di 0.025 sara per simmetria il valore

−tn−10.025. La regione di rifiuto e riportata nella Figura 10.3 e si scrive:

R ={t < −tn−1

0.025 o t > tn−10.025

}Il valore tn−1

0.025 si deve cercare nella tavola A.5 come spiegato nell’esempio.

4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o

rifiutare H0. Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, altrimenti

l’accettiamo.

Esempio 10.2.1. La distribuzione del consumo di alcool tra le donne di eta compresa tra

15 e 25 anni in Italia si puo considerare normale con media pari 9.5 unita per settimana.

Per capire se il consumo di alcool tra le studentesse dell’universita si possa considerare con

la stessa distribuzione si osserva il consumo di alcool di un campione di 14 studentesse.

La media e lo scarto quadratico medio dei valori osservati sono risultati rispettivamente

x = 10.64 e s = 7.26. Sulla base di questi dati si puo accettare l’ipotesi che il consumo di

alcool delle studentesse sia lo stesso di quello delle donne italiane?

Il sistema di ipotesi e il seguente{H0 : µ = 9.5HA : µ 6= 9.5

Page 123: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

10.2. VERIFICA D’IPOTESI: LA PRATICA 121

Regione di rifiuto

− t0.025(n−1)

−1 0 1 t0.025(n−1)

α 2 = 0.025 α 2 = 0.025

Figura 10.3: Regione di rifiuto per il test t. L’area tratteggiata sotto la distribuzione t diStudent con n− 1 gradi di liberta e 0.05.

La statistica test e:

t =x− µ0

s√n

=10.64− 9.5

7.26√14

= 0.59

Il valore soglia per costruire la regione di rifiuto lo cerchiamo nella Tabella A.5 della t di

Student. In questa tabella p indica la probabilita sotto la curva della distribuzione di una

t di Student con g gradi di liberta. Tale probabilita e data dall’area tratteggiata in Figura

10.4. Quindi il valore che noi cerchiamo e in corrispondenza della colonna con p = 0.975 in

quanto questo valore lascera alla sua destra un’area sotto la curva pari a 0.025. Essendo

le osservazioni n = 14 i gradi di liberta sono 13, per cui dobbiamo incrociare la colonna

con p = 0.975 con la riga avente g = 13. Il valore corrispondente e 2.16. Quindi la regione

di rifiuto puo essere scritta come

R = {t < −2.16 o t > 2.16} .

Poiche la statistica test t = 0.59 non appartiene a questa regione accettiamo l’ipotesi nulla.

Il consumo delle studentesse si puo ritenere in linea con il consumo delle donne italiane.

10.2.3 Test per la proporzione

La procedura per la verifica d’ipotesi puo essere applicata anche al caso in cui si vo-

glia sottoporre a verifica il valore della proporzione di un certo evento d’interesse su una

popolazione. Vediamo in questo caso i 4 passi.

Page 124: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

122 CAPITOLO 10. TEST STATISTICI

Area sotto la distribuzione t di Student

−5 −3 −1 0 1 tpg

3 5

Figura 10.4: Area sotto la curva di una distribuzione t di Student al variare dei gradi diliberta e di p come riportati in Tabella A.5.

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA. Ab-

biamo un’affermazione sul parametro π:{H0 : π = π0

HA : π 6= π0

2. Per il teorema 9.1.2 calcoliamo lo z score della proporzione campionaria calcolata

sull’osservazione di un campione di ampiezza n. Indicata con p tale proporzione

abbiamo:

z =p− π0√π0(1−π0)

n

3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la so-

glia sempre il Teorema 9.1.2 garantisce che se n e abbastanza grande la distribuzione

degli score e normale standardizzata. Quindi la regione di rifiuto a livello α = 0.05

e ancora

R = {z < −1.96 o z > 1.96}

4. Decidere sulla base del valore z. Se z appartiene a R rifiutiamo l’ipotesi nulla,

altrimenti accettiamo l’ipotesi nulla.

Esempio 10.2.2. Un magazzino dichiara di non commettere discriminazione sulla base

dell’etnia dei suoi dipendenti. Meta di essi appartengono infatti a una minoranza etnica.

Osservando i dati dei licenziati nell’ultimo anno i dati dicono che di 28 persone licenziate

Page 125: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

10.2. VERIFICA D’IPOTESI: LA PRATICA 123

23 appartengono alla minoranza etnica. Il magazzino commette il reato di discriminazione

della minoranza?

Se l’affemazione del magazzino fosse vera, cioe se non ci fosse discriminazione il valore

di p = 2328 = 0.82 dovrebbe essere tale da non far rifiutare l’ipotesi nulla. Applichiamo i

passi per la verifica di ipotesi per la proporzione a questo problema. Il sistema di ipotesi e{H0 : π = 0.50HA : π 6= 0.50

Calcoliamo quindi lo z score della proporzione osservata p = 0.82:

z =p− π0√π0(1−π0)

n

=0.82− 0.50√

0.50(1−0.50)28

= 3.39.

Poiche il valore 3.39 appartiene alla regione di rifiuto R = {z < −1.96 o z > 1.96}, rifiutia-

mo l’ipotesi nulla. Quindi non possiamo credere all’affermazione del magazzino riguardo

alla mancanza di discriminazione.

Esercizio 10.2.3. Determinare il numero massimo di licenziati appartenenti alla mino-

ranza etnica affiche l’ipotesi nulla non sia rifiutata.

Esempio 10.2.4. Un gruppo di n = 9 studenti laureati in sociologia si sottopone ad un

test psicometrico prima di essere assunti da una compagnia. La performance in questo test

di tutti partecipanti ha una distribuzione normale con media µ0 = 62. La media aritmetica

ottenuta dai 9 studenti nel test e x = 66.33, mentre la standard deviation misurata sui 9

studenti e stata s = 4.04. Si puo ritenere, a livello α = 0.05, che gli studenti laureati in

sociologia che hanno partecipato al test hanno una performance diversa da quella di tutti

gli altri studenti?

Svolgiamo l’esercizio passo per passo.

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.{H0 : µ = 62HA : µ 6= 62

2. Calcolare la statistica test t. I valori del campione x1, x2, . . . , x9 non li conosciamo

ma conosciamo la media x e s. La statistica test e

t =x− µ0

s√n

=66.33− 62

4.04√9

= 3.22

3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la

soglia occorre cercare nella tavola della t di Student con n− 1 = 8 gradi di liberta,

Page 126: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

124 CAPITOLO 10. TEST STATISTICI

quei valori che lasciano a destra un’area pari a 0.025, indichiamo tale valore con

t80.025, e il valore che lascia alla sua sinistra un’area di 0.025 sara per simmetria il

valore −t80.025. Il valore cercato lo troviamo nella tavola all’incrocio con i gradi di

liberta g = 8 e probabilita p = 0.975 ed e t80.025 = 2.306. La regione di rifiuto e

R = {t < −2.306 o t > 2.306}

4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o

rifiutare H0. Poiche t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, infatti

3.22 e maggiore di 2.306.

10.3 Il livello di significativia del test: α

Abbiamo visto nelle sezioni precedenti le regioni di rifiuto per verifiche d’ipotesi con errore

di primo tipo α uguale a 0.05. Se il livello di significativia del test varia, anche la regione

di rifiuto cambia. Ad esempio se il livello diventa α = 0.01 la regione di rifiuto per il primo

caso pratico trattato e

R = {z < −2.575 o z > 2.575}

Il valore −2.575 e quel valore che lascia alla sua sinistra sotto la curva della distribuzione

normale standardizzata un’area pari a 0.005. Mentre per simmetria il valore 2.575 lascia

alla sua destra sotto la curva della distribuzione normale standardizzata un’area pari

a 0.005. Adottiamo un po’ di notazioni. Se indichiamo con α2 la meta del livello di

significativita, siamo in grado di calcolare la regione di rifiuto per qualunque valore di

significativia α. Infatti se indichiamo con zα2

il valore sotto la curva normale che lascia

alla sua destra un’area pari a α2 la generica regione di rifiuto puo essere scritta come

R ={z < −zα

2o z > zα

2

}Si noti che se α = 0.05, α2 = 0.025 e zα

2= 1.96 mentre se α = 0.01, α2 = 0.005 e zα

2= 2.575.

Risulta percio evidente che se vogliamo calcolare la regione di rifiuto a livello α = 0.02

poiche α2 = 0.01 il valore nelle tavole della Normale standardizzata che lascia alla sua

destra un’area di 0.01 e 2.325. Quindi la regione di rifiuto e

R = {z < −2.325 o z > 2.3255}

Nel caso della verifica d’ipotesi per la proporzione le regioni di rifiuto sono le stesse. Nel

caso invece in cui la verifica d’ipotesi sia per la media della popolazione normale nel caso

in cui σ non sia noto e l’ampiezza campionaria n sia bassa, occorre ricorrere alla tavola

della t di Student per diversi valori di α. Nella tavola fornita occorrera cercare il valore

per p = 1− α2 in corrispondenza ai gradi di liberta g = n− 1.

Page 127: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

10.4. TEST CON ALTERNATIVA UNILATERALE 125

10.4 Test con alternativa unilaterale

A volte si e praticamente sicuri della direzione in cui si e spostato il valore della media,

per cui invece di verificare l’ipotesi se la media e un certo valore contro l’alternativa che

sia diversa (test bilaterale) si verifica se la media e un certo valore contro l’alternativa che

sia maggiore (oppure minore) del valore specificato con l’ipotesi nulla. Si tratta del test

ad una coda ovvero del test con alternativa unilaterale. Per questo tipo di test l’ipotesi

nulla e la stessa

H0 : µ = µ0

mentre l’alternativa puo essere di tipo unilaterale destra

HA : µ > µ0

quando siamo convinti che il valore della media sia cresciuto rispetto al valore dichiarato.

Oppure l’alternativa puo essere di tipo unilaterale sinistra

HA : µ < µ0

quando siamo convinti che il valore della media sia diminuito rispetto al valore dichiarato.

A questo punto fissato il livello del test α = 0.05 occorre determinare la regione di

rifiuto ed e a questo punto che sta la grossa differenza tra test unilaterali e quelli bilaterali.

In questi ultimi abbiamo visto che l’errore α veniva spezzato in due parti (una a sinistra

e una a destra) della distribuzione della statistica test. Nei test unilaterali questo errore e

invece tutto da una parte. Tale parte ovviamente dipende dal tipo di alternativa unilaterale

che stiamo verificando. Se ad esempio abbiamo l’ipotesi unilaterale destra µ > µ0 la regione

di rifiuto a livello α = 0.05 e

R = {z > 1.645}

dove 1.645 e il valore sotto la curva normale standardizzata che lascia alla sua destra

un’area pari a 0.05. La regione di rifiuto e riportata in Figura 10.5. Se invece il tet

consiste nel verificare l’ipotesi nulla µ = µ0 contro l’alternativa unilaterale sinistra µ < µ0,

la regione di rifiuto a livello α = 0.05 e

R = {z < −1.645}

dove −1.645 e il valore sotto la curva normale standardizzata che lascia alla sua sinistra

un’area pari a 0.05. La regione di rifiuto e riportata in Figura 10.6.

Se cambia il livello del test cambia solo il valore soglia da ricavare dalla tavola in

corrispondenza del valore α specificato.

Per il test per la media di una popolazione normale quando lo scarto quadratico medio

non e noto e la numerosita del campione minore di 30 si procede con la statistica t e si

Page 128: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

126 CAPITOLO 10. TEST STATISTICI

Regione di rifiuto

0 1.645

α = 0.05

Figura 10.5: Regione di rifiuto per il test unilaterale con alternava destra a livello α = 0.05.

utilizza la tavola della t di Student per determinare la regione di rifiuto quando l’alternativa

e una delle due unilaterale destra o sinistra. Vediamo i passi per questo test nei due casi.

Fissato α = 0.05 consideriamo l’ipotesi alternativa unilaterale destra.

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.{H0 : µ = µ0

HA : µ > µ0

2. Calcolare la statistica test t. Osservati i valori del campione x1, x2, . . . , xn, questa e

data da

t =x− µ0

s√n

3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la

soglia occorre cercare nella tavola della t di Student con n− 1 gradi di liberta, quel

valore che lascia a destra un’area pari a 0.05, indichiamo tale valore con tn−10.05 . La

regione e:

R ={t > tn−1

0.05

}4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o

rifiutare H0. Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, altrimenti

l’accettiamo.

Consideriamo ora l’ipotesi alternativa unilaterale sinistra

Page 129: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

10.4. TEST CON ALTERNATIVA UNILATERALE 127

Regione di rifiuto

−1.645 0

α = 0.05

Figura 10.6: Regione di rifiuto per il test unilaterale con alternava sinistra a livello α =0.05.

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.{H0 : µ = µ0

HA : µ < µ0

2. Calcolare la statistica test t. Osservati i valori del campione x1, x2, . . . , xn, questa e

data da

t =x− µ0

s√n

3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la

soglia occorre cercare nella tavola della t di Student con n− 1 gradi di liberta, quel

valore che lascia a sinistra un’area pari a 0.05, indichiamo tale valore con −tn−10.05 . La

regione e:

R ={t < −tn−1

0.05

}4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o

rifiutare H0. Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, altrimenti

l’accettiamo.

Si noti che rispetto ai test bilaterali quello che cambia e unicamente il valore soglia a

parita di statistica test e livello del test in quanto tutto l’errore di prima specie viene

scaricato nella direzione dell’ipotesi alternativa. Se l’ipotesi nulla e vera si sbaglia sono in

una direzione. A parita di livello α la soglia della regione di rifiuto per un test unilaterale

Page 130: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

128 CAPITOLO 10. TEST STATISTICI

e sempre minore del corrispondente test bilaterale e quindi si rifiutera l’ipotesi nulla con

piu facilita.

Vediamo un esempio

Esempio 10.4.1. Riprendiamo l’Esercizio 10.2.4 Gli studenti laureati in sociologia sono

convinti di essere nettamente sopra la media della performance in questo test. Impostare

una verifica d’ipotesi per stabilire se tale affermazione e credibile.

Svolgiamo l’esercizio passo per passo, anche se con le considerazioni fatte se abbiamo

rifiutato l’ipotesi nulla nel caso di test bilaterale, questa allo stesso livello sara rifiutata

anche per il test unilaterale destra. Vediamo cosa accade.

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.{H0 : µ = 62HA : µ > 62

2. Calcolare la statistica test t. I valori del campione x1, x2, . . . , x9 non li conosciamo

ma conosciamo la media x e s. La statistica test e

t =x− µ0

s√n

=66.33− 62

4.04√9

= 3.22

Come si vede il valore della statistica test non cambia.

3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la

soglia occorre cercare nella tavola della t di Student con n− 1 = 8 gradi di liberta,

quel valori che lascia a destra un’area pari a 0.05, indichiamo tale valore con t80.05.Il

valore cercato lo troviamo nella tavola all’incrocio con i gradi di liberta g = 8 e

probabilita p = 0.95 ed e t80.05 = 1.86. La regione di rifiuto e

R = {t > 1.86}

Come si vede la regione di rifiuto a destra e piu grande della parte destra nel caso

di alternativa bilaterale.

4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o

rifiutare H0. Poiche t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, infatti

3.22 e maggiore di 1.86 come lo era di 2.306.

Page 131: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Capitolo 11

Tabelle di contingenza

In questo capitolo studiamo le relazioni che possono esistere tra piu variabili categoriali,

cioe che assumono come valori delle categorie. Lo scopo sara capire se dal valore di una

di queste variabili dipende il valore dell’altra variabile. Limiteremo il nostro studio a due

variabili e vorremo capire quando e in che misura una delle due variabili influenza l’altra.

Trattandosi di variabili qualitative, non possiamo fare operazioni sui valori (le categorie)

assunte da tali variabili ma solo sul numero di volte in cui una tale categoria si presenta,

cioe sulle frequenze.

11.1 Il test χ2 per l’associazione tra due variabili

Il test χ2 (la lettera greca χ si legge chi e il test si legge test chi quadrato o test chi quadro)

per l’indipendenza di due variabili vuole andare a verificare l’ipotesi:

H0 : le variabili sono indipendenti

contro l’alternativa

HA : le variabili non sono indipendenti

Se la variabili non sono indipendenti c’e una certa dipendenza o associazione tra loro e

quindi se una di loro assume un valore, l’altra sara piu propensa ad assumerne uno che

dipende dal valore assunto dalla prima piuttosto che un altro. Se denotiamo con Y la

variabile di interesse e con A la variabile che pensiamo influenzi la variabile Y entrambe

qualitative, possiamo, partendo dalla tabella di contingenza riportare le frequenze su un

campione di ampiezza N con cui vengono rilevate entrambe le variabili. La tabella di

contingenza non e altro che una tabella in cui vengono riportate le frequenze con le quali

vengono rilevate le modalita congiunte delle due variabili. Nella Tabella 11.1 N rappre-

senta il numero totale di osservazioni (detto anche grande totale). Sono rilevate le due

variabili Y che e quella di interesse che si presenta con c modalita e A che si presenta

con r modalita. Le modalita di Y sono indicate con y1, . . . , yc. Le modalita di A con

129

Page 132: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

130 CAPITOLO 11. TABELLE DI CONTINGENZA

A Y Marginale Ay1 . . . yc

a1 n11 . . . n1c n1...

.... . .

......

ar nr1 . . . nrc nr

Marginale Y m1 . . . mc N

Tabella 11.1: Una tabella di contingenza. Vi sono le due distribuzioni marginali e ilnumero totale di osservazioni N

a1, . . . , ar. I numeri all’interno della tabella rappresentano la distribuzione congiunta delle

variabili Y e A. Ad esempio n11 rappresenta il numero di volte che la modalita 1 della

Y e la modalita 1 della A si presenta. Vale a dire sono il numero di unita delle N nel

campione nel quale la variabile Y assume la modalita y1 e la variabile A la modalita a1.

I valori n1, . . . , nr e m1, . . . ,mc che appainoo nell’ultima colonna e nell’ultima riga sono

dette distribuzioni marginali ed hanno un ruolo molto importante nell’analisi che faremo.

Esse sono la distribuzione della variabile A e della variabile Y , indipendentemente dal

valore assunto dall’altra variabile. Ad esempio n1 rappresenta il numero di unita tra le

N del campione nelle quali la variabile A assume la modalita a1, mentre ad esempio mc

rappresenta il il numero di unita tra le N del campione nelle quali la variabile Y assume

la modalita yc.

Se le variabili Y e A fossero indipendenti la distribuzione congiunta (la parte centrale

della tabella) dovrebbe contenere dei valori particolari, detti frequenze attese in caso di

indipendenza, che sono ottenuti in questo modo. La frequenza attesa in corrispondenza

della riga generica e della colonna generica di ottiene facendo il prodotto delle due corri-

spondenti marginali e si divide per N , il grande totale. Quindi la frequenza attesa della

prima frequenza congiunta n11 si ottiene moltiplicando n1 per m1 e dividendo per N . In

modo analogo si procede per calcolare tutte le altre. Tali frequenze vengono indicate con

eij , dove i sta per il numero di riga e j per il numero della colonna. Se nij rappresenta in

modo analogo la frequenza osservata della modalita ai per la variabile A e la modalita yj

per la variabile Y la formula che ci da la generica frequenza attesa e

eij =nimj

N, i = 1, . . . , r, j = 1, . . . , c

Calcolando per ogni valore di riga e per ogni valore di colonna tutte le frequenze attese

otteniamo la tabella in caso di indipendenza tra le variabili Y e A. Quindi piu si e in

presenza di una associazione tra Y e A ovvero di una qualche dipendenza di Y da A tanto

piu i valori osservati nij saranno diversi da quelli attesi eij . A questo punto si calcolano

tutte le differenze nij − eij , si elevano al quadrato e si dividono per le frequenze attese e

quindi si sommano tutti. Tale quantita e la statistica test di interesse e viene denotata

Page 133: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

11.2. PRIMA LE DONNE E I BAMBINI 131

con il simbolo X2. In formula

X2 =∑ (nij − eij)2

eij

dove la somma e estesa a tutti i termini all’interno della tabella di contingenza, ovvero a

tutti i termini delle frequenze congiunte. Abbiamo quindi un importante risultato della

statistica.

Teorema 11.1.1. Data una tabella di contingenza come la 11.1, sotto l’ipotesi nulla che

Y e A siano indipendenti, la quantita

X2 =∑ (nij − eij)2

eij

ha una distribuzione χ2.

La distribuzione χ2 (si legge chi quadrato o chi quadro) e una distribuzione asim-

metrica che si ottiene come somme di normali standardizzate elevate al quadrato, la cui

distribuzione dipende, come la t di Student da un parametro, detto gradi di liberta. La

Tabella A.6 riporta per i diversi gradi di liberta g e per diversi valori dell’area, i valori

per i quali l’area sotto la distribuzione di una χ2 per valori da zero fino a quello indicato

e pari a p. Nella Figura 11.1 l’area in questione e tratteggiata e vale p. Se vogliamo che

l’area oltre il valore x sotto la distribuzione di una χ2 con 8 gradi di liberta sia ad esempio

α = 0.05, dobbiamo cercare nella tabella la riga corrispondente a 8 gradi di liberta, cie

g = 8, e nella colonna corrispondente a p = 1 − α = 0.95. In questo caso avremo quindi

x = 15.50731.

Quindi una volta calcolata la quantita X2, fissato un livello del test α, cioe fissato

l’errore di primo tipo, dobbiamo stabilire i gradi di liberta della distribuzione χ2. I gradi

di liberta sono dati dal prodotto tra il numero delle modalita delle due variabili diminuito

di uno. Vale a dire, se r sono il numero delle modalita di una variabile e c il numero delle

modalita della seconda variabile, avremo che i gradi di liberta associati alla statistica χ2

sono

g = (r − 1) · (c− 1).

A questo punto la regole di decisione a livello α e: rifiuto l’ipotesi nulla se il valore

X2 calcolato sulla tabella di contingenza supera il valore x che troviamo nella tavola in

corrispondenza dei gradi di liberta calcolati e p = 1− α.

11.2 Prima le donne e i bambini

La seguente tabella riporta i dati relativi al disastro del Titanic. Si tratta di una tabel-

la a 4 vie nel senso che sono presenti 4 variabili. La variabile di interesse che possiamo

Page 134: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

132 CAPITOLO 11. TABELLE DI CONTINGENZA

Regione di rifiuto

0 x

p = 0.95

Figura 11.1: L’area tratteggiata sotto la curva di una distribuzione χ2 con g gradi diliberta da 0 a x vale p. I diversi valori di x per p fissato e g fissati sono riportati nellaTabella A.6.

denominare Y=Deceduti, si presenta con due modalita: SI (i morti) e NO (i vivi o soprav-

vissuti). Poi abbiamo la variabile Eta (con le due modalita Bambini e Adulti), la variabile

Sesso (anche questa con le due modalita Uomini e Donne) e infine la variabile Classe di

viaggio (con 4 modalita: prima classe, seconda classe, terza classe ed equipaggio). Dalla

Tabella 11.2 che riporta tutte le variabili possiamo andare a costruire le tabelle a doppia

entrata per cercare di capire quale delle variabili, tra Sesso, Eta e Classe di viaggio e la

piu associata con la variabile Deceduti.

Le tre tabelle in questione sono riportate di seguito.

Esercizio 11.2.1. Calcolare l’indice X2 per le tre tabelle di contingenza ricavate dai dati

del disastro del titanic e stabilire se a livello α = 0.05 si rigetta l’ipotesi che la variabile

Deceduti sia indipendente dalle variabili considerate nelle tre tabelle (Classe di viaggio,

Sesso ed Eta).

Vediamo passo per passo come calcolare l’indice X2 per la Tabella 11.5. Prima di tutto

scriviamo l’ipotesi nulla:

H0 : L’essere deceduto e indipendente dall’eta.

L’alternativa possiamo definirla come

HA : L’essere deceduto dipende dall’eta.

Page 135: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

11.2. PRIMA LE DONNE E I BAMBINI 133

Deceduti

SI NOClasse Sesso Eta (Morti) (Vivi)

1a Uomini Bambini 0 5Adulti 118 57

Donne Bambini 0 1Adulti 4 140

2a Uomini Bambini 0 11Adulti 154 14

Donne Bambini 0 13Adulti 13 80

3a Uomini Bambini 35 13Adulti 387 75

Donne Bambini 17 14Adulti 89 76

Equipaggio Uomini Bambini 0 0Adulti 670 192

Donne Bambini 0 0Adulti 3 20

1490 711

Tabella 11.2: Dati relativi al disastro del Titanic. Erano presenti un totale di 2201passeggeri

Andiamo a mettere in una tabella tutte le quantita necessarie per il calcolo di X2.

Nella Tabella 11.2 nij indica le frequenze osservate. La i indica la riga, la j la colonna.

Nella Tabella 11.5 la frequenza osservata n11 e il numero dei bambini morti, n12 il numero

dei bambini vivi, n21 e il numero degli adulti morti, n22 e il numero degli adulti soprav-

vissuti. Le frequenze attese eij sono calcolate utilizzando le frequenze delle distribuzioni

marginali: e11 = 1490∗1092201 e la frequenza attesa in caso di indipendenza del numero di

bambini morti. In modo analogo si calcolano le altre frequenze attese.

I valori nell’ultima colonna sommati danno il valore di X2. In questo caso X2 = 20.95.

Dobbiamo calcolare i gradi di liberta associati alla tabella: essendo una tabella 2× 2

i gradi di liberta sono (2− 1) · (2− 1) = 1.

Se andiamo nella tabella della distribuzione χ2 con un grado di liberta (valori nella

prima riga, per g = 1 notiamo che l’ultimo valore per p = 09995 e poco piu di 12. Questo

significa che il valore 20 lascia alla sua sinistra un’area che e quasi 1, e quindi rifiutiamo

con molta convinzione l’ipotesi nulla.

La conclusione di questo test e: rifiutiamo l’ipotesi nulla che il sopravvivere sia indi-

pendente dall’eta.

Riassumendo i passi per un test χ2 per l’indipendenza sono i seguenti:

Page 136: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

134 CAPITOLO 11. TABELLE DI CONTINGENZA

SI (Morti) NO (Vivi)

1st 122 203 3252nd 167 118 2853rd 528 178 706

Crew 673 212 885

1490 711 2201

Tabella 11.3: Il disastro del Titanic, Deceduti e Classe di viaggio

SI (Morti) NO (Vivi)

Uomini 1364 367 1731Donne 126 344 470

1490 711 2201

Tabella 11.4: Il disastro del Titanic, Deceduti e Sesso

1. Scrivere l’ipotesi nulla esprimendo l’indipendenza delle variabili considerate.

2. Calcolare le frequenze attese per ogni frequenza osservata.

3. Sistemare in una tabella le frequenze osservate, le frequenze attese, la differenza tra

queste. Eleviamo quindi al quadrato ogni differenza e dividiamo per la frequenza

attesa.

4. Sommiamo queste ultime quantita per ottenere il valore X2.

5. Calcolare i gradi di liberta g.

6. Cercare nella tabella della distribuzione χ2 in corrispondenza della riga g il valore

della statistica X2.

7. In base al valore trovato in tabella si trae la conclusione del test come segue:

(a) Se X2 e piu grande di ogni valore rappresentato si rifiute l’ipotesi nulla che le

due variabili siano indipendenti, per qualunque livello α del test.

(b) Se il valore X2 e piu piccolo del valore in corrispondenza della colonna 0.95 si

accetta l’ipotesi nulla di indipendenza a livello α = 0.05. Se e piu grande del

valore trovato si rifiuta a livello α = 0.05.

(c) Se il valore X2 e piu piccolo del valore in corrispondenza della colonna 0.99 si

accetta l’ipotesi nulla di indipendenza a livello α = 0.01. Se e piu grande del

valore trovato si rifiuta a livello α = 0.01

Page 137: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

11.3. DIRE QUALCOSA DI PIU SULLA DIPENDENZA 135

SI (Morti) NO (Vivi)

Bambini 52 57 109Adulti 1438 654 2092

1490 711 2201

Tabella 11.5: Il disastro del Titanic, Deceduti ed Eta

nij eij nij − eij (nij − eij)2 (nij−eij)2eij

bambini morti 52 73.79 -21.79 474.77 6.43bambini vivi 57 35.21 21.79 474.77 13.48adulti morti 1438 1416.21 21.79 474.77 0.34

adulti vivi 654 675.79 -21.79 474.77 0.70

somme 20.95

Tabella 11.6: I passaggi per il calcolo della statistica X2 per le variabili Essere decedutied Eta

11.3 Dire qualcosa di piu sulla dipendenza

Negli esempi visti nella sezione precedente la variabile Essere sopravvissuto risulta dipen-

dere dalle altre variabili. Il calcolo delle quantita necessarie per ottenere X2 possono essere

utilizzate per raccontare qualcosa di piu di questa dipendenza.

Il calcolo dei residui ci puo dare qualche informazione al riguardo. I residui sono

calcolati come

rij =nij − eij√

eij.

I residui per la Tabella 11.5 sono riportati nella Tabella 11.7.

SI (Morti) NO (Vivi)

Bambini -2.54 3.67Adulti 0.58 -0.84

Tabella 11.7: Il disastro del Titanic. Residui per la tabella relativa alle variabili Decedutied Eta

Un residuo negativo significa che ci sono meno unita in quella cella rispetto a quelle

che mi aspetterei in caso di indipendenza. Cioe il valore osservato e piu piccolo di quello

atteso in caso di indipendenza. Viceversa un residuo positivo significa che ci sono piu

unita in quella cella rispetto a quelle che mi aspetterei in caso di indipendenza. Cioe il

valore osservato e piu grande di quello atteso.

In secondo luogo andiamo a vedere quanto sono grandi i residui. Si puo dimostrare

che i residui in ogni cella hanno una distribuzione normale, quindi possiamo dire se siano

grandi o meno. Dal punto di vista statistico effettuiamo un test per verificare l’ipotesi

Page 138: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

136 CAPITOLO 11. TABELLE DI CONTINGENZA

nulla che i residui siano nulli. Essendo distribuiti come una normale standard, rifiutiamo

l’ipotesi nulla a livello 5% se i residui sono maggiori di 1.96. Rifiutare l’ipotesi nulla in

questo caso significa che le differenze osservate in quella cella sono significative. Quindi in

questo caso l’essere bambini ha molta influenza sulla variabile Essere sopravvissuto.

11.4 Odds Ratio

Nelle tabelle a doppia entrata 2× 2 l’odds ratio puo dare informazioni importanti sull’as-

sociazione tra i valori delle variabili per le quali si e riscontrato associazione (il test χ2 ha

rifiutato l’ipotesi nulla di indipendenza tra le variabili). L’odds ratio, indicato con OR,

viene calcolato come rapporto tra il prodotto delle frequenze osservate incrociate. Piu

facile scriverlo che dirlo!

OR =n11n22

n12n21.

L’odds ratio puo assumere un qualunque valore positivo (non si calcola l’odds ratio per

tabelle in cui una delle frequenze osservate e nulla. Un valore dell’odds ratio maggiore di

1 significa che i soggetti nella prima riga tendono a propendere piu per la prima risposta

che per la seconda. Odds ratio minori di 1 significa che i soggetti nella prima riga tendono

a propendere pi`u per la seconda risposta che per la prima.

Calcoliamo l’odds ratio per la Tabella 11.5. Abbiamo

OD =52 ∗ 653

1438 ∗ 57= 0.41

Questo significa che i bambini tendono ad assumere piu la modalita SI della variabile

Essere sopravvissuto.

Page 139: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Appendice A

Tavole Statistiche

In questa appendice sono riportate le tavole statistiche utilizzate nel testo e che potranno

essere utili per risolvere gli esercizi. La Tavola A.1 riporta i valori dell’area sotto la curva

Normale da 0 a un qualunque valore z positivo. Quest’area e riportata nella Figura A.1.

Si noti come per valori di z maggiori di 3.3 il valore dell’area e approssimato con 0.50 che

N(0,1)

z

−3 −2 −1 0 1 z 2 3

0.00.1

0.20.3

0.4

Figura A.1: Area sotto la curva normale standardizzata della regione da 0 fino al genericoz score.

e invece l’area sotto la curva fino a + infinito. Si ricordi l’osservazione fatta nel Capitolo

6, dove si e sottolineato che la curva Normale e asintotica all’asse delle ascisse, quindi la

curva si avvicina all’asse delle ascisse senza mai toccarlo.

137

Page 140: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

138 APPENDICE A. TAVOLE STATISTICHE

Area

N(0,1)

z

−3 −2 −1 0 1 z 2 3

0.00.1

0.20.3

0.4

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.000 0.004 0.008 0.012 0.016 0.020 0.024 0.028 0.032 0.0360.1 0.040 0.044 0.048 0.052 0.056 0.060 0.064 0.067 0.071 0.0750.2 0.079 0.083 0.087 0.091 0.095 0.099 0.103 0.106 0.110 0.1140.3 0.118 0.122 0.126 0.129 0.133 0.137 0.141 0.144 0.148 0.1520.4 0.155 0.159 0.163 0.166 0.170 0.174 0.177 0.181 0.184 0.1880.5 0.191 0.195 0.198 0.202 0.205 0.209 0.212 0.216 0.219 0.2220.6 0.226 0.229 0.232 0.236 0.239 0.242 0.245 0.249 0.252 0.2550.7 0.258 0.261 0.264 0.267 0.270 0.273 0.276 0.279 0.282 0.2850.8 0.288 0.291 0.294 0.297 0.300 0.302 0.305 0.308 0.311 0.3130.9 0.316 0.319 0.321 0.324 0.326 0.329 0.331 0.334 0.336 0.3391.0 0.341 0.344 0.346 0.348 0.351 0.353 0.355 0.358 0.360 0.3621.1 0.364 0.367 0.369 0.371 0.373 0.375 0.377 0.379 0.381 0.3831.2 0.385 0.387 0.389 0.391 0.393 0.394 0.396 0.398 0.400 0.4011.3 0.403 0.405 0.407 0.408 0.410 0.411 0.413 0.415 0.416 0.4181.4 0.419 0.421 0.422 0.424 0.425 0.426 0.428 0.429 0.431 0.4321.5 0.433 0.434 0.436 0.437 0.438 0.439 0.441 0.442 0.443 0.4441.6 0.445 0.446 0.447 0.448 0.449 0.451 0.452 0.453 0.454 0.4541.7 0.455 0.456 0.457 0.458 0.459 0.460 0.461 0.462 0.462 0.4631.8 0.464 0.465 0.466 0.466 0.467 0.468 0.469 0.469 0.470 0.4711.9 0.471 0.472 0.473 0.473 0.474 0.474 0.475 0.476 0.476 0.4772.0 0.477 0.478 0.478 0.479 0.479 0.480 0.480 0.481 0.481 0.4822.1 0.482 0.483 0.483 0.483 0.484 0.484 0.485 0.485 0.485 0.4862.2 0.486 0.486 0.487 0.487 0.487 0.488 0.488 0.488 0.489 0.4892.3 0.489 0.490 0.490 0.490 0.490 0.491 0.491 0.491 0.491 0.4922.4 0.492 0.492 0.492 0.492 0.493 0.493 0.493 0.493 0.493 0.4942.5 0.494 0.494 0.494 0.494 0.494 0.495 0.495 0.495 0.495 0.4952.6 0.495 0.495 0.496 0.496 0.496 0.496 0.496 0.496 0.496 0.4962.7 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.4972.8 0.497 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.4982.9 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.499 0.499 0.4993.0 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.4993.1 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.4993.2 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.4993.3 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.5003.4 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.5003.5 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500

Tabella A.1: Tavola della Normale standard. Valori dell’area sotto la curva Normale da zpositivo a +∞. Per calcolare l’area sotto la curva per l’intervallo (0, 1.51) si cerca il valoreall’incrocio della riga 1.5 e della colonna 0.01, cioe l’area e 0.434.

Page 141: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

139

Area

N(0,1)

z

−3 −2 −1 0 1 z 2 3

0.00.1

0.20.3

0.4z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.500 0.496 0.492 0.488 0.484 0.480 0.476 0.472 0.468 0.4640.1 0.460 0.456 0.452 0.448 0.444 0.440 0.436 0.433 0.429 0.4250.2 0.421 0.417 0.413 0.409 0.405 0.401 0.397 0.394 0.390 0.3860.3 0.382 0.378 0.374 0.371 0.367 0.363 0.359 0.356 0.352 0.3480.4 0.345 0.341 0.337 0.334 0.330 0.326 0.323 0.319 0.316 0.3120.5 0.309 0.305 0.302 0.298 0.295 0.291 0.288 0.284 0.281 0.2780.6 0.274 0.271 0.268 0.264 0.261 0.258 0.255 0.251 0.248 0.2450.7 0.242 0.239 0.236 0.233 0.230 0.227 0.224 0.221 0.218 0.2150.8 0.212 0.209 0.206 0.203 0.200 0.198 0.195 0.192 0.189 0.1870.9 0.184 0.181 0.179 0.176 0.174 0.171 0.169 0.166 0.164 0.1611.0 0.159 0.156 0.154 0.152 0.149 0.147 0.145 0.142 0.140 0.1381.1 0.136 0.133 0.131 0.129 0.127 0.125 0.123 0.121 0.119 0.1171.2 0.115 0.113 0.111 0.109 0.107 0.106 0.104 0.102 0.100 0.0991.3 0.097 0.095 0.093 0.092 0.090 0.089 0.087 0.085 0.084 0.0821.4 0.081 0.079 0.078 0.076 0.075 0.074 0.072 0.071 0.069 0.0681.5 0.067 0.066 0.064 0.063 0.062 0.061 0.059 0.058 0.057 0.0561.6 0.055 0.054 0.053 0.052 0.051 0.049 0.048 0.047 0.046 0.0461.7 0.045 0.044 0.043 0.042 0.041 0.040 0.039 0.038 0.038 0.0371.8 0.036 0.035 0.034 0.034 0.033 0.032 0.031 0.031 0.030 0.0291.9 0.029 0.028 0.027 0.027 0.026 0.026 0.025 0.024 0.024 0.0232.0 0.023 0.022 0.022 0.021 0.021 0.020 0.020 0.019 0.019 0.0182.1 0.018 0.017 0.017 0.017 0.016 0.016 0.015 0.015 0.015 0.0142.2 0.014 0.014 0.013 0.013 0.013 0.012 0.012 0.012 0.011 0.0112.3 0.011 0.010 0.010 0.010 0.010 0.009 0.009 0.009 0.009 0.0082.4 0.008 0.008 0.008 0.008 0.007 0.007 0.007 0.007 0.007 0.0062.5 0.006 0.006 0.006 0.006 0.006 0.005 0.005 0.005 0.005 0.0052.6 0.005 0.005 0.004 0.004 0.004 0.004 0.004 0.004 0.004 0.0042.7 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.0032.8 0.003 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.0022.9 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.001 0.001 0.0013.0 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.0013.1 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.0013.2 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.0013.3 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.0003.4 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.0003.5 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

Tabella A.2: Tavola della Normale standard. Valori dell’area sotto la curva Normale daz positivo a +∞. Per calcolare l’area sotto la curva per l’intervallo (1.51,+∞) si cerca ilvalore all’incrocio della riga 1.5 e della colonna 0.01, cioe l’area e 0.066.

Page 142: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

140 APPENDICE A. TAVOLE STATISTICHE

Area

N(0,1)

z

−3 −2 z −1 0 1 2 3

0.00.1

0.20.3

0.4

z 0.00 -0.01 -0.02 -0.03 -0.04 -0.05 -0.06 -0.07 -0.08 -0.09

0.0 0.000 0.004 0.008 0.012 0.016 0.020 0.024 0.028 0.032 0.036-0.1 0.040 0.044 0.048 0.052 0.056 0.060 0.064 0.067 0.071 0.075-0.2 0.079 0.083 0.087 0.091 0.095 0.099 0.103 0.106 0.110 0.114-0.3 0.118 0.122 0.126 0.129 0.133 0.137 0.141 0.144 0.148 0.152-0.4 0.155 0.159 0.163 0.166 0.170 0.174 0.177 0.181 0.184 0.188-0.5 0.191 0.195 0.198 0.202 0.205 0.209 0.212 0.216 0.219 0.222-0.6 0.226 0.229 0.232 0.236 0.239 0.242 0.245 0.249 0.252 0.255-0.7 0.258 0.261 0.264 0.267 0.270 0.273 0.276 0.279 0.282 0.285-0.8 0.288 0.291 0.294 0.297 0.300 0.302 0.305 0.308 0.311 0.313-0.9 0.316 0.319 0.321 0.324 0.326 0.329 0.331 0.334 0.336 0.339-1.0 0.341 0.344 0.346 0.348 0.351 0.353 0.355 0.358 0.360 0.362-1.1 0.364 0.367 0.369 0.371 0.373 0.375 0.377 0.379 0.381 0.383-1.2 0.385 0.387 0.389 0.391 0.393 0.394 0.396 0.398 0.400 0.401-1.3 0.403 0.405 0.407 0.408 0.410 0.411 0.413 0.415 0.416 0.418-1.4 0.419 0.421 0.422 0.424 0.425 0.426 0.428 0.429 0.431 0.432-1.5 0.433 0.434 0.436 0.437 0.438 0.439 0.441 0.442 0.443 0.444-1.6 0.445 0.446 0.447 0.448 0.449 0.451 0.452 0.453 0.454 0.454-1.7 0.455 0.456 0.457 0.458 0.459 0.460 0.461 0.462 0.462 0.463-1.8 0.464 0.465 0.466 0.466 0.467 0.468 0.469 0.469 0.470 0.471-1.9 0.471 0.472 0.473 0.473 0.474 0.474 0.475 0.476 0.476 0.477-2.0 0.477 0.478 0.478 0.479 0.479 0.480 0.480 0.481 0.481 0.482-2.1 0.482 0.483 0.483 0.483 0.484 0.484 0.485 0.485 0.485 0.486-2.2 0.486 0.486 0.487 0.487 0.487 0.488 0.488 0.488 0.489 0.489-2.3 0.489 0.490 0.490 0.490 0.490 0.491 0.491 0.491 0.491 0.492-2.4 0.492 0.492 0.492 0.492 0.493 0.493 0.493 0.493 0.493 0.494-2.5 0.494 0.494 0.494 0.494 0.494 0.495 0.495 0.495 0.495 0.495-2.6 0.495 0.495 0.496 0.496 0.496 0.496 0.496 0.496 0.496 0.496-2.7 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497-2.8 0.497 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498-2.9 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.499 0.499 0.499-3.0 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499-3.1 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499-3.2 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499-3.3 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500-3.4 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500-3.5 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500

Tabella A.3: Tavola della Normale standard. Valori dell’area sotto la curva Normale da znegativo a 0. Per calcolare l’area sotto la curva per l’intervallo (−1.51, 0) si cerca il valoreall’incrocio della riga −1.5 e della colonna −0.01, cioe l’area e 0.434.

Page 143: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

141

Area

N(0,1)

z

−3 −2 −1 0 1 z 2 3

0.00.1

0.20.3

0.4z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.5360.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.5750.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.6140.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.6520.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.6880.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.7220.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.7550.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.7850.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.8130.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.8391.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.8621.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.8831.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.9011.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.9181.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.9321.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.9441.6 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.9541.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.9631.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.9711.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.9772.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.9822.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.9862.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.9892.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.9922.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.9942.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.9952.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.9962.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.9972.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.9982.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.9993.0 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.9993.1 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.9993.2 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.9993.3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.0003.4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.0003.5 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

Tabella A.4: Tavola della Normale standard. Valori dell’area sotto la curva Normale daz positivo a +∞. Per calcolare l’area sotto la curva per l’intervallo (−∞, 1.51) si cerca ilvalore all’incrocio della riga 1.5 e della colonna 0.01, cioe l’area e 0.934.

Page 144: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

142 APPENDICE A. TAVOLE STATISTICHE

Area

Area sotto la distribuzione t di Student

−5 −3 −1 0 1 tpg

3 5

p 0.75 0.90 0.95 0.975 0.99 0.995 0.9995g1 1.00000 3.07768 6.31375 12.70620 31.82052 63.65674 636.619252 0.81650 1.88562 2.91999 4.30265 6.96456 9.92484 31.599053 0.76489 1.63775 2.35338 3.18245 4.54070 5.84091 12.923984 0.74070 1.53321 2.13185 2.77645 3.74695 4.60410 8.610305 0.72669 1.47588 2.01505 2.57058 3.36493 4.03216 6.868836 0.71756 1.43976 1.94318 2.44691 3.14267 3.70743 5.958827 0.71114 1.41492 1.89458 2.36462 2.99795 3.49948 5.407908 0.70639 1.39682 1.85955 2.30600 2.89646 3.35539 5.041319 0.70272 1.38303 1.83311 2.26216 2.82144 3.24984 4.78091

10 0.69981 1.37218 1.81246 2.22814 2.76377 3.16927 4.5868911 0.69745 1.36343 1.79588 2.20099 2.71808 3.10581 4.4369812 0.69548 1.35622 1.78229 2.17881 2.68100 3.05454 4.3177913 0.69383 1.35017 1.77093 2.16037 2.65031 3.01228 4.2208314 0.69242 1.34503 1.76131 2.14479 2.62449 2.97684 4.1404515 0.69120 1.34061 1.75305 2.13145 2.60248 2.94671 4.0727716 0.69013 1.33676 1.74588 2.11991 2.58349 2.92078 4.0150017 0.68920 1.33338 1.73961 2.10982 2.56693 2.89823 3.9651318 0.68836 1.33039 1.73406 2.10092 2.55238 2.87844 3.9216519 0.68762 1.32773 1.72913 2.09302 2.53948 2.86093 3.8834120 0.68695 1.32534 1.72472 2.08596 2.52798 2.84534 3.8495221 0.68635 1.32319 1.72074 2.07961 2.51765 2.83136 3.8192822 0.68581 1.32124 1.71714 2.07387 2.50832 2.81876 3.7921323 0.68531 1.31946 1.71387 2.06866 2.49987 2.80734 3.7676324 0.68485 1.31784 1.71088 2.06390 2.49216 2.79694 3.7454025 0.68443 1.31635 1.70814 2.05954 2.48511 2.78744 3.7251426 0.68404 1.31497 1.70562 2.05553 2.47863 2.77871 3.7066127 0.68368 1.31370 1.70329 2.05183 2.47266 2.77068 3.6895928 0.68335 1.31253 1.70113 2.04841 2.46714 2.76326 3.6739129 0.68304 1.31143 1.69913 2.04523 2.46202 2.75639 3.6594130 0.68276 1.31042 1.69726 2.04227 2.45726 2.75000 3.6459640 0.68067 1.30308 1.68385 2.02108 2.42326 2.70446 3.5509760 0.67860 1.29582 1.67065 2.00030 2.39012 2.66028 3.46020

120 0.67654 1.28865 1.65765 1.97993 2.35782 2.61742 3.37345∞ 0.67449 1.28155 1.64485 1.95996 2.32635 2.57583 3.29053

Tabella A.5: Tavola della t di Student. La tavola restituisce i valori di tgp dove g sono i gradi diliberta. Si tenga sempre conto della relazione tgp = −tg1−p.

Page 145: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

143

p 0.750 0.900 0.950 0.975 0.990 0.995 0.9995g1 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944 12.115672 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663 15.201803 4.10834 6.25139 7.81473 9.34840 11.34487 12.83816 17.730004 5.38527 7.77944 9.48773 11.14329 13.27670 14.86026 19.997355 6.62568 9.23636 11.07050 12.83250 15.08627 16.74960 22.105336 7.84080 10.64464 12.59159 14.44938 16.81189 18.54758 24.102807 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774 26.017778 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495 27.868059 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935 29.66581

10 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818 31.4198111 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685 33.1366212 14.84540 18.54935 21.02607 23.33666 26.21697 28.29952 34.8212713 15.98391 19.81193 22.36203 24.73560 27.68825 29.81947 36.4777914 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935 38.1094015 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132 39.7187616 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719 41.3080717 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847 42.8792118 21.60489 25.98942 28.86930 31.52638 34.80531 37.15645 44.4337719 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226 45.9731220 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685 47.4984521 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106 49.0108122 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565 50.5111223 27.14134 32.00690 35.17246 38.07563 41.63840 44.18128 52.0001924 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851 53.4787525 29.33885 34.38159 37.65248 40.64647 44.31410 46.92789 54.9474626 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988 56.4068927 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492 57.8575928 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338 59.3000329 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562 60.7346530 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196 62.16185

Tabella A.6: Tavola del χ2 . La tavola restituisce i valori di χgp dove g sono i gradi di liberta.

.

Page 146: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

144 APPENDICE A. TAVOLE STATISTICHE

Page 147: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Bibliografia

[1] Bloch, A., (1988) La legge di Murphy, E altri motivi per cui le cose vanno a rovescio,

Longanesi.

145

Page 148: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Universita degli Studi di Bergamo - Corso di Laurea in Lingue e Letterature StraniereProva di STATISTICA SOCIALE del 16 Dicembre 2013

Docente: ILIA NEGRI

COGNOME E NOME:

CODICE DELL’ESAME:

Rispondere alle domande negli spazi forniti. Se gli spazi non sono sufficienti scrivere sulretro del foglio indicando il numero dell’esercizio.

1. (1 Punto.) Dare la definizione di popolazione.

Soluzione: La popolazione e l’intera collezione di individui, oggetti, eventi, astratta o concreta,sulla quale si ricercano informazioni.

2. (1 Punto.) Abbiamo rilevato su n unita i valori x1, . . . xn di una variabile numerica. La media campio-naria si calcola come:

© 1

n− 1

n∑i=1

xi © 1

n

n∑i=1

x2i√ 1

n

n∑i=1

xi © 1

n

n−1∑i=1

xi

3. Viene effettuato un sondaggio per studiare le abitudini delle donne italiane di eta compresa tra 30 e 40.

(a) (1 Punto.) Viene rilevata la variabile Essere fumatrice con modalita SI; NO. Si tratta di variabile:√Qualitativa nominale © Qualitativa ordinale © Numerica discreta © Altro tipo

(b) (1 Punto.) Viene rilevata la variabile Titolo di studio, le cui modalita sono Licenza elementare;scuola secondaria di primo grado; scuola secondaria di secondo grado; laurea o titolo superiore. Sitratta di una variabile:

© Qualitativa nominale√

Qualitativa ordinale © Numerica continua © Altro tipo

(c) Su un campione di 19 donne il risultato dell’indagine per le variabili Titolo di studio e Esserefumatrice e stato

Fumatrice SI NOTitolo di studio

Licenza elementare 1 1 2Scuola secondaria I grado 2 1 3

Scuola secondaria II grado 2 4 6Laurea o sup 1 7 8

Totali 6 13 19

i. (1 Punto.) La proporzione di fumatrici e:© 6

13 © 1319

√ 619 © 2

6

ii. (1 Punto.) La proporzione di laureate e:© 7

19

√ 819 © 7

13 © 1319

iii. (1 Punto.) La frequenza attesa per le fumatrici laureate e:© 8·2

19 © 6·1319

√ 6·819 © 8·8

19

(d) (1 Punto.) Viene rilevata la variabile Numero di figli. Si tratta di una variabile:

© Qualitativa nominale√

Numerica discreta © Numerica continua © Altro tipo

(e) Su un campione di 19 donne il risultato dell’indagine per la variabile Numero di figli e stato

Numero di figli 0 1 2 3 TOTFrequenze 5 5 7 2 19

i. (1 Punto.) Il numero mediano di figli e:© 3 © 5

√1 © 2

ii. (1 Punto.) La media aritmetica del numero di figli e√Piu grande della mediana © Piu piccola della mediana © Uguale alla mediana

© Non so

Pagina 1 di 3

Page 149: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

ESAME DI STATISTICA SOCIALE (Continua) 16 Dicembre 2013

4. (3 Punti.) In uno studio sono rilevati i redditi lordi annuali di alcuni amministratori delegati di aziendecon piu di 350 dipendenti. Sono stati calcolati: Reddito mediano=100000 euro. Q3 = 180000 euroQ1 = 75000. Il reddito piu piccolo osservato e stato 68.000 euro e i due piu alti sono stati 300000 e350000 euro. Quale rappresentazione grafica potete dare con questi dati del fenomeno? Rispondete edisegnate il grafico nello spazio sottostante

Soluzione: Il box-plot. Linea centrale Me=100000. Linea superiore Q3 = 180000 linea inferioreQ1 = 75000, baffo superiore Q3 + 1.5 ∗ (Q3 −Q1) = 337500 e quindi disegnamo il punto a 350000.Baffo inferiore viene negativo per cui lo fermo a 68000.

5. (2 Punti.) Sapendo che il reddito medio e 140000 euro e lo scarto quadratico medio dei redditi e 30000euro, calcolare lo score per il reddito di un amministratore delegato che ha un reddito lordo di 135000euro.

Soluzione: z = −0.1666667 . Approssimo a z = −0.17.

6. Si supponga che la distribuzione dei redditi degli amministratori delegati sia Normale con media µ =140000 e scarto quadratico medio σ = 30000. Vogliamo calcolare che percentuale di amministratoridelegati avra un reddito inferiore a 135000 euro.

(a) (1 Punto.) Quanto vale lo score?

Soluzione: Lo score e lo stesso calcolato al punto precedente. z = −0.17.

(b) (2 Punti.) Disegnare e tratteggiare l’area che corrisponde alla probabilita richiesta.

Soluzione: z = −0.17 in figura.z 0

Φ(z) = P(Z ≤ z) = ⌠⌡−∞

zf(x)dx

(c) (1 Punto.) Che valore dovete trovare nella tavola fornita per trovare l’area cercata?

Soluzione: Cerco in corrispondenza della riga −0.1 e colonna .0.07. Il valore all’incrocio e0.43251

(d) (1 Punto.) Quanto vale la percentuale richiesta?

Soluzione: La percentuale e 0.43251 ∗ 100% = 43.25%.

Pagina 2 di 3

Page 150: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

ESAME DI STATISTICA SOCIALE (Continua) 16 Dicembre 2013

7. Su un campione di n = 12 trote provenienti dal fiume Adda sono state rilevate le concentrazioni dipiombo nel fegato (µg ÷ g). La concentrazione di piombo nei pesci si puo ritenere distribuita come unaNormale. La concentrazione media misurata sulle 12 trote e stata x = 9.18 e lo scarto quadratico medios = 1.09. A livello α = 0.05 si vuole stabilire se la concentrazione del piombo nelle trote del fiume Addapossa ritenersi uguale al valore tollerato dalla comunita scientifica per ritenere edibile il pesce pescatoche e pari a 8.5 µg ÷ g.

(a) (3 Punti.) Scrivere il sistema di ipotesi per verificare se la concentrazione media del piombo nelfegato delle trote possa ritenersi uguale al valore tollerato dalla comunita scientifica per ritenereedibile il pesce pescato che e pari a 8.5 µg ÷ g.

Soluzione: {H0 : µ = 8.5HA : µ 6= 8.5

(b) (3 Punti.) Calcolare la statistica test per verificare l’ipotesi. Che distribuzione ha la statistica test?

Soluzione: Si tratta di calcolare la statistica t di Student.

t =9.18− 8.5

1.09√12

= 2.16

La statistica test si distribuisce in questo caso come una t di Student con 11 gradi di liberta.

(c) (2 Punti.) Rappresentare graficamente e scrivere la regione di rifiuto per questo test.

Soluzione: La regione di rifiuto e R ={t < −t110.025 o t > t110.025

}, con t110.025 = 2.20 che tro-

viamo all’incrocio della riga con 11 gradi di liberta e colonna corrispondente a p = 0.975.Regione di rifiuto

− t0.025(n−1)

−1 0 1 t0.025(n−1)

α 2 = 0.025 α 2 = 0.025

(d) (2 Punti.) Scrivere la conclusione del test.

Soluzione: Poiche il valore della statistica calcolato e t = 2.16 e questo valore non cade nellaregione di rifiuto, la conclusione e che accettiamo l’ipotesi nulla che la concentrazione di piombomedia nelle trote del fiume Adda possa considerarsi compatibile con l’edibilita del pesce.

Il test poteva anche essere impostato con l’ipotesi alternativa unilaterale HA : µ > 8.5. Inquesto caso la regione di rifiuto era solo l’area destra R =

{t > t110.95

}, dove t110.95 = 1.80 lo

troviamo in corrispondenza della riga con 11 gradi di liberta e la colonna corrispondente allaprobabilita 1 − α = 0.95. In questo caso t = 2.16 cade nella regione di rifiuto, quindi le trotenon sono edibili.

Pagina 3 di 3

Page 151: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Question Points Score

1 1

2 1

3 8

4 3

5 2

6 5

7 10

Total: 30

Page 152: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Tavola della Normale standardizzata

z 0.00 -0.01 -0.02 -0.03 -0.04 -0.05 -0.06 -0.07 -0.08 -0.09

0.0 0.50000 0.49601 0.49202 0.48803 0.48405 0.48006 0.47608 0.47210 0.46812 0.46414-0.1 0.46017 0.45620 0.45224 0.44828 0.44433 0.44038 0.43644 0.43251 0.42858 0.42465-0.2 0.42074 0.41683 0.41294 0.40905 0.40517 0.40129 0.39743 0.39358 0.38974 0.38591-0.3 0.38209 0.37828 0.37448 0.37070 0.36693 0.36317 0.35942 0.35569 0.35197 0.34827-0.4 0.34458 0.34090 0.33724 0.33360 0.32997 0.32636 0.32276 0.31918 0.31561 0.31207-0.5 0.30854 0.30503 0.30153 0.29806 0.29460 0.29116 0.28774 0.28434 0.28096 0.27760-0.6 0.27425 0.27093 0.26763 0.26435 0.26109 0.25785 0.25463 0.25143 0.24825 0.24510-0.7 0.24196 0.23885 0.23576 0.23270 0.22965 0.22663 0.22363 0.22065 0.21770 0.21476-0.8 0.21186 0.20897 0.20611 0.20327 0.20045 0.19766 0.19489 0.19215 0.18943 0.18673-0.9 0.18406 0.18141 0.17879 0.17619 0.17361 0.17106 0.16853 0.16602 0.16354 0.16109-1.0 0.15866 0.15625 0.15386 0.15151 0.14917 0.14686 0.14457 0.14231 0.14007 0.13786-1.1 0.13567 0.13350 0.13136 0.12924 0.12714 0.12507 0.12302 0.12100 0.11900 0.11702-1.2 0.11507 0.11314 0.11123 0.10935 0.10749 0.10565 0.10383 0.10204 0.10027 0.09853-1.3 0.09680 0.09510 0.09342 0.09176 0.09012 0.08851 0.08691 0.08534 0.08379 0.08226-1.4 0.08076 0.07927 0.07780 0.07636 0.07493 0.07353 0.07215 0.07078 0.06944 0.06811-1.5 0.06681 0.06552 0.06426 0.06301 0.06178 0.06057 0.05938 0.05821 0.05705 0.05592-1.6 0.05480 0.05370 0.05262 0.05155 0.05050 0.04947 0.04846 0.04746 0.04648 0.04551-1.7 0.04457 0.04363 0.04272 0.04182 0.04093 0.04006 0.03920 0.03836 0.03754 0.03673-1.8 0.03593 0.03515 0.03438 0.03362 0.03288 0.03216 0.03144 0.03074 0.03005 0.02938-1.9 0.02872 0.02807 0.02743 0.02680 0.02619 0.02559 0.02500 0.02442 0.02385 0.02330-2.0 0.02275 0.02222 0.02169 0.02118 0.02068 0.02018 0.01970 0.01923 0.01876 0.01831-2.1 0.01786 0.01743 0.01700 0.01659 0.01618 0.01578 0.01539 0.01500 0.01463 0.01426-2.2 0.01390 0.01355 0.01321 0.01287 0.01255 0.01222 0.01191 0.01160 0.01130 0.01101-2.3 0.01072 0.01044 0.01017 0.00990 0.00964 0.00939 0.00914 0.00889 0.00866 0.00842-2.4 0.00820 0.00798 0.00776 0.00755 0.00734 0.00714 0.00695 0.00676 0.00657 0.00639-2.5 0.00621 0.00604 0.00587 0.00570 0.00554 0.00539 0.00523 0.00508 0.00494 0.00480-2.6 0.00466 0.00453 0.00440 0.00427 0.00415 0.00402 0.00391 0.00379 0.00368 0.00357-2.7 0.00347 0.00336 0.00326 0.00317 0.00307 0.00298 0.00289 0.00280 0.00272 0.00264-2.8 0.00256 0.00248 0.00240 0.00233 0.00226 0.00219 0.00212 0.00205 0.00199 0.00193-2.9 0.00187 0.00181 0.00175 0.00169 0.00164 0.00159 0.00154 0.00149 0.00144 0.00139-3.0 0.00135 0.00131 0.00126 0.00122 0.00118 0.00114 0.00111 0.00107 0.00104 0.00100

z 0

Φ(z) = P(Z ≤ z) = ⌠⌡−∞

zf(x)dx

Area sotto la curva normale standardizzata della regione di valori minori del generico z score.

Page 153: Appunti di Statistica sociale (Draft) - unibg.it · 10.2.2 Test per la media di popolazione normale: ˙non nota . . . . . . . . 118 ... statistica, e anche se non le utilizzerete

Tavola della t di Student. La tavola restituisce i valori di tgp dove g sono i gradi di liberta.

p 0.75 0.90 0.95 0.975 0.99 0.995 0.9995g

1 1.00000 3.07768 6.31375 12.70620 31.82052 63.65674 636.619252 0.81650 1.88562 2.91999 4.30265 6.96456 9.92484 31.599053 0.76489 1.63775 2.35338 3.18245 4.54070 5.84091 12.923984 0.74070 1.53321 2.13185 2.77645 3.74695 4.60410 8.610305 0.72669 1.47588 2.01505 2.57058 3.36493 4.03216 6.868836 0.71756 1.43976 1.94318 2.44691 3.14267 3.70743 5.958827 0.71114 1.41492 1.89458 2.36462 2.99795 3.49948 5.407908 0.70639 1.39682 1.85955 2.30600 2.89646 3.35539 5.041319 0.70272 1.38303 1.83311 2.26216 2.82144 3.24984 4.78091

10 0.69981 1.37218 1.81246 2.22814 2.76377 3.16927 4.5868911 0.69745 1.36343 1.79588 2.20099 2.71808 3.10581 4.4369812 0.69548 1.35622 1.78229 2.17881 2.68100 3.05454 4.3177913 0.69383 1.35017 1.77093 2.16037 2.65031 3.01228 4.2208314 0.69242 1.34503 1.76131 2.14479 2.62449 2.97684 4.1404515 0.69120 1.34061 1.75305 2.13145 2.60248 2.94671 4.0727716 0.69013 1.33676 1.74588 2.11991 2.58349 2.92078 4.0150017 0.68920 1.33338 1.73961 2.10982 2.56693 2.89823 3.9651318 0.68836 1.33039 1.73406 2.10092 2.55238 2.87844 3.9216519 0.68762 1.32773 1.72913 2.09302 2.53948 2.86093 3.8834120 0.68695 1.32534 1.72472 2.08596 2.52798 2.84534 3.8495221 0.68635 1.32319 1.72074 2.07961 2.51765 2.83136 3.8192822 0.68581 1.32124 1.71714 2.07387 2.50832 2.81876 3.7921323 0.68531 1.31946 1.71387 2.06866 2.49987 2.80734 3.7676324 0.68485 1.31784 1.71088 2.06390 2.49216 2.79694 3.7454025 0.68443 1.31635 1.70814 2.05954 2.48511 2.78744 3.7251426 0.68404 1.31497 1.70562 2.05553 2.47863 2.77871 3.7066127 0.68368 1.31370 1.70329 2.05183 2.47266 2.77068 3.6895928 0.68335 1.31253 1.70113 2.04841 2.46714 2.76326 3.6739129 0.68304 1.31143 1.69913 2.04523 2.46202 2.75639 3.6594130 0.68276 1.31042 1.69726 2.04227 2.45726 2.75000 3.6459640 0.68067 1.30308 1.68385 2.02108 2.42326 2.70446 3.5509760 0.67860 1.29582 1.67065 2.00030 2.39012 2.66028 3.46020

120 0.67654 1.28865 1.65765 1.97993 2.35782 2.61742 3.37345∞ 0.67449 1.28155 1.64485 1.95996 2.32635 2.57583 3.29053

Area sotto la distribuzione t di Student

−5 −3 −1 0 1 tpg

3 5

Area sotto la curva di una distribuzione t di Student al variare dei gradi di liberta e di p come riportati inTabella.