Upload
filiberto-di-bella
View
217
Download
2
Embed Size (px)
Citation preview
Introduzione alla statisticaLA STATISTICA Sai ched’è la statistica? E ‘na cosache serve pe’ fa’ un conto in generaleDe la gente che nasce, che sta male,che more, che va in carcere e che sposa Ma pe’ me la statistica curiosaÈ dove c’entra la percentualepe’ via che, lì, la media è sempre ugualepuro co’ la persona bisognosaMe spiego. Da li conti che se fannosecondo le statistiche d’adessorisurta che te tocca un pollo all’anno: e, se nun entra ne le spese tue,t’entra nella statistica lo stessoperché c’è un antro che ne magna dueCarlo Alberto Salustri detto TRILUSSA (1871-1951)
Introduzione alla statistica
La STATISTICA è una “tecnica che ha per scopo la
conoscenza quantitativa dei fenomeni collettivi”.
La parola STATISTICA deriva da Stato.
Lo Stato fu il primo a raccogliere dati ed informazioni
circa i “fatti che lo riguardavano” per i più disparati
motivi: Religiosi; Militari; Sociali; Sanitari.
Introduzione alla statisticaLo studio dei fenomeni collettivi è possibile attraverso
l’osservazione della collettività intera di individui, ossia della
popolazione.
POPOLAZIONE→STATISTICA DESCRITTIVA
Tra gli esempi più noti di raccolta delle informazioni su tutta la
collettività si ricorda il Censimento della Popolazione e delle
Abitazioni, il Censimento dell’Agricoltura e il Censimento
dell’Industria e dei Servizi.
Introduzione alla statistica…ma tale studio dei fenomeni collettivi si può effettuare
anche osservando solo una parte della collettività ossia
un campione.
CAMPIONE → STATISTICA INFERENZIALE
Tra gli esempi più noti di raccolta delle informazioni su
parte della collettività (campione) si ricordano le indagini
campionarie condotte dall’Istat (ad esempio, Forze di
lavoro, Indici dei prezzi).
Introduzione alla statisticaAltri esempi di indagini campionarieExit polls
Un Exit polls è un sondaggio dove gli elettori sono intervistati immediatamente all’uscita del seggio elettorale.
Diversamente dal sondaggio d'opinione che chiede all'elettore per chi intenda votare, con un exit poll si chiede all'elettore per chi ha votato realmente. Tali sondaggi vengono effettuati per ottenere una prima indicazione su come hanno votato gli elettori.PROBLEMAGli intervistati possono anche non dire la verità.
Introduzione alla statisticaProiezioni
Una proiezione elettorale consiste nella previsione
statistica dei risultati complessivi di un'elezione a
partire dai risultati ottenuti in un insieme ridotto di seggi
significativi.
A differenza dei sondaggi e degli exit poll, una
proiezione elettorale si basa su voti effettivamente dati
dagli elettori; anch'essa, però, soffre degli stessi
problemi statistici riguardo alla scelta di un campione
rappresentativo dell'elettorato.
Introduzione alla statisticaPerché campionare?
risorse limitate: quando si compie una indagine vi
sono problemi di costo;
informazioni disponibili in tempi più rapidi: una
indagine campionaria fornisce informazioni in tempi
minori rispetto ad una indagine censuaria;
la prova è distruttiva: ad esempio vogliamo
calcolare la vita media di 1000 lampadine.
Introduzione alla statisticaLe rilevazioni statistiche
Si perviene alla conoscenza dei fenomeni collettivi
mediante le Rilevazioni o Indagini Statistiche.
Le Rilevazioni o Indagini Statistiche sono definite
come il complesso delle operazioni che hanno lo
scopo di acquisire informazioni, come risposte e
misurazioni, su un insieme di elementi, oggetto di
studio.
Introduzione alla statisticaDa dove prendere i dati: 1. Dati pubblicati da enti (Istat, Camera di
commercio, BdI, etc.); 2. dati provenienti dai mercati finanziari (es:
Borsa Italiana; data provider: Bloomberg); 3. un esperimento disegnato all’uopo (es.:
efficacia di un farmaco); 4. un’indagine; 5. uno studio osservazionale (es.:
comportamento degli animali).
Introduzione alla statisticaFASI DI UNA INDAGINE STATISTICA1) Definizione degli obiettivi della ricerca
Gli obiettivi dell’indagine statistica devono essere chiari e particolareggiati.
2) La rilevazione dei dati
L’indagine statistica può essere di tipo “completo” (censimento) o di tipo “parziale” (indagine campionaria).
Quanti dati raccogliere nella rilevazione? Né troppi, né pochi. Dipende dall’obiettivo
dell’indagine. Vi sono vincoli di costi e di efficienza del
campione.
Introduzione alla statisticaFASI DI UNA INDAGINE STATISTICA
3) Elaborazione dei datiI dati raccolti devono essere elaborati secondo metodi dell’analisi statistica seguendo la metodologia più idonea.
4) Presentazione dei risultati La presentazione dei risultati deve essere curata e adeguata per poter prendere decisioni efficaci e tempestive.
Introduzione alla statisticaFASI DI UNA INDAGINE STATISTICA
5) Utilizzazione dei risultati della ricercaI risultati dell’indagine devono essere utilizzati in conformità agli obiettivi che si erano prefissati all’inizio. Lo statistico deve vigilare affinché non avvengano usi impropri dei risultati.
Alcune definizioniLa Popolazione o il Campione (a seconda che
l’indagine sia totale o parziale) è un insieme di
elementi reale o virtuale che costituisce l’oggetto di
investigazione statistica.
Esempi di popolazione reale sono:
Residenti di una certa regione;
Studenti iscritti all’Università “G. d’Annunzio”
Alcune definizioni
Esempi di popolazione virtuale sono:
Possibili cinquine su una ruota del lotto;
Possibili risultati in una schedina del totocalcio.
Alcune definizioni
L’unità statistica è l’elemento di osservazione di base della popolazione oggetto di indagine statistica
L’unità di rilevazione è l’elemento di osservazione di base oggetto della rilevazione e spesso non coincide con l’unità statistica.
Alcune definizioniUn esempio di indagine statistica:
Il Censimento della popolazione e delle abitazioni (Istat)
La popolazione (trattandosi di rilevazione totale) è costituita da tutti i soggetti presenti ad una certa data sul territorio nazionale.
L’unità statistica, elemento di base di investigazione, è l’individuo. L’unità di rilevazione, alla quale viene somministrato il questionario, è la famiglia.
Come si può osservare l’unità statistica e l’unità di rilevazione non coincidono.
Alcune definizioniUn esempio di indagine statistica:
Stili di vita e condizioni di salute (Istat)
Il Campione: 21718 famiglie per 58653 individui.L’unità statistica (elemento di base di investigazione) è l’individuo.L’unità di rilevazione è la famiglia.Unità statistica unità di rilevazione
Alcune definizioniIl carattere è la caratteristica oggetto di studio rilevata e/o misurata sulle unità statistiche.
Il carattere può essere di tipo qualitativo, ossia può rappresentare un attributo, una qualità non misurabile. Si parla in tal caso di “mutabile”.
Esempio: il sesso rilevato su una unità statistica.
Alcune definizioniIl carattere può essere anche di tipo quantitativo, ossia può esprimere una misura, un’informazione quantitativa. Si parla in tal caso di “variabile”.
Esempio: il peso rilevato su una unità statistica.
La modalità è il modo di presentarsi del carattere nelle unità statistiche.
Alcune definizioni
Nella popolazione studentesca dell’Università di Trento si può individuare lo studente Marco (unità statistica) sul quale sono stati rilevati i caratteri peso (carattere quantitativo) e squadra di calcio per cui tifa (carattere qualitativo).
Marco pesa 85 Kg (modalità- numero) e tifa per la Lazio (modalità- attributo)
La classificazione dei caratteri
I caratteri qualitativi (attributi) sono divisi in:
caratteri qualitativi sconnessi (non ordinabili, ad esempio: sesso, stato civile, squadra di calcio per cui si tifa);
caratteri qualitativi ordinabili (ad esempio: livello nella professione, grado militare).
La classificazione dei caratteriI caratteri quantitativi (misure) sono divisi in:
caratteri quantitativi discreti, cioè in grado di assumere solo un numero discreto (finito o infinito) di modalità (ad esempio: numero di figli di una coppia, voto esame universitario);caratteri quantitativi continui, cioè in grado di assumere qualunque valore all’interno di un intervallo definito (ad esempio: peso, reddito).
La classificazione dei caratteri
Relazioni od operazioni fra modalità
Qualitativo Quantitativo
Sconnessi
Ordinati
= ≠ SI SI SI
< > NO SI SI
+ - NO NO SI
Le distribuzioni statisticheIl numero della volte che una data modalità si presenta nella nostra rilevazione prende il nome di frequenza.
La frequenza è: assoluta, quando rappresenta il numero
assoluto dei casi o presenze (si indica con ni); relativa, per indicare la frazione dei casi
rispetto al totale (si indica con fi); percentuale, per indicare la frazione dei casi
rispetto al totale supposto posto pari a 100 (si indica con pi).
Le distribuzioni statisticheLe informazioni rilevate di un fenomeno possono essere sintetizzate tramite le distribuzioni.
A seconda del numero di caratteri rilevati nel collettivo sotto investigazione si parla di:
Distribuzione Semplice (un solo carattere);Distribuzione Doppia (due caratteri);Distribuzione Multipla di ordine m (m caratteri).
Le distribuzioni statistiche
rilevato il carattere NxxxX ,...,, 21 NuuuP ,...,, 21
Consideriamo la popolazione costituita da N unità
statistiche sulla quale è stato
Le distribuzioni statisticheDEFINIZIONE:
La successione X={x1,x2,…,xn} costituisce una
distribuzione unitaria della popolazione P secondo il
carattere X.
La xi è la modalità con cui il carattere X si presenta
nell’unità statistica ui.
La distribuzione unitaria assegna, a ciascun soggetto la
corrispondente modalità.
Unità Sesso Età Reddito Statura (cm) Colore degli
occhi
1 Maschio 22 0,7 173 nero
2 Femmina 18 0,2 168 marrone
3 Femmina 34 1,6 165 marrone
4 Maschio 42 2,5 180 nero
5 Femmina 50 3,2 163 azzurro
6 Femmina 12 0,1 160 nero
7 Maschio 46 3,8 177 marrone
8 Maschio 72 1,3 164 verde
9 Femmina 27 1,2 158 azzurro
10 Femmina 48 1,7 170 nero
11 Femmina 35 1,9 167 nero
12 Maschio 84 0,8 159 marrone
13 Femmina 21 0,4 174 azzurro
14 Femmina 44 1,8 164 verde
15 Maschio 56 1,9 177 nero
16 Femmina 58 3,2 172 nero
17 Femmina 37 2,1 166 marrone
18 Femmina 16 0,1 160 marrone
19 Maschio 73 1,6 170 azzurro
20 Maschio 64 2,2 184 verde
Le distribuzioni statistiche
Vi possono però essere più unità che assumono la stessa modalità …
...raggruppando fra loro gli elementi uguali si ottengono le distribuzioni di frequenza.
I dati grezzi vanno organizzati in tabelle sintetiche per presentarli in maniera corretta, analizzarli, interpretarli.
Le distribuzioni statisticheLe distribuzioni di frequenza…
k
iinN
1
11
k
iifF 100
1
k
iipP
Carattere X
ni
(freq. Assolute)
fi
(freq. relative)
pi
(freq.percentuali)
x1 n1 f1=n1/N p1=(n1/N)∙100
x2 n2 f2=n2/N p2=(n2/N)∙100
xi ni fi=ni/N pi=(ni/N)∙100
xk nk fk=nk/N pk=(nk/N)∙100
Le distribuzioni statisticheESEMPIO:
Sono stati intervistati N =40 studenti che hanno avuto le seguenti votazioni all’esame di Statistica:
19 24 25 23 23 26 25 23 20 25
18 26 27 25 27 20 28 23 22 23
25 22 26 24 24 21 25 30 30 21
21 24 26 22 18 28 27 19 28 27
La distribuzione unitaria può essere trasformata nella seguente distribuzione di frequenza:
Voti all'esame di statistica
X=voto ni fi pi
18 2 0,05 5%
19 2 0,05 5%
20 2 0,05 5%
21 3 0,08 8%
22 3 0,08 8%
23 5 0,12 12%
24 4 0,10 10%
25 6 0,14 14%
26 4 0,10 10%
27 4 0,10 10%
28 3 0,08 8%
29 0 0,00 0%
30 2 0,05 5%
Totale 40 1,00 100%
Le distribuzioni statistiche
a a1 a2 a3 a4 a5 b
Distribuzioni per classe di valoriSupponiamo ora che il carattere oggetto di studio sia quantitativo continuo, per cui può assumere un qualunque valore di un certo intervallo [a,b].
E’ pensabile suddividere detto intervallo in più sottointervalli (con uguale o diversa ampiezza)
ed associare ogni unità al sottointervallo in cui ricade la modalità in essa rilevata.
In tal caso si parlerà di distribuzione in classi.
Le distribuzioni statisticheESEMPIO :E’ stato rilevato su N =15 unità il peso in kg. Si sono ottenuti i seguenti risultati:62 63 63,5 66 6772 65 69 71 74 67 66,6 71 72 65
Peso in kg
Peso ni fi pi
62-64 3 0,20 20,00%
64-68 6 0,40 40,00%
68-73 5 0,33 33,33%
73-75 1 0,07 6,67%
Totale 15 1,00 100%
Le distribuzioni statisticheDistribuzioni cumulate
Definiamo una distribuzione che fa corrispondere a ciascuna modalità xi la frequenza (assoluta, relativa o percentuale) di unità statistiche per cui il carattere assume un valore al più uguale a xi:
X Ni Fi Pi
x1 N1= n1 F1= f1 P1= p1
x2 N2 = n1+n2 F2 = f1 + f2 P2 = p1 + p2
xi Ni = n1+...+ni Fi =f1 +...+fi Pi =p1 +...+pi
xk Nk =n1+..+nk =N Fk =f1+...+fk =1 Pk =p1 +..+pk =100
Le distribuzioni statisticheESEMPIO :Sia data una popolazione studentesca di N=1000 individui sui quali è stato rilevato il carattere titolo di
studio. Titolo di studio di una popolazione studentesca
ni Ni fi Fi pi Pi
Lic. Elementare 170 170 0,17 0,17 17% 17%
Lic. Media Inferiore 200 370 0,20 0,37 20% 37%
Lic. Media Superiore 280 650 0,28 0,65 28% 65%
Laurea 350 1000 0,35 1,00 35% 100%
Totale 1000 1 100%
Le rappresentazioni grafiche
Le rappresentazioni grafiche si basano
essenzialmente su una proporzionalità tra le
frequenze e le grandezze geometriche (aree o
lunghezze) che vengono utilizzate per
rappresentare il fenomeno.
Le rappresentazioni graficheNon esistono regole fisse per la costruzione e per la scelta del grafico ma si possono dare semplici consigli, affinché la rappresentazione sia la più chiara ed intuitiva possibile. E’ buona regola che un grafico contenga:
Titolocon l’esatto contenuto del grafico
Assicon l’indicazione dei caratteri riportati in essi
Legenda per la comprensione del grafico
Unità di misura in cui sono espressi i caratteri
Fonte dei dati
Le rappresentazioni graficheGrafici per caratteri qualitativi
Diagramma a settori circolari o a torta:
a ciascuna modalità del carattere si associa un settore circolare avente area proporzionale alle frequenze;
Diagramma a barre:
a ciascuna modalità del carattere si associa un rettangolo avente base costante ed altezza proporzionale alle frequenze;
Le rappresentazioni graficheGrafici per caratteri qualitativi
Diagrammi figurativi:
si utilizzano le figure per rappresentare le modalità di una distribuzione e la dimensione della figura è proporzionale alle frequenze.
Le rappresentazioni graficheAlcuni esempi ….
Si considerino le seguenti 12 unità sulle quali sono stati rilevati i caratteri sesso e colore degli occhi:
Unità Sesso Colore occhi
1 M Neri
2 F Marroni
3 F Marroni
4 M Marroni
5 F Azzurri
6 F Verdi
7 F Azzurri
8 M Azzurri
9 M Neri
10 M Marroni
11 M Verdi
12 F Azzurri
Le rappresentazioni graficheSesso ni pi
M 6 50%
F 6 50%
Totale 12 100Il sesso nella popolazione di 12 unità
50%50%
M
F
Le rappresentazioni graficheColore degli occhi ni pi
Marroni 4 33,33%
Neri 2 16,67%
Verdi 2 16,67%
Azzurri 4 33,33%
Totale 12 100,00%
Il colore degli occhi nella popolazione di 12 unità
4
2
2
4
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
M
N
V
A
Le rappresentazioni grafiche
Colore degli occhi nella popolazione di 12 unità
33%
17%17%
33% Marroni
Neri
Verdi
Azzurri
Le rappresentazioni graficheConsideriamo la seguente distribuzione dell’uso del suolo (APAT, 2003).
Aree
artificialiAree
agricoleArre boschive e seminaturali Altro
ITALIA 1273 16174 12406 361
Uso del Suolo
53,53%
41,06%
1,19% 4,21%
Aree artificiali Aree agricole Aree boschive e seminaturali Altro
Le rappresentazioni graficheRiassumendo…
Il diagramma a torte si ottiene dividendo l’angolo al centro di 360 gradi, in “fette” di dimensione proporzionale alla frequenza di ciascuna modalità.
Nell’esempio, la modalità “aree agricole”, ha frequenza percentuale pari al 53,53%. La corrispondente fetta della torta è caratterizzata da un angolo x di:
193100
53,53360x
Le rappresentazioni grafiche
La soluzione precedente, infatti, si ricava dalla seguente proporzione:
100:53,53360: x
Le rappresentazioni graficheRispetto al diagramma a torta, il diagramma a barre, apre lo spazio a maggiori possibilità di interpretazione di un fenomeno, non escludendo quelle di natura temporale. Ad esempio:
Output di azoto per SAU
020406080
100120140160
Piem
onte
Valle
d’Ao
sta
Ligu
ria
Lom
bard
ia
Tren
tino
A. A
dige
Vene
to
Friu
li V.
Giu
lia
Emilia
Rom
agna
Tosc
ana
Umbr
ia
Mar
che
Lazi
o
Abru
zzo
Mol
ise
Cam
pani
a
Pugl
ia
Basi
licat
a
Cala
bria
Sici
lia
Sard
egna
1994 1998 2000
c
Le rappresentazioni graficheOSSERVAZIONE
Occorre precisare come il diagramma a barre, pur contenendo in esso anche valutazioni temporali di un fenomeno, non è la rappresentazione specifica per le serie temporali.
Andamento della quantità media di metalli pesanti addizionata
0
20
40
60
80
100
120
140
160
180
1995 1996 1997 1998 1999 2000
Cadmio
Rame
Nichel
Piombo
Zinco
Mercurio
Cromo
Le rappresentazioni grafichePer caratteri quantitativi discreti
Diagramma a segmenti o ad aste:
è un grafico cartesiano in cui in corrispondenza di ciascuna modalità (un punto) si riporta un segmento avente altezza proporzionale alle frequenze.
Un esempio...
Consideriamo un collettivo di 32 studenti che hanno preso voti da 18 a 22 all’esame di statistica. Il relativo diagramma ad aste è il seguente:
Le rappresentazioni grafiche
Diagramma a segmenti o ad aste: Voto degli studenti all’esame di Statistica
4
6 5
8 9
0
2
4
6
8
10
# studenti 4 6 5 8 9
18 19 20 21 22
Le rappresentazioni grafichePer caratteri quantitativi continui
Istogramma di frequenza:
è il grafico che fa corrispondere alle classi delle modalità nelle
quali è suddiviso il carattere quantitativo (poste sulle ascisse)
un rettangolo di area pari alla frequenza di quella classe.
L’altezza del rettangolo è pari alla densità di
frequenza:
1
ii
ii xx
nh
dove ni è la frequenza assoluta della classe e xi - xi-1 è
l’ampiezza della classe.
Le rappresentazioni graficheUn esempio...
Si consideri la distribuzione dei redditi (espressi in migliaia di euro) di 160 redditieri:
Classi 50-60 60-70 70-80 80-90 90-100 100-110 Totale
ni 10 12 18 46 50 24 160
hi 1,0 1,2 1,8 4,6 5,0 2,4
Le rappresentazioni graficheIstogramma di frequenza
0
1
2
3
4
5
6
50- 60 60- 70 70- 80 80- 90 90- 100 100- 110Classi
Alt
ezz
e o
de
nsi
tà d
i fre
qu
en
za h
Le rappresentazioni graficheUn esempio...Si consideri la distribuzione dei bambini in età prescolare presso un pediatra di base
Classi ni
0-1 10
1-6 20
Totale 30
Le rappresentazioni graficheÈ questa l’idonea rappresentazione grafica?
1 6
10
20
NO !!!
Le rappresentazioni grafiche…oppure, visto che le classi sono di diversa ampiezza
Classi ni xi–xi-1 hi
0-1 10 1 10
1-6 20 5 4
Totale 30
e considerando le densità 1
ii
ii xx
nh
Le rappresentazioni grafiche
1 6
10
4
SI !!!!