Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
Stat-II Introduzione all’inferenza
1
Introduzione all’inferenza statistica
Statistica II
Riferimenti per questa parte: Cicchitelli et Al. : capitolo 17
Stat-II Introduzione all’inferenza
2
Popolazione e campione
Esempio 0: soddisfazione degli studenti
Nell’anno accademico (AA) 2017-18 la soddisfazione media degli studenti del corso di
STATISTICA II è stata pari a: 2.3 (campo di variazione dell’indicatore [0, 3])
La soddisfazione media degli studenti del corso di studio in SSE è stata pari a: 2.2 (campo di
variazione dell’indicatore [0, 3])
Che cosa si può concludere da queste due statistiche di sintesi rispetto all’AA considerato?
Da un punto di vista dell’informazione disponibile in cosa la situazione appena
descritta è diversa dalle situazioni seguenti?
Stat-II Introduzione all’inferenza
3
Esempio 1: Solfati in acqua (problema di stima)
Problema: monitoraggio della qualità delle acque sotterranee rispetto alla presenza di potenziali
sostanze inquinanti quali per esempio i solfati. Le autorità preposte rilevano delle misure su una
rete di punti di misura (in figura il caso dell’Abruzzo) su cui viene rilevata la concentrazione di solfati
La valutazione della qualità delle acque consiste nel calcolare alcune caratteristiche della distribuzione
delle concentrazioni (valore atteso, quantile, ecc.). Come è possibile “ricostruire” le caratteristiche
d’interesse di tale distribuzione a partire dalle (poche) rilevazioni?
concentrazione solfati
De
nsity
0 10 20 30 40 50 60
0.0
00
.03
0.0
6
Stat-II Introduzione all’inferenza
4
Esempio 2: Qualità dell’aria negli ambienti indoor (problema di verifica di ipotesi)
Problema: monitorare l’inquinamento di un gas radioattivo chiamato radon
(Rn) all’interno delle abitazioni lombarde (al censimento del 2011 oltre
4.500.000, fonte: Annuario Statistico Regionale - Lombardia).
Per pianificare politiche d’intervento atte a mitigare situazioni
potenzialmente pericolose, è utile conoscere le caratteristiche degli edifici più
esposti ad alte concentrazioni.
Si vuole, in base alle rilevazioni delle concentrazioni di Rn condotte in circa
81 locali (a destra), verificare se le concentrazioni di Rn in unità immobiliari
che si trovano su edifici aventi un solo piano (modalità 0) “sono diverse” da
quelle di edifici su più piani (1).
Se la differenza è “importante”, questo permetterà di individuare una
caratteristica degli edifici a più elevato rischio (segmentazione o profilazione
delle unità statistiche)
Aver osservato questi dati
sperimentali cosa vi
permette (o non vi
permette) di concludere?
0 1
050
010
00
150
020
00
numero piani 1=più piani
RN
X
X
Stat-II Introduzione all’inferenza
5
Popolazione (Universo) e campione
Popolazione: insieme dei possibili esiti che, a parità di condizioni, possono essere ottenuti da un
esperimento (misurazione, rilevazione, …)
Popolazione finita (collettività fisica)
Popolazione infinita (modello probabilistico)
Popolazione virtuale (modello probabilistico)
Stat-II Introduzione all’inferenza
6
Popolazione finita
Per popolazione finita si intende un insieme di unità statistiche realmente
esistenti che possono essere oggetto di rilevazione totale oppure parziale.
Sono esempi di popolazione finita: l’insieme delle famiglie di un dato Comune;
l’insieme delle aziende industriali di una certa Regione ecc.
Stat-II Introduzione all’inferenza
7
Popolazione infinita
L’espressione popolazione infinita (virtuale) indica l’insieme potenziale
delle osservazioni connesse alla ripetizione, teoricamente illimitata, di un
esperimento casuale condotto nelle stesse condizioni.
Sono esempi di popolazione infinita: gli esiti (guarigione - non guarigione) di
una terapia somministrata a soggetti omogenei; i pezzi che escono da un
processo di produzione industriale ecc.
Stat-II Introduzione all’inferenza
8
Modello descrittivo della popolazione
Per modello descrittivo della popolazione intendiamo
• la distribuzione di frequenze relative di un carattere all’interno di una
popolazione finita, oppure
• una funzione (modello) matematico che esprime la probabilità o la
densità della variabile casuale che descrive l’esito della singola prova di un
esperimento nel caso di una popolazione infinita/virtuale.
In entrambi i casi, useremo il simbolo f(x)
Campione
Sottoinsieme finito degli elementi presenti nella popolazione
Stat-II Introduzione all’inferenza
9
Esempio 1. Solfati in acqua - continua (problema di stima dei parametri)
Riformuliamo l’esempio 2 con la terminologia/notazione fin qui introdotta.
Popolazione
(popolazione illimitata)
Sia X la v.a. che rappresenta la concentrazioni di solfati negli acquiferi
abruzzesi
Si ipotizzi che X∼ gamma(α, θ) con α e θ parametri incogniti
Campione
(Rilevazione empirica)
Si consideri il campione di n = 25 valori di concentrazione (mg/L):
(12.8,2.1, 50.4, 6.1, 29.0, 18.3, 19.5, 21.7, 21.2,
7.0, 21.1, 14.9, 20.3, 5.2 2.4, 2.5, 3.8, 2.2, 3.9 1
1.7, 5.0 31.0, 4.0, 2.0, 4.5)
Obiettivo
“determinare” sulla base del campione “i valori” dei parametri α e
θ, di E(X), di X0.95 (percentile 0.95), ... …
Stat-II Introduzione all’inferenza
10
Esercizio per casa. Relativamente all’esempio del radon indoor, provate a riconoscere qual è la
popolazione considerata e qual è il campione descrivendoli sinteticamente per iscritto.
Trovate almeno altri due esempi di popolazione e campione in situazioni di cui avete avuto
esperienza diretta o che avete incontrato, per esempio sui giornali, tv o altre fonti.
Descriveteli sinteticamente per iscritto.
Stat-II Introduzione all’inferenza
11
Da un punto di vista del tipo di analisi che si vuole effettuare in cosa gli
esempi 1 e 2 differiscono?
Inferenza statistica
• Stima (esempio 1)
• Verifica di ipotesi (esempio 2)
Stat-II Introduzione all’inferenza
12
Inferenza statistica
Negli esempi precedenti, escluso l’esempio 0 si hanno
situazioni in cui l’informazione quantitativa sul
fenomeno analizzato è disponibile solo su un
sottoinsieme, il campione, di unità statistiche della
popolazione d’interesse.
L’obiettivo non è descrivere quantitativamente una
situazione empirica, ma partendo da questa
descrizione, inferire aspetti generali della
popolazione di riferimento.
Stat-II Introduzione all’inferenza
13
Le due componenti dell’analisi inferenziale
I dati (statistica descrittiva, Stat. I) vs Modello comportamentale (calcolo delle probabilità)
=X 12.9 mg/l =S~
11.7 mg/l
In letteratura la concentrazione dei solfati (X) è spesso modellizzata
come una v.a. di tipo gamma. Sinteticamente X∼gamma(α,θ)
x1ex)(
),,x(f θ−−α
α
αΓ
θ=θα X > 0; α, θ ∈ R+
∞
−−α=αΓ
0
1)( dtet t
θ
α=)X(E e
θ=
θ
α=
)X(E)X(Var
2
La teoria della probabilità fornisce -) i modelli (popolazione di riferimento) per i fenomeni
-) la possibilità di misurare l’errore commesso nell’inferenza
L’analisi descrittiva produce evidenze relative a tali modelli basandosi sui dati rilevati
L’inferenza statistica permette di “risalire” dai dati osservati empiricamente alle caratteristiche del
modello/popolazione (per es. stimare la curva sovrapposta all’istogramma, i suoi parametri)
concentrazione solfati
De
nsity
0 10 20 30 40 50 60
0.0
00.0
30.0
6
Stat-II Introduzione all’inferenza
14
Campione e campione “osservato”
Esempio 4: voti ASM – 2014
Popolazione (N = 100 studenti del II anno del corso di SSE)
Distribuzione di frequenza voti di Analisi Statistica Multivariata
Voto 18 19 20 21 22 23 24 25 26 27 28 29 30
Frequenza
Relativa (p) 0.05 0 0.07 0.05 0.09 0.12 0.12 0.11 0.09 0.05 0.07 0.05 0.12
Campione osservato di n = 10 studenti
Voti del quarto appello a cui hanno partecipato 10 studenti
Voto 28 21 30 25 27 28 28 23 22 27
Osservazione: E(X )=24.4 …. ma …. = 25.9.
Cosa sarebbe successo se avessimo considerato un appello (campione) diverso?
Stat-II Introduzione all’inferenza
15
Campione prima dell’estrazione
Voto X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
Xi : variabile casuale con distribuzione f(x), con i = 1, …, 10
Notazione generale
X1, …, Xn campione di numerosità n prima della sua osservazione
x1, …, xn campione di numerosità n dopo averlo osservato (valori numerici)
n: ampiezza o numerosità campionaria
Come si sceglie il campione?
L’appello di ASM precedentemente considerato è adeguato a rappresentare l’insieme
delle “performance” degli studenti del corso?
Stat-II Introduzione all’inferenza
16
Campione casuale
Data la variabile casuale X oggetto di studio, con distribuzione f(x), un campione casuale è
l’insieme di variabili casuali X1, …,Xn indipendenti e identicamente distribuite come X.
Campionamento casuale e non casuale, probabilistico e non probabilistico
Stat-II Introduzione all’inferenza
17
Terminologia e definizioni (riepilogo)
Popolazione o Universo: … …
Popolazione finita: … …
Popolazione infinita: … …
Campione: … …
Campione Casuale: … ….
Esercizio per casa. Con l’aiuto del testo e/o dei vostri appunti riempite gli spazi mancanti con le
relative definizioni