Upload
truongdiep
View
224
Download
1
Embed Size (px)
Mattia Natali
1
Statistica µ Definizioni:
Ø X1,…,Xn variabili aleatorie indipendenti e tali che FX1 =…= FXn si dicono campione.
Ø Siano X1,…,Xn ~ N µ,σ 2( ) con µ e σ 2 incogniti. Per determinare i parametri incogniti si fa
“inferenza statistica”. Ø Siano X1,…,Xn campioni e ϑ parametro incognito:
§ Una statistica è una funzione del campione S = S X1,…,Xn( ) . § Uno stimatore di ϑ è una statistica utile per stimare ϑ .
µ Media Campionaria:
Ø È uno stimatore non distorto di µà Xn =1n
Xkk=1
n
∑ .
Ø Sia X1,…,Xn campione con media µ , varianza σ 2 .
§ E Xn( ) = µ .
§ Se X1,…,Xn ~ N µ,σ 2( ) à Xn ~ µ,σ2
n⎛⎝⎜
⎞⎠⎟.
§ Se n 1 à Xn ≈ N µ,σ2
n⎛⎝⎜
⎞⎠⎟.
Ø Xn ~ N µ,σ2
n⎛⎝⎜
⎞⎠⎟.
µ Varianza campionaria:
Ø È uno stimatore non distorto di σ 2à Sn2 =
1n −1
Xk − Xn( )2k=1
n
∑ .
Ø La varianza campionaria si può calcolare anche così: Sn2 =
1n −1
X 2i − nX
2
i=1
n
∑⎛⎝⎜⎞⎠⎟.
Ø E S2n⎡⎣ ⎤⎦ = σ 2 .
Ø Teorema:
§ Sia X1,…,Xn ~ N µ,σ 2( ) campione:
• Xn ,S2n sono indipendenti.
• Xn − µσ
n ~ N 0,1( ) .
• n −1( )σ 2 ~ χ 2 n −1( ) .
µ Teoria della stima: Ø Sia X1,…,Xn campione con ϑ parametro incognito.
§ Ηn = Η X1,X2 ,…,Xn( ) stimatore di ϑ . Ηn è uno stimatore corretto (non distorto) se
E Ηn[ ] = ϑ .
Mattia Natali
2
§ Nota d’aiuto per esami: Se abbiamo X v.a. con E X[ ] = µ , Var X( ) = σ 2 . Possiamo
determinare E X 2⎡⎣ ⎤⎦ con la formula inversa della varianza, ossia
E X 2⎡⎣ ⎤⎦ = Var X( ) + E X[ ]2 = σ 2 + µ2 .
§ Definiamo distorsione = Bias Ηn( ) := E Ηn[ ]−ϑ .
• Se Bias Ηn( )→ 0 con n→∞ diciamo che Ηn è asintoticamente corretto.
• Se Bias Ηn( ) = 0 à corretto.
Ø Ηn è consistente se ∀ε > 0 à P Ηn −ϑ > ε( )→ 0 .
Ø Errore quadratico medio (Mean Square Error): MSE Ηn( ) = E Ηn −ϑ( )2⎡⎣
⎤⎦ .
§ MSE Η( ) = Var H( ) + Bias H( )2 . Ø Ηn è consistente in media quadratica se MSE Ηn( )→ 0 con n→∞ .
Ø Ηn è corretto se e soltanto se E Ηn[ ] = ϑ . Ø Confronto tra stimatori:
§ MSE H1( ) < MSE H2( )⇔ MSE H1( )MSE H2( ) < 1 in questo caso è preferibile adottare H1 come
stimatore, nel caso contrario H2 .
µ Metodo della massima verosimiglianza: Ø Strategia: lo stimatore di massima verosomiglianza ϑ è definito come il valore di ϑ che rende
massima f x1, x2 ,…, xn |ϑ( ) , che è la funzione di massa o densità congiunta, quando i valori osservati sono x1, x2 ,…, xn . Nel calcolare il valore di ϑ che massimizza f è meglio utilizzare il
log f x1, x2 ,…, xn |ϑ( )⎡⎣ ⎤⎦ , sapendo che entrambe le funzioni assumono il massimo in
corrispondenza dello stesso valore di ϑ . Quindi: si scrive log f x1, x2 ,…, xn |ϑ( )⎡⎣ ⎤⎦ , si fa la derivata di tale funzione ed infine si prende il valore di ϑ in cui abbiamo il massimo.
Ø Ricorda che f x1, x2 ,…, xn( ) = fXi xi( )i=1
n
∏ , siccome sono tutte variabili aleatorie indipendenti.
Mentre usando i logaritmi e le sue proprietà log f x1, x2 ,…, xn( )⎡⎣ ⎤⎦ = log fXi xi( )⎡⎣ ⎤⎦i=1
n
∑ che è più
semplice da derivare.
µ Metodo dei momenti: Ø Sia X1,X2 ,…,Xn ~ f x,ϑ1,ϑ2 ,…,ϑk( ) . Ø Definiamo:
§ mh := E Xh⎡⎣ ⎤⎦ momento h -‐esimo.
§ mh :=1h
Xih
i=1
n
∑ momento campionario h -‐esimo. Sono tutti termini noti.
Mattia Natali
3
Ø Strategia: facciamo un sistema eguagliando i momenti h -‐esimi ai momenti campionari h -‐esimi. La
soluzione del sistema sarà ϑ = ϑ1,ϑ2 ,…,ϑk( ) . E X1[ ] = m1 ϑ1,ϑ2 ,…,ϑk( ) = m1 =
1n
Xii=1
n
∑
E X 21⎡⎣ ⎤⎦ = m2 ϑ1,ϑ2 ,…,ϑk( ) = m2 =
1n
X 2i
i=1
n
∑…
E Xk1⎡⎣ ⎤⎦ = mk ϑ1,ϑ2 ,…,ϑk( ) = mk =
1n
Xki
i=1
n
∑
⎧
⎨
⎪⎪⎪⎪
⎩
⎪⎪⎪⎪
µ Teorema stimatori: Ø Ipotesi: Sia X1,X2 ,…,Xn ~ f x |ϑ( ) con ϑ incognito. ϑ
= MLE ϑ( ) ossia ϑ è uno stimatore di massima verosimiglianza di ϑ (MLE = Maximum Likelyhood Estimator).
Ø Tesi:
1. Bias ϑn
( )→ 0 con n→ +∞ .
2. MSE ϑn
( )→ 0 (Errore quadratico medio).
3.
ϑn ≈ N ϑ, 1
nE ∂∂ϑlog f x |ϑ( )⎛
⎝⎜⎞⎠⎟2⎡
⎣⎢
⎤
⎦⎥
⎛
⎝
⎜⎜⎜⎜⎜
⎞
⎠
⎟⎟⎟⎟⎟
con n 1 .
4. Se ϑ * è uno stimatore di ϑ che soddisfa 1. 2. 3. ⇒ MSE ϑ *( ) ≥ MSE ϑ( ) .
Ø Corollario:
§ Sia τ = h ϑ( ) con h :→ , τ = h ϑ( ) = MSE τ( ) .
§
τ ≈ N h |ϑ( )=τ
,h ' |ϑ( )
nE ∂∂ϑlog f x |ϑ( )⎛
⎝⎜⎞⎠⎟2⎡
⎣⎢
⎤
⎦⎥
⎛
⎝
⎜⎜⎜⎜⎜
⎞
⎠
⎟⎟⎟⎟⎟
.
µ Intervalli di confidenza: Ø Molte volte è utile sapere quanto la nostra stima sia esatta, per far ciò si utilizzano gli intervalli di
confidenza. Ipotesi ϑ Intervallo bilaterale Intervallo sinistro Intervallo destro σ 2 nota µ
X ± zα2
σn −∞,X + zα
σn
⎛⎝⎜
⎞⎠⎟ X − zα
σn,∞⎛
⎝⎜⎞⎠⎟
σ 2 non nota µ X ± tα
2,n−1
Sn −∞,X + tα
2,n−1
Sn
⎛
⎝⎜⎞
⎠⎟ X − tα
2,n−1
Sn,∞
⎛
⎝⎜⎞
⎠⎟
Mattia Natali
4
µ non nota σ 2 n −1( )S2χ 2
α2,n−1
,n −1( )S2χ 2
1−α2,n−1
⎛
⎝
⎜⎜⎜
⎞
⎠
⎟⎟⎟
0,n −1( )S2χ 21−α ,n−1
⎛
⎝⎜⎞
⎠⎟
n −1( )S2χ 2
α ,n−1
,∞⎛
⎝⎜⎞
⎠⎟
µ Stime per la differenza tra le medie di due popolazioni normali: Ø Siano X1,X2 ,…,XN e Y1,Y2 ,…,Ym due campioni estratti da popolazioni normali differenti con
µ1,σ21 i parametri della prima e µ2 ,σ
22 i parametri della seconda.
Ø X := 1n
X1i=1
n
∑ e Y := 1m
Yjj=1
m
∑ sono gli stimatori di massima verosomiglianza dei µ1,µ2
rispettivamente.
Ø S21 :=1
n −1Xi − X( )
i=1
n
∑ e S21 :=1
m −1Yj −Y( )
j=1
m
∑ sono gli stimatori di σ 21,σ
22 rispettivamente.
Ø Definiamo N := n + m − 2 e Sp :=n −1( )S21 + m −1( )S22
N che viene definita varianza
campionaria “pooled”.
Ø Con σ1,σ 2 note: l’intervallo bilaterale è X −Y ± zα2
σ 21
n+σ 22
m mentre l’intervallo sinistro è
−∞,X −Y + zασ 21
n+σ 22
m
⎛
⎝⎜
⎞
⎠⎟ .
Ø Con σ1,σ 2 NON note MA uguali: l’intervallo bilaterale è X −Y ± tα2,N⋅Sp
1n+1m
mentre
l’intervallo sinistro è −∞,X −Y + tα ,N ⋅Sp1n+1m
⎛
⎝⎜⎞
⎠⎟.
µ Intervalli di confidenza approssimati per la media di una distribuzione di Bernoulli: Ø Poniamo
p := X
n stimatore del parametro di Bernoulli p con X = numero di valori 1 nel
campione bernoulliano.
Ø L’intervallo di confidenza bilaterale è p ± zα
2
p 1− p( )n
, quello sinistro
−∞, p + zαp 1− p( )
n
⎛
⎝
⎜⎜
⎞
⎠
⎟⎟, quello destro è
p − zαp 1− p( )
n,∞
⎛
⎝
⎜⎜
⎞
⎠
⎟⎟.
µ Verifica delle ipotesi: Ø Un’ipotesi statistica è normalmente un’affermazione su uno o più parametri della distribuzione di
popolazione. Ø Facendo un test (o verifica) di una data ipotesi H0 (che solitamente viene chiamata ipotesi nulla)
possiamo incorrere a due tipi di errore: § Errore di prima specie: quando rifiutiamo un’ipotesti H0 che in realtà è corretta.
Mattia Natali
5
§ Errore di seconda specie: quando accettiamo H0 quando in realtà è falsa.
Ø Verifica di un ipotesi sulla media di una popolazione normale: § Con varianza nota:
• Vogliamo verificare l’ipotesi nulla H0 :µ = µ0 . Siccome X := 1n
Xii=1
n
∑ è lo stimatore
puntuale naturale per µ , sembra ragionevole accettare H0 quando X non è troppo lontano da µ0 .
• α = P errore di I specie( ) = Pµ0X − µ0 > c( ) è la probabilità di commettere un errore di
prima specie, ossia rifiutiamo l’ipotesi (µ = µ0 ) mentre in realtà è vera.
• Con opportuni passaggi otteniamo che si rifiuta H0 se X − µ0σ n
> zα2
, si accetta H0 se
X − µ0σ n
≤ zα2
.
• Spesso non si fissa in anticipo il livello di significatività, ma si osservano i dati e si ricava il p-‐dei-‐dati (p-‐value) corrispondente che fa da spartiacque tra l’accettare e il rifiutare. Per
prima cosa si calcola v = X − µ0σ n
, poi il valore ottenuto lo scriviamo
P Z > v( ) = P z > v( ) + P z < −v( ) = 1− Φ v( ) +1− Φ v( ) = 2 1− Φ v( )( ) . Se esso risulta molto maggiore di quanto siamo disposti ad accettare come probabilità di un errore di prima specie, accettiamo l’ipotesi; se invece la probabilità è molto piccola possiamo rifiutare il dato senza aver paura di aver commesso un errore di prima specie.
• Ora discutiamo la possibilità degli errori di seconda specie introducendo una nuova funzione β chiamata curva OC (curva operativa caratteristica, operating characteristic curve) che rappresenta appunto la probabilità di accettare H0 quando la media reale è µ :
β µ( ) = Pµµ0 − µσ n
− zα2
≤ Z ≤µ0 − µσ n
+ zα2
⎛
⎝⎜⎞
⎠⎟= Φ
µ0 − µσ n
+ zα2
⎛
⎝⎜⎞
⎠⎟− Φ
µ0 − µσ n
− zα2
⎛
⎝⎜⎞
⎠⎟.
• Supponiamo di cercare il valore di n con il quale la probabilità di accettare H0 :µ = µ0 quando il valore è µ1 , sia approssimativamente pari ad un valore β fissato, la formula è:
n ≈zα2
+ zβ⎛
⎝⎜⎞
⎠⎟σ
µ1 − µ0
⎡
⎣
⎢⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥⎥
2
.