26
Dipartimento di Economia, Finanza e Statistica Universit ` a di Perugia Appunti di teoria dell’Inferenza Statistica a cura di Antonio Forcina Indice 1 Introduzione 2 2 La funzione di verosimiglianza 2 2.1 Statistiche sufficienti ................................. 3 2.2 Statistiche ancillari .................................. 5 2.3 La famiglia esponenziale ............................... 5 2.3.1 Generazione di densit`a esponenziali ..................... 6 2.3.2 Parametro di scala .............................. 6 2.3.3 Esempi di modelli esponenziali ........................ 7 2.3.4 La funzione di varianza ............................ 8 2.3.5 Il caso multivariato .............................. 9 2.4 Il vettore score e la matrice di informazione .................... 9 3 Teoria della stima puntuale 10 3.1 Disuguaglianza di Rao-Blackwell ........................... 11 3.2 Disuguaglianza di Rao-Cramer ............................ 11 4 Verifica delle ipotesi 13 4.1 Test uniformemente pi` u potenti ........................... 14 4.2 Regioni similari .................................... 15 4.3 Invarianza ....................................... 18 5 Cenni di teoria asintotica 20 5.1 Stime di massima verosimiglianza .......................... 21 5.1.1 Consistenza .................................. 21 5.1.2 Normalit`a ................................... 21 5.2 Metodo dei momenti generalizzato .......................... 22 5.2.1 Normalit`aasintotica ............................. 24 5.2.2 Efficienza asintotica .............................. 24 5.3 Rapporto di verosimiglianza ............................. 25 1

Appunti di teoria dell’Inferenza Statistica - stat.unipg.it · Dipartimento di Economia, Finanza e Statistica Universita di Perugiaµ Appunti di teoria dell’Inferenza Statistica

Embed Size (px)

Citation preview

Dipartimento di Economia, Finanza e Statistica

Universita di Perugia

Appuntidi teoria dell’Inferenza Statistica

a cura di Antonio Forcina

Indice

1 Introduzione 2

2 La funzione di verosimiglianza 22.1 Statistiche sufficienti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 Statistiche ancillari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3 La famiglia esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3.1 Generazione di densita esponenziali . . . . . . . . . . . . . . . . . . . . . 62.3.2 Parametro di scala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.3.3 Esempi di modelli esponenziali . . . . . . . . . . . . . . . . . . . . . . . . 72.3.4 La funzione di varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.3.5 Il caso multivariato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.4 Il vettore score e la matrice di informazione . . . . . . . . . . . . . . . . . . . . 9

3 Teoria della stima puntuale 103.1 Disuguaglianza di Rao-Blackwell . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.2 Disuguaglianza di Rao-Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

4 Verifica delle ipotesi 134.1 Test uniformemente piu potenti . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.2 Regioni similari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.3 Invarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5 Cenni di teoria asintotica 205.1 Stime di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5.1.1 Consistenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215.1.2 Normalita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5.2 Metodo dei momenti generalizzato . . . . . . . . . . . . . . . . . . . . . . . . . . 225.2.1 Normalita asintotica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245.2.2 Efficienza asintotica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

5.3 Rapporto di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1

1 Introduzione

Questi appunti si propongono di fornire una trattazione compatta e, si spera accessibile, dialcune nozioni avanzate di Inferenza Statistica. Testi di eventuale approfondimento, a cui hoattinto, sono quello ormai storico di Cox e Hincley Theoretical Statistics, il libro di Pace eSalvan Teoria della statistica e quello di Severini Likelihood methods in statistics.

Nel seguito supponiamo di avere un vettore di osservazioni, che in genere indicheremo cony e che rappresentano i dati. Questo copre la maggior parte degli esempi che esamineremo,anche se, ovviamente, ci sono strutture di dati piu complesse. Nel corso di questi appuntisupporremo che i dati siano stati generati da un modello probabilistico noto a meno di unvettore di parametri θ; si tratta ovviamente di una semplificazione di comodo. Oggetto delcorso sono i principi ed i risultati in base ai quali e possibile estrarre dai dati informazioni sulmodello probabilistico che li ha generati ed in particolare sui parametri.

Per semplicita, supponiamo che le variabili casuali, che poi si traducono in osservazioni,siano o discrete o assolutamente continue; questo ci consente di indicare con un unico simbolof(y; θ) sia una probabilita che, nel caso discreto sara definita come P (Y1 = y1, . . . , Yn = yn | θ),che la corrispondente funzione di densita nel caso continuo. Inoltre, per una trattazione agile,useremo una stessa notazione per indicare una variabile casuale e un valore osservato dellastessa; la distinzione sara evidente dal contesto.

2 La funzione di verosimiglianza

La funzione di log verosimiglianza e definita come la funzione L(θ;y) = log[f(y; θ)] al variaredi θ nel suo insieme di definizione per un y fissato. In pratica questo equivale a confrontaretutte le possibili ipotesi circa il modello generatore dei dati osservati. Siccome moltiplicare lafunzione di probabilita per una costante equivale ad aggiungere una costante a L(θ;y), il chenon ne cambia la forma e quindi la plausibilita relativa delle possibili ipotesi su θ, la funzionedi log verosimiglianza verra specificata a meno di costanti rispetto a θ.

Esempio 1. Binomiale contro Binomiale Negativa Supponiamo che un certo evento sipossa verificare in modo indipendente in ogni prova con probabilita p ∈ (0, 1). Se, avendo decisodi effettuare n prove, abbiamo riscontrato che l’evento si e verificato y volte, la distribuzione diprobabilita sara descritta del modello binomiale

f(y, n; p) =

(ny

)py(1− p)n−y.

Se invece avessimo deciso di continuare a fare prove fino a che l’evento non si sara verificato yvolte, la funzione di probabilita sara data dal modello binomiale negativo la cui espressione siottiene considerando che il risultato richiede che si siano verificati esattamente y − 1 successinelle prime n− 1 prove e che l’ultima prova dia luogo ad un successo, per cui

f(y, n; p) =

(n− 1y − 1

)py(1− p)n−y.

Siccome nel modello binomiale n e fisso e y = 0, . . . , n mentre in quello binomiale negativo ye fisso e n = y, . . . ,∞, i due modelli probabilistici sono sostanzialmente diversi. Invece, dalpunto di vista della verosimiglianza, n, y sono fissi ai valori osservati e quindi la funzione di logverosimiglianza e la stessa. Ne consegue che, dal punto di vista della verosimiglianza il modellodi generazione dei dati e irrilevante.

2

Possiamo quindi enunciare il seguente principio:

Definizione 1. Se due funzioni di log verosimiglianza funzione di uno stesso vettore di parametri,sono uguali a meno di una costante, esse sono equivalenti, cioe qualunque inferenza basatasulla verosimiglianza sara la stessa nei due modelli.

2.1 Statistiche sufficienti

Esempio 2. dati binari Un modello equivalente a quello binomiale si ottiene supponendo dieffettuare n prove indipendenti e di codificare con yi = 1 il successo nell’i-esima prova; neconsegue che

f(y; p) =n∏1

pyi(1− p)1−yi .

Posto s =∑

yi, si ricava facilmente che

L(p;y) = s log(p) + (n− s) log(1− p)

e quindi la funzione di log verosimiglianza dipende solo dal totale dei successi e non dai risultatidelle singole prove. In altre parole, e come se una parte delle informazioni contenute nei datifossero irrilevanti una volta noto s, quindi ci basta conoscere solo s per determinare la funzionedi verosimiglianza.

Definizione 2. Sufficienza Una funzione nota dei dati osservati (statistica) s = t(y) si dicesufficiente se la distribuzione condizionata dei dati alla statistica, g(y | s; θ) non dipende da θ.

Quindi, un modo per stabilire se una statistica e sufficiente, e di calcolare la distribuzionecondizionata di y ad una possibile statistica sufficiente e verificare se dipende da θ.

Esempio 3. Distribuzione uniforme Supponiamo di avere n osservazioni da una distribuzioneuniforme fra 0 e θ. La densita uniforme e 1/θ per yi ∈ [0, θ] e 0 altrimenti. Posto s = max(y),ne consegue che L = 0 per θ < s e L = −n log(θ) per θ ≥ s; cioe la funzione di verosimiglianzadipende dai dati solo attraverso s. Siccome s e funzione di y, per calcolare la distribuzione con-dizionata e sufficiente dividere la densita congiunta per la densita marginale di s. Quest’ultimadensita si puo ricavare notando che la funzione di ripartizione di s, essendo la probabilita chetutte le osservazioni siamo non superiori a s, e pari a (s/θ)n; derivando la funzione di ripar-tizione rispetto a s si ottiene la densita marginale che e nsn−1/θn. Essendo f(y; θ) = 1/θn, ladistribuzione condizionata risulta essere 1/(nsn−1) che non dipende da θ.

Un modo piu semplice di stabilire se una statistica e sufficiente si ricava dal seguente risultatonoto come Teorema di fattorizzazione:

Proposizione 1. Una statistica s e sufficiente se la funzione di log verosimiglianza si puoscomporre nella somma di due funzioni in cui la prima L1(θ; s) dipende dai dati solo attraversos e la seconda L2(y) non dipende da θ.

Nell’esempio precedente sulla distribuzione uniforme L1 = L e L2 = 0 e solo un caso moltoparticolare, come risulta dal seguente esempio.

Esempio 4. Supponiamo di aver estratto n osservazioni da una distribuzione di Poisson conf(yi, µ) = exp(−µ)µyi/yi!; la log verosimiglianza ha la forma

L(µ;y) =∑

log[exp(−µ)µyi/yi!] = −nµ +∑

yi log(µ)−∑

log(yi!)

da cui, posto s =∑

yi, si vede facilmente che essa e una statistica sufficiente, basta infattiporre L2(y) = −∑

log(yi!) per soddisfare le condizioni del teorema di fattorizzazione.

3

Esempio 5. Distribuzione normale Supponiamo di 33avere n osservazioni da una N(µ, σ2)per cui f(yi; µ, σ2) = 1/

√2πσ2 exp[−1/(2σ2)(yi − µ)2]3; sviluppando si ha

L(µ, σ2;y) = −n log(σ)− 1

2σ2

∑y2

i +µ

σ2

∑yi − nµ2

2σ2.

Applicando il teorema di fattorizzazione risulta evidente che, posto L2 = 0, la statistica suffi-ciente ha due componenti,

∑yi e

∑y2

i , possiamo infatti porre L1 = 0. Notare anche che, oveσ fosse noto, la statistica sufficiente si ridurrebbe a

∑yi. Inoltre, siccome qualunque trasfor-

mazione invertibile di s contiene le stesse informazioni e quindi e ancora sufficiente, la mediacampionaria y e la varianza campionaria S2 =

∑(yi − y)2/n sono una coppia alternativa di

statistiche sufficienti.

Esempio 6. Supponiamo che la durata della sopravvivenza all’interno di una popolazione sia ditipo esponenziale con f(y; θ) = θ exp(−θy). Sia yi la durata della sopravvivenza di un soggettofino al momento in cui, o se ne osserva il decesso oppure si smette di tenerlo sotto osservazione;se i primi m individui muoiono entro il periodo di studio e i restanti n−m erano ancora in vita,la verosimiglianza si puo scrivere nella forma seguente notando che, per gli individui deceduti,il contributo alla verosimiglianza e la probabilita che il decesso avvenga fra (yi, yi + dyi) mentreper gli individui ancora in vita e la probabilita di sopravvivere almeno fino a yi, cioe la funzionedi sopravvivenza che, per il modello esponenziale e pari a exp(−θyi),

m∏1

θ exp(−θyi)dyi

n∏m+1

exp(−θyi) = θm exp(−θ

n∑1

yi)m∏1

dyi;

come si vede, ci sono due statistiche sufficienti: m e∑

yi, a fronte di un solo parametro.

Esempio 7. Supponiamo di avere n osservazioni su un processo stocastico dicotomico Marko-viano di primo ordine: P (yi = 1 | y1, . . . , yi−1) = P (yi = 1 | yi−1). Sia θ1 = P (y1 = 1), θ10 =P (yi = 1 | yi−1 = 0) e θ11 = P (yi = 1 | yi−1 = 1). Siccome y1 fornisce informazioni solo su θ1

che e il parametro meno interessante, consideriamo la verosimiglianza di y2, . . . , yn | y1; questasara composta dal prodotto di n − 1 fattori, uno per ogni transizione da yi−1 a yi, i = 2, . . . n.Siccome i fattori possono essere solo di 4 tipi: 1−θ10, θ10, 1−θ11 e θ11, a secondo che la coppiadi valori consecutivi sia, rispettivamente: (0,0), (0,1), ((1,0) e (1,1), sia nu,v la frequenza delletransizioni con yi−1 = u, yi = v, allora la verosimiglianza condizionata al valore iniziale e

(1− θ10)n00θn01

10 (1− θ11)n10θn11

11 .

Notare che ci sono 2 parametri e 4 statistiche sufficienti; pero, siccome esse sommano a n,quelle linearmente indipendenti sono solo 3.

L’esempio seguente mostra che non sempre esistono statistiche sufficienti.

Esempio 8. Distribuzione di Cauchy. Si tratta di una distribuzione di variabile continuaillimitata che, nel caso di un solo parametro, ha la forma

f(y; µ) =1

π

1

1 + (y − µ)2;

se ne deduce facilmente che la log verosimiglianza di n osservazioni, trascurando i terminicostanti, si puo scrivere nella forma

L(y; µ) = −n∑1

log[1 + (yi − µ)2];

4

per verificare che l’espressione non si semplifica, si provi a svolgere prima i quadrati e poi asvolgere la produttoria dei termini 1 + y2

i − 2µyi + µ2. Ne risulta una espressione che contiene,fra l’altro, i prodotti di tutte le possibili coppie, terne, ecc nuple di y2

i , quindi la dipendenza daidati non puo essere semplificata, ovvero non esistono statistiche sufficienti, cioe un vettore difunzioni dei dati di dimensione minore di n.

2.2 Statistiche ancillari

Supponiamo che il vettore dei parametri di un modello sia costituito da una componente diinteresse ψ e da una di disturbo λ e che le osservazioni si possano a loro volta scomporre in ue v in modo che la distribuzione marginale di u non dipende da ψ. Allora u e una statisticaancillare rispetto a ψ e sembra ragionevole ritenere che le inferenze su ψ, invece che sullaverosimiglianza complessiva dei dati, dovrebbero basarsi sulla verosimiglianza condizionata div | u in quanto la u di suo non contiene alcuna informazione sui parametri di interesse.

Esempio 9. Regressione lineare semplice Supponiamo di avere una distribuzione normalebivariata (

xy

)∼ N

[(µx

µy

),

(σ2

x σxy

σxy σ2y

)];

sfruttando la formula per la distribuzione condizionata di variabili normali, si ricava

y | x ∼ N(µy +σxy

σ2x

(x− µx), σ2y −

σxy

σ2x

) = N(β0 + β1x, σ2r),

dove si e posto β1 = σxy/σ2x, β0 = µy − β1µx e σ2

r = σ2y − σxy/σ

2x. In questa nuova parametriz-

zazione, se oggetto di interesse e il modello di regressione, λ = (µx, σ2x)′ rappresenta il parametro

di disturbo e ψ = (β0, β1, σ2r)′ e il parametro di interesse ed e facile verificare che la distribuzione

marginale di x non contiene alcuna informazione su ψ, quindi e ancillare.

2.3 La famiglia esponenziale

Un modello probabilistico appartiene alla famiglia esponenziale ad un solo parametro se la suafunzione di probabilita ha la forma

f(y; θ) = exp[θy − k(θ)]g(y).

ed e definita su un insieme Y che non dipende da θ.

Osservazione 1. Nel seguito useremo occasionalmente espressioni del tipo∫

s(y)f(y; θ)dν,dove dν indica una misura di probabilita rispetto alla quale f(y; θ) e una densita. Questeespressioni si traducono, nel caso continuo, in

∫Y s(y)f(y; θ)dy e, nel caso discreto, nella somma∑

y∈Y s(y)f(y; θ).

Modelli con funzioni di probabilita di questo tipo godono di varie proprieta interessanti.Anzitutto, sfruttando l’identita

∫f(y; θ)dν = 1 e possibile calcolare facilmente la funzione gen-

eratrice dei momenti, moltiplicando e dividendo per opportune costanti in modo che l’integraledi base sia pari a 1

M(t) =

∫exp(ty)f(y; θ)dν.

5

Per risolvere l’integrale conviene aggiungere e sottrarre k(t + θ) dentro l’esponenziale e portarefuori dall’integrale i termini che non dipendono da y in modo da ottenere nuovamente unafunzione di densita di una famiglia esponenziale che, come sappiamo, integra a 1:

M(t) =

∫exp(y(t + θ)) exp[−k(θ) + k(t + θ)− k(t + θ)]g(y)dν

= exp[k(t + θ)− k(θ)]

∫exp[y(t + θ)] exp[−k(t + θ)]g(y)dν = exp[k(t + θ)− k(θ)].

Il logaritmo della funzione generatrice dei momenti rappresenta la funzione generatrice deicumulanti (fgc) dalle cui derivate, nel punto t = 0, si ricava

E(y) = k′(θ), V ar(y) = k′′(θ).

2.3.1 Generazione di densita esponenziali

Sia g(y) una qualunque densita e sia k(t) la sua fgc, allora poiche

exp[k(t)] =

∫exp(yt)g(y)dν ⇒

∫exp[yθ − k(θ)]g(y)dν = 1

segue che exp[yθ − k(θ)]g(y)dν e una densita della famiglia esponenziale. In altre parole, par-tendo da una densita qualunque e possibile costruire una nuova densita collegata alla precedenteche e di tipo esponenziale. In realta, siccome la famiglia esponenziale e ben studiata, quasi tuttele densita possibili e non troppo astruse sono gia note.

Una proprieta immediata delle densita esponenziali e che la statistica sufficiente per θ in uncampione di n osservazioni iid e semplicemente

∑yi, come si puo verificare immediatamente.

2.3.2 Parametro di scala

Sia g(y; λ) una funzione di probabilita la cui fgc abbia la forma λk(t/λ) per λ > 0; questoimplica che ∫

exp[ty − λk(t/λ)]g(y; λ)dν = 1,

ponendo θ = t/λ, se ne deduce che

f(y; θ, λ) = expλ[yθ − k(θ)]g(y; λ)

integra a 1 ed e non negativa, quindi e una funzione di densita la cui fg dei momenti e data da

M(t) =

∫expty + λ[yθ − k(θ)]g(y; λ)dν =

∫expλ[y(t/λ + θ)− k(θ)]g(y; λ)dν

= expλ[k(t/λ + θ)− k(θ)].

Da questa espressione si ricava

E(y) = µ = k′(θ), V (y) =1

λk′′(θ) = σ2k′′(θ)

in cui λ e σ2 = 1/λ rappresentano rispettivamente i parametri di scala e di dispersione.

6

Esempio 10. Supponiamo che g(y; λ) =√

λ/2π exp(−λy2/2), la densita normale con me-dia 0 e varianza pari a 1/λ. La funzione generatrice dei momenti e M(t) = exp(t2/(2λ)) =exp[λ (t/λ)2/2] e quindi, posto θ = t/λ, se ne deduce che k(θ) = θ2/2; la funzione di densitache ne deriva ha la forma

f(y; θ, λ) = expλ[yθ − θ2/2]g(y; λ),

che e la densita di una distribuzione normale con media θ e varianza 1/λ, che come vedremoappartiene alla famiglia esponenziale.

2.3.3 Esempi di modelli esponenziali

Binomiale - Partiamo dalla funzione di densita e cerchiamo di trasformarla in forma espo-nenziale:

f(y; p) = c(y, n)py(1− p)n−y = c(y, n)(p

1− p)y(1− p)n = exp[yθ − n log(1 + eθ)]c(y, n)

dove si e posto c(n, y) = n!/[y!(n − y!)] e θ = log[p/(1 − p)] da cui p = eθ/(1 + eθ) equindi (1− p) = 1/(1 + eθ). Si noti che, c(y, n)/2n rappresenta una densita con funzionegeneratrice dei momenti pari a

∑y

c(n, y)(et/2)y(1/2)n−y = (et/2 + 1/2)n

da cui, la fgc e pari a n[log(1 + et − log(2)].

Poisson - Scrivendo la densita in forma esponenziale exp[−µ + y log(µ)]/y! si vede che ilparametro canonico deve essere θ = log(µ) e quindi che k(θ) = exp(θ), per cui, media evarianza sono pari a k(θ) = µ.

Gamma - In questo caso abbiamo che

f(y; γ, λ) = yλ−1γλe−yγ/Γ(λ) = exp[−yγ + λ log(γ)]yλ−1/Γ(λ).

Conviene manipolare l’esponenziale come segue

λy−γ

λ+ λ log

(−λ

−γ

λ

)= λ

[y−γ

λ−

(− log

−γ

λ

)]+ λ log(−λ)

segue che come parametro canonico si puo prendere θ = −γ/λ e quindi k(θ) = − log(θ)da cui si ricava E(y) = −1/θ e V ar(y) = σ2/θ2 = σ2µ2.

Binomiale Negativa - Consideriamo una forma della densita che si ottiene partendo da unadistribuzione di Poisson la cui media µ ha distribuzione Gamma(γ, λ), integrando rispettoa µ si ottiene

f(y; γ, λ) =Γ(y + γ)

Γ(γ)y!

(1

1 + λ

)y (λ

1 + λ

;

un esame intuitivo suggerisce di prendere come parametro canonico θ = − log(1 + λ) dacui e−θ = 1+λ e quindi λ = e−θ−1 = (1−eθ)/eθ; questo implica che k(θ) = −γ log(1−eθ).Da cui E(y) = γ eθ/(1 − eθ) = γ/λ e Var(y) = γ eθ/(1 − eθ)2. Notare che 1/(1 − eθ) =e−θ/(1 − e−θ) = (λ + 1)/λ = 1 + E(y)/γ, quindi la varianza si puo scrivere in funzionedel valore atteso Var(y) = E(y)[1 + E(y)/γ].

7

Ipergeometrica estesa - Supposto y ∼ Bin(r, p1) e z ∼ Bin(n − r, p0), indipendenti, lacongiunta ha la forma

(ry

)(n− r

z

)py

1(1− p1)r−ypz

0(1− p0)n−r−z;

indicando con c(y, r, n) il prodotto dei due coefficienti binomiali e c = y + z, da cui z =c−y, la distribuzione di y | c = y +z si ottiene dal rapporto della distribuzione congiuntarispetto alla distribuzione marginale

f(y | c, r, n; p0, p1) =c(y, r, n)py

1(1− p1)r−ypc−y

0 (1− p0)n−r−c+y

∑c(j, r, n)pj

1(1− p1)r−jpc−j0 (1− p0)n−r−c+j

.

Ponendo θ = logp1(1−p0)/[(1−p1)p0] e notando che nell’espressione della densita tuttii fattori con esponenti diversi da y che compaiono al numeratore si semplificano con quellicorrispondenti al denominatore, otteniamo

f(y | c, θ) = c(y, r, n) exp[yθ − k(θ)]

dove k(θ) = log[∑

c(j, r, n) exp(jθ)].

Osservazione 2. Alla stessa distribuzione si puo arrivare partendo da una tabella 2× 2con distribuzione multinomiale e condizionando ad entrambi i margini, come nel testesatto di Fisher. con pij, i, j = 0, 1 le probabilita congiunte, la distribuzione delle frequenzesi puo scrivere nella forma

m(y | c, r, n; p00, p01, p10, p11) =n!

y!(c− y)!(r − y)!(n− r − c + y)!pn−r−c+y

00 pc−y01 pr−y

10 py11.

Siccome il logaritmo del rapporto degli odds e lo stesso sia che venga calcolato con leprobabilita congiunte che con le condizionate di riga, avremo che θ = log[(p00p11)/(p01p10)],moltiplicando e dividendo per exp[k(θ)] e raggruppando i fattori che dipendono da y,quelli che dipendono da r, c e da n, si vede che la congiunta si puo fattorizzare in duefattori di cui uno e la distribuzione condizionata di y | (r, c), per cui l’altro deve essere lacongiunta marginale di (r, c) | n. Siccome quest’ultima dipende da θ, se ne deduce che ladistribuzione congiunta dei margini non e ancillare rispetto a θ.

2.3.4 La funzione di varianza

Si dimostra che la funzione E(y) = µ = k′(θ) e invertibile (Barndorff-Nielsen, 1978, p. 121),cioe esiste una funzione θ = m(µ); ne segue che si puo scrivere Var(y) = k′′(θ)/λ = Var(µ);questa funzione della varianza rispetto al valore atteso si denomina funzione di varianza e valeil seguente risultato:

Proposizione 2. (Joergensen, 1987) La funzione Var(µ) individua in modo univoco un modellodella famiglia esponenziale, ammesso che ne esista uno.

Esempio 11. Nel caso binomiale si ha Var(y) = µ(n − µ)/n, per la binomiale negativa siottiene Var(y) = µ(1 + µ/γ). Per la Gamma si ottiene Var(y) = µ2/λ.

8

2.3.5 Il caso multivariato

La versione multivariata della famiglia esponenziale ha la forma

expλ[y′θ − k(θ)]g(y; λ).

Anche in questo caso la fgc si ottiene con una tecnica analoga a quella del caso univariatoed e pari a expλ[k(θ + t/λ) − k(θ)]. Notare che ora, pero, t e un vettore avente la stessadimensione di y.

Esempio 12. Normale multivariata Una possibile parametrizzazione per la N(µ,Σ) consistenel porre θ = Σ−1µ, sviluppando l’esponenziale, la densita diventa

|(2π)nΣ|−0.5 exp(−yΣ−1y/2 + yΣ−1µ− µ′Σ−1ΣΣ−1µ/2) =

= ‖(2π)nΣ‖−0.5 exp(y′θ − θ′Σθ/2− y′Σ−1y/2),

quindi k(θ) = θ′Σθ/2 la cui derivata prima e k′(θ) = Σθ = µ mentre la matrice delle derivateseconde e semplicemente k′′(θ) = Σ.

Esempio 13. La distribuzione multinomiale Sia p il vettore di dimensione k delle prob-abilita e t il corrispondente vettore delle frequenze osservate. La densita multinomiale si puoscrivere nella forma exp[t′ log(p)]g(t) dove g(t) indica il termine contenente i fattoriali; sic-come le probabilito sommano a 1, il vettore dei parametri canonici deve avere dimensione k−1.Per individuarlo si puo provare a generalizzare il modello binomiale in cui il parametro canonicoe un contrasto fra i log delle due probabilita. Sia allora H una matrice (k − 1)× k di contrastiriga e di rango pieno e sia G una matrice tale che HG = Ik−1, la matrice identita di rangok − 1; questo implica che G e k × (k − 1 di rango k − 1. Si puo dimostrare che e possibilescrivere p mediante un modello logistico determinato dalla matrice G in cui

p =

[exp(Gθ)

1′k exp(Gθ)

]; (1)

infatti, prendendo il logaritmo di entrambi i membri e moltiplicando per H, siccome HG =I e H1 = 0, si ottiene H log(p) = θ, quindi θ puo essere adottato come parametro canonico.Per scrivere la densita in forma esponenziale conviene prendere il log della (1) e sostituirenell’espressione della densita

exp[t′ log(p)]g(t) = expy′θ − n log[1′k exp(Gθ)]

in cui abbiamo posto y = G′t e n = t′1 e il totale delle frequenze.

2.4 Il vettore score e la matrice di informazione

Si definisce vettore degli score

u(θ) =1

f(y; θ)

∂f(y; θ

∂θ=

∂θlog[f(y; θ)].

Proposizione 3. Se i limiti dello spazio campionario Y non dipendono da θ, E[u(θ) | θ] = 0.

9

Dim. Nei calcoli che seguono si sviluppa sostituendo l’espressione di u, si semplifica e quindisi porta la derivata all’esterno del segno di integrale, dopo di che si sfrutta il fatto che l’integraledella densita 1 e la sua derivata e 0:

E[u(θ) | θ] =

∫uf(y; θ)dν =

y∈Y

1

f(y; θ)

∂f(y; θ)

∂θf(y; θ)dν

=

y∈Y

∂f(y; θ)

∂θdν =

∂θ

y∈Yf(y; θ)dν = 0

Si definisce matrice di informazione osservata la derivata seconda del logaritmo della fun-zione di densita cambiata di segno; essa rappresenta la curvatura della funzione di log verosimiglian-za in un dato punto. Il valore atteso costituisce l’informazione attesa: F(θ) = −E(∂u/∂θ′).Il seguente risultato e utile per il calcolo di F e mostra che essa si puo interpretare come lamatrice di varianza del vettore score:

Proposizione 4. F(θ) = E[u(θ)u(θ)′].

Dim. Derivando ancora la precedente identita, il cui risulato e una matrice di 0

∂θ′

∫∂ log[f(y; θ)]

∂θf(y; θ(dν =

=

∫∂2 log[f(y; θ)]

∂θ∂θ′f(y; θ)dν +

∫∂ log[f(y; θ)]

∂θ

1

f(y; θ)

∂f(y; θ)

∂θf(y; θ)dν.

Nello sviluppo precedente, il primo termine e −F ed il secondo rappresenta la matrice divarianza dello score.

Esempio 14. In una famiglia esponenziale multivariata si ricava immediatamente che lo scorenon e altro che lo scarto dalla media

u(θ) = y − ∂k(θ)

∂θ= y − µ,

mentre la matrice F(θ) = ∂1k(θ)/(∂θ ∂θ′), quindi in questo caso l’informazione attesa coincidecon quella osservata. In particolare, nel caso della multinoniale si ottiene u(θ) = G′(t− np) eF(θ) = nG′[diag(p)−pp′]G, dove l’espressione in parentesi quadra e la derivata di p rispettoa (Gθ).

3 Teoria della stima puntuale

In genere, la correttezza di uno stimatore non e una delle proprieta piu rilevanti. Il seguenteesempio mostra che, in certi casi, esigere che uno stimatore sia corretto equivale ad imporre unvincolo molto restrittivo che e soddisfatto solo da uno stimatore molto rudimentale.

Esempio 15. In una distribuzione geometrica f(y; θ) = (1 − θ)y−1θ; affinche t(y) sia unostimatore corretto occorre che ∞∑

1

t(y)(1− θ)y−1θ = θ;

siccome t(y) sono i coefficienti di un polinomio, per fare in modo che l’uguaglianza valga perqualsiasi θ, si deve porre t(y) = 1 se y = 1 e t(y) = 0 per y > 1; essendo θ la probabilita disuccesso, per questo stimatore essa e pari a 0 sia che si sia avuto un successo alla seconda oalla millesima prova.

10

3.1 Disuguaglianza di Rao-Blackwell

Si tratta di un risultato che, almeno in linea di principio, fornisce un metodo per migliorarel’efficienza di un dato stimatore.

Proposizione 5. Supponiamo che v sia uno stimatore corretto del parametro θ e s una sta-tistica sufficiente per θ; poniamo t = E(v | s); allora: (i) t e uno stimatore corretto di θ,(ii) Var(t) ≤ Var(v), (iii) nella precedente espressione si ha uguaglianza se e solo se v e unafunzione invertibile di s.

Dim. (i):E(t) = Es[Ev(v | s) | θ] = E(v | θ) = θ.

Il punto (ii) segue dalla scomposizione della varianza condizionata

Var(v | θ) = Var[E(v | s) | θ] + E[Var(v | s) | θ];

notando che il primo termine al secondo membro e Var(t | θ) ed il secondo termine e nonnegativo e puo essere 0 solo se Var(v | s) = 0 per ogni θ, cioe v e funzione della statisticasufficiente, nel qual caso la sua varianza non puo essere ulteriormente migliorata. Questo faanche capire che la statistica t che si ottiene non dipende dalla statistica v di partenza, infatti,qualunque sia v si arriva comunque a una statistica funzione di s.

Esempio 16. Supponiamo di avere n osservazioni da una distribuzione di Poisson e sia θ =P (y = 0) = exp(−µ); ricordiamo che x =

∑yi e una statistica sufficiente. Per applicare il

metodo di riduzione della varianza e determinare uno stimatore corretto di varianza minima,basta partire da uno stimatore corretto; una possibilita e di porre v = 1 se y1 = 0 e v = 0altrimenti; infatti, essendo v binaria, E(v) = P (v = 1) = P (y1 = 0) = θ. Per calcolare t =E(v | ∑ yi = s) = P (y1 = 0 | s), ricordiamo che y1 | s ha distribuzione binomiale con s prove eprobabilita 1/n. Quindi t = P (y1 = 0 | s) = [(n− 1)/n]s, cioe la probabilita di s insuccessi ins prove.

3.2 Disuguaglianza di Rao-Cramer

Supponiamo di avere un modello definito da un vettore di k parametri θ; sia Th uno stimatoredi θh e bh(θ) la sua distorsione. Supponiamo che

E(Th) = θh + bh(θ);

derivando rispetto a θ e supponendo che l’ambito di definizione delle variabili non dipenda daθ, posto eh l’h-esima colonna della matrice di identita di dimensione k,

eh +∂bh

∂θ=

∫Th(y)

∂ log f(y; θ)

∂θf(y; θ)dy = E(Thu).

Supponiamo ora di voler trovare un nuovo stimatore che sia funzione lineare di u e al tempostesso sia il piu possibile simile a Th. Formalmente si tratta di trovare α e β tali che

E(Th − α− β′u)2 = minimo;

uguagliando a 0 la derivando rispetto a α e ricordando che E(u) = 0, si ottiene α = E(Th).Uguagliando a 0 il vettore delle derivate rispetto a β, si ottiene β = E(uu′)−1E(Thu).

11

Si puo dimostrare, nell’ambito dei minimi quadrati, che la varianza marginale della variabiledipendente non puo mai essere inferiore della varianza di Th = α+β′u; sostituendo per α e poiper β e sviluppando

Var(Th) ≥ Var(Th) = E(Thu′)E(uu′)−1E(Thu). (2)

Se indichiamo con F la matrice di informazione attesa, sostituendo l’espressione di E(Thu) nella(2) si ricava

Var(Th) ≥[eh +

∂bh

∂θ

]′F−1

[eh +

∂bh

∂θ

],

in particolare, se lo stimatore e corretto, si ricava che la varianza di un qualunque stimatorecorretto di θh non puo mai essere inferiore all’h esimo elemento della diagonale di F−1.

Il ragionamento usato per ottenere la disuguaglianza consente anche di stabilire come deveessere fatto uno stimatore affinche la sua varianza raggiunga il limite minimo: esso deve essereuna funzione lineare del vettore score. Questo consente anche di capire, esaminando il vettorescore, se e possibile costruire una statistica che fornisca una stima del parametro e che siafunzione lineare dello score.

Osservazione 3. Notare che, ove avessimo ignorato la natura multi-parametrica del modello eF non fosse una matrice diagonale, un ragionamento analogo ci avrebbe portato ad individuarecome minimo della varianza il reciproco dell’h esimo elemento sulla diagonale di F.

Esempio 17. Un modello logistico semplice si ottiene assumendo che la probabilita di successo

pi =exp(α + βxi)

1 + exp(α + βxi)

Ricordando che la log verosimiglianza di una osservazione binomiale si puo scrivere yi(log[pi/(1−pi)] + log(1− pi), possiamo scrivere

L(α, β;y) = α∑

yi + β∑

xiyi −∑

log[1 + exp(α + βxi)].

Per calcolare il vettore score notare che la derivata rispetto ad α di log[1+exp(α+βxi] e pi e laderivata seconda e pi(1− pi); le derivate rispetto a β si ottengono moltiplicando quelle rispettoa α per xi e x2

i

u =

( ∑(yi − pi)∑

xi(yi − pi)

)

e la matrice di informazione e

F =

( ∑pi(1− pi)

∑xipi(1− pi)∑

xipi(1− pi)∑

x2i pi(1− pi)

).

Posto Vh =∑

xhi pi(1 − pi), il limite minimo per la varianza di qualunque stimatore di β e

quindiV0

V0V2 − (V1)2=

1

V2 − (V 21 )/V0

≥ 1

V2

in quanto (V1)2/V0 ≥ 0; questo consente di verificare in che misura il limite ottenuto ignorando

α e diverso da quello ottimale.

12

Esempio 18. Nel caso di n osservazioni da una N(µ, θ), il vettore score e (verificare)

u =

( ∑(yi−µ)

θ∑(yi−µ)2−nθ

2θ2

)

per ottenere F conviene notare che. siccome E(yi − µ) = 0, la derivata mista e 0; inoltreconviene calcolare il valore atteso del quadrato del secondo elemento di u invece che derivarlodi nuovo e ricordare che

∑(yi − µ)2 ∼ θχ2

n

F =

(n/θ 00 n/(2θ2)

).

Notare che in questo caso, essendo la matrice di informazione diagonale, per calcolare il limitee sufficiente ragionare sui parametri presi uno alla volta.

Da quanto sopra si deduce che il limite minimo per uno stimatore corretto di θ e 2θ2/n chenon e raggiunto da S2 =

∑(yi− y)2/(n−1) la cui varianza e pari a 2θ2/(n−1). D’altro canto,

la stima di massima verosimiglianza, S2(n− 1)/n, avendo valore atteso pari a θ(n− 1)/n, haun limite minimo che si ottiene derivando il valore atteso rispetto a θ, elevando al quadratoe moltiplicando per il reciproco del termine (2,2) di F; si ottiene (2θ2/n)[(n − 1)/n]2 che eminore della varianza dello stimatore che e pari a (2θ2/n)(n − 1)/n. Il limite minimo none raggiunto da nessuno dei due stimatori in quanto, mentre nel caso di µ, y e una funzionelineare dello score, nel caso di θ,

∑(yi − y)2 non e una funzione lineare dello score, infatti,

essendo∑

(yi−µ)2 =∑

(yi− y)2 + n(y−µ)2, non esiste una statistica che sia funzione linearedello score.

Osservazione 4. Applicando il metodo di riduzione della varianza desumibile dalla disug-uaglianza di Rao-Backwell allo stimatore corretto della varianza dell’esempio precedente, siosservi che questo e gia funzione delle statistiche sufficienti per µ, θ e quindi la sua varianzanon puo essere ulteriormente ridotta.

4 Verifica delle ipotesi

Nella sua formulazione piu semplice consiste nel prendere per vera una certa assunzione H0, laquale impone qualche restrizione sui parametri incogniti, in contrapposizione ad una assunzionealternativa H1, e nel rifiutare H0 solo se una certa statistica test assume un valore che appartienead un insieme tale che, ove H0 fosse vera, la probabilita di appartenervi sarebbe molto bassa.

Formalmente un test statistico si potrebbe ridurre semplicemente alla individuazione di unaserie di regioni dello spazio campionario Wα funzioni di α, dette zone di rifiuto, con le seguentidue proprieta:

• Wα′ ⊂ Wα per ogni α′ < α;

• P (y ∈ Wα | H0) = α, dove y e una osservazione campionaria e α e un valore possibilmentepiccolo e noto come errore di prima specie in quanto rappresenta l’errore che, ove H0 fossevera, si commetterebbe rifiutandola ogni volta che y ∈ Wα.

Come noto, invece di partire da α e poi stabilire se una osservazione campionaria cade omeno nella zona di rifiuto, potremmo calcolare il p-value corrispondente al valore osservato;questo equivale a individuare la zona di rifiuta piu piccola che contiene il valore osservato, py

= min(α : y ∈ Wα), e poi decidere di rifiutare H0 se py e abbastanza piccolo.

13

Se H0 e H1 sono ipotesi semplici, cioe specificano completamente la distribuzione di y, unastatistica test, ed il corrispondente insieme di zone di rifiuto Wα, e preferibile alla statisticatext che determina l’insieme Uα se, per qualunque α,

P (y ∈ Wα | H0) = P (y ∈ Uα | H0) = α

P (y ∈ Wα | H1) ≥ P (y ∈ Uα | H1).

Una statistica test e ottimale se e preferibile ad ogni altra. Un semplice criterio per individuareuna statistica test ottimale e fornito dal Lemma di Neyman-Pearson:

Proposizione 6. Siano H0 e H1 due ipotesi semplici, cioe che determinano completamente ladistribuzione di y e sia r(y) = f(y | H1)/f(y | H0); allora le regioni di rifiuto Wα costruite datutt i valori y tali che r(y) ≥ rα e ottimale.

Notare che, nonostante l’apparente semplicita dell’enunciato, l’applicazione del risultatoad un dato contesto non e del tutto banale. Anzitutto il rapporto di verosimiglianza e unastatistica quando i dati sono gia noti ma in se e una variabile casuale di cui occorre calcolarela distribuzione di probabilita sotto H0 in modo da individuare quale e il valore soglia rα

corrispondente ad un prefissato errore di prima specie. Pertanto, negli esempi che esamineremo,si cerchera di individuare una qualche trasformazione strettamente monotona del rapporto diverosimiglianza la cui distribuzione di probabilita sia piu facile da determinare.

Esempio 19. Supponiamo di avere n osservazioni da una popolazione normale N(µ, 1) e siaH0 : µ = µ0 e H1 : µ = µ1; la funzione di log-verosimiglianza e pari a

L(µ;y) = −n

2log(2π)− 1

2

∑(yi − µ)2

si puo verificare facilmente che, essendo il logaritmo una funzione crescente, dopo aver semplifi-cato i termini che non dipendono da µ e ricordando che r(y) indica il rapporto di verosimiglioan-za, si ottiene

log[r(y)] = −∑

(yi − µ1)2/2 +

∑(yi − µ0)

2/2,

sviluppando i quadrati e semplificando i due termini∑

y2i

log[r(y)] = ny(µ1 − µ0) + n(µ20 − µ2

1)/2, (3)

quindi y rappresenta una trasformazione crescente del rapporto di verosimiglianza e, sotto H0,y ∼ N(µ0, 1/n).

4.1 Test uniformemente piu potenti

La (3) indica che, la regione di rifiuto per verificare l’ipotesi µ0 contro µ1 > µ0, dipende dalvalore di µ0 (che determina la distribuzione di y), ma non da µ1 (purche µ1 > µ0), quindi laregione di rifiuto determinata per un dato α e massimamente efficiente a prescindere da µ1. Untest statistico con tale proprieta si dice uniformemente piu potente. Si tratta di un fenomenoabbastanza generale radicato nella sostanziale asimmetria fra le ipotesi nulla e alternativa.L’esempio seguente individua una classe di problemi per cui esiste un test uniformemente piupotente.

14

Esempio 20. Famiglia esponenziale. Supponiamo che le osservazioni provengano da unafamiglia esponenziale con densita expλ[yθ − k(θ)]g(y; λ) e sia H0 : θ = θ0 e H1 : θ1 > θ0.Calcolando il rapporto di verosimiglianza per un campione di n osservazioni, si ottiene

log[r(y)] = nλ[y(θ1 − θ0)− k(θ1) + k(θ0)],

questa espressione indica che, fissati θ0, θ1, la media campionaria e una trasformazione crescentedel rapporto di verosimiglianza per qualsiasi valore di θ1, quindi la regione di rifiuto cosı ottenutae uniformemente piu potente. Se invece H1 : θ1 < θ0, allora −y e una trasformazione crescentedel rapporto di verosimiglianza e quindi qualunque regione di rifiuto costituita dai valori piccolidella media campionaria e uniformemente piu potente.

Ecco alcuni principi generali che si possono utilizzare per semplificare il test ricavato delrapporto di verosimiglianza allo scopo di verificare se esso e uniformemente piu potente:

• conviene spesso passare al logaritmo che e una funzione strettamente crescente e, spesso,semplifica l’espressione della statistica;

• si puo aggiungere qualunque costante che non dipende dai dati;

• si puo moltiplicare per qualunque costante positiva che non dipende dai dati.

Esempio 21. Un test non uniformemente piu potente Se in un problema concernente lamedia di una popolazione normale, invece della varianza, fosse noto il coefficiente di variazioneγ = σ/µ, la log verosimiglianza di n osservazioni, ignorando le costanti, si puo scrivere nellaforma

−n log(γµ)−∑

y2i

2γ2µ2+

ny

γ2µ− n

2γ2

da cui

log[r(y)] = n log(µ0/µ1) +1

2γ2

[∑y2

i

(1

µ20

− 1

µ21

)− 2ny

(1

µ0

− 1

µ1

)].

Aggiungendo opportune costanti, moltiplicando per (1/µ0−1/µ1)/(2γ2) e aggiungendo ulteriori

costanti opportune, si puo verificare che la seguente statistica e una trasformazione crescentedel rapporto di verosimiglianza

∑y2

i

(1

µ0

+1

µ1

)− 2ny;

purtroppo questa espressione dipende da due statistiche e non e possibile eliminare la dipendenzada µ1, quindi non esistono regioni di rifiuto uniformemente piu potenti.

4.2 Regioni similari

Una ipotesi nulla si dice composta quando, eventualmente dopo una qualche trasformazione deiparametri in due componenti ψ, λ, abbiamo che H0 : ψ = ψ0, mentre λ rimane non specificatoe si denomina parametro di disturbo. Se la numerosita campionaria fosse elevata, un modoempirico per eliminare la presenza del parametro di disturbo potrebbe essere di calcolare ilrapporto di verosimiglianza usando una stima di λ con una sua stima come se fosse il valorevero. Il metodo che viene qui illustrato, quando applicabile, fornisce una soluzione ottimaleesatta che non richiede la conoscenza del parametro di disturbo.

15

Un insieme di regioni di rifiuto Wα si dice similare se, per qualunque λ,

P (y ∈ Wα | H0, λ) = α.

Supponiamo che, quando H0 e vera, esiste una statistica sλ sufficiente per λ; allora la dis-tribuzione condizionata a sλ sotto H0 non dipende dal vettore dei parametri di disturbo equindi regioni di rifiuto Uα(s)

P (y ∈ Uα(s) | H0, sλ = s) = α;

le regioni Uα(s) sono similari. Quando, come negli esempi che seguono, le regioni della formaUα(s) sono ottenute dal rapporto di verosimiglianza, esse sono anche uniformemente piu potenti.

Esempio 22. Confronto di distribuzioni di Poisson. Supponiamo che y1, y2 sono indipen-denti e provengono da distribuzioni di Poisson con parametro medio pari rispettivamente a µ1,µ2 e sia H0 : µ1 = µ2. Ponendo µ1 = λ e ψ = mu2/µ1 e notando che, sotto H0, ψ = 1, laverosimiglianza di (y1, y2) si puo scrivere nella forma

exp[−λ− λψ)]λy1+y2ψy2

y1!y2!

quindi s = y1 + y2 e sufficiente per λ. Inoltre, per una proprieta della distribuzione di Poisson,s ha ancora distribuzione di Poisson con valore atteso pari a µ1 + µ2 = λ(1 + ψ). Con semplicicalcoli si puo verificare che y2 | s ha distribuzione binomiale con totale pari a s e probabilitapari a p = ψ/(1+ψ). Siccome ψ = 1 equivale a p = 1/2 e ψ > 1 equivale a p > 1/2, il rapportodi verosimiglianza e identico a quello che si otterrebbe sottoponendo a verifica l’analoga ipotesiper una distribuzione binomiale. Dopo aver semplificato i fattoriali, si ottiene

log[r(y1, y2)] = y2 log[p/(1− p)] + s log(1− p)− s log(1/2),

infatti, posto θ = log[p/(1−p)] > 0, se p = 1/2, θ = 0 mentre sotto H1 θ > 0. Se ne deduce che,per s dato, log[r(y1, y2)] e una funzione crescente di y2 e quindi la zona di rifiuto e costituitadai valori di y2 superiori al valore soglia determinato sulla base della distribuzione binomiale(s, 1/2).

Esempio 23. Confronto di due binomiali. Supponiamo che y1, y2 sono distribuiti, come duebinomiali indipendenti rispettivamente con (n1, p1) e (n2, p2). Poniamo λ = log[p1/(1−p1)] e ψ= log[p2/(1−p2)]−λ; parametrizzando ciascuna binomiale mediante il corrispondente parametrocanonico, si puo verificare che s = y1 + y2 e sufficiente per λ. Come gia visto negli esempi didistribuzioni della famiglia esponenziale, la distribuzione di y2 dato s e di tipo ipergeometricoesteso con parametro ψ. In particolare, sotto H0 :, p1 = p2, ψ = 0, mentre sotto H1 : p2 > p1,segue ψ > 0.

Nell’espressione della verosimiglianza ipergeometrica (vedi 2.3.3) y2 compare nei fattorialial numeratore (ma questi non dipendono dall’ipotesi e quindi si semplificano quando si calcolail rapporto di verosimiglianza) e nel termine exp(y2ψ). Siccome, sotto H1: ψ > 0, mentre sottoH0: ψ = 0, il logaritmo del rapporto di verosimiglianza e una funzione crescente di y2 e quindiil test similare uniformemente piu potente e costituito dalle zone di rifiuto in cui, y2 superauna certa soglia che puo essere determinata in base alla distribuzione ipergeometrica semplices− y2, n1; y2, n2.

I due esempi precedenti mostrano che per confrontare due elementi di una stessa famigliaesponenziale uni-parametrica conviene riportare il confronto sulla scala del parametro canonica.L’esempio seguente e diverso dai due precedenti in quanto esiste una statistica che e sufficienteper il parametro di disturbo ma solo sotto H0.

16

Esempio 24. Il test T di Student. In una popolazione normale sia H0 : µ = µ0 e H1 : µ1 >µ0, con σ non specificato, che quindi rappresenta un parametro di disturbo. In un campione di nosservazioni, la log verosimiglianza sotto H0, trascurando le costanti, ha la forma: −n log(σ)−∑

(yi − µ0)2/(2σ2), quindi s =

∑(y1 − µ0)

2 e sufficiente per σ ma solo sotto H0 quando µ0

e noto; quindi, sotto H0, la distribuzione di y | s e costante. La log verosimiglianza sotto H1

dipende dai dati attraverso v = −∑(yi − µ1)

2 che puo scriversi come

v = −∑

[(yi − µ0) + (µ0 − µ1)]2 = −s + 2n(y − µ0)(µ1 − µ0)− n(µ1 − µ0)

2.

Quindi, condizionatamente a s, il rapporto di verosimiglianza e una funzione crescente di y−µ0,occorre quindi ricavare la distribuzione di y | s, H1 (o di una sua trasformazione crescente).Una derivazione geometrica di questa distribuzione per il caso di n = 2, e illustrata nella figura1.

0 0.5 1 1.5 2 2.5 3 3.5 40

0.5

1

1.5

2

2.5

3

3.5

4

Figura 1: distribuzione campionaria da popolazione normale con n = 2 condizionata a s

L’insieme dei punti con un s fissato si trovano sull’iper-sfera con centro 1nµ0 e raggio√

s;nella figura si e supposto µ0 = 1 e µ1 = 3. I punti che hanno una data media campionariay ed un dato s sono quelli che si trovano sul piano ortogonale alla bisettrice dove interseca lasuperfice di una data sfera centrata su µ0. E’ evidente che la verosimiglianza sotto H1 aumentacon la distanza y−µ0. Quindi, l’insieme dei punti campionari appartenenti ad una data sfera eche sono piu estremi di un dato yα prefissato sono quelli in cui la congiungente di un punto sullasfera con il punto sulla bisettrice con coordinate µ0 forma un angolo il cui coseno e maggiore.Quindi, per calcolare il valore soglia, occorre calcolare la distribuzione campionaria del cosenosotto H0 e cioe

R =y − µ0√

s=

y − µ0√∑(yi − y)2 + n(y − µ0)2

;

dividendo numeratore e denominatore per√∑

(yi − y)2/[n(n− 1)] si ottiene

R =T√

n(n− 1) + nT 2).

siccome per T > 0 R e una funzione crescente di T , le regioni di rifiuto si possono equivalen-temente basare su T la cui distribuzione e nota e tabulata.

17

4.3 Invarianza

Un approccio alternativo che consente di eliminare eventuali parametri di disturbo si basasull’individuazione di trasformazioni dei dati che siano invarianti rispetto al problema di verificaoggetto di interesse, nel senso specificato dalla seguente definizione:

Definizione 3. Sia G un gruppo di trasformazioni che passano da y a Gy e sia G∗ la corrispon-dente trasformazione indotta sullo spazio parametrico; allora il gruppo e invariante rispettoall’ipotesi H0 : ψ = ψ0 se G∗ψ soddisfa H0 se e solo se ψ la soddisfa.

In altre parole una trasformazione invariante modifica quelle caratteristiche dei dati chenon dipendono dai parametri di interesse. Tuttavia, per eliminare la dipendenza dai parametridi disturbo la trasformazione deve essere la piu ampia possibile fra quelle invarianti, comeillustrato nei seguenti esempi.

Esempio 25. Ipotesi sulla media di una normale. Supponiamo di dover verificare H0 :µ = µ0 contro H1 : µ1 > µ0, con σ2 incognito in una distribuzione normale. Intuitivamente,siccome σ e un parametro di scala, potremmo porre Gyi = b(yi−µ0) ∼ N(b(µ−µ0), b

2σ2), conb > 0. Si puo verificare che dopo questa trasformazione Gyi ha valore atteso pari a 0 se e solose vale H0.

Esempio 26. Ipotesi sulla varianza di una normale. Supponiamo ora invece che H0 : σ =σ0 contro H1 : σ1 > σ0, con µ incognito. Siccome σ e invariante alle traslazioni, potremmoporre Gyi = yi + c ∼ N(µ + c, σ2), con c arbitrario.

Esempio 27. Ipotesi sul vettore media di una normale multivariata. Per considerareun problema piu complesso, supponiamo di avere osservazioni multivariate con yi ∼ N(µ, Σ) esupponiamo che µ = µ0 con alternativa multi-direzionale e Σ non specificata. Chiaramente latrasformazione Gyi = b(yi−µ0) con b costante arbitraria, definisce un gruppo di trasformazioniinvarianti, infatti, come e facile verificare, i dati trasformati hanno media 0 se e solo se valeH0. Tuttavia, intuitivamente, si tratta di un gruppo di trasformazioni di dimensione troppoinferiore rispetto alla dimensione del parametro di disturbo. Una trasformazione adeguata siottiene invece ponendo Gyi = A(yi−µ0) ∼, N(A(µ−µ0),AΣA′), con A una arbitraria matricedi rango pieno. Che questa trasformazione sia massimale, oltre che invariante, deriva dal fattoche la matrice di varianza dei dati trasformati puo assumere un qualunque valore ammissibileper una matrice di varianza.

Una volta individuata una trasformazione invariante, occorre anche individuare una sta-tistica T che sia invariante, cioe che assuma un unico valore per tutte le trasformazioni delgruppo individuato; piu precisamente occorre che T (y1) = T (y2) se e solo se esiste un G ∈ Gtale che y2 = Gy1. Una statistica con queste proprieta si chiama invariante massimale. Unastatistica invariante massimale individua delle regioni dello spazio parametrico dette orbite, cheraccolgono insieme di punti dello spazio campionario equivalenti, cioe tali che si puo passaredall’uno all’altro semplicemente applicando ad uno stesso set di dati delle diverse trasformazioniinvarianti.

Esempio 28. Ipotesi sulla media di una normale. Per individuare una statistica invarianteper l’esempio 25 conviene, anzitutto, ridurre i dati per sufficienza notando che s1 = y−µ0 e s2

=√∑

(yi − µ0)2 sono due statistiche sufficienti (anche se non minimali sotto H0). Potremmoallora cercare di individuare le orbite descritte nello spazio campionario riassunto da s1, s2

al variare delle possibili trasformazioni invarianti. Supponiamo di partire da un dato punto

18

campionario s01, s

02; al variare della trasformazione determinata da un dato b > 0, u = s1, s2

descrivono la seguente retta parametrica

u = bs01, v = bs0

2, per sostituzione, v = us02

s01

;

questo significa che ciascuna orbita e associata ad un diverso valore di R =√

s02/s

01, in quanto

due punti campionari con lo stesso valore di R si trovano su una stessa orbita. Quindi R, ouna sua trasformazione invertibile, costituisce una statistica invariante massimale. In effetti,come gia visto, la statistica T di student e appunto una trasformazione invertibile di R

Esempio 29. Ipotesi sulla varianza di una normale. Riprendendo l’esempio 26, e facileverificare che, presa una qualunque matrice C di n− 1 contrasti riga linearmente indipendenti,s = Cy e una statistica invariante perche C(y + c1) = Cy per costruzione; questa e ancheinvariante massimale, infatti Cya = Cyb se e solo se ya − yb e proporzionale al vettore 1 chee l’unico vettore ortogonale a tutte le righe di C. Per le proprieta delle trasformazioni linearidi variabili normali,

s ∼ N(0, σ2CC′).

Calcolando il logaritmo del rapporto di verosimiglianza basato su questa distribuzione e indi-cando con c(σ0, σ1) tutto quanto non dipendono dai dati, si ottiene

log[r(y)] =

(1

σ20

− 1

σ21

)y′C′(CC′)−1Cy/2 + c(σ0, σ1);

quindi, essendo σ1 > σ0, la zona di rifiuto e costituita dai punti campionari con un valoreelevato della forma quadratica SQ = y′C′(CC′)−1Cy. Si puo verificare che SQ non dipendedalla particolare matrice di contrasti utilizzata, infatti, se A (n− 1)× (n− 1) di rango pieno,sostituendo C con AC il risultato non cambia. Si consideri inoltre che la matrice che determinaSQ, essendo idempotente, ortogonale a 1 e di rango n− 1, e la matrice di proiezione su questospazio e pertanto e uguale alla matrice I − 11′/n che determina la somma dei quadrati degliscarti dalla media aritmetica, quindi la zona di rifiuto pio essere, equivalentemente, costituitadai valori grandi di

S2 = SQ/(n− 1) =∑

(yi − y)2/(n− 1).

Esempio 30. Ipotesi sul vettore media di una normale multivariata. Riguardo all’e-sempio 27, posto S =

∑(yi− y)(yi− y)′/(n− 1), per verificare che la T 2 di Hotelling, definita

come (y − µ0)′S−1(y − µ0), e una statistica invariante, basta notare che G(S) = ASA′ e che

quindi, dopo aver calcolato l’inversa, la moltiplicazione per A si semplifica.Per verificare che la statistica e invariante massimale occorre mostrare che, se T 2

a = T 2b ,

allora i punti campionari Ya e Yb sono su una stessa orbita. A tale scopo si osservi che, T 2 euguale alla traccia (e quindi anche all’unico autovalore non nullo) di T = (y−µ0)(y−µ0)

′S−1;inoltre vale il risultato che due matrici Ta e Tb hanno gli stessi autovalori se e solo se Tb =ATaA

−1. Quinti, se T1 hanno gli stessi autovalori vuol dire che Tb = ATaA−1, quindi si e

applicata una trasformazione non singolare ai dati.

Esempio 31. Ipotesi sul parametro di forma di una Gamma. Nella formulazione usatain 2.3.3, il parametro λ e un parametro di scala mentre γ determina la forma. Supponiamo orache H0 : γ = γ0 contro H1 : γ > γ0 con λ non specificato; siccome by ∼ Γ(γ, λ/b), per qualunqueb > 0, questo e un gruppo invariante ed un vettore di statistiche invarianti massimali e datoda ti = yi/y1 per i > 1. Nel seguito proviamo prima a calcolare la distribuzione congiunta di(t2, . . . , tn) e su questa a individuare una statistica sufficiente per il parametro γ.

19

Per calcolare la congiunta definiamo t1 = y1 e calcoliamo la matrice delle derivate dellatrasformazione da y a t

∂t

∂y′=

1 0 0 0 . . . 0−1/y1 1/y1 0 0 . . . 0−1/y1 0 1/y1 0 . . . 0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .−1/y1 0 0 0 . . . 1/y1;

essendo una matrice diagonale inferiore, il suo determinante e pari al prodotto dei terminisulla diagonale e quindi a tn−1

1 . La distribuzione di t si puo calcolare per sostituzione e poimoltiplicando per il determinante della trasformazione per sostituire il differenziale in dy in dt,ottenendo [

1

Γ(γ)

]n

λnγtnγ−11

n∏2

tγ−1i exp

[−λt1(1 +

n∑2

ti)

];

la congiunta di interesse si ottiene integrando rispetto a t1 l’espressione precedente. A talescopo notiamo che, moltiplicando e dividendo per (1 +

∑n2 ti)

nγ/Γ(nγ), si puo trattare t1 comese avesse distribuzione Gamma, il cui integrale, opportunamente aggiustato, e pari a 1. Siottiene quindi

f(t2, . . . , tn; γ) =Γ(nγ)

Γ(γ)n

∏n2 tγ−1

i

(1 +∑n

2 ti)nγ.

Notando che∏n

2 ti = (∏n

1 yi) /yn1 , la parte della densita che dipende dai dati si puo scrivere

come [(∏

yi)1/n

ny

]nγyn

1∏yi

da cui e facile verificare che il logaritmo del rapporto di verosimiglianza, trascurando le com-ponenti additive che dipendono solo dai dati o solo dal parametro, si puo scrivere come

(γ1 − γ0)[∑

log(yi)− n log(∑

yi)];

per costruire una procedura test occorrerebbe poi determinare la distribuzione della statisticasufficiente o di una sua trasformazione monotona, il che non e affatto semplice.

5 Cenni di teoria asintotica

La teoria asintotica ha soprattutto due scopi: (i) per quelle statistiche la cui distribuzione esattae troppo complessa, si cerca di determinare delle approssimazioni la cui accuratezza aumentacon la dimensione campionaria; (ii) quando la distribuzione di un test statistico dipende daparametri di disturbo, a volte e possibile individuare statistiche la cui distribuzione asintoticanon ne dipende. La trattazione che segue si occupa dei metodi asintotici piu semplici in cuicioe l’approssimazione si basa su una espansione in serie limitata al termine di primo ordine.

In questo contesto le stime di massima verosimiglianza (ML) occupano una posizione parti-colare in quanto risultano godere di una serie di proprieta ottimali. Inoltre, un ruolo particolareviene svolto dal vettore score e dalla matrice di informazione. Risultati in parte simili valgonoper le stime basate sul metodo dei momenti generalizzati.

20

5.1 Stime di massima verosimiglianza

Anzitutto ricordiamo brevemente l’algoritmo di stima noto come Fisher-scoring che fornisce unmetodo generale per calcolare stime ML. Sia θ il vettore delle stime ML e θ0 un vettore di stimeiniziali; per brevita scriviamo anche u e u0 per indicare il vettore score calcolato rispettivamentein θ e θ0; se questi due punti sono abbastanza vicini, mediante una approssimazione al primoordine otteniamo

u ∼= u0 +∂u0

∂θ′0(θ − θ0) = 0,

da cui, risolvendo e approssimando la derivata di u cambiata di segno con la matrice diinformazione F,

θ ∼= θ0 + F−10 u0.

Puo essere interessante notare che questa soluzione e identica a quella che si otterrebbe secercassimo di approssimare la log verosimiglianza con una funzione quadratica avente, nelpunto θ0, lo stesso score e la stessa matrice di informazione.

5.1.1 Consistenza

Se nella funzione di log-verosimiglianza sostituiamo i valori osservati con le corrispondentivariabili casuali, essa stessa diventa una variabile casuale che possiamo indicare con L(y, θ);sia, inoltre, γ(θ) = E[L(y, θ) | θ0], in cui θ0 indica il valore vero. Da risultati connessi alladistanza di Kullback-Leibler segue che la funzione γ(θ) ha un unico massimo nel punto θ = θ0.

Per la legge dei grandi numeri segue che L(y, θ)/n, che si puo interpretare come una mediacampionaria quando le osservazioni sono indipendenti e identicamente distribuite, converge alcorrispondente valore atteso γ(θ). quindi, al crescere di n, la log verosimiglianza (a meno diun fattore costante) varia rispetto a θ in un modo che rispecchia sempre piu da vicino quellodella funzione γ(θ), la quale ha un massimo in corrispondenza del valore vero. Sotto opportunecondizioni, il massimo di L(y, θ) tende al valore vero del parametro.

Come esempio consideriamo la multinomiale in cui L(y, θ) = y′Gθ−n log[exp(Gθ)], quindiγ(θ) = nπ′0Gθ − n log[exp(Gθ)], questa funzione e massima quando θ = θ0.

Per chiarire la natura del ragionamento riprendiamo l’esempio di un modello con parametriincidentali in cui P (Yi = 1) = exp((λi + ψ)/[1 + exp((λi + ψ)] in cui la log verosimiglianza hala forma

L(y, λ, ψ) =∑

yi(λi + ψ)−∑

log[1 + exp((λi + ψ)];

se il parametro di interesse e un certo λh, esso e contenuto in un solo termine della primacomponente, per cui L(y, λ, ψ)/n visto come funzione di λh non converge a γ(λh) non essendopossible applicare la legge dei grandi numeri.

Una trattazione piu estesa si trova sul libro di Severini, p. 105-108.

5.1.2 Normalita

Nel seguito viene fornita una derivazione semplificata del seguente risultato per osservazioniindipendenti ed identicamente distribuite:

Proposizione 7. Se il modello e identificabile, se le prime tre derivate della verosimiglianzaesistono in un intorno del valore vero e se il valore atteso della derivata terza e limitato superi-ormente in valore assoluto, allora le stime convergono ad una distribuzione normale con mediapari al valore vero e matrice di varianza pari all’inversa della matrice di informazione delle nosservazioni.

21

Dim. Facciamo una espansione in serie simile a quella precedente indicando pero ora conθ0 il valore vero del parametro ed includendo anche il termine residuo

u = u0 +∂u0

∂θ′0(θ − θ0) +

∂2uo

∂(θo ⊗ θo)′(θ − θ0)⊗ (θ − θ0),

dove θ0 indica un opportuno valore intermedio fra stime ML e valore vero per cui l’espansione eesatta e ⊗ indica il prodotto di Kronecker. Dividiamo per

√n allo scopo di scrivere le derivate

come medie campionarie e ricordando che il primo membro e 0, possiamo scrivere

u0√n

= − 1

n

∂u0

∂θ′0

√n(θ − θ0)− 1

n

∂2uo

∂(θo ⊗ θ0)′√

n(θ − θ0)⊗ (θ − θ0).

A questo punto notiamo che, per la legge dei grandi numeri, la media della derivata primacambiata di segno converge alla matrice di informazione nel valore vero e la media della derivataseconda converge ad un vettore di matrici i cui valori non divergono. D’altro canto, siccome lestime sono consistenti, θ − θ0 converge a 0 almeno con la velocita di

√n; quindi

√n(θ − θ0)⊗

(θ − θ0), contenendo scarti al quadrato, e un infinitesimo di ordine superiore rispetto al restodell’espressione.

D’altro canto, u0, essendo lo score totale, nel nostro contesto semplificato e la somma divariabili indipendenti e identicamente distribuite a cui quindi e possibile applicare il teoremadel limite centrale per cui

u0√n∼ N(0,F0).

Il risultato segue quindi dall’uguaglianza

u0√n

= F0

√n(θ − θ0)

come trasformazione lineare di variabili normali. Quindi, almeno asintoticamente, le stime MLsono corrette e sono di massima efficienza

5.2 Metodo dei momenti generalizzato

In un modello determinato da k parametri, supponiamo di avere un vettore di t ≥ k funzionilinearmente indipendenti di dati e parametri del tipo m(y; θ) =

∑i g(yi; θ)/n dove le funzioni

g sono tali per cui: E[g(yi; θ)] = 0. Il metodo consiste nel prendere come stima di θ il valoreche soddisfa il sistema di equazioni m = 0.

Esempio 32. Distribuzione gamma Supponiamo che y1, . . . , yn provengano da una dis-tribuzione gamma. Siccome la densita gamma dipende da due parametri, possiamo costruiredue funzioni di osservazioni e parametri con valore atteso nullo. Poniamo ad esempio

g1(yiγ, λ) = yi − λ

γ, g2(yiγ, λ) = y2

i −λ(λ + 1)

γ2,

si tratta quindi di risolvere il sistema di equazioni

1

n

∑yi =

λ

γ,

1

n

∑y2

i =λ(λ + 1)

γ2;

le cui soluzioni sonoλ = y2/S2, γ = y/S2

dove S2 indica la varianza campionaria non corretta.

22

L’esempio seguente illustra un contesto in cui il numero di equazioni e maggiore del numerodei parametri.

Esempio 33. Regressione multinomiale Supponiamo che x1, . . . , xk rappresentino una suc-cessione di dosi crescenti somministrate a n1, . . . , nk pazienti e che la risposta sia qualitativa concategorie c1 = migliorato, c2 = peggiorato e c3 = stazionario. Il modello definito da log[pi1/pi3]= α1 + β1xi e log[pi2/pi3] = α2 + β2x

2i implica, come si verifica prendendo l’esponenziale e

usando il vincolo∑

j pij = 1,

pij =exp(αj + βjxi)

exp(α1 + β1xi) + exp(α2 + β2x2i ) + 1

.

Il sistema di equazioni ottenuto uguagliando a 0 le differenze fra le probabilita pi1, pi3 e lefrequenze relative corrispondenti per i = 1, . . . , k contiene 2k equazioni e 4 parametri, perstimarlo occorre quindi che k ≥ 2.

Un algoritmo di stima generale, cioe valido anche quando il numero di equazioni e maggioredel numero delle incognite e non esiste una stima esplicita, si puo costruire, in modo analogo aquello per le stime ML, scegliendo una opportuna matrice H simmetrica e definita negativa epoi massimizzare Q = m′Hm/2, ovvero risolvere l’equazione

s =∂m′

∂θHm = 0,

in cui il vettore s ha, come vedremo, delle proprieta simili al vettore score della verosimiglianza.Nel seguito indichiamo con D la matrice delle derivate di m rispetto a θ′ e supponiamo, persemplicita, che non dipenda dalle osservazioni yi. Questo accade tutte le volte che, come neidue esempi precedenti, gli elementi di m sono differenze fra una funzione delle osservazioni eduna corrispondente funzione dei parametri. Nel seguito, se f e una qualunque funzione deiparametri, f0 indichera il valore di f calcolata in θ0 e f indichera il valore calcolato in θ.

Calcolando uno sviluppo in serie al primo ordine di s rispetto ad un valore iniziale θ0,otteniamo

s ∼= D′0Hm0 +

∂s0

∂θ′(θ − θ0) = 0. (4)

Notare che la derivata di s e composta di due termini, a secondo che, nell’espressione di s sideriva il primo o il terzo fattore

∂s

∂θ′= D′HD +

∑j

∂2mj

∂θ∂θ′∑

h

hjhmh;

il secondo termine e una combinazione lineare degli elementi di m, un vettore di medie campi-onarie con E(m) = 0; queste tendono a 0 per la legge dei grandi numeri. Quindi, se la dimen-sione campionaria e abbastanza grande, possiamo approssimare la derivata seconda trascurandoil secondo termine; in questo modo, sostituendo la derivata di s nella 4 e risolvendo, si ottiene

θ = θ0 − (D′0HD0)

−1s0,

questa equazione indica come aggiornare in modo iterativo il vettore delle stime in modo similead un algoritmo Fisher scoring.

23

5.2.1 Normalita asintotica

Supponiamo ora che θ0 indichi il valore vero del vettore di parametri; siccome m0 e una mediacampionaria, per il teorema del limite centrale,

√nm0 converge in distribuzione a N(0,Ω),

dove Ω = Var[g(yi; θ0)] = E[g(yi; θ0)g(yi; θ0)′]. Sia

M = E

(−∂s0

∂θ′

)= −D′

0HD0,

questo rappresenta il valore a cui converge la derivata del vettore score calcolato sul valore vero.Supponendo che le stime dei momenti siano consistenti, il che implica che nella (4) il terminedi errore sia un infinitesimo di ordine superiore, moltiplicando i due membri sempre della (4)per

√n, abbiamo

D′0H√

nm0∼= M

√n(θ − θ0); (5)

moltiplicando i due membri per M−10 ,

√n(θ − θ0) ∼ N(0,M−1

0 Σ0M−10 ) (6)

dove Σ = D′HΩHD = E(ss′). Nel seguito, per brevita, poniamo V = Var[√

n(θ − θ0)].

Esempio 34. Regressione multinomiale Riprendendo l’ultimo esempio e notando che laderivata di p = eu/(1 + eu + ev) rispetto a v e semplicemente p(1− p), la iesima riga di D sarapari a

−(pi1(1− pi1), pi1(1− pi1)xi, pi2(1− pi2), pi2(1− pi2)x2i ).

inoltre, nel caso particolare che H fosse una matrice identita, M sarebbe una matrice diagonalecon termini pari a

∑i

[pi1(1− pi1)]2,

∑i

[pi1(1− pi1)xi]2,

∑i

[pi2(1− pi2)]2,

∑i

[pi2(1− pi2)x2i )]

2.

5.2.2 Efficienza asintotica

Dimostriamo anzitutto il seguente risultato:

Proposizione 8. Sia M una classe di stimatori dei momenti del parametro θ e supponiamoche esista un particolare stimatore µ ∈M per cui

Mµ = E[sµs′µ | θ0] ∀ µ ∈M, (7)

dove Mµ indica la matrice M associata ad un qualunque stimatore del genere considerato; alloraµ individua lo stimatore piu efficiente nell’ambito di M.

Dim Notiamo anzitutto che se applichiamo la (7) nel caso particolare in cui µ = µ, essaimplica che Mµ = D′HD = E(sµs

′µ | θ0) = Σµ, quindi, per sostituzione, Vµ = M−1

µ ΣµM−1µ =

Σ−1µ . Inoltre, ricordando che Vµ = M−1

µ ΣµM−1µ , si puo scrivere il confronto fra la varianza di

un generico stimatore con quella di µ nella forma

Vµ −Vµ = M−1µ (Σµ −MµΣ

−1µ Mµ)M−1

µ .

Si puo verificare che l’espressione in parentesi tonda non e altro che la varianza di sµ−MµΣ−1µ sµ,

infatti, calcolando il valore atteso dello sviluppo del binomio e poi usando la (7)

Var[sµ −MµΣ−1µ sµ] = Σµ + MµΣ

−1µ E(sµs

′µ)Σ−1

µ Mµ − 2MµΣ−1µ E(sµs

′µ)

= Σµ + MµΣ−1µ Mµ − 2MµΣ

−1µ Mµ.

24

Quindi il risultato segue perche Vµ −Vµ e una matrice definita positiva; le due varianze sonoinvece uguali solo nel caso che sµ = MµΣ

−1µ sµ, cioe quando il vettore score e una trasformazione

lineare di quello relativo allo stimatore ottimale.Per quello che segue e utile il seguente risultato

Proposizione 9. Sia u lo score della verosimiglianza di n osservazioni e s lo score associatoad un certo stimatore del metodo di momenti; allora

M = −E

(∂s0

∂θ

)= E(s0u

′0), (8)

intendendo che la derivata e il valore atteso sono calcolate entrambe sul valore vero.

Dim. Deriviamo l’identita E(s0) = 0 supponendo, come si era fatto per stabilire le proprietadel vettore score della verosimiglianza, che l’operatore di derivata si possa portare dentro l’inte-grale (o la sommatoria nel caso discreto). Una volta dentro l’integrale, deriviamo separatamentes0 e la funzione di densita che ne costituisce la ponderazione, ottenendo

∂E(s0)

∂θ′=

∫∂s0

∂θ′f(y; θ0)dy +

∫s0

∂f(y; θ0)

∂θ′1

f(y; θ0)f(y; θ0)dy = 0;

il risultato segue spostando il primo termine al secondo membro.Per applicare le due ultime proposizioni notiamo che un dato stimatore GMM e determinato

dal vettore s e dalla matrice M ed e il risultato di una ottimizzazione e che lo stimatore MLpuo essere visto come un particolare stimatore GMM in cui la matrice M e la matrice diinformazione. Allora, sfruttando il risultato precedente, si puo dimostrare che, se il modellodi probabilita che ha generato i dati e quello ipotizzato per costruire la verosimiglianza, lostimatore ML e piu efficiente di qualunque stimatore GMM. Supponiamo infatti che M consistedi ogni possibile stimatore GMM di θ e dello stimatore ML, allora (7) segue dalla (8) ponendou = sµ cioe che lo stimatore ML soddisfa le condizioni per esseree lo stimatore ottimale secondola (7) rispetto a ogni possibile stimatore GMM.

La Proposizione 8 puo essere utilizzata anche per stabilire come scegliere una matrice H chedia massima efficienza. A questo scopo definiamo come M la particolare classe degli stimatoribasati su un stesso m al variare di H nell’ambito di tutte le possibili matrici simmetriche edefinite positive. Allora la (7) implica che

Mµ = E[sµs′µ | θ0] = D′HµΩHµD = D′HµD

che e soddisfatta quando Hµ = Ω−1

5.3 Rapporto di verosimiglianza

Supponiamo che θM sia la stima ML di θ sotto il modello probabilistico M; sappiamo che,sotto condizioni di regolarita, questa stima e consistente. Consideriamo una espansione in seriedi L(θM) intorno al valore vero θ0; sia H∗ la matrice delle derivate seconde calcolate in θ∗,un punto intermedio fra la stima ML e il valore vero scelto in modo da annullare il terminedi errore. Notare che −H∗/n, essendo una media campionaria, converge in probabilita al suovalore atteso F0 e, siccome

√n(θM− θ0) e un Op(1), cioe, al crescere di n e con probabilita che

tende a 1, non tende a 0 e non diverge, aggiungendo e sottraendo una forma quadratica in u0,

25

il vettore score calcolato in θ0, possiamo scrivere

L(θM) = L(θ0) + u′0(θM − θ0)−√

n(θM − θ0)′(−H∗/n)

√n(θM − θ0)/2

= L(θ0) + (u0/√

n)′F−10 F0

√n(θM − θ0)−

√n(θM − θ0)

′F0

√n(θM − θ0)/2 + op(1)

= L(θ0)−[√

n(θM − θ0)− F−10 (u0/

√n)

]′F0

[√n(θM − θ0)− F−1

0 (u0/√

n)]/2

+ (u0/√

n)′F−10 (u0/

√n)/2 + op(1).

Per compattezza poniamo λ =√

n(θM− θ0) e v = F−10 u0/

√n; si ricordi che v ha distribuzione

asintotica N(0,F−10 ) e che, mentre v, bu0 sono un vettori dati, λ deve essere scelto in modo da

massimizzare la log verosimiglianza; si puo quindi scrivere

L(θM) = L(θ0) + u′0F−10 u0/(2n)−minλ∈M(λ− v)′F0(λ− v)/2 + op(1).

Sia k la dimensione dello spazio parametrico e supponiamo che H0 sia definita da un insiemedi vincoli lineari del tipo Cθ = 0 con C di rango pieno rank(C) = p < k. Questo e equivalentea supporre che λ = Xβ dove X e una matrice di rango pieno k − p per cui θ = θ0, implicaβ = 0. Supponiamo ora che H1 non indichi piu l’ipotesi alternativa, ma l’ipotesi che non ci siaalcuna restrizione, una ipotesi fittizia di riferimento che contiene H0 come caso particolare. Siaθi, i = 0, 1 la stima ML sotto H0 o H1, il modello senza restrizioni. Se lo stimatore ML sottoH1 e consistente, ne consegue che

2[L(θ1)− L(θ0)] = minλ=Xβ(Xβ − v)′F−10 (Xβ − v) + op(1);

infatti, la forma quadratica sotto H1 e sempre 0 perche non ci sono vincoli e quindi si puoomettere. La distribuzione asintotica dell’espressione precedente puo essere ricavata da semplicirisultati sulla distribuzione asintotica di forme quadratiche di variabili normali e si puo verificareche e χ2

p.Quando, come nel caso di modelli di regressione logistica, il vettore non ristretto dei

parametri ha dimensione n, non esiste alcuno stimatore consistente del modello sotto H1 che haun numero di parametri pari a n, e quindi la distribuzione di cui sopra non converge a una χ2.Possiamo tuttavia ricavare la distribuzione del rapporto di verosimiglianza per confrontare duemodelli ristretti che siano pero uno contenuto nell’altro. Senza perdita di generalizta possiamoscrivere H1 come λ = Zα + Xβ dove sotto H0 : β = 0. Infatti, sviluppi simili a quelli vistisopra mostrano che

2[L(θ1)− L(θ0)] = minλ=Zα+Xβ(Zα + Xβ − v)′F−10 (Zα + Xβ − v)

− minλ=Zα(Zα− v)′F−10 (Zα− v) + op(1)

da cui, applicando ancora risultati di base sulla distribuzione di forme quadratiche di variabilinormali, segue che l’espressione precedente ha distribuzione asintotica χ2 con gradi di livertapari al rango di X. Questo significa che esiste una procedura asintotica che non dipende daiparametri di disturbo per verificare l’ipotesi che un dato modello puo essere semplificato.

Consideriamo infine il caso in cui H0 e definita da un insieme di p vincoli non linearih0(θ) = 0, dove le funzioni hj0(θ) sono continue e derivabili. Allora e possibile costruire unvettore di funzioni h(θ) = τ che includono h0(θ) come le ultime p e che siano una trasformazioneinvertibile e derivabile di θ. Questo implica che possiamo riscrivere l’espansione precedente perτ invece che per θ. In altre parole, se i vincoli sono definiti su funzioni non lineari ma derivabili,la distribuzione asintotica e praticamente identica, basta approssimare localmente le funzionidei vincoli.

26