24
Teoria dell’Inferenza Statistica 1 Introduzione Questi appunti si propongono di fornire una trattazione compatta e, si spera accessibile, di alcune nozioni avanzate di Inferenza Statistica. Testi di eventuale approfondimento, a cui ho attinto, sono quello ormai storico di Cox e Hincley Theoretical Statistics, il libro di Pace e Salvan Teoria della statistica e quello di Severini Likelihood methods in statistics. Nel seguito supponiamo di avere un vettore di osservazioni, che in genere indicheremo con y e che rappresentano i dati. Questo copre la maggior parte degli esempi che esamineremo, anche se, ovviamente, ci sono strutture di dati pi` u complesse. Nel corso di questi appunti supporremo che i dati siano stati generati da un modello probabilistico noto a meno di un vettore di parametri θ; si tratta ovviamente di una semplificazione di comodo. Oggetto del corso sono i principi ed i risultati in base ai quali possibile estrarre dai dati informazioni sul modello probabilistico che li ha generati ed in particolare sui parametri. Per semplit`a, supponiamo che le variabili casuali, che poi si traducono in osservazioni, siano o discrete o assolutamente continue; questo ci consente di indicare con un unico simbolo f (y; θ) sia una probabilit`a che, nel caso discreto sar`a definita come P (Y 1 = y 1 ,...,Y n = y n | θ), che la corrispondente funzione di densit`a nel caso continuo. Inoltre, per una trattazione agile, useremo una stessa notazione per indicare una variabile casuale e un valore osservato della stessa; la distinzione sar`a evidente dal contesto. 2 La funzione di verosimiglianza La funzione di log verosimiglianza ` e definita come la funzione L(θ; y) = log[f (y; θ)] al variare di θ nel suo insieme di definizione per un y fissato. In pratica questo equivale a confrontare tutte le possibili ipotesi circa il modello generatore dei dati osservati. Siccome moltiplicare la funzione di probabilit`a per una costante equivale ad aggiungere una costante a L(θ; y), il ch´ e non ne cambia la forma e quindi la plausibilit`a relativa delle possibili ipotesi su θ, la funzione di log verosimiglianza verr`a specificata a meno di costanti rispetto a θ. Esempio 1. Binomiale contro Binomiale Negativa Supponiamo che un certo evento si possa verificare in modo indipendente in ogni prova con probabilit` a p (0, 1). Se, avendo deciso di effettuare n prove, abbiamo riscontrato che l’evento si ` e verificato y volte, la distribuzione di probabilit` a sar`a descritta del modello binomiale f (y,n; p)= n y p y (1 - p) n-y . Se invece avessimo deciso di continuare a fare prove fino a che l’evento non si sar`a verificato y volte, la funzione di probabilit` a sar`a data dal modello binomiale negativo la cui espressione si ottiene considerando che il risultato richiede che si siano verificati esattamente y - 1 successi nelle prime n - 1 prove e che l’ultima prova dia luogo ad un successo, per cui f (y,n; p)= n - 1 y - 1 p y (1 - p) n-y . Siccome nel modello binomiale n ` e fisso e y =0,...,n mentre in quello binomiale negativo y ` e fisso e n = y,..., , i due modelli probabilistici sono sostanzialmente diversi. Invece, dal 1

Teoria dell’Inferenza Statistica - Sezione di Statistica ... · Teoria dell’Inferenza Statistica 1 Introduzione Questi appunti si propongono di fornire una trattazione compatta

Embed Size (px)

Citation preview

Teoria dell’Inferenza Statistica

1 Introduzione

Questi appunti si propongono di fornire una trattazione compatta e, si spera accessibile, dialcune nozioni avanzate di Inferenza Statistica. Testi di eventuale approfondimento, a cui hoattinto, sono quello ormai storico di Cox e Hincley Theoretical Statistics, il libro di Pace eSalvan Teoria della statistica e quello di Severini Likelihood methods in statistics.

Nel seguito supponiamo di avere un vettore di osservazioni, che in genere indicheremo cony e che rappresentano i dati. Questo copre la maggior parte degli esempi che esamineremo,anche se, ovviamente, ci sono strutture di dati piu complesse. Nel corso di questi appuntisupporremo che i dati siano stati generati da un modello probabilistico noto a meno di unvettore di parametri θ; si tratta ovviamente di una semplificazione di comodo. Oggetto delcorso sono i principi ed i risultati in base ai quali possibile estrarre dai dati informazioni sulmodello probabilistico che li ha generati ed in particolare sui parametri.

Per semplita, supponiamo che le variabili casuali, che poi si traducono in osservazioni, sianoo discrete o assolutamente continue; questo ci consente di indicare con un unico simbolo f(y; θ)sia una probabilita che, nel caso discreto sara definita come P (Y1 = y1, . . . , Yn = yn | θ), che lacorrispondente funzione di densita nel caso continuo. Inoltre, per una trattazione agile, useremouna stessa notazione per indicare una variabile casuale e un valore osservato della stessa; ladistinzione sara evidente dal contesto.

2 La funzione di verosimiglianza

La funzione di log verosimiglianza e definita come la funzione L(θ;y) = log[f(y; θ)] al variaredi θ nel suo insieme di definizione per un y fissato. In pratica questo equivale a confrontaretutte le possibili ipotesi circa il modello generatore dei dati osservati. Siccome moltiplicare lafunzione di probabilita per una costante equivale ad aggiungere una costante a L(θ;y), il chenon ne cambia la forma e quindi la plausibilita relativa delle possibili ipotesi su θ, la funzionedi log verosimiglianza verra specificata a meno di costanti rispetto a θ.

Esempio 1. Binomiale contro Binomiale Negativa Supponiamo che un certo evento sipossa verificare in modo indipendente in ogni prova con probabilita p ∈ (0, 1). Se, avendo decisodi effettuare n prove, abbiamo riscontrato che l’evento si e verificato y volte, la distribuzione diprobabilita sara descritta del modello binomiale

f(y, n; p) =

(ny

)py(1− p)n−y.

Se invece avessimo deciso di continuare a fare prove fino a che l’evento non si sara verificato yvolte, la funzione di probabilita sara data dal modello binomiale negativo la cui espressione siottiene considerando che il risultato richiede che si siano verificati esattamente y − 1 successinelle prime n− 1 prove e che l’ultima prova dia luogo ad un successo, per cui

f(y, n; p) =

(n− 1y − 1

)py(1− p)n−y.

Siccome nel modello binomiale n e fisso e y = 0, . . . , n mentre in quello binomiale negativo ye fisso e n = y, . . . ,∞, i due modelli probabilistici sono sostanzialmente diversi. Invece, dal

1

punto di vista della verosimiglianza, n, y sono fissi ai valori osservati e quindi la funzione di logverosimiglianza e la stessa. Ne consegue che, dal punto di vista della verosimiglianza il modellodi generazione dei dati e irrilevante.

Possiamo quindi enunciare il seguente principio:

Definizione 1. Se due funzioni di log verosimiglianza funzione di uno stesso vettore di parametri,sono uguali a meno di una costante, esse sono equivalenti, cioe qualunque inferenza basatasulla verosimiglianza saro la stessa nei due modelli.

2.1 Statistiche sufficienti

Esempio 2. dati binari Un modello equivalente a quello binomiale si ottiene supponendo dieffettuare n prove indipendenti e di codificare con yi = 1 il successo nell’i-esima prova; neconsegue che

f(y; p) =n∏1

pyi(1− p)1−yi .

Posto s =∑

yi, si ricava facilmente che

L(p;y) = s log(p) + (n− s) log(1− p)

e quindi la funzione di log verosimiglianza dipende solo dal totale dei successi e non dai risultatidelle singole prove. In altre parole, e come se una parte delle informazioni contenute nei datifossero irrilevanti una volta noto s, quindi ci basta conoscere solo s per determinare la funzionedi verosimiglianza.

Definizione 2. Sufficienza Una funzione nota dei dati osservati (statistica) s = t(y) si dicesufficiente se la distribuzione condizionata dei dati alla statistica, g(y | s; θ) non dipende da θ.

Quindi, un modo per stabilire se una statistica e sufficiente, e di calcolare la distribuzionecondizionata di y ad una possibile statistica sufficiente e verificare se dipende da θ.

Esempio 3. Distribuzione uniforme Supponiamo di avere n osservazioni da una distribuzioneuniforme fra 0 e θ. La densita uniforme e 1/θ per yi ∈ [0, θ] e 0 altrimenti. Posto s = max(y),ne consegue che L = 0 per θ < s e L = −n log(θ) per θ ≥ s; cioe la funzione di verosimiglianzadipende dai dati solo attraverso s.

Siccome s e funzione di y, per calcolare la distribuzione condizionata e sufficiente dividerela densita congiunta per la densita marginale di s. Questa si ricava notando che la funzionedi ripartizione di s, essendo la probabilita che tutte le osservazioni siamo non superiori a s, epari a (s/θ)n, quindi la densita marginale e nsn−1/θn. Essendo f(y; θ) = 1/θn, la distribuzionecondizionata risulta essere 1/(nsn−1) che non dipende da θ.

Un modo piu semplice di stabilire se una statistica e sufficiente si ricava dal seguente risultatonoto come Teorema di fattorizzazione:

Proposizione 1. Una statistica s e sufficiente se la funzione di log verosimiglianza si puoscomporre nella somma di due funzioni in cui la prima L1(θ; s) dipende dai dati solo attraversos e la seconda L2(y) non dipende da θ.

Nell’esempio precedente sulla distribuzione uniforme L1 = L e L2 = 0 e solo un caso moltoparticolare, come risulta dal seguente esempio.

2

Esempio 4. Supponiamo di aver estratto n osservazioni da una distribuzione di Poisson conf(yi, µ) = exp(−µ)µyi/yi!; da cui

L(µ;y) = −nµ +∑

yi log(µ)−∑

log(yi!)

da cui, posto s =∑

yi, si vede facilmente che essa e una statistica sufficiente, basta infattiporre L2(y) = −∑

log(yi!) per soddisfare le condizioni del teorema di fattorizzazione.

Esempio 5. Distribuzione normale Supponiamo di avere n osservazioni da una N(µ, σ2);sviluppando si ha

L(µ, σ2;y) = −n log(σ)− 1

2σ2

∑y2

i +µ

σ2

∑yi − nµ2

2σ2.

Applicando il teorema di fattorizzazione risulta evidente che, posto L2 = 0, la statistica suffi-ciente ha due componenti,

∑yi e

∑y2

i , possiamo infatti porre L1 = 0. Notare anche che, oveσ fosse noto, la statistica sufficiente si ridurrebbe a

∑yi. Inoltre, siccome qualunque trasfor-

mazione invertibile di s contiene le stesse informazioni e quindi e ancora sufficiente, la mediacampionaria y e la varianza campionaria S2 =

∑(yi − y)2/n sono una coppia alternativa di

statistiche sufficienti.

Esempio 6. Supponiamo che la durata della sopravvivenza all’interno di una popolazione sia ditipo esponenziale con f(y; θ) = θ exp(−θy). Sia yi la durata della sopravvivenza di un soggettofino al momento in cui, o se ne osserva il decesso oppure si smette di tenerlo sotto osservazione;se i primi m individui muoiono entro il periodo di studio e i restanti n−m erano ancora in vita,la verosimiglianza si puo scrivere nella forma seguente notando che, per gli individui deceduti,il contributo alla verosimiglianza e la probabilita che il decesso avvenga fra (yi, yi + dyi) mentreper gli individui ancora in vita e la probabilita di sopravvivere almeno fino a yi, cioe la funzionedi sopravvivenza che, per il modello esponenziale e pari a exp(−θyi),

m∏1

θ exp(−θyi)dyi

n∏m+1

exp(−θyi) = θm exp(−θ

n∑1

yi)m∏1

dyi;

come si vede, ci sono due statistiche sufficienti: m e∑

yi, a fronte di un solo parametro.

Esempio 7. Supponiamo di avere n osservazioni su un processo stocastico dicotomico Marko-viano di primo ordine: P (yi = 1 | y1, . . . , yi−1) = P (yi = 1 | yi−1). Sia θ1 = P (y1 = 1), θ10 =P (yi = 1 | yi−1 = 0) e θ11 = P (yi = 1 | yi−1 = 1). Siccome y1 fornisce informazioni solo su θ1

che e il parametro meno interessante, consideriamo la verosimiglianza di y2, . . . , yn | y1; questasara composta dal prodotto di n − 1 fattori, uno per ogni transizione da yi−1 a yi, i = 2, . . . n.Siccome i fattori possono essere solo di 4 tipi: 1−θ10, θ10, 1−θ11 e θ11, a secondo che la coppiadi valori consecutivi sia, rispettivamente: (0,0), (0,1), ((1,0) e (1,1), sia nu,v la frequenza delletransizioni con yi−1 = u, yi = v, allora la verosimiglianza condizionata al valore iniziale e

(1− θ10)n00θn01

10 (1− θ11)n10θn11

11 .

Notare che ci sono 2 parametri e 4 statistiche sufficienti; pero, siccome esse sommano a n,quelle linearmente indipendenti sono solo 3.

L’esempio seguente mostra che non sempre esistono statistiche sufficienti.

3

Esempio 8. Distribuzione di Cauchy. Si tratta di una distribuzione di variabile continuaillimitata che, nel caso di un solo parametro, ha la forma

f(y; µ) =1

π

1

1 + (y − µ)2;

se ne deduce facilmente che la log verosimiglianza di n osservazioni, trascurando i terminicostanti, si puo scrivere nella forma

L(y; µ) =n∑1

− log[1 + (yi − µ)2];

chiaramente, in questa forma, l’espressione non si semplifica. Come verifica si provi a svolgereprima i quadrati e poi a svolgere la produttoria dei termini 1 + y2

i − 2µyi + mu2, ne risulterebbeuna espressione che conterrebbe, fra l’altro, i prodotti di tutte le possibili coppie, terne, eccnuple di y2

i che quindi dipende dai dati in modo estremamente complicato che non puo esseresemplificato. Quindi in questo caso non esistono statistiche sufficienti.

2.2 Statistiche ancillari

Supponiamo che il vettore dei parametri di un modello sia costituito da una componente diinteresse ψ e da una di disturbo λ e che le osservazioni si possano a loro volta scomporre in ue v in modo che la distribuzione marginale di u non dipende da ψ. Allora u e una statisticaancillare rispetto a ψ e sembra ragionevole ritenere che le inferenze su ψ, invece che sullaverosimiglianza complessiva dei dati, dovrebbero basarsi sulla verosimiglianza condizionata div | u in quanto la u di suo non contiene alcuna informazione sui parametri di interesse.

Esempio 9. Regressione lineare semplice Supponiamo di avere una distribuzione normalebivariata (

xy

)∼ N

[(µx

µy

),

(σ2

x σxy

σxy σ2y

)];

sfruttando la formula per la distribuzione condizionata di variabili normali, si ricava

y | x ∼ N(µy +σxy

σ2x

(x− µx), σ2y −

σxy

σ2x

) = N(β0 + β1x, σ2r),

dove si e posto β1 = σxy/σ2x, β0 = µy − β1µx e σ2

r = σ2y − σxy/σ

2x. In questa nuova parametriz-

zazione, se oggetto di interesse e il modello di regressione, λ = (µx, σ2x)′ rappresenta il parametro

di disturbo e ψ = (β0, β1, σ2r)′ e il parametro di interesse ed e facile verificare che la distribuzione

marginale di x non contiene alcuna informazione su ψ, quindi e ancillare.

2.3 La famiglia esponenziale

Un modello probabilistico appartiene alla famiglia esponenziale ad un solo parametro se la suafunzione di probabilita ha la forma

f(y; θ) = exp[θy − k(θ)]g(y).

ed e definita su un insieme Y che non dipende da θ.

Osservazione 1. Nel seguito useremo occasionalmente espressioni del tipo∫

s(y)f(y; θ)dν,dove dν indica una misura di probabilita rispetto alla quale f(y; θ) e una densita. Questeespressioni si traducono, nel caso continuo, in

∫Y s(y)f(y; θ)dy e, nel caso discreto, nella somma∑

y∈Y s(y)f(y; θ).

4

Modelli con funzioni di probabilita di questo tipo godono di varie proprieta interessanti.Anzitutto, sfruttando l’identita

∫f(y; θ)dν = 1 e possibile calcolare facilmente la funzione gen-

eratrice dei momenti, moltiplicando e dividendo per opportune costanti in modo che l’integraledi base sia pari a 1

M(t) =

∫exp(ty)f(y; θ)dν =

∫exp(y(t + θ)) exp[−k(θ)]g(y)dν = exp[k(t + θ)− k(θ)].

il cui logaritmo rappresenta la funzione generatrice dei cumulanti (fgc) dalle cui derivate, nelpunto t = 0, si ricava

E(y) = k′(θ), V ar(y) = k′′(θ).

2.3.1 Generazione di densita esponenziali

Sia g(y) una qualunque densita e sia k(t) la sua fgc, allora poiche

exp[k(t)] =

∫exp(yt)g(y)dν ⇒

∫exp[yθ − k(θ)]g(y)dν = 1

segue che exp[yθ − k(θ)]g(y)dν e una densita della famiglia esponenziale. In altre parole, par-tendo da una densita qualunque e possibile costruire una nuova densita collegata alla precedenteche e di tipo esponenziale. In realta, siccome la famiglia esponenziale e ben studiata, quasi tuttele densita possibili e non troppo astruse sono gia note.

Una proprieta immediata delle densita esponenziali e che la statistica sufficiente per θ in uncampione di n osservazioni iid e semplicemente

∑yi, come si puo verificare immediatamente.

2.3.2 Parametro di scala

Sia g(y; λ) una funzione di probabilita la cui fgc abbia la forma λk(t/λ) per λ > 0; questoimplica che ∫

exp[ty − λk(t/λ)]g(y; λ)dν = 1,

ponendo θ = t/λ, se ne deduce che

f(y; θ, λ) = expλ[yθ − k(θ)]g(y; λ)

integra a 1 ed e non negativa, quindi e una funzione di densita la cui fg dei momenti e data da

M(t) =

∫expty + λ[yθ − k(θ)]g(y; λ)dν =

∫expλ[y(t/λ + θ)− k(θ)]g(y; λ)dν

= expλ[k(t/λ + θ)− k(θ)].Da questa espressione si ricava

E(y) = µ = k′(θ), V (y) =1

λk′′(θ) = σ2k′′(θ)

in cui λ e σ2 = 1/λ rappresentano rispettivamente i parametri di scala e di dispersione.

Esempio 10. Supponiamo che g(y; λ) =√

λ/2π exp(−λy/2), la densita normale con me-dia 0 e varianza pari a 1/λ. La funzione generatrice dei momenti e M(t) = exp(σ2t2/2) =exp[λ (t/λ)2/2] e quindi, posto θ = t/λ, se ne deduce che k(θ) = θ2/2; la funzione di densitache ne deriva ha la forma

f(y; θ, λ) = expλ[yθ − θ2/2]g(y; λ),

che e la densita di una distribuzione normale con media θ e varianza λ, che come vedremoappartiene alla famiglia esponenziale.

5

2.3.3 Esempi di modelli esponenziali

Binomiale - Partiamo dalla funzione di densita e cerchiamo di trasformarla in forma espo-nenziale:

f(y; p) = c(y, n)py(1− p)n−y = c(y, n)(p

1− p)y(1− p)n = exp[yθ − n log(1 + eθ)]c(y, n)

dove si e posto θ = log[p/(1−p)] da cui p = eθ/(1+eθ) e quindi (1−p) = 1/(1+eθ). Notareche, posto n = λ, c(y, n)/2n rappresenta una densita con fgc pari a n[log(1+ eθ)− log(2)].

Poisson - Scrivendo la densita in forma esponenziale exp[−µ + y log(µ)]/y! si vede che ilparametro canonico deve essere θ = log(µ) e quindi che k(θ) = exp(θ), per cui, media evarianza sono pari a k(θ) = µ.

Gamma - In questo caso abbiamo che

f(y; γ, λ) = yλ−1γλe−yγ/Γ(λ) = exp[−yγ + λ log(γ)]yλ−1/Γ(λ).

L’esponenziale si puo scrivere λy(−γ/λ)− [− log(−γ/λ)] + λ log(−λ); segue che comeparametro canonico si puo prendere θ = −γ/λ e quindi k(θ) = − log(−θ) da cui si ricavaE(y) = −1/θ e V ar(y) = σ2/θ2 = σ2µ2.

Binomiale Negativa Consideriamo una forma della densita che si ottiene partendo da unadistribuzione di Poisson la cui media µ ha distribuzione Gamma(γ, λ), integrando rispettoa µ si ottiene

f(y; γ, λ) =Γ(y + γ)

Γ(γ)y!

(1

1 + λ

)y (λ

1 + λ

;

un esame intuitivo suggerisce di prendere come parametro canonico θ = − log(1 + λ) dacui e−θ = 1+λ e quindi λ = e−θ−1 = (1−eθ)/eθ; questo implica che k(θ) = −λ log(1−eθ.Da cui E(y) = γ eθ/(1 − eθ) = γ/λ e Var(y) = γ eθ/(1 − eθ)2. Notare che 1/(1 − eθ) =e−θ/(1 − e−θ) = (λ + 1)/λ = 1 + E(y)/γ, quindi la varianza si puo scrivere in funzionedel valore atteso Var(y) = E(y)[1 + E(y)/γ].

Ipergeometrica estesa - Supposto y ∼ Bin(r, p1) e z ∼ Bin(n − r, p0), indipendenti, lacongiunta ha la forma

(ry

)(n− r

z

)py

1(1− p1)r−ypz

0(1− p0)n−r−z;

indicando con c(y, r, n) il prodotto dei due coefficienti e c = y + z, da cui z = c − y, ladistribuzione di y | c = y + z ha densita

f(y | c, r, n; p0, p1) =c(y, r, n)py

1(1− p1)r−ypc−y

0 (1− p0)n−r−c+y

∑c(j, r, n)pj

1(1− p1)r−jpc−j0 (1− p0)n−r−c+j

.

Ponendo θ = logp1(1−p0)/[(1−p1)p0] e notando che nell’espressione della densita tuttii fattori con esponenti diversi da y che compaiono al numeratore si semplificano con quellicorrispondenti al denominatore, otteniamo

f(y | t, θ) = c(y, r, n) exp[yθ − k(θ)]

dove k(θ) = log[∑

c(j, r, n) exp(jθ)].

6

Osservazione 2. Alla stessa distribuzione si puo arrivare partendo da una tabella 2× 2con distribuzione multinomiale e condizionando ad entrambi i margini, come nel testesatto di Fisher. con pij, i, j = 0, 1 le probabilita congiunte, la distribuzione delle frequenzesi puo scrivere nella forma

m(y | c, r, n; p00, p01, p10, p11) =n!

y!(c− y)!(r − y)!(n− r − c + y)!pn−r−c+y

00 pc−y01 pr−y

10 py11.

Siccome il logaritmo del rapporto degli odds e lo stesso sia che venga calcolato con leprobabilita congiunte che con le condizionate riga, avremo che θ = log[p00p11/(p01p10)],moltiplicando e dividendo per exp[k(θ)] e raggruppando i fattori che dipendono da y, quelliche dipendono da r, c e da n, si vede che la congiunta si puo fattorizzare in due fattori dicui uno e la distribuzione condizionata di y | r, c, per cui l’altro deve essere la congiuntamarginale di (r, c) | n. Siccome quest’ultima dipende da θ, se ne deduce the la distribuzionecongiunta dei margini non e ancillare rispetto a θ.

2.3.4 La funzione di varianza

Si dimostra che la funzione E(y) = µ = k′(θ) e invertibile (Barnorff-Nielsen, 1978, p. 121), cioeesiste θ = t(µ); ne segue che si puo scrivere Var(y) = k′′(θ)/λ = V (µ); questa funzione dellavarianza rispetto al valore atteso si denomina funzione di varianza e vale il seguente risultato:

Proposizione 2. (Joergensen, 1987) La funzione V (µ) individua in modo univoco un modellodella famiglia esponenziale, ammesso che ne esista uno.

Esempio 11. Nel caso binomiale si ha Var(y) = µ(n − µ)/n, per la binomiale negativa siottiene Var(y) = µ(1 + µ/γ). Per la Gamma si ottiene |V (y) = µ2/λ.

2.3.5 Il caso multivariato

La versione multivariata della famiglia esponenziale ha la forma

expλ[y′θ − k(θ)]g(y; λ).

Anche in questo caso la fgc si ottiene con una tecnica analoga a quella del caso univariatoed e pari a expλ[k(θ + t/λ) − k(θ)]. Notare che ora, pero, t e un vettore avente la stessadimensione di y

Esempio 12. Normale multivariata Una possibile parametrizzazione per la N(µ,Σ) consistenel porre θ = Σ−1µ con cui la densita diventa

‖2πΣ‖−0.5 exp(y′θ − θ′Σθ/2− y′Σ−1y/2),

quindi k(θ) = θ′Σθ/2 la cui derivata prima e Σθ = µ mentre la matrice delle derivate secondee semplicemente Σ

Esempio 13. La distribuzione multinomiale Sia p il vettore di dimensione k delle prob-abilita e t il corrispondente vettore delle frequenze osservate. La densita multinomiale si puoscrivere nella forma exp[t′ log(p)]g(t) dove g(t) indica il termine contenente i fattoriali; sic-come le probabilito sommano a 1, il vettore dei parametri canonici deve avere dimensione k−1.Per individuarlo si puo provare a generalizzare il modello binomiale in cui il parametro canonicoe un contrasto fra i log delle due probabilita. Sia allora H una matrice (k − 1)× k di contrastiriga e di rango pieno e sia G una matrice tale che HG = Ik−1, la matrice identita di rango

7

k − 1; questo implica che G e k × (k − 1 di rango k − 1. Si puo dimostrare che e possibilescrivere p mediante un modello logistico determinato dalla matrice G

p = log

[exp(Gθ)

1′k exp(Gθ)

]; (1)

infatti, prendendo il logaritmo di entrambi i membri e moltiplicando per H, si ottiene H log(p) =θ, quindi θ puo essere adottato come parametro canonico. Per scrivere la densita in formaesponenziale conviene prendere il log della (1) e sostituire nell’espressione della densita

exp[t′ log(p)]g(t) = expy′θ − n log[1′k exp(Gθ)]in cui abbiamo posto y = G′t e n = t′1 e il totale delle frequenze.

2.4 Il vettore score e la matrice di informazione

Si definisce vettore degli score

u(θ) =1

f(y; θ)

∂f(y; θ

∂θ=

∂θlog[f(y; θ)].

Proposizione 3. Se i limiti dello spazio campionario Y non dipendono da θ, E[u(θ) | θ] = 0.

Dim. Partiamo dall’identita∫

f(y; θ)dν = 1, derivando entrambi i membri rispetto a θ,portando la derivata dentro il segno di integrale e ricordando che la derivata del secondo membroe 0,

∂θ

y∈Yf(y; θ)dν =

y∈Y1

f(y; θ)

∂f(y; θ)

∂θf(y; θ)dν = E[u(θ) | θ] = 0.

Si definisce matrice di informazione osservata la derivata seconda del logaritmo della fun-zione di densita cambiata di segno; essa rappresenta la curvatura della funzione di log verosimiglian-za in un dato punto. Il valore atteso costituisce l’informazione attesa: F(θ) = −E(∂u/∂θ′).Il seguente risultato e utile per il calcolo di F e mostra che essa si puo interpretare come lamatrice di varianza del vettore score:

Proposizione 4. F(θ) = E[u(θ)u(θ)′].

Dim. Derivando ancora la precedente identita, il cui risulato e una matrice di 0

∂θ′

∫∂ log[f(y; θ)]

∂θf(y; θ(dν =

=

∫∂2 log[f(y; θ)]

∂θ∂θ′f(y; θ)dν +

∫∂ log[f(y; θ)]

∂θ

1

f(y; θ)

∂f(y; θ)

∂θf(y; θ)dν.

Nello sviluppo precedente, il primo termine e −F ed il secondo rappresenta la matrice divarianza dello score.

Esempio 14. In una famiglia esponenziale multivariata si ricava immediatamente che lo scorenon e altro che lo scarto dalla media

u(θ) = y − ∂k(θ)

∂θ= y − µ,

mentre la matrice F(θ) = ∂1k(θ)/(∂θ ∂θ′), quindi in questo caso l’informazione attesa coincidecon quella osservata. In particolare, nel caso della multinoniale si ottiene u(θ) = G′(t− np) eF(θ) = nG′[diag(p)−pp′]G, dove l’espressione in parentesi quadra e la derivata di p rispettoa (Gθ).

8

3 Teoria della stima puntuale

In genere, la correttezza di uno stimatore non e una delle proprieta piu rilevanti. Il seguenteesempio mostra che, in certi casi, esigere che uno stimatore sia corretto equivale ad imporre unvincolo molto restrittivo che e soddisfatto solo da uno stimatore molto rudimentale.

Esempio 15. In una distribuzione geometrica f(y; θ) = (1 − θ)y−1θ; affinche t(y) sia unostimatore corretto occorre che ∞∑

1

t(y)(1− θ)y−1θ = θ;

siccome t(y) sono i coefficienti di un polinomio, per fare in modo che l’uguaglianza valga perqualsiasi θ, si deve porre t(y) = 1 se y = 1 e t(y) = 0 per y > 1; essendo θ la probabilita disuccesso, per questo stimatore essa e pari a 0 sia che si sia avuto un successo alla seconda oalla millesima prova.

3.1 Disuguaglianza di Rao-Blackwell

Si tratta di un risultato che, almeno in linea di principio, fornisce un metodo per migliorarel’efficienza di un dato stimatore.

Proposizione 5. Supponiamo che v sia uno stimatore corretto del parametro θ e s una sta-tistica sufficiente per θ; poniamo t = E(v | s); allora: (i) t e uno stimatore corretto di θ,(ii) Var(t) ≤ Var(v), (iii) nella precedente espressione si ha uguaglianza se e solo se v e unafunzione invertibile di s.

Dim. (i):E(t) = Es[Ev(v | s) | θ] = E(v | θ) = θ.

Il punto (ii) segue dalla scomposizione della varianza condizionata

Var(v | θ) = Var[E(v | s) | θ] + E[Var(v | s) | θ];

notando che il primo termine al secondo membro e Var(t | θ) ed il secondo termine e nonnegativo e puo essere 0 solo se Var(v | s) = 0 per ogni θ, cioe v e funzione della statisticasufficiente, nel qual caso la sua varianza non puo essere ulteriormente migliorata. Questo faanche capire che la statistica t che si ottiene non dipende dalla statistica v di partenza, infatti,qualunque sia v si arriva comunque a una statistica funzione di s.

Esempio 16. Supponiamo di avere n osservazioni da una distribuzione di Poisson e sia θ =P (y = 0) = exp(−µ); ricordiamo che x =

∑yi e una statistica sufficiente. Per applicare il

metodo di riduzione della varianza e determinare uno stimatore corretto di varianza minima,basta partire da uno stimatore corretto; una possibilita e di porre v = 1 se y1 = 0 e v = 0altrimenti; infatti, essendo v binaria, E(v) = P (v = 1) = P (y1 = 0) = θ. Per calcolare t =E(v | ∑ yi = s) = P (y1 = 0 | s, ricordiamo che y1 | s ha distribuzione binomiale con s prove eprobabilita 1/n. Quindi t = P (y1 = 0 | s) = [(n− 1)/n]s, cioe la probabilita di s insuccessi ins prove.

9

3.2 Rao-Cramer

Supponiamo di avere un modello definito da un vettore di k parametri θ e sia Th uno stimatoredi θh. Supponiamo che

E(Th) = θh + bh(θ);

derivando rispetto a θ e supponendo che l’ambito di definizione delle variabili non dipenda daθ, posto eh l’h-esima colonna della matrice di identita di dimensione k,

eh +∂bh

∂θ=

∫Th(y)

∂ log f(y; θ)

∂θf(y; θ)dy = E(Thu).

Supponiamo ora di voler trovare un nuovo stimatore che sia funzione lineare di u e al tempostesso sia il piu possibile simile a Th. Formalmente si tratta di trovare α e β tali che

E(Th − α− β′u)2 = minimo;

uguagliando a 0 la derivando rispetto a α e ricordando che E(u) = 0, si ottiene α = E(Th).Uguagliando a 0 il vettore delle derivate rispetto a β, si ottiene β = E(uu′)−1E(Thu).

Si puo dimostrare, nell’ambito dei minimi quadrati, che la varianza marginale della variabiledipendente non puo mai essere inferiore della varianza di Th = α+β′u; sostituendo per α e poiper β e sviluppando

Var(Th) ≥ Var(Th) = E(Thu′)E(uu′)−1E(Thu). (2)

Se indichiamo con F la matrice di informazione attesa, sostituendo l’espressione di E(Thu) nella(2) si ricava

Var(Th) ≥[eh +

∂bh

∂θ

]′F−1

[eh +

∂bh

∂θ

],

in particolare, se lo stimatore e corretto, si ricava che la varianza di un qualunque stimatorecorretto di θh non puo mai essere inferiore all’h esimo elemento della diagonale di F−1.

Il ragionamento usato per ottenere la disuguaglianza consente anche di stabilire come deveessere fatto uno stimatore affinche la sua varianza raggiunga il limite minimo: esso deve essereuna funzione lineare del vettore score. Questo consente anche di capire, esaminando il vettorescore, se e possibile costruire una statistica che fornisca una stima del parametro e che siafunzione lineare dello score.

Osservazione 3. Notare che, ove avessimo ignorato la natura multi-parametrica del modello eF non fosse una matrice diagonale, un ragionamento analogo ci avrebbe portato ad individuarecome minimo della varianza il reciproco dell’h esimo elemento sulla diagonale di F.

Esempio 17. Un modello logistico semplice si ottiene assumendo che la probabilita di successo

pi =exp(α + βxi)

1 + exp(α + βxi)

Ricordando che la log verosimiglianza di una osservazione binomiale si puo scrivere yi(log[pi/(1−pi)] + log(1− pi), possiamo scrivere

L(α, β;y) = α∑

yi + β∑

xiyi −∑

log[1 + exp(α + βxi].

10

Per calcolare il vettore score notare che la derivata rispetto ad α di log[1+exp(α+βxi] e pi e laderivata seconda e pi(1− pi); le derivate rispetto a β si ottengono moltiplicando quelle rispettoa α per xi e x2

i

u =

( ∑(yi − pi)∑

xi(yi − pi)

)

e la matrice di informazione e

F =

( ∑pi(1− pi)

∑xipi(1− pi)∑

xipi(1− pi)∑

x2i pi(1− pi)

).

Posto Vh =∑

xhi pi(1 − pi), il limite minimo per la varianza di qualunque stimatore di β e

quindiV0

V0V2 − (V1)2=

1

V2 − (V 21 )/V0

≤ 1

V2

in quanto (V1)2/V0 ≥ 0; questo consente di verificare in che misura il limite ottenuto ignorando

α e diverso da quello ottimale.

Esempio 18. Nel caso di n osservazioni da una N(µ, θ), il vettore score e (verificare)

u =

( ∑(yi−µ)2θ∑

(yi−µ)2−nθ2θ2

)

per ottenere F conviene notare che. siccome E(yi − µ) = 0, la derivata mista e 0; inoltreconviene calcolare il valore atteso del quadrato del secondo elemento di u invece che derivarlodi nuovo e ricordare che

∑(yi − µ)2 ∼ θχ2

n

F =

(n/θ 00 n/(2θ2)

).

Notare che in questo caso, essendo la matrice di informazione diagonale, per calcolare il limitee sufficiente ragionare sui parametri presi uno alla volta.

Da quanto sopra si deduce che il limite minimo per uno stimatore corretto di θ e 2θ2/n chenon e raggiunto da S2 =

∑(yi− y)2/(n−1) la cui varianza e pari a 2θ2/(n−1). D’altro canto,

la stima di massima verosimiglianza, S2(n− 1)/n, avendo valore atteso pari a θ(n− 1)/n, haun limite minimo che si ottiene derivando il valore atteso rispetto a θ, elevando al quadratoe moltiplicando per il reciproco del termine (2,2) di F; si ottiene (2θ2/n)[(n − 1)/n]2 che eminore della varianza dello stimatore che e pari a (2θ2/n)(n − 1)/n. Il limite minimo none raggiunto da nessuno dei due stimatori in quanto, mentre nel caso di µ, y e una funzionelineare dello score, nel caso di θ,

∑(yi − y)2 non e una funzione lineare dello score, infatti,

essendo∑

(yi−µ)2 =∑

(yi− y)2 + n(y−µ)2, non esiste una statistica che sia funzione linearedello score.

Osservazione 4. Applicando il metodo di riduzione della varianza desumibile dalla disug-uaglianza di Rao-Balcwell allo stimatore corretto della varianza dell’esempio precedente, si os-servi che questo e gia funzione delle statistiche sufficienti per µ, θ e quindi la sua varianza nonpuo essere ulteriormente ridotta.

11

4 Verifica delle ipotesi

Nella sua formulazione piu semplice consiste nel prendere per vera una certa assunzione H0, laquale impone qualche restrizione sui parametri incogniti, in contrapposizione ad una assunzionealternativa H1, e nel rifiutare H0 solo se una certa statistica test assume un valore che appartienead un insieme tale che, ove H0 fosse vera, la probabilita di appartenervi sarebbe molto bassa.

Formalmente un test statistico si potrebbe ridurre semplicemente alla individuazione di unaserie di regioni dello spazio campionario Wα funzioni di α, dette zone di rifiuto, con le seguentidue proprieta:

• Wα′ ⊂ Wα per ogni α′ < α;

• P (y ∈ Wα | H0) = α, dove y e una osservazione campionaria e α e un valore possibilmentepiccolo e noto come errore di prima specie in quanto rappresenta l’errore che, ove H0 fossevera, si commetterebbe rifiutandola ogni volta che y ∈ Wα.

Come noto, invece di partire da α e poi stabilire se una osservazione campionaria cade omeno nella zona di rifiuto, potremmo calcolare il p-value corrispondente al valore osservato;questo equivale a individuare la zona di rifiuta piu piccola che contiene il valore osservato, py

= min(α : y ∈ Wα), e poi decidere di rifiutare H0 se py e abbastanza piccolo.Se H0 e H1 sono ipotesi semplici, cioe specificano completamente la distribuzione di y, una

statistica test, ed il corrispondente insieme di zone di rifiuto Wα, e preferibile alla statisticatext che determina l’insieme Uα se, per qualunque α,

P (y ∈ Wα | H0) = P (y ∈ Uα | H0) = α

P (y ∈ Wα | H1) ≥ P (y ∈ Uα | H1).

Una statistica test e ottimale se e preferibile ad ogni altra. Un semplice criterio per individuareuna statistica test ottimale e fornito dal Lemma di Neyman-Pearson:

Proposizione 6. Siano H0 e H1 due ipotesi semplici, cioe che determinano completamente ladistribuzione di y e sia r(y) = f(y | H1)/f(y | H0); allora le regioni di rifiuto Wα costruite datutt i valori y tali che r(y) ≥ rα e ottimale.

Notare che, nonostante l’apparente semplicita dell’enunciato, l’applicazione del risultatoad un dato contesto non e del tutto banale. Anzitutto il rapporto di verosimiglianza e unastatistica quando i dati sono gia noti ma in se e una variabile casuale di cui occorre calcolarela distribuzione di probabilita sotto H0 in modo da individuare quale e il valore soglia rα

corrispondente ad un prefissato errore di prima specie. Pertanto, negli esempi che esamineremo,si cerchera di individuare una qualche trasformazione strettamente monotona del rapporto diverosimiglianza la cui distribuzione di probabilita sia piu facile da determinare.

Esempio 19. Supponiamo di avere n osservazioni da una popolazione normale N(µ, 1) e siaH0 : µ = µ0 e H1 : µ = µ1; si verifichi che, essendo il logaritmo una funzione crescente, dopoaver semplificato, si ottiene

log[r(y)] = −∑

(yi − µ1)2/2 +

∑(yi − µ0)

2/2,

sviluppando i quadrati e semplificando i due termini∑

y2i

log[r(y)] = ny(µ1 − µ0) + n(µ20 − µ1)/2, (3)

quindi y rappresenta una trasformazione crescente del rapporto di verosimiglianza e, sotto H0,y ∼ N(µ0, 1/n).

12

4.1 Test uniformemente piu potenti

La (3) indica che, la regione di rifiuto per verificare l’ipotesi µ0 contro µ1 > µ0, dipende dalvalore di µ0 (che determina la distribuzione di y), ma non da µ1 (purche µ1 > µ0), quindi laregione di rifiuto determinata per un dato α e massimamente efficiente a prescindere da µ1. Untest statistico con tale proprieta si dice uniformemente piu potente. Si tratta di un fenomenoabbastanza generale radicato nella sostanziale asimmetria fra le ipotesi nulla e alternativa.L’esempio seguente individua una classe di problemi per cui esiste un test uniformemente piupotente.

Esempio 20. Famiglia esponenziale. Supponiamo che le osservazioni provengano da unafamiglia esponenziale con densita expλ[yθ − k(θ)]g(y; λ) e sia H0 : θ = θ0 e H1 : θ1 > θ0.Calcolando il rapporto di verosimiglianza per un campione di n osservazioni, si ottiene

log[r(y)] = λy(θ1 − θ0)

da cui si deduce che la media campionaria e una trasformazione crescente del rapporto diverosimiglianza per qualsiasi valore di θ1, quindi la regione di rifiuto cos‘ı ottenuta e uni-formemente piu potente. Se invece H1 : θ1 < θ0, allora −y e una trasformazione crescentedel rapporto di verosimiglianza e quindi qualunque regione di rifiuto costituita dai valori piccolidella media campionaria e uniformemente piu potente.

Ecco alcuni principi generali che si possono utilizzare per semplificare il test ricavato delrapporto di verosimiglianza allo scopo di verificare se esso e uniformemente piu potente:

• conviene spesso passare al logaritmo che e una funzione strettamente crescente e, spesso,semplifica l’espressione della statistica;

• si puo aggiungere qualunque costante che non dipende dai dati;

• si puo moltiplicare per qualunque costante positiva che non dipende dai dati.

Esempio 21. Un test non uniformemente piu potente Se in un problema concernente lamedia di una popolazione normale, invece della varianza, fosse noto il coefficiente di variazioneγ = σ/µ, la log verosimiglianza di n osservazioni, ignorando le costanti, si puo scrivere nellaforma

−n log(γµ)−∑

y2i

2γ2µ2+

ny

γ2µ− n

2γ2

da cui

log[r(y)] = n log(µ0/µ1) +1

2γ2

[∑y2

i

(1

µ20

− 1

µ21

)− 2ny

(1

µ0

− 1

µ1

)].

Aggiungendo opportune costanti, moltiplicando per (1/µ0−1/µ1)/(2γ2) e aggiungendo ulteriori

costanti opportune, si puo verificare che la seguente statistica e una trasformazione crescentedel rapporto di verosimiglianza

∑y2

i

(1

µ0

+1

µ1

)− 2ny;

purtroppo questa espressione dipende da due statistiche e non e possibile eliminare la dipendenzada µ1, quindi non esistono regioni di rifiuto uniformemente piu potenti.

13

4.2 Regioni similari

Una ipotesi nulla si dice composta quando, eventualmente dopo una qualche trasformazione deiparametri in due componenti ψ, λ, abbiamo che H0 : ψ = ψ0, mentre λ rimane non specificatoe si denomina parametro di disturbo. Se la numerosita campionaria fosse elevata, un modoempirico per eliminare la presenza del parametro di disturbo potrebbe essere di calcolare ilrapporto di verosimiglianza usando una stima di λ con una sua stima come se fosse il valorevero. Il metodo che viene qui illustrato, quando applicabile, fornisce una soluzione ottimaleesatta che non richiede la conoscenza del parametro di disturbo.

Un insieme di regioni di rifiuto Wα si dice similare se, per qualunque λ,

P (y ∈ Wα | H0, λ) = α.

Supponiamo che, quando H0 e vera, esiste una statistica sλ sufficiente per λ; allora la dis-tribuzione condizionata a sλ sotto H0 non dipende dal vettore dei parametri di disturbo equindi regioni di rifiuto Uα(s)

P (y ∈ Uα(s) | H0, sλ = s) = α;

le regioni Uα(s) sono similari. Quando, come negli esempi che seguono, le regioni della formaUα(s) sono ottenute dal rapporto di verosimiglianza, esse sono anche uniformemente piu potenti.

Esempio 22. Confronto di distribuzioni di Poisson. Supponiamo che y1, y2 sono indipen-denti e provengono da distribuzioni di Poisson con parametro medio pari rispettivamente a µ1,µ2 e sia H0 : µ1 = µ2. Ponendo µ1 = λ e ψ = mu2/µ1 e notando che, sotto H0, ψ = 1, laverosimiglianza di (y:1, y2( si puo scrivere nella forma

exp[−λ− λψ)]λy1+y2ψy2

y1!y2!

quindi s = y1 + y2 e sufficiente per λ. Inoltre, per una proprieta della distribuzione di Poisson,s ha ancora distribuzione di Poisson con valore atteso pari a µ1 + µ2 = λ(1 + ψ). Con semplicicalcoli si puo verificare che y2 | s ha distribuzione binomiale con totale pari a s e probabilitapari a p = ψ/(1+ψ). Siccome ψ = 1 equivale a p = 1/2 e ψ > 1 equivale a p > 1/2, il rapportodi verosimiglianza e identico a quello che si otterrebbe sottoponendo a verifica l’analoga ipotesiper una distribuzione binomiale. Dopo aver semplificato i fattoriali, si ottiene

log[r(y1, y2)] = y2 log[p/(1− p)] + s log(1− p)− s log(1/2),

infatti, posto θ = log[p/(1−p)] > 0, se p = 1/2, θ = 0 mentre sotto H1 θ > 0. Se ne deduce che,per s dato, log[r(y1, y2)] e una funzione crescente di y2 e quindi la zona di rifiuto e costituitadai valori di y2 superiori al valore soglia determinato sulla base della distribuzione binomiale(s, 1/2).

Esempio 23. Confronto di due binomiali. Supponiamo che y1, y2 sono distribuiti, come duebinomiali indipendenti rispettivamente con (n1, p1) e (n1, p2). Poniamo λ = log[p1/(1−p1)] e ψ= log[p2/(1−p2)]−λ; parametrizzando ciascuna binomiale mediante il corrispondente parametrocanonico, si puo verificare che s = y1 + y2 e sufficiente per λ. Come gia visto negli esempi didistribuzioni della famiglia esponenziale, la distribuzione di y2 dato s e di tipo ipergeometricoesteso con parametro ψ. In particolare, sotto H0 :, p1 = p2, ψ = 0, mentre sotto H1 : p2 > p1,segue ψ > 0.

Nell’espressione della verosimiglianza ipergeometrica (vedi 2.3.3) y2 compare nei fattorialial numeratore (ma questi non dipendono dall’ipotesi e quindi si semplificano quando si calcola

14

il rapporto di verosimiglianza) e nel termine exp(y2ψ). Siccome, sotto H1: ψ > 0, mentre sottoH0: ψ = 0, il logaritmo del rapporto di verosimiglianza e una funzione crescente di y2 e quindiil test similare uniformemente piu potente e costituito dalle zone di rifiuto in cui, y2 superauna certa soglia che puo essere determinata in base alla distribuzione ipergeometrica semplices− y2, n1; y2, n2.

I due esempi precedenti mostrano che per confrontare due elementi di una stessa famigliaesponenziale uni-parametrica conviene riportare il confronto sulla scala del parametro canonica.L’esempio seguente e diverso dai due precedenti in quanto esiste una statistica che e sufficienteper il parametro di disturbo ma solo sotto H0.

Esempio 24. Il test T di Student. In una popolazione normale sia H0 : µ = µ0 e H1 : µ >µ0, con σ non specificato, che quindi rappresenta un parametro di disturbo. In un campione di nosservazioni, la log verosimiglianza sotto H0, trascurando le costanti, ha la forma: −n log(σ)−∑

(yi − µ0)2/(2σ2), quindi s =

∑(y1 − µ0)

2 e sufficiente per σ ma solo sotto H0 quando µ0

e noto; quindi, sotto H0, la distribuzione di y | s e costante. La log verosimiglianza sotto H1

dipende dai dati attraverso v = −∑(yi − µ1)

2 che puo scriversi come

v = −∑

[(yi − µ0) + (µ0 − µ1)]2 = −s + 2n(y − µ0)(µ1 − µ0)− n(µ1 − µ0)

1.

Quindi, condizionatamente a s, il rapporto di verosimiglianza e una funzione crescente di y−µ0,occorre quindi ricavare la distribuzione di y | s, H1 (o di una sua trasformazione crescente).Una derivazione geometrica di questa distribuzione per il caso di n = 2, e illustrata nella figura1. L’insieme dei punti con un s fissato si trovano sull’iper-sfera con centro 1nµ0 e raggio

√s;

0 0.5 1 1.5 2 2.5 3 3.5 40

0.5

1

1.5

2

2.5

3

3.5

4

Figura 1: distribuzione campionaria da popolazione normale con n = 2 condizionata a s

nella figura si e supposto µ0 = 1 e µ1 = 3. I punti che hanno una data media campionariay ed un dato s sono quelli che si trovano sul piano ortogonale alla bisettrice dove interseca lasuperfice di una data sfera centrata su µ0. E’ evidente che la verosimiglianza sotto H1 aumentacon la distanza y−µ0. Quindi, l’insieme dei punti campionari appartenenti ad una data sfera eche sono piu estremi di un dato yα prefissato sono quelli in cui la congiungente di un punto sullasfera con il punto sulla bisettrice con coordinate µ0 forma un angolo il cui coseno e maggiore.Quindi, per calcolare il valore soglia, occorre calcolare la distribuzione campionaria del cosenosotto H0 e cioe

R =y − µ0√

s=

y − µ0√∑(yi − y)2 + n(y − µ0)2

;

15

dividendo numeratore e denominatore per√∑

(yi − y)2/[n(n− 1)] si ottiene

R =T√

n(n− 1) + nT 2).

siccome per T > 0 R e una funzione crescente di T , le regioni di rifiuto si possono equivalen-temente basare su T la cui distribuzione e nota e tabulata.

4.3 Invarianza

Un approccio alternativo che consente di eliminare eventuali parametri di disturbo si basasull’individuazione di trasformazioni dei dati che siano invarianti rispetto al problema di verificaoggetto di interesse, nel senso specificato dalla seguente definizione:

Definizione 3. Sia G un gruppo di trasformazioni che passano da y a Gy e sia G∗ la corrispon-dente trasformazione indotta sullo spazio parametrico; allora il gruppo e invariante rispettoall’ipotesi H0 : ψ = ψ0 se G∗ψ soddisfa H0 se e solo se ψ la soddisfa.

In altre parole una trasformazione invariante modifica quelle caratteristiche dei dati chenon dipendono dai parametri di interesse. Tuttavia, per eliminare la dipendenza dai parametridi disturbo la trasformazione deve essere la piu ampia possibile fra quelle invarianti, comeillustrato nei seguenti esempi.

Esempio 25. Ipotesi sulla media di una normale. Supponiamo di dover verificare H0 :µ = µ0 contro H1 : µ1 > µ0, con σ2 incognito in una distribuzione normale. Intuitivamente,siccome σ e un parametro di scala, potremmo porre Gyi = b(yi−µ0) ∼ N(b(µ−µ0), b

2σ2), conb > 0. Si puo verificare che dopo questa trasformazione Gyi ha valore atteso pari a 0 se e solose vale H0.

Esempio 26. Ipotesi sulla varianza di una normale. Supponiamo ora invece che H0 : σ =σ0 contro H1 : σ1 > σ0, con µ incognito. Siccome σ e invariante alle traslazioni, potremmoporre Gyi = yi + c ∼ N(µ + c, σ2), con c arbitrario.

Esempio 27. Ipotesi sul vettore media di una normale multivariata. Per considerareun problema piu complesso, supponiamo di avere osservazioni multivariate con yi ∼ N(µ, Σ) esupponiamo che µ = µ0 con alternativa multi-direzionale e Σ non specificata. Chiaramente latrasformazione Gyi = b(yi−µ0) con b costante arbitraria, definisce un gruppo di trasformazioniinvarianti, infatti, come e facile verificare, i dati trasformati hanno media 0 se e solo se valeH0. Tuttavia, intuitivamente, si tratta di un gruppo di trasformazioni di dimensione troppoinferiore rispetto alla dimensione del parametro di disturbo. Una trasformazione adeguata siottiene invece ponendo Gyi = A(yi−µ0) ∼, N(A(µ−µ0),AΣA′), con A una arbitraria matricedi rango pieno. Che questa trasformazione sia massimale, oltre che invariante, deriva dal fattoche la matrice di varianza dei dati trasformati puo assumere un qualunque valore ammissibileper una matrice di varianza.

Una volta individuata una trasformazione invariante, occorre anche individuare una sta-tistica T che sia invariante, cioe che assuma un unico valore per tutte le trasformazioni delgruppo individuato; piu precisamente occorre che T (y1) = T (y2) se e solo se esiste un G ∈ Gtale che y2 = Gy1. Una statistica con queste proprieta si chiama invariante massimale. Unastatistica invariante massimale individua delle regioni dello spazio parametrico dette orbite, cheraccolgono insieme di punti dello spazio campionario equivalenti, cioe tali che si puo passaredall’uno all’altro semplicemente applicando ad uno stesso set di dati delle diverse trasformazioniinvarianti.

16

Esempio 28. Ipotesi sulla media di una normale. Per individuare una statistica invarianteper l’esempio 25 conviene, anzitutto, ridurre i dati per sufficienza notando che s1 = y−µ0 e s2

=√∑

(yi − µ0)2 sono due statistiche sufficienti (anche se non minimali sotto H0). Potremmoallora cercare di individuare le orbite descritte nello spazio campionario riassunto da s1, s2

al variare delle possibili trasformazioni invarianti. Supponiamo di partire da un dato puntocampionario s0

1, s02; al variare della trasformazione determinata da un dato b > 0, u = s1, s2

descrivono la seguente retta parametrica

u = bs01, v = bs0

2, per sostituzione, v = us02

s01

;

v= questo significa che ciascuna orbita e associata ad un diverso valore di R =√

s02/s

01, in

quanto due punti campionari con lo stesso valore di R si trovano su una stessa orbita. QuindiR, o una sua trasformazione invertibile, costituisce una statistica invariante massimale. Ineffetti, come gia visto, la statistica T di student e appunto una trasformazione invertibile di R

Esempio 29. Ipotesi sulla varianza di una normale. Riprendendo l’esempio 26, e facileverificare che, presa una qualunque matrice C di n− 1 contrasti riga linearmente indipendenti,s = Cy e una statistica invariante perche C(y + c1) = Cy per costruzione; questa e ancheinvariante massimale, infatti Cya = Cyb se e solo se ya − yb e proporzionale al vettore 1 chee l’unico vettore ortogonale a tutte le righe di C. Per le proprieta delle trasformazioni linearidi variabili normali,

s ∼ N(0, σ2CC′).

Calcolando il logaritmo del rapporto di verosimiglianza basato su questa distribuzione e trascu-rando i termini additivi che non dipendono dai dati, si ottiene

(1

σ20

− 1

σ21

)y′C′(CC′)−1Cy;

quindi, essendo σ1 > σ0, la zona di rifiuto e costituita dai punti campionari con un valoreelevato della forma quadratica SQ = y′C′(CC′)−1Cy. Si puo verificare che SQ non dipendedalla particolare matrice di contrasti utilizzata, infatti, se A (n− 1)× (n− 1) di rango pieno,sostituendo C con AC il risultato non cambia. Si consideri inoltre che la matrice che determinaSQ, essendo idempotente, ortogonale a 1 e di rango n− 1, e la matrice di proiezione su questospazio e pertanto e uguale alla matrice I − 11′/n che determina la somma dei quadrati degliscarti dalla media aritmetica, quindi la zona di rifiuto pio essere, equivalentemente, costituitadai valori grandi di

S2 = SQ/(n− 1) =∑

(yi − y)2/(n− 1).

Esempio 30. Ipotesi sul vettore media di una normale multivariata. Riguardo all’e-sempio 27, posto S =

∑(yi− y)(yi− y)′/(n− 1), per verificare che la T 2 di Hotelling, definita

come (y − µ0)′S−1(y − µ0), e una statistica invariante, basta notare che G(S) = ASA′ e che

quindi, dopo aver calcolato l’inversa, la moltiplicazione per A si semplifica.Per verificare che la statistica e invariante massimale occorre mostrare che, se T 2

a = T 2b ,

allora i punti campionari Ya e Yb sono su una stessa orbita. A tale scopo si osservi che, T 2 euguale alla traccia (e quindi anche all’unico autovalore non nullo) di T = (y−µ0)(y−µ0)

′S−1;inoltre vale il risultato che due matrici Ta e Tb hanno gli stessi autovalori se e solo se Tb =ATaA

−1. Quinti, se T1 hanno gli stessi autovalori vuol dire che Tb = ATaA−1, quindi si e

applicata una trasformazione non singolare ai dati.

17

Esempio 31. Ipotesi sul parametro di forma di una Gamma. Nella formulazione usatain 2.3.3, il parametro λ e un parametro di scala mentre γ determina la forma. Supponiamo orache H0 : γ = γ0 contro H1 : γ > γ0 con λ non specificato; siccome by ∼ Γ(γ, λ/b), per qualunqueb > 0, questo e un gruppo invariante ed un vettore di statistiche invarianti massimali e datoda ti = yi/y1 per i > 1. Nel seguito proviamo prima a calcolare la distribuzione congiunta di(t2, . . . , tn) e su questa a individuare una statistica sufficiente per il parametro γ.

Per calcolare la congiunta definiamo t1 = y1 e calcoliamo la matrice delle derivate dellatrasformazione da y a t

∂t

∂y′=

1 0 0 0 . . . 0−1/y1 1/y1 0 0 . . . 0−1/y1 0 1/y1 0 . . . 0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .−1/y1 0 0 0 . . . 1/y1;

essendo una matrice diagonale inferiore, il suo determinante e pari al prodotto dei terminisulla diagonale e quindi a tn−1

1 . La distribuzione di t si puo calcolare per sostituzione e poimoltiplicando per il determinante della trasformazione per sostituire il differenziale in dy in dt,ottenendo [

1

Γ(γ)

]n

λnγtnγ−11

n∏2

tγ−1i exp

[−λt1(1 +

n∑2

ti)

];

la congiunta di interesse si ottiene integrando rispetto a t1 l’espressione precedente. A talescopo notiamo che, moltiplicando e dividendo per (1 +

∑n2 ti)

nγ/Γ(nγ), si puo trattare t1 comese avesse distribuzione Gamma, il cui integrale, opportunamente aggiustato, e pari a 1. Siottiene quindi

f(t2, . . . , tn; γ) =Γ(nγ)

Γ(γ)n

∏n2 tγ−1

i

(1 +∑n

2 ti)nγ.

Notando che∏n

2 ti = (∏n

1 yi) /yn1 , la parte della densita che dipende dai dati si puo scrivere

come [(∏

yi)1/n

ny

]nγyn

1∏yi

da cui e facile verificare che il logaritmo del rapporto di verosimiglianza, trascurando le com-ponenti additive che dipendono solo dai dati o solo dal parametro, si puo scrivere come

(γ1 − γ0)[∑

log(yi)− n log(∑

yi)];

per costruire una procedura test occorrerebbe poi determinare la distribuzione della statisticasufficiente o di una sua trasformazione monotona, il che non e affatto semplice.

5 Cenni di teoria asintotica

La teoria asintotica ha soprattutto due scopi: (i) per quelle statistiche la cui distribuzione esattae troppo complessa, si cerca di determinare delle approssimazioni la cui accuratezza aumentacon la dimensione campionaria; (ii) quando la distribuzione di un test statistico dipende daparametri di disturbo, a volte e possibile individuare statistiche la cui distribuzione asintoticanon ne dipende. La trattazione che segue si occupa dei metodi asintotici piu semplici in cuicioe l’approssimazione si basa su una espansione in serie limitata al termine di primo ordine.

18

In questo contesto le stime di massima verosimiglianza (ML) occupano una posizione parti-colare in quanto risultano godere di una serie di proprieta ottimali. Inoltre, un ruolo particolareviene svolto dal vettore score e dalla matrice di informazione. Risultati in parte simili valgonoper le stime basate sul metodo dei momenti generalizzati.

5.1 Stime di massima verosimiglianza

Anzitutto ricordiamo brevemente l’algoritmo di stima noto come Fisher-scoring che fornisce unmetodo generale per calcolare stime ML. Sia θ il vettore delle stime ML e θ0 un vettore di stimeiniziali; per brevita scriviamo anche u e u0 per indicare il vettore score calcolato rispettivamentein θ e θ0; se questi due punti sono abbastanza vicini, mediante una approssimazione al primoordine otteniamo

u ∼= u0 +∂u0

∂θ′0(θ − θ0) = 0,

da cui, risolvendo e approssimando la derivata di u cambiata di segno con la matrice diinformazione F,

θ = θ0 + F0u0.

Puo essere interessante notare che questa soluzione e identica a quella che si otterrebbe secercassimo di approssimare la log verosimiglianza con una funzione quadratica avente, nelpunto θ0, lo stesso score e la stessa matrice di informazione.

5.1.1 Consistenza

Se nella funzione di log-verosimiglianza sostituiamo i valori osservati con le corrispondentivariabili casuali, essa stessa diventa una variabile casuale che possiamo indicare con L(y, θ);sia, inoltre, γ(θ) = E[L(y, θ) | θ0], in cui θ0 indica il valore vero. Da risultati connessi alladistanza di Kullback-Leibler segue che la funzione γ(θ) ha un unico massimo nel punto θ = θ0.

Per la legge dei grandi numeri segue che L(y, θ)/n, che si puo interpretare come una mediacampionaria quando le osservazioni sono indipendenti e identicamente distribuite, converge alcorrispondente valore atteso γ(θ). quindi, al crescere di n, la log verosimiglianza (a meno diun fattore costante) varia rispetto a θ in un modo che rispecchia sempre piu da vicino quellodella funzione γ(θ), la quale ha un massimo in corrispondenza del valore vero. Sotto opportunecondizioni, il massimo di L(y, θ) tende al valore vero del parametro.

Come esempio consideriamo la multinomiale in cui L(y, θ) = y′Gθ−n log[exp(Gθ)], quindiγ(θ) = nπ′0Gθ − n log[exp(Gθ)], questa funzione e massima quando θ = θ0.

Per chiarire la natura del ragionamento riprendiamo l’esempio di un modello con parametriincidentali in cui P (Yi = 1) = exp((λi + ψ)/[1 + exp((λi + ψ)] in cui la log verosimiglianza hala forma

L(y, λ, ψ) =∑

yi(λi + ψ)−∑

log[1 + exp((λi + ψ)];

se il parametro di interesse e un certo λh, esso e contenuto in un solo termine della primacomponente, per cui L(y, λ, ψ)/n visto come funzione di λh non converge a γ(λh) non essendopossible applicare la legge dei grandi numeri.

Una trattazione piu estesa si trova sul libro di Severini, p. 105-108.

5.1.2 Normalita

Nel seguito viene fornita una derivazione semplificata del seguente risultato per osservazioniindipendenti ed identicamente distribuite:

19

Proposizione 7. Se il modello e identificabile, se le prime tre derivate della verosimiglianzaesistono in un intorno del valore vero e se il valore atteso della derivata terza e limitato superi-ormente in valore assoluto, allora le stime convergono ad una distribuzione normale con mediapari al valore vero e matrice di varianza pari all’inversa della matrice di informazione delle nosservazioni.

Dim. Facciamo una espansione in serie simile a quella precedente indicando pero ora conθ0 il valore vero del parametro ed includendo anche il termine residuo

u = u0 +∂u0

∂θ′0(θ − θ0) +

∂2uo

∂(θo ⊗ θo)′(θ − θ0)⊗ (θ − θ0),

dove θ0 indica un opportuno valore intermedio fra stime ML e valore vero per cui l’espansione eesatta. Dividiamo per

√n allo scopo di scrivere le derivate come medie campionarie e ricordando

che il primo membro e 0, possiamo scrivere

u0√n

= − 1

n

∂u0

∂θ′0

√n(θ − θ0)− 1

n

∂2uo

∂(θo ⊗ θ0)′√

n(θ − θ0)⊗ (θ − θ0).

A questo punto notiamo che, per la legge dei grandi numeri, la media della derivata primacambiata di segno converge alla matrice di informazione nel valore vero e la media della derivataseconda converge ad un vettore di matrici i cui valori non divergono. D’altro canto, siccome lestime sono consistenti, θ − θ0 converge a 0 almeno con la velocita di

√n; quindi

√n(θ − θ0)⊗

(θ − θ0), contenendo scarti al quadrato, e un infinitesimo di ordine superiore rispetto al restodell’espressione.

D’altro canto, u0, essendo lo score totale, nel nostro contesto semplificato e la somma divariabili indipendenti e identicamente distribuite a cui quindi e possibile applicare il teoremadel limite centrale per cui

u0√n∼ N(0,F0).

Il risultato segue quindi dall’uguaglianza

u0√n

= F0

√n(θ − th0)

come trasformazione lineare di variabili normali. Quindi, almeno asintoticamente, le stime MLsono corrette e sono di massima efficienza

5.2 Metodo dei momenti generalizzato

In un modello determinato da k parametri, supponiamo di avere un vettore di t ≥ k funzionidi dati e parametri linearmente indipendenti del tipo m(y; θ) =

∑g(yi; θ)/n in cui E[g(yi; θ)]

= 0. Il metodo consiste nel prendere come stime i valori che soddisfano l’equazione m = 0.

Esempio 32. Distribuzione gamma Supponiamo che y1, . . . , yn provengono da una dis-tribuzione gamma e poniamo

g1(yiα, λ) = yi − α

λ, g2(yiα, λ) = y2

i −α(α− 1)

λ2,

da cui si ricavano due equazioni che eguagliano a 0 le differenze fra i momenti teorici e quellicampionari.

20

Un algoritmo di stima simile a quello per stime ML si puo ottenere scegliendo una oppor-tuna matrice H simmetrica e definita negativa e massimizzare Q = m′Hm/2, ovvero risolverel’equazione

s =∂m′

∂θHm = 0,

in cui il vettore s ha, come vedremo, delle proprieta simili al vettore score della verosimiglianza.Nel seguito indichiamo con D la matrice delle derivate di m rispetto a θ′; inoltre, m0 indicheram calcolata in θ0 e analogamente per m.

Calcolando uno sviluppo in serie al primo ordine di s rispetto ad un valore iniziale θ0,otteniamo

s ∼= D′0Hm0 +

∂s0

∂θ′(θ − θ0) = 0. (4)

Riguardo alla derivata di s, notiamo che essa e composta di due termini, a secondo che si derivail primo o il terzo fattore

∂s

∂θ′= D′HD +

∑j

∂2mj

∂θ∂θ′∑

h

hjhmh;

il secondo termine e una combinazione lineare degli elementi di m, un vettore di medie cam-pionarie con E(m) = 0; questi tendono a 0 per la legge dei grandi numeri. Se approssimiamola derivata seconda trascurando il secondo termine, si arriva ad un algoritmo simile al Fisherscoring

θ = θ0 − (D′0HD0)

−1s0.

.

5.2.1 Normalita asintotica

Supponiamo ora che θ0 indichi il valore vero; siccome m0 e una media campionaria, per ilteorema del limite centrale,

√nm0 converge in distribuzione a N(0,Ω), dove Ω = Var(g(yi; θ).

Sia

M = E

(−∂s0

∂θ′

)= −ED0)

′HE(D0),

questo rappresenta il valore a cui converge la derivata del vettore score calcolato sul valore vero.Supponendo che le stime dei momenti siano consistenti, il che implica che nella (4) il terminedi errore sia un infinitesimo di ordine superiore, moltiplicando i due membri per

√n, abbiamo

D′0H√

nm0∼= M

√n(θ − θ0); (5)

moltiplicando i due membri per M−10 ,

√n(θ − θ0) ∼ N(0,M−1

0 Σ0M−1u ) (6)

dove Σ e il limite a cui tende D′HΩHD = E(ss′) al crescere di n. Nel seguito, per brevita,poniamo V = Var[

√n(θ − θ0)].

5.2.2 Efficienza degli stimatori GMM

Vale anzitutto il seguente risultato:

21

Proposizione 8. Sia M una classe di stimatori dei momenti del parametro θ e supponiamoche esista un particolare stimatore µ ∈M per cui

Mµ = E[sµs′µ | θ0] ∀ µ ∈M, (7)

allora µ individua lo stimatore piu efficiente nell’ambito di M.

Dim Applicando la (7) nel caso particolare in cui µ = µ, si ottiene Mµ = E(sµs′µ | θ0) = Σµ.

Utilizzando questa relazione, per sostituzione Vµ = M−1µ ΣµM

−1µ = Σ−1

µ . Inoltre, con semplicimanipolazioni algebriche, si puo scrivere il confronto fra le varianze di un generico stimatorecon quelle di µ nella forma

Vµ −Vµ = M−1µ (Σµ −MµΣ

−1µ Mµ).

Si puo verificare che l’espressione in parentesi tonda non e altro che la varianza dell’espressionesµ −MµΣ

−1µ sµ; infatti, dalla (7)

Var[MµΣ−1µ sµ] = MµΣ

−1µ Nµ = E[MµΣ

−1µ sµs

′µ].

Quindi il risultato segue perche Vµ −Vµ e una matrice definita positiva; le due varianze sonoinvece uguali solo nel caso che sµ = MµΣ

−1µ sµ, cioe un vettore score e una trasformazione

lineare dell’altra.Per quello che segue e utile il seguente risultato

Proposizione 9. Sia u lo score della verosimiglianza di n osservazioni e s lo score associatoad un certo stimatore del metodo di momenti; allora

− ∂

∂θE(s0) = E(s0u

′0), (8)

intendendo che la derivata e il valore atteso sono calcolate entrambe sul valore vero.

Dim. Deriviamo l’identita E(s0) = 0; supponendo che l’operatore di derivata si possaportare dentro l’integrale (o la sommatoria nel caso discreto), quando deriviamo separatamentes0 e la funzione di densita che ne costituisce la ponderazione, usando lo stesso artificio checonsente di mostrare che E(u0) = 0,

∫∂s0

∂θ′f(y; θ0)dy +

∫∂f(y; θ0)

∂θ′1

f(y; θ0)f(y; θ0)dy = 0.

Un dato stimatore GMM e determinato dal vettore s e dalla matrice M ed e il risultato diuna ottimizzazione. Lo stimatore ML puo essere quindi visto come un particolare stimatoreGMM. Sfruttando il risultato precedente si puo dimostrare che, ove il modello di probabilitache ha generato i dati e quello ipotizzato per costruire la verosimiglianza, lo stimatore ML e piuefficiente di qualunque stimatore GMM. Supponiamo infatti che M consista di ogni possibilestimatore GMM di θ e dello stimatore ML e notiamo che il primo membro della (8) convergea Mµ, questo implica che u = sµ cioe che lo stimatore ML e lo stimatore ottimale che soddisfala (7) per qualunque stimatore GMM.

La Proposizione 6 puo essere utilizzata anche per stabilire come eventualmente scegliereuna matrice H che dia massima efficienza. Definiamo quindi come M la classe degli stimatoribasati su un dato m al variare di H, omettiamo per semplicita di indicare il suffisso µ, quindila (7) implica che

M = D′HµΩHµD = D′HµD

che e soddisfatta quando Hµ = Ω−1

22

5.3 Rapporto di verosimiglianza

Supponiamo che θM sia la stima ML di θ sotto il modello probabilistico M; sappiamo che,sotto condizioni di regolarita, questa stima e consistente. Consideriamo una espansione in seriedi L(θM) intorno al valore vero θ0; sia H∗ la matrice delle derivate seconde calcolate in θ∗,un punto intermedio fra la stima ML e il valore vero che annulla il resto. Notare che −H∗/n,essendo una media campionaria, converge in probabilita al suo valore atteso F0 e, siccome√

n(θM− θ0) e un Op(1), aggiungendo e sottraendo una forma quadratica in u0, il vettore scorecalcolato in θ0, possiamo scrivere

L(θM) = L(θ0) + u′0(θM − θ0)−√

n(θM − θ0)′(−H∗/n)

√n(θM − θ0)/2

= L(θ0) + (u0/√

n)′F−10 F0

√n(θM − θ0)−

√n(θM − θ0)

′F0

√n(θM − θ0)/2 + op(1)

= L(θ0)−[√

n(θM − θ0)− F−10 (u0/

√n)

]′F0

[√n(θM − θ0)− F−1

0 (u0/√

n)]/2

+ (u0/√

n)′F−10 (u0/

√n)/2 + op(1).

Per compattezza poniamo λ =√

n(θM− θ0) e v = F−10 u0/

√n; si ricordi che v ha distribuzione

asintotica N(0,F−10 ) e che, mentre v, bu0 sono un vettori dati, λ deve essere scelto in modo da

massimizzare la log verosimiglianza; si puo quindi scrivere

L(θM) = L(θ0) + u′0F−10 u0/(2n)−minλ∈M(λ− v)′F0(λ− v)/2 + op(1).

Sia k la dimensione dello spazio parametrico e supponiamo che H0 sia definita da un insiemedi vincoli lineari del tipo Cθ = 0 con C di rango pieno rank(C) = p < k. Questo e equivalentea supporre che λ = Xβ dove X e una matrice di rango pieno k − p per cui θ = θ0, implicaβ = 0. Supponiamo ora che H1 non indichi piu l’ipotesi alternativa, ma l’ipotesi che non ci siaalcuna restrizione, una ipotesi fittizia di riferimento che contiene H0 come caso particolare. Siaθi, i = 0, 1 la stima ML sotto H0 o H1, il modello senza restrizioni. Se lo stimatore ML sottoH1 e consistente, ne consegue che

2[L(θ1)− L(θ0)] = minλ=Xβ(Xβ − v)′F−10 (Xβ − v) + op(1);

infatti, la forma quadratica sotto H1 e sempre 0 perche non ci sono vincoli e quindi si puoomettere. La distribuzione asintotica dell’espressione precedente puo essere ricavata da semplicirisultati sulla distribuzione asintotica di forme quadratiche di variabili normali e si puo verificareche e χ2

p.Quando, come nel caso di modelli di regressione logistica, il vettore non ristretto dei

parametri ha dimensione n, non esiste alcuno stimatore consistente del modello sotto H1 che haun numero di parametri pari a n, e quindi la distribuzione di cui sopra non converge a una χ2.Possiamo tuttavia ricavare la distribuzione del rapporto di verosimiglianza per confrontare duemodelli ristretti che siano pero uno contenuto nell’altro. Senza perdita di generalizta possiamoscrivere H1 come λ = Zα + Xβ dove sotto H0 : β = 0. Infatti, sviluppi simili a quelli vistisopra mostrano che

2[L(θ1)− L(θ0)] = minλ=Zα+Xβ(Zα + Xβ − v)′F−10 (Zα + Xβ − v)

− minλ=Zα(Zα− v)′F−10 (Zα− v) + op(1)

da cui, applicando ancora risultati di base sulla distribuzione di forme quadratiche di variabilinormali, segue che l’espressione precedente ha distribuzione asintotica χ2 con gradi di livertapari al rango di X. Questo significa che esiste una procedura asintotica che non dipende daiparametri di disturbo per verificare l’ipotesi che un dato modello puo essere semplificato.

23

Consideriamo infine il caso in cui H0 e definita da un insieme di p vincoli non linearih0(θ) = 0, dove le funzioni hj0(θ) sono continue e derivabili. Allora e possibile costruire unvettore di funzioni h(θ) = τ che includono h0(θ) come le ultime p e che siano una trasformazioneinvertibile e derivabile di θ. Questo implica che possiamo riscrivere l’espansione precedente perτ invece che per θ. In altre parole, se i vincoli sono definiti su funzioni non lineari ma derivabili,la distribuzione asintotica e praticamente identica, basta approssimare localmente le funzionidei vincoli.

24