41
5.3. Informaci´ on y cota de Cram´ er–Rao 39 5.3. Informaci´on y cota de Cram´ er–Rao Es deseable disponer de estimadores con el menor error cuadr´atico medio posible, o alternativamente, de estimadores insesgados con la menor varianza posible. Como vamos a ver en esta secci´ on, existe una cota, conocida como la cota de Cram´ er–Rao (teorema 5.11), que dependes´olo de la “forma” de (o mejor, decu´ anto var´ ıa al moverse el par´ ametro de inter´ es la forma de) la funci´on de masa/densidad, y que restringe cu´ an peque˜ no puede llegar ser ese error cuadr´atico medio, poniendo as´ ı un l´ ımite a la ambici´on en la b´ usqueda de estimadores insesgados de varianza peque˜ na. Antes de iniciar la discusi´ on, vamos a analizar una situaci´on especialmente sen- cilla, que justificar´ a algunas de las nociones que vamos a introducir para tratar la situaci´on general. Supongamos que la variable X es una variable aleatoria continua con funci´ on de densidad f (x; θ), y que s´ olo hay (o s´ olo nos interesan) dos posibles valores distintos del par´ametro: θ 0 y θ 1 . Suponemos, tambi´ en para simplificar, que en ambos casos las funciones de densidad tienen soporte en todo R. El objetivo, como se ha explicado en discusiones anteriores, es obtener informa- ci´ on sobre el valor del par´ametro a partir de muestras de la variable, lo que en este caso supone simplemente distinguir si las muestras se produjeron con el valor θ 0 o con el valor θ 1 . Digamos que n = 1, es decir, que la muestra consta de un ´ unico dato, que denotamos por x, y consideremos la funci´ on (5.8) f (x; θ 1 ) f (x; θ 0 ) f (x; θ 0 ) , que mide la diferencia (relativa) entre las dos funciones de densidad en x. Tomamos como referencia el valor θ 0 , y promediamos ahora sobre todas las posi- bles muestras. Es decir, consideramos que la muestra se genera con θ 0 , y consideramos la expresi´on (5.8) como unavariable aleatoria. Primero, comprobamos quesu media vale 0: E θ 0 f (X; θ 1 ) f (X; θ 0 ) f (X; θ 0 ) = R f (x; θ 1 ) f (x; θ 0 ) f (x; θ 0 ) f (x; θ 0 ) dx = R f (x; θ 1 ) dx R f (x; θ 0 ) dx =1 1=0, (5.9) pues tanto f (x; θ 0 ) como f (x; θ 1 ) son funciones de densidad. Como la media es 0, para medir la magnitud (promediada sobre muestras) de esa diferencia relativa recurrimos a la varianza, que en este caso es V θ f (X; θ 1 ) f (X; θ 0 ) f (X; θ 0 ) = E θ 0 f (X; θ 1 ) f (X; θ 0 ) f (X; θ 0 ) 2 = R f (x; θ 1 ) f (x; θ 0 ) f (x; θ 0 ) 2 f (x; θ 0 ) dx = R f (x; θ 1 ) f (x; θ 0 ) 1 2 f (x; θ 0 ) dx . (5.10) notas de estad´ ıstica I – 16 de noviembre de 2017 – jose l. fern´ andez y pablo fern´ andez

5.3. Informaci´on y cota de Cram´er–Raoverso.mat.uam.es/~pablo.fernandez/5-estimacion-parte2... · 2018-05-26 · Informaci´on y cota de Cram´er–Rao 41 Definici´on 5.3 (Variables

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

5.3. Informacion y cota de Cramer–Rao 39

5.3. Informacion y cota de Cramer–Rao

Es deseable disponer de estimadores con el menor error cuadratico medio posible,o alternativamente, de estimadores insesgados con la menor varianza posible.

Como vamos a ver en esta seccion, existe una cota, conocida como la cota deCramer–Rao (teorema 5.11), que depende solo de la “forma” de (o mejor, de cuantovarıa al moverse el parametro de interes la forma de) la funcion de masa/densidad,y que restringe cuan pequeno puede llegar ser ese error cuadratico medio, poniendoası un lımite a la ambicion en la busqueda de estimadores insesgados de varianzapequena.

Antes de iniciar la discusion, vamos a analizar una situacion especialmente sen-cilla, que justificara algunas de las nociones que vamos a introducir para tratar lasituacion general. Supongamos que la variable X es una variable aleatoria continuacon funcion de densidad f(x; θ), y que solo hay (o solo nos interesan) dos posiblesvalores distintos del parametro: θ0 y θ1. Suponemos, tambien para simplificar, queen ambos casos las funciones de densidad tienen soporte en todo R.

El objetivo, como se ha explicado en discusiones anteriores, es obtener informa-cion sobre el valor del parametro a partir de muestras de la variable, lo que en estecaso supone simplemente distinguir si las muestras se produjeron con el valor θ0 ocon el valor θ1.

Digamos que n = 1, es decir, que la muestra consta de un unico dato, quedenotamos por x, y consideremos la funcion

(5.8)f(x; θ1)− f(x; θ0)

f(x; θ0),

que mide la diferencia (relativa) entre las dos funciones de densidad en x.

Tomamos como referencia el valor θ0, y promediamos ahora sobre todas las posi-bles muestras. Es decir, consideramos que la muestra se genera con θ0, y consideramosla expresion (5.8) como una variable aleatoria. Primero, comprobamos que su mediavale 0:

Eθ0

(f(X; θ1)− f(X; θ0)

f(X; θ0)

)=

∫R

f(x; θ1)− f(x; θ0)

f(x; θ0)f(x; θ0) dx

=

∫R

f(x; θ1) dx−∫R

f(x; θ0) dx = 1− 1 = 0,(5.9)

pues tanto f(x; θ0) como f(x; θ1) son funciones de densidad.

Como la media es 0, para medir la magnitud (promediada sobre muestras) de esadiferencia relativa recurrimos a la varianza, que en este caso es

(f(X; θ1)− f(X; θ0)

f(X; θ0)

)= Eθ0

[(f(X; θ1)− f(X; θ0)

f(X; θ0)

)2]=

∫R

(f(x; θ1)− f(x; θ0)

f(x; θ0)

)2f(x; θ0) dx =

∫R

(f(x; θ1)f(x; θ0)

− 1)2

f(x; θ0) dx .(5.10)

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

40 Capıtulo 5. Estimacion (puntual) de parametros

Veamos. Supongamos que esta varianza fuera pequena, practicamente 0. Eso querrıadecir que el integrando serıa muy pequeno en todo su soporte (que es R), y portanto f(x; θ0) habrıa de ser muy similar a f(x; θ1) en todo el soporte. La conclusionserıa que las dos funciones de densidad serıan practicamente indistinguibles, y quela muestra en sı no nos sera de gran utilidad para discernir entre θ0 y θ1.

El caso de muestras de tamano n es analogo. Si partimos de

(5.11)f(x; θ1)− f(x; θ0)

f(x; θ0), con x = (x1, . . . , xn),

se comprueba de nuevo que la variable aleatoria correspondiente tiene media 0, su-poniendo que son muestras aleatorias de X con θ0,

Eθ0

(f(X; θ1)− f(X; θ0)

f(X; θ0)

)=

∫Rn

f(x; θ1)− f(x; θ0)

f(x; θ0)f(x; θ0) dx

=

∫Rn

f(x; θ1) dx−∫Rn

f(x; θ0) dx = 1− 1 = 0,(5.12)

pues f(x; θ0) y f(x; θ1) son funciones de densidad, e interpretamos de nuevo comoque en un valor pequeno de la varianza

(5.13) Vθ

(f(X; θ1)− f(X; θ0)

f(X; θ0)

)=

∫Rn

(f(x; θ1)f(x; θ0)

− 1)2

f(x; θ0) dx

se corresponde con la situacion en la que las dos funciones de densidad son casiindistinguibles, y sera extremadamente complicado discernir si las muestras fuerongeneradas con θ0 o con θ1.

Para extender el argumento a una situacion mas general, podrıamos considerar,en lugar de la cantidad (5.11), la siguiente variacion:

f(x; θ1)− f(x; θ0)

θ1 − θ0

1

f(x; θ0),

que sugiere que, pasando al lımite, la cantidad de interes sera

∂∂θf(x; θ)

f(x; θ), que se puede escribir como

∂θln f(x; θ) .

Por analogıa con la situacion descrita antes, una varianza pequena de la variable∂∂θ ln f(X; θ) se correspondera con la situacion en que la funcion de densidad (demuestras) para un cierto θ sera casi indistinguible de la funcion de densidad (demuestras) para valores del parametro muy cercanos a ese θ. Es hora ya de formalizar.

Variables rocosas

Para poner en practica el plan de analisis que hemos esbozado mas arriba y podercomparar funciones de densidad para valores proximos de θ, usando derivadas res-pecto de θ, vamos a restringirnos a variables aleatorias que denominaremos rocosas,y que se definen como sigue:

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.3. Informacion y cota de Cramer–Rao 41

Definicion 5.3 (Variables rocosas) Decimos que una variable X es rocosa si sufuncion de densidad/masa f(x, θ) cumple los siguientes requisitos:

a) el espacio de parametros es un intervalo (abierto) Θ = (a, b), −∞ ≤ a < b ≤ ∞;

b) el soporte sop es fijo y no depende de θ ∈ Θ;

c) para cada x ∈ sop, la funcion θ ∈ Θ �→ f(x, θ) es C2, es decir, tiene segundasderivadas continuas;

d) por ultimo, para cada θ ∈ Θ,∫sop

∣∣∣∂ ln f(x, θ)∂θ

∣∣∣2 f(x; θ) dx < +∞.

En lo sucesivo nombraremos como rocosas tanto a las variables, como a suscorrespondientes funciones de masa/densidad, siempre que cumplan las exigenciasanteriores.

Las familias de funciones de masa/densidad habituales son todas rocosas, salvola notable excepcion de la uniforme: unif[0, a] con espacio de parametros a ∈ Θ =(0,+∞) y con sopa = [0, a].

La hipotesis a) es natural, pues pretendemos derivar con respecto a θ. Y dada b),la hipotesis c) tambien es natural. Para ciertos resultados, en c) nos bastara con quef(x; θ) sea funcion continua de θ o que tenga primeras derivadas continuas, pero condos derivadas continuas abarcamos todas las aplicaciones de interes.

Sobre la hipotesis b). Imagine, lector: derivamos f(x; θ) con respecto a θ. Vea-mos: cocientes incrementales. Fijamos θ y x, que habra de estar en sopθ; ahoravariamos θ, pero, ¡hum!, el soporte se mueve, a su vez, y ya no estamos seguro desi x. . . La hipotesis b) evita este cırculo de dependencias. Mas adelante discutiremosla relevancia de esta hipotesis de soporte fijo.

La condicion integral d) dice que para cada θ ∈ Θ, la variable Y = ln f(X, θ),que va a desempenar un papel central en lo que sigue, satisface

Eθ(Y2) =

∫sop

∣∣∣∂ ln f(x, θ)∂θ

∣∣∣2 f(x; θ) dx < +∞

y, nos permitira tomar esperanzas y varianzas de Y sin grave riesgo para la salud.

Derivadas de la funcion de densidad/masa

Usamos ∂θ, en lugar de ∂/∂θ, para denotar derivadas respecto de θ. Usaremosesa notacion aunque haya un solo parametro θ ∈ Θ. No usaremos ni dθ ni d/dθ.

Supongamos que f(x, θ) es rocosa.

Para x ∈ sopn, con la regla de Leibniz se tiene que

(5.14) ∂θ(f(x; θ)

)= ∂θ

( n∏j=1

f(xj; θ))=

n∑j=1

∂θf(xj; θ)f(x; θ)

f(xj; θ),

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

42 Capıtulo 5. Estimacion (puntual) de parametros

es decir,

∂θf(x; θ)

f(x; θ)=

n∑j=1

∂θf(xj; θ)

f(xj; θ)

(expresion que se podıa haber obtenido igualmente tomado logaritmos en f(x; θ) =∏nj=1 f(xj; θ) y luego derivando). Podemos reescribir la expresion anterior en la forma

∂θ ln f(x; θ) =n∑

j=1

∂θ ln(f(xj ; θ)).

Observese que, para θ ∈ Θ, tanto ∂θ ln(f(x; θ)) como ∂θ(ln f(x; θ)) estan bien defi-nidas para x ∈ sop y x ∈ sopn, respectivamente.

En los apartados que siguen introduciremos los conceptos de variable de infor-macion y cantidad de informacion de una variable X para luego plantear y estudiaruno de los resultados centrales del curso: la cota de Cramer–Rao.

El manejo de estos conceptos en situacion general requiere prestar atencion aciertas cuestiones analıticas, fundamentalmente relacionadas con la derivacion bajoel signo integral y con la derivacion de series, que como el lector recuerda no se debentratar a la ligera.

Si le parece, lector, para estudiar estos conceptos y sus propiedades, argumenta-remos primero en la situacion de variables rocosas y finitas (con sop comun finito)y en el que estas sutilezas analıticas no desempenan papel alguno, para poder asıpresentar lo esencial de los argumentos.

Luego, por supuesto, estudiaremos la situacion general (en realidad, una situacionbastante general) centrandonos en como incorporar cabalmente la gestion de estosdetalles.

5.3.1. Informacion y cantidad de informacion de una variable

Con el objetivo de promediar la cantidad anterior, ∂θ ln f(x; θ), sobre muestras x,consideramos primero la variable aleatoria Y dada por

(5.15) Y =∂θf(X; θ)

f(X; θ)= ∂θ ln f(X; θ)

a la que nos referiremos como la informacion de la variable X.

Para cada θ ∈ Θ, la variable Y esta definida por la expresion anterior si x ∈ sop;fuera de sopθ entendemos que Y ≡ 0. Observese que Y es una funcion de X.

La varianza de la variable de informacion Y es conocida como cantidad deinformacion o informacion de Fisher de f(x; θ), y se denota por IX(θ):

(5.16) IX(θ) = Vθ(Y ) = Vθ(∂θ ln(f(X; θ))

Observese que IX(θ) es una funcion definida para θ ∈ Θ.

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.3. Informacion y cota de Cramer–Rao 43

Para variables rocosas y finitas, como vamos a comprobar seguidamente, se tienesiempre que Eθ(Y ) = 0. Para variables rocosas pero no finitas, hacen falta hipotesisadicionales, que discutiremos mas adelante en el apartado 5.3.2 y que, le anticipamos,lector, son bastante generales, si es que queremos asegurar que Eθ(Y ) = 0.

Lema 5.4 (de Diotivede6, caso de soporte finito). Si X es variable aleatoriarocosa con soporte finito, entonces

Eθ(Y ) = 0 , para cada θ ∈ Θ .

Ademas,

IX(θ) = Vθ(Y ) = Eθ

((∂θf(X; θ)

f(X; θ)

)2).

Demostracion. Observese primero que

(5.17) 1 =∑

x∈sopf(x; θ) , para todo θ ∈ Θ .

Esta es una suma finita, pues sop es, por hipotesis, finito. Ası que derivando (5.17)respecto de θ en el intervalo Θ obtenemos que

0 =∑

x∈sop∂θf(x; θ) =

∑x∈sop

(∂θf(x; θ)f(x; θ)

)f(x; θ) = Eθ(Y ) .

Para la segunda parte, como Eθ(Y ) = 0, se tiene que que Vθ(Y ) = Eθ(Y2). �

A. Ejemplos de calculo de cantidad de informacion

Veamos como se obtiene la variable de informacion y como se calcula la cantidadde informacion en los modelos mas habituales. En todos los ejemplos que siguen,como iremos comprobando, se tiene Eθ(Y ) = 0, aunque solo el caso de X ∼ ber(p)es de una variable finita y se puede aplicar el lema 5.4 de Diotivede, caso de soportefinito.

En todos ellos se tiene, por tanto, que IX(θ) = Vθ(Y ) = Eθ(Y2).

Ejemplo 5.3.1. Cantidad de informacion para X ∼ ber(p).

Aquı sop = {0, 1} y Θ = (0, 1). Tenemos que

f(1; p) = p =⇒ ln(f(1; p)) = ln(p) =⇒ ∂p ln(f(1; p)) =1

p,

f(0; p) = 1− p =⇒ ln(f(0; p)) = ln(1− p) =⇒ ∂p ln(f(0; p)) = − 1

1− p

6Diotivede, Teodoro Diotivede.

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

44 Capıtulo 5. Estimacion (puntual) de parametros

En otras palabras, cuando X = 1 se tiene Y = 1/p y cuando X = 0 se tieneque Y = −1/(1 − p). Una alternativa para compactar esta relacion entre X e Y esescribir

Y =X − p

p(1− p).

Como Ep(X) = p, se tiene que Ep(Y ) = 0. Ademas, como Vp(X) = p(1− p),

IX(p) = Vp(Y ) =1

p2(1− p)2Vp(X − p) =

1

p2(1− p)2Vp(X) =

1

p(1− p).

Ejemplo 5.3.2. Cantidad de informacion para una poisson(λ), con λ > 0.

Aquı, sop = {0, 1, . . . } y Θ = (0,+∞). Como

ln f(k;λ) = −λ+ k ln(λ)− ln(k!) , para k ≥ 0 y λ > 0 ,

(donde 0! = 1, como de costumbre), se tiene que

∂λ ln f(k;λ) = −1 +k

λ=

1

λ(k − λ) , para k ≥ 0 y λ > 0 ,

En otros terminos, si X toma el valor k, entonces Y toma el valor 1λ(k − λ).

Podemos registrar compactamente esta relacion entre X e Y mediante

Y =1

λ

(X − λ) .

El soporte de la variable Y es el conjunto {(k − λ)/λ; k = 0, 1, . . .}.Observese que Eλ(Y ) = 0, pues Eλ(X) = λ, y que

Vλ(Y ) =1

λ2Vλ(X − λ) =

1

λ2Vλ(X) =

1

λ,

usando que Vλ(X) = λ. Ası que

IX(λ) =1

λ, para cada λ ∈ (0,+∞) .

Ejemplo 5.3.3. Cantidad de informacion para X ∼ exp(λ).

Consideramos como parametro de interes θ = 1/λ, la media de la distribucion.Escribimos la funcion de densidad de la exponencial como

f(x; θ) =1

θe−x/θ , para x > 0 .

Aquı, Θ = (0,+∞) y sop = (0,+∞).

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.3. Informacion y cota de Cramer–Rao 45

Esto nos da que(∂θ ln f(x; θ)

)=

(x− θ)

θ2, y por tanto, Y =

X − θ

θ2.

Como Eθ(X) = (1/λ) = θ y que Vθ(X) = (1/λ2) = θ2, se deduce que Eθ(Y ) = 0 y

IX(θ) = Vθ(Y ) =1

θ4Vθ(X − θ) =

1

θ4Vθ(X) =

1

θ2. ♣

Ejemplo 5.3.4. Cantidad de informacion para X ∼ N (μ0, σ2). Aquı, μ0 es un

dato conocido.

Observe, lector, que estamos suponiendo de partida que se sabe que la mediade esta distribucion normal es μ0. Queremos estimar θ = σ2 ∈ Θ = (0,+∞). Aquı,sop = R. Tenemos

f(x; θ) =1√

2π√θe−

12(x−μ0)2/θ para todo x ∈ R .

De manera que

ln(f(x; θ)) = ln( 1√

)−1

2ln(θ)−1

2

(x−μ0)2

θ=⇒ ∂θ ln(f(x;σ)) =

(x−μ0)2 − θ

2θ2,

y por tanto

Y =(X − μ0)

2 − θ

2θ2.

Observese que X = μ0 +√θZ, donde Z ∼ N (0, 1). Ası que Eθ((X − μ0)

2) = θ, loque nos dice que Eθ(Y ) = 0.

Finalmente,

IX(θ) = Vθ(Y ) =1

4θ4Vθ((X−μ0)

2−θ) =1

4θ4Vθ((X−μ0)

2) =1

4θ2Vθ(Z

2) =1

2θ2,

usando que Vθ(Z2) = Eθ(Z

4) − Eθ(Z2)2 = 2, pues E(Z2) = 1 y E(Z4) = 3 si Z es

normal estandar (nota 2.3.4). ♣

Ejemplo 5.3.5. Cantidad de informacion para X ∼ N (μ, σ20), con σ2

0 conocida.

El parametro de interes es μ ∈ R. Se tiene

f(x;μ) =1

σ0√2π

e−12(x−μ)2/σ2

0 , para todo x ∈ R .

Por tanto,

∂μ ln(f(x;μ)) =x− μ

σ20

=⇒ Y =X − μ

σ20

.

De manera que Eμ(Y ) = 0, puesto que Eμ(X) = μ, e

IX(μ) =1

σ40

((X − μ)2

)=

Vμ(X)

σ40

=σ20

σ40

=1

σ20

,

que, observese, es una constante (no depende de μ). ♣

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

46 Capıtulo 5. Estimacion (puntual) de parametros

Ejemplo 5.3.6. Cantidad de informacion para la distribucion de Rayleigh.

La funcion de densidad de X ∼ ray(σ2), viene dada por

f(x;σ2) =

{xσ2 e

−x2/2σ2si x ≥ 0 ,

0 si x < 0 .

Como el parametro de la distribucion de Rayleigh es σ2, para los calculos conderivadas respecto de parametros que siguen conviene poner θ = σ2:

f(x; θ) =

{xθ e

−x2/2θ si x ≥ 0 ,

0 si x < 0 .

Recuerde, lector, que

Eθ(X2) = 2θ y Vθ(X

2) = 4θ2 .

Calculamos

∂θ ln(f(θ;x)) = −1

θ+

x2

2θ2=

1

2θ2(x2 − 2θ),

ası que

Y =1

2θ2(X2 − 2θ

).

Observese que Eθ(Y ) = 0, y que

IX(θ) = Vθ(Y ) =1

4θ4Vθ(X

2 − 2θ) =1

4θ4Vθ(X

2) =1

θ2.

Veamos a continuacion un ejemplo adicional, mas alla de los sospechosos habi-tuales.

Ejemplo 5.3.7. Sea X una variable con funcion de densidad f(x;α) = αxα−1 para0 < x < 1, donde α es un parametro positivo, α > 0.

Nos interesa estimar el parametro θ = 1/α, ası que escribimos:

f(x; θ) =1

θx1/θ−1 .

Aquı sop = (0, 1) y Θ = (0,+∞).

Como

∂θ ln(f(x; θ)) =1

θ2

(ln( 1x

)− θ),

se tiene que

Y =1

θ2

(ln( 1

X

)− θ).

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.3. Informacion y cota de Cramer–Rao 47

Observese que, para cada entero k ≥ 0,

((ln(1/X)

)k)=

∫ 1

0

(ln(1/x)

)k 1

θx1/θ−1 dx

[x=e−θy]= θk

∫ ∞

0yk e−y dy

= θk Γ(k + 1) = θk k! ,

apelando En particular,

Eθ(ln(1/X)) = θ y Vθ(ln(1/X)) = Eθ(ln(1/X)2)−Eθ(ln(1/X))2 = 2θ2−θ2 = θ2.

Esto nos da, por un lado, que Eθ(Y ) = 0, como ya es habitual, y por otro que

IX(θ) = Vθ(Y ) =1

θ4Vθ

(ln(1/X) − θ

)=

1

θ4Vθ

(ln(1/X)

)=

1

θ2.

B. Significado de la cantidad de informacion

Antes de estudiar como interviene la cantidad de informacion IX(θ) en la cotade Cramer–Rao, que es el objeto de la proxima seccion 5.3.2, nos detenemos unmomento en el analisis de los resultados de tres de los ejemplos anteriores, parapercibir mejor el significado de la cantidad de informacion.

Para X ∼ N (μ, 1), hemos visto (ejemplo 5.3.5) que IX(μ) = 1, una constanteque no depende de μ. Lo que, siguiendo el razonamiento con el que abrıamos estaseccion 5.3, nos dice que distinguir, a partir de muestras, digamos, un valor μ = 0de un valor μ = 0.1 sera tan facil/difıcil como discernir entre, por ejemplo, μ = 7 deun valor μ = 7.1. Lo que es bien natural si observamos que trasladar el parametro μen una normal no cambia la forma de la distribucion.

Cuando X ∼ ber(p), tenemos (ejemplo 5.3.1) que IX(p) = 1/(p(1 − p)). Estafuncion tiene mınimo en p = 1/2, y tiende a ∞ cuando p → 0 o p → 1. Ası quesera mucho mas difıcil distinguir, a partir de muestras, entre por ejemplo p = 50% yp = 51%, que entre p y p+1% si p es muy pequeno. Para ilustrarlo con un ejemploextremo (¡muy extremo!), supongamos que pretendemos discernir entre p = 0% yp = 1% a partir de una muestra de tamano 100. Observese que, en cuanto en esamuestra aparezca un 1, nos decantaremos por p = 1%. Por el contrario, observemoscuan difıcil (y aventurado) serıa decantarnos por p = 50% o por p = 51% si en esamuestra tuvieramos, por ejemplo, 50 ceros y 50 unos.

Veamos, por ultimo, el caso en el que X ∼ exp(λ), pero donde el parametro deinteres es la esperanza θ = 1/λ. Ahora tenemos IX(θ) = 1/θ2 (ejemplo 5.3.3), quees pequeno cuando θ es grande. La funcion de densidad es f(x; θ) = 1

θ e−x/θ. Si θ es

muy grande, entonces las funciones de densidad del caso θ y, por ejemplo, θ+1, sonpracticamente indistinguibles. Pero si θ es por ejemplo proximo a 0, entonces θ + 1es casi un 1, lo que es un mundo de diferencia. Veanse las figuras, que correspondena θ = 0.1 y θ = 10, respectivamente.

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

48 Capıtulo 5. Estimacion (puntual) de parametros

En el primer caso sera relativamente sencillo distinguir los dos parametros a partirde las muestras, mientras que en el segundo sera extremadamente complicado.

C. Informacion y cantidad de informacion de una muestra aleatoria

Para una muestra aleatoria (X1, . . . ,Xn) de X, consideramos las variables deinformacion de cada Xj , es decir,

Yj =∂θf(Xj; θ)

f(Xj; θ), para 1 ≤ j ≤ n .

Las variables de informacion son clones de Y y son independientes entre sı. Lasuma Zn de estas Yj,

(5.18) Zn =

n∑j=1

Yj ,

es funcion de la muestra (X1, . . . ,Xn)) y, por tanto, un estadıstico.

A Zn se le conoce como variable de informacion (total) de la muestra,

A la varianza Vθ(Zn) de la informacion (total) Zn se le conoce como cantidadde informacion (total) de la muestra.

Lema 5.5 Para variables rocosas y finitas se tiene, para cada θ ∈ Θ, que

Eθ(Zn) = 0 y Vθ(Zn) = n IX(θ) .

Demostracion. Recuerdese que, para cada j = 1, . . . , n, Eθ(Yj) = 0 y Vθ(Yj) =IX(θ). Esto nos da directamente que

Eθ(Zn) =n∑

j=1

Eθ(Yj) = 0 ;

y por la independencia de las Yj , que

Vθ(Zn) =n∑

j=1

Vθ(Yj) = n IX(θ) .�

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.3. Informacion y cota de Cramer–Rao 49

5.3.2. La cota de Cramer–Rao

La cota de Cramer–Rao, que nos ocupa ahora, es una cota inferior para la varianzade los estimadores insesgados del parametro θ, que solo depende de la cantidad deinformacion de X. De nuevo presentamos el argumento que nos conduce a esa cotaprimero para variables finitas (rocosas, por supuesto).

En el apartado 5.3.2 veremos condiciones bastante generales sobre la familiaf(x; θ) y sobre el estimador bajo las que se tiene la cota de Cramer–Rao en el casono finito.

Supongamos que la variable X es rocosa y tiene soporte sop finito. Su funcionde masa se denota por f(x; θ). El espacio de parametros es Θ.

Sea T un estadıstico insesgado del parametro θ para muestras de tamano n. Estoes, T = h(X1, . . . ,Xn) para una cierta funcion h, y ademas

θ = Eθ(T ) , para todo θ ∈ Θ .

Reescribimos que T es insesgado en la forma

(5.19) θ = Eθ

(h(X1, . . . ,Xn)

)=∑

x∈sopn

h(x) f(x; θ) .

Derivando (5.19) respecto de θ, y usando (5.14), tenemos, pues se trata de unasuma finita, que

1 =∑

x∈sopn

h(x)( n∑

j=1

∂θf(xj; θ)

f(xj; θ)

)f(x; θ)

que volvemos a escribir, inasequibles al desaliento, como esperanza en la forma

1 = Eθ(T · Zn) ,

utilizando la variable Zn de informacion de la muestra, definida en (5.18).

Ahora, como Eθ(Zn) = 0 (lema 5.5),

1 = Eθ(T · Zn)−Eθ(T )Eθ(Zn) = covθ(T,Zn) .

De la desigualdad de Cauchy–Schwarz, teorema 2.2, que dice que

covθ(T,Zn) ≤√

Vθ(T )√

Vθ(Zn) ,

se deduce que1 ≤ Vθ(T )Vθ(Zn) = Vθ(T )n IX(θ) ,

usando de nuevo el lema 5.5 en la ultima identidad.

En otros terminos, hemos probado:

Teorema 5.6 (Cota de Cramer–Rao, caso de soporte finito) Si X es una va-riable aleatoria rocosa y con soporte finito, entonces para todo estadıstico insesgado Tde θ para muestras de tamano n se cumple que

Vθ(T ) ≥ 1

n IX(θ), para todo θ ∈ Θ

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

50 Capıtulo 5. Estimacion (puntual) de parametros

La relevancia de este resultado es que esta cota inferior para la varianza de Tcomo estimador depende de la distribucion de X directamente y de θ, y no delestimador. La cota es valida para todos los estimadores insesgados: siempre hay unacierta dispersion (varianza), al menos la que viene dada por la cota de Cramer–Rao.Parafraseando,

todo estimador insesgado de θ tiene una varianza no inferior a 1/(nIX(θ)).

A un estimador insesgado T del parametro θ cuya varianza es justamente la cotade Cramer–Rao, es decir, tal que

Vθ(X) · IX(θ) =1

n, para todo θ ∈ Θ,

se le dice estimador eficiente o insesgado de mınima varianza. Tal estimadores mas eficiente que cualquier otro estimador de θ.

A. Ejemplos de cotas de Cramer–Rao y estimadores eficientes.

Sigue ahora una lista de ejemplos, las familias habituales, donde calculamos lacota de Cramer–Rao (que en realidad ya esta calculada, pues conocemos la cantidadde informacion) y donde investigamos posibles estimadores eficientes.

Solo el primero de los ejemplos, ber(p) es finito. Los demas ejemplos cumplenlas condiciones del apartado 5.3.2 y, por tanto, para ellos se cumple tambien la cotade Cramer–Rao.

Ejemplo 5.3.8. Cota de Cramer–Rao para X ∼ ber(p).

Como ya sabemos del ejemplo 5.3.1,

IX(p) =1

p(1− p),

y, por tanto, la cota de Cramer–Rao es

p(1− p)

n.

Como X es insesgado y Vp(X) = Vp(X)/n = p(1 − p)/n, tenemos que X esestimador insesgado de mınima varianza. ♣

Ejemplo 5.3.9. Cota de Cramer–Rao para X ∼ poisson(λ).

Como ya sabemos del ejemplo 5.3.2, las cantidad de informacion es IX(λ) = 1/λ.Ası que la cota de Cramer–Rao es, en este caso, λ/n .

La media muestralX es un estimador insesgado de λ. ComoVλ(X) = Vλ(X)/n =λ/n, tenemos que X es un estimador eficiente, con la mınima varianza posible. ♣

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.3. Informacion y cota de Cramer–Rao 51

Ejemplo 5.3.10. Cota de Cramer–Rao para X ∼ exp(λ).

Queremos estimar el parametro θ = 1/λ, la media de la distribucion. Como yasabemos del ejemplo 5.3.3,

IX(θ) =1

θ2.

Ası que la cota de Cramer–Rao es θ2/n. Y como Vθ(X) = Vθ(X)/n = θ2/n, denuevo, X es estimador insesgado de mınima varianza (estimador eficiente). ♣

Ejemplo 5.3.11. Cota de Cramer–Rao para X ∼ N (μ0, σ2).

Queremos estimar θ = σ2. El valor μ0 es conocido. Como ya sabemos del ejem-plo 5.3.4,

IX(θ) =1

2θ2.

Ası que la cota de Cramer–Rao es 2θ2/n.

Como ya vimos en el ejemplo 5.1.10, para la cuasivarianza muestral S2, que esun estimador insesgado de θ, se tiene que

Vθ(S2) =

2θ2

n− 1,

que no alcanza (por poco) la cota de Cramer–Rao.

Recuerdese que X = μ0 +√θ Z, con Z ∼ N (0, 1). Ası que Eθ((X − μ0)

2) = θ yEθ((X − μ0)

4) = θ2Eθ(Z4) = 3θ2.

Consideremos, por otro lado, el estadıstico

T =1

n

n∑j=1

(Xj − μ0)2,

que es insesgado, puesEθ(T ) = Eθ((X − μ0)

2) = θ,

y ademas, es, sı, de mınima varianza, porque

Eθ(T2) =

1

n2

( n∑j=1

Eθ((Xj − μ0)4) +

∑1≤i �=j≤n

E((Xi − μ0)2)E((Xj − μ0)

2))

=θ2

n2

(3n+ n(n−1)

)=(1 +

2

n

)θ2

y, por tanto

Vθ(T ) = Eθ(T2)−Eθ(T )

2 =(1 +

2

n

)θ2 − θ2 =

2θ2

n,

que es justo la cota de Cramer–Rao. ♣

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

52 Capıtulo 5. Estimacion (puntual) de parametros

Ejemplo 5.3.12. Cota de Cramer–Rao para X ∼ N (μ, σ20), con σ2

0 conocida.

Queremos estimar θ = μ. Como ya sabemos del ejemplo 5.3.5,

IX(μ) =1

σ20

,

de donde la cota de Cramer–Rao es σ20/n.

La media muestral X es estimador insesgado de μ, y V(X) = V(X)/n = σ20/n.

Ası que la cota se alcanza y X es estimador insesgado de mınima varianza. ♣

Ejemplo 5.3.13. Sea X una variable con funcion de densidad f(x;α) = αxα−1

para 0 < x < 1, donde α es un parametro, α > 0.

Nos interesa estimar el parametro θ = 1/α. Como ya sabemos del ejemplo 5.3.7,

IX(θ) =1

θ2,

y, por tanto, que la cota de Cramer–Rao es θ2/n.

El estadıstico

T (X1, . . . ,X1) =1

n

n∑j=1

ln(1/Xj) .

es un estimador insesgado de θ, y ademas Vθ(T ) = Vθ(ln(1/X))/n = θ2/n. Ası queel estadıstico T es estimador insesgado de mınima varianza de θ. ♣

Ejemplo 5.3.14. Cota de Cramer–Rao para la distribucion de Rayleigh.

Para X ∼ ray(σ2), nombramos el parametro a estimar θ = σ2. Como ya sabemosdel ejemplo 5.3.6, la cantidad de informacion viene dada por

IX(θ) =1

θ2,

de manera que la cota de Cramer–Rao es θ2/n.

Recuerde, lector, que Eθ(X2) = 2θ y que Eθ(X

4) = 8θ2.

El estimador T de maxima verosimilitud de θ (y tambien uno de los estimadorespor momentos), vease el ejemplo 5.2.9, viene dado por T = (1/2)X2. Como Eθ(X

2) =2θ, el estimador T es insesgado.

Ademas,

Eθ(T2) =

1

4

1

n2

( n∑j=1

Eθ(X4j ) +

∑1≤i �=j≤n

E(X2i )E(X2

j ))

=θ2

4n2

(8n+ 4n(n−1)

)=(1 +

1

n

)θ2,

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.3. Informacion y cota de Cramer–Rao 53

de manera que

Vθ(T ) =(1 +

1

n

)θ2 − θ2 =

θ2

n,

y, por tanto, T es estimador eficiente. ♣

B. Complementos sobre la cota de Cramer–Rao

Recogemos, en este apartado, tres observaciones al respecto de la cota de Cramer–Rao, a saber,

la unicidad del estimador eficiente (cuando este exista);

la version del teorema 5.6 de Cramer–Rao para el caso de estimadores sesgados;

y una “expresion” general para el estimador eficiente.

Lema 5.7 (Unicidad del estimador insesgado de mınima varianza) Sean T1

y T2 estimadores insesgados de θ, ambos de mınima varianza. Entonces T1 ≡ T2.

Aquı, T1 ≡ T2 significa que las variables son iguales con probabilidad 1.

En realidad, este resultado no depende de la cota de Cramer–Rao en sı; sim-plemente dice que, con mınima varianza (sea cual sea esta), solo puede haber unestimador insesgado.

Demostracion. Sea S el estimador

S =1

2T1 +

1

2T2 .

El estimador S es insesgado. Es decir, Eθ(S) = θ, para todo θ. Ademas,

Vθ(S) =1

4Vθ(T1) +

1

4Vθ(T2) +

1

2covθ(T1, T2)

≤ 1

4Vθ(T1) +

1

4Vθ(T2) +

1

2

√Vθ(T1)

√Vθ(T2) = Vθ(T1) = Vθ(T2) .

Como T1 (o T2) son de mınima varianza, se ha de cumplir que Vθ(S) = Vθ(T1) =Vθ(T2), para cada θ. Es decir, en la cadena anterior ha de haber igualdades, y portanto

covθ(T1, T2) =√

Vθ(T1)√

Vθ(T2).

Ası que estamos en el caso de igualdad en Cauchy–Schwarz, en el que se tiene que,para ciertas funciones a(θ) y b(θ), se cumple que

() T2 = a(θ)T1 + b(θ).

Como T1 y T2 son insesgados y de igual varianza, deducimos7 que a ≡ 1 y b ≡ 0. �7En realidad, de la condicion de iguales varianzas se deduce que a2(θ) = 1, y por tanto a(θ) = ±1.

Tomando a(θ) = 1 se deduce que b(θ) = 0. La otra “solucion”, a(θ) = −1, llevarıa a b(θ) = 2θ; peroesto contradirıa la definicion de estadıstico, que no puede contener referencias al parametro θ.

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

54 Capıtulo 5. Estimacion (puntual) de parametros

El siguiente resultado exhibe una suerte de cota de Cramer–Rao para estimadoressesgados o no. Siguiendo los pasos de la demostracion del teorema 5.6, se puedeobtener:

Teorema 5.8 Sea T un estimador (no necesariamente insesgado) de θ. LlamemosmT (θ) = Eθ(T ) (si el estimador es insesgado, entonces mT (θ) = θ). Para todoθ ∈ Θ, se tiene que

Vθ(T )

m′T (θ)

2≥ 1

n IX(θ).

En la expresion anterior, a la izquierda hemos escrito todo lo que depende delestimador T . Ahora la cota para la varianza de T es algo menos interesante que enel caso insesgado, pues no depende unicamente de la funcion de densidad f(x; θ).

El siguiente resultado nos da una expresion para el estimador eficiente, en casode que exista.

Proposicion 5.9 Sea X una variable rocosa con funcion de densidad f(x; θ). Si Tes estimador eficiente de θ, entonces

T ≡ Zn

nIX(θ)+ θ.

Observe, lector, que implıcita en el enunciado subyace la hipotesis de que existeun tal estimador eficiente.

Recuerde, lector, que un estimador es una expresion T = h(X1, . . . ,Xn) quedepende tan solo de la muestra y en la que, por supuesto, no puede aparecer elparametro. En la expresion de la proposicion 5.9 aparece el parametro θ en Zn,en IX(θ), y tambien en el sumando θ. Ası que esta expresion de T solo sera util si,como por ensalmo, todas estas apariciones de θ se cancelan y T no depende de θ.

Si ese fuera el caso, si

T =Zn

nIX(θ)+ θ

fuera realmente un estadıstico estimador, entonces serıa insesgado, pues Eθ(Zn) = 0,y de mınima varianza, pues Vθ(Zn) = nIX(θ), y por tanto, Vθ(T ) = 1/(nIX(θ)).

Demostracion. Si T es de mınima varianza, entonces

1 = covθ(T,Zn) ≤√

V(T )√

V(Zn) =√

V(T )nIX(θ) = 1 ,

y, por tanto, covθ(T,Zn) =√

V(T )√V(Zn). El caso de igualdad en la desigualdad

de Cauchy-Schwarz nos dice que

T ≡ αZn + β ,

para ciertos α, β ∈ R. Como Eθ(T ) = θ y Eθ(Zn) = 0, ha de ser β = θ, y comoVθ(T ) = 1/(nIX(θ)) y Vθ(Zn) = nIX(θ), ha de ser α = 1/(nIX(θ)). �

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.3. Informacion y cota de Cramer–Rao 55

En el ejemplo 5.3.11 sobre la cota de Cramer–Rao y estimadores eficientes paraN (μ0, σ

2), con μ0 conocido, vimos que el estimador natural S2 no era estimadoreficiente de σ2. Inopinadamente se propuso allı (X − μ0)2 como estimador. Veamos.

Pongamos, por simplificar notacion, que μ0 = 0. De los ejemplos 5.3.4 y 5.3.11obtenemos que para N (0, σ2), poniendo θ = σ2, tenemos que

Y =X2 − θ

2θ2y Zn = n

X2 − θ

2θ2.

Ademas, IX(θ) = 1/(2θ2).

Por tanto, siguiendo la proposicion 5.9, el estimador eficiente, de existir, ha deescribirse como

T =Zn

nIX(θ)+ θ =

2θ2

nnX2 − θ

2θ2− θ = X2 ,

tras sustituir las expresiones de Zn y de IX(θ) y asistir, asombrados, a la fulminantecancelacion de todas las apariciones del parametro.

C. Condiciones para el lema de Diotivede y el teorema de Cramer–Rao

En el argumento que nos condujo al lema 5.4 de Diotivede en el caso en que lavariable X tiene soporte finito, se ha derivado la ecuacion (5.17) y hemos usado quela derivada de la suma es la suma de las derivadas.

Cuando la variableX es continua, las esperanzas son integrales. Queremos derivarbajo el signo integral la expresion

1 =

∫sop

f(x; θ)dx

para obtener que

0 =

∫sop

∂θf(x; θ)dx =

∫sop

∂θf(x; θ)

f(x; θ)f(x; θ)dx ,

que ya es la conclusion del lema de Diotivede: Eθ(Y ) = 0 .

La siguiente condicion:

para cada intervalo cerrado I ⊂ Θ se tiene que

[dio]

∫x∈sop

supθ∈I

|∂θθf(x, θ)| dx < +∞

permite el intercambio de derivacion e integracion que hemos senalado mas arriba.

Denotemos

AI(x) � supθ∈I

|∂θθf(x, θ)| , para x ∈ sop .

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

56 Capıtulo 5. Estimacion (puntual) de parametros

Fijemos θ ∈ Θ. Sea I ⊂ Θ un intervalo cerrado que contiene a θ en su interior.Sea δ > 0, tal que θ + δ ∈ I. Por 1), tenemos, para x ∈ sop, que

f(x; θ + δ)− f(x; θ)− δ∂θf(x; θ) =

∫ δ

0

∫ θ+η

θ∂θθf(x;φ)dφdη ,

y, por tanto,

()∣∣f(x; θ + δ)− f(x; θ)− δfθ(x; θ)

∣∣ ≤ 1

2δ2AI(x) .

Como f(x; θ + δ) y f(x; θ) son funciones de densidad,

(�)

∫sop

f(x; θ + δ) dx = 1 =

∫sop

f(x; θ) dx .

Por () y (�) (y una division por δ mediante) se tiene que∣∣∣ ∫x∈sop

fθ(x; θ) dx∣∣∣ ≤ 1

∫x∈sop

AI(x) dx .

Como el lado izquierdo no depende de δ y, por la hipotesis 2) , la integral∫x∈sopAI(x) dx

es finita, se deduce haciendo δ → 0 que∫sop

fθ(x; θ) dx = 0 ,

y, por tanto,

Eθ(Y ) =

∫sop

∂θ ln f(x; θ)fθ(x; θ) dx =

∫sop

fθ(x; θ) dx = 0 .

Hemos probado:

Lema 5.10 (de Diotivede) Si X es una variable aleatoria continua, rocosa y quecumple [dio], entonces

Eθ(Y ) = 0 , para cada θ ∈ Θ ,

Ademas,

IX(θ) = Vθ(Y ) = Eθ

((∂θf(x; θ)f(x; θ)

)2).

Para el caso en que X es variable aleatoria discreta (infinita), rocosa, el resultadoes el mismo sustituyendo la condicion [dio] del enunciado por

para cada intervalo cerrado I ⊂ Θ se tiene

[dio]�∑

x∈sopsupθ∈I

|∂θθf(x, θ)| dx < +∞

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.3. Informacion y cota de Cramer–Rao 57

La demostracion es analoga: basta reemplazar∫x∈sop por

∑x∈sop en cada ocu-

rrencia.

Estas condiciones [dio] o [dio]�, se cumplen para toda la baterıa de modelospara X que se usan en la practica.

Ejemplo 5.3.15. Condiciones del lema 5.10 para la familia exp(λ).

Para la familia exponencial tenemos que sop = (0,+∞) y que Θ = (0,+∞).Para x ∈ sop y λ > 0 se tiene f(x;λ) = λe−λx.

Tenemos

∂λλf(x;λ) = −(2x+ λx2)e−λx , para λ > 0 y x > 0 ,

y f(x;λ) es rocosa. Si I = [α, β] ⊂ (0,+∞) = Θ, (ası que α > 0 y β < +∞) se tiene

AI(x) ≤ (2x+ βx2)e−αx , para x > 0 ,

De manera que∫ ∞

0AI(x) dx ≤

∫ ∞

0(2x+ βx2)e−αxdx =

2

α2+

α3< +∞ .

En la demostracion del teorema 5.6 de Cramer–Rao en el caso de soporte finito,ademas de derivar la funcion de densidad como en el lema de Diotivede, se deriva laidentidad

θ = Eθ(T ) = Eθ

(h(X1, . . . ,Xn)

)=∑

x∈sopn

h(x) f(x; θ) ,

respecto de θ ∈ Θ, donde T es el estimador insesgado dado por T = h(X1, . . . ,Xn).

En el caso continuo habremos de derivar

θ = Eθ(T ) = Eθ

(h(X1, . . . ,Xn)

)=

∫x∈sopn

h(x) f(x; θ) , dx

.

La condicion

para cada intervalo cerrado I ⊂ Θ se tiene que

[cr]

∫x∈sop

h(x) supθ∈I

|∂θθf(x, θ)| dx1 · · · dxn < +∞ .

involucra a la variable X y al estadıstico T .

Teorema 5.11 (Cota de Cramer–Rao) Sea X es una variable aleatoria conti-nua, rocosa y que cumple [dio], y sea T un estadıstico insesgado que se cumple[cr]. Entonces,

Vθ(T ) ≥ 1

n IX(θ), para todo θ ∈ Θ.

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

58 Capıtulo 5. Estimacion (puntual) de parametros

La condicion [dio] nos da que Eθ(Y ) = 0 y que Eθ(Zn) = 0, mientras que lacondicion [cr] nos permite derivar bajo el signo integral de manera analoga a comose hizo en la demostracion del lema 5.10 de Diotivede.

Para variables discretas (de soporte infinito) la condicion [cr] se traslada en

para cada intervalo cerrado I ⊂ Θ se tiene que

[cr]�∑

x∈soph(x) sup

θ∈I|∂θθf(x, θ)| < +∞ .

y bajo [dio]� y [cr]� la conclusion de la cota de Cramer–Rao sigue siendo valida.

D. Soporte dependiente del parametro

Hemos derivado el lema de Diotivede y la cota de Cramer–Rao para variablesrocosas con alguna hipotesis adicional en el caso de soporte no finito. Una de lascondiciones para que una variable sea rocosa es que su soporte sea independiente delparametro θ ∈ Θ. Esta hipotesis no es unicamente conveniente para los calculos, sinode hecho, indispensable.

En el ejemplo siguiente, la uniforme unif[0, a], vamos a ver que no se cumplenlas conclusiones ni del lema de Diotivede ni de la cota de Cramer–Rao, tal y comose han formulado.

Ejemplo 5.3.16. X ∼ unif[0, a]. ¿Cota? de Cramer–Rao.

Si procedemos directamente,

f(x; a) =1

a=⇒ ln(f(x; a)) = − ln(a) =⇒ ∂a ln(f(x; a)) = −1/a .

Ası que Y ≡ −1/a. Observese que ya no se cumplirıa que Ea(Y ) = 0, como deberıa.Ademas Ea(Y

2) = 1/a2. Ası que la cota de Cramer–Rao deberıa ser a2/n.

Sin embargo, en el ejemplo 5.1.9 hemos comprobado que el estimador insesgadoT = n+1

n max(X1, . . . ,Xn) tiene varianza

Va(T ) =1

n(n+ 2)a2 .

Por ultimo, notese, en cualquier caso, que Va(Y ) = 0. ♣

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.4. Comportamiento asintotico de estimadores 59

5.4. Comportamiento asintotico de estimadores

Hasta ahora hemos tratado con una muestra aleatoria (X1, . . . ,Xn) de tamano ngenerico de una variable X con funcion de masa/densidad f(x; θ), con las que cons-truıamos estimadores del parametro θ. Ahora queremos analizar justamente el papelde n, el tamano de la muestra, en la confianza que se puede tener en esas estimacio-nes. Porque esperamos que, cuanto mayor sea el tamano de la muestra, dispondremosde mas informacion sobre la fuente aleatoria X, y en particular, que si los estimado-res estan “bien disenados”, seran capaces de ir afinando cada vez mas la estimaciondel parametro de interes.

Para ello, en lo que sigue precisaremos un poco, tanto el modelo como la notacion,y consideraremos una sucesion (Tn) de estimadores, uno para cada n:

Tn = hn(X1, . . . ,Xn),

actuando sobre muestras aleatorias (X1, . . . ,Xn) de tamano n. Observese que ahorahacemos explıcita la dependencia en n del estimador.

Aunque no es imprescindible, sı es habitual que la sucesion de estimadores (Tn)se obtenga con funciones hn que tienen la misma “forma” (promedio, maximo, etc.):

hn(x1, x2, . . . , xn) =1

n

n∑j=1

xj, hn(x1, . . . , xn) = max(x1, . . . , xn), etc.

Interesa, pues, analizar el comportamiento de la sucesion de variables aleato-rias (Tn) como estimadores (sucesivos) de θ, con el objetivo de establecer si efecti-vamente la estimacion es cada vez mejor segun aumente el tamano de la muestra.

Detallamos ahora el sentido en el que interpretaremos esa mejor aproximacion.

Definicion 5.12 SeaX una variable aleatoria con funcion de densidad/masa f(x; θ),donde θ ∈ Θ. Decimos que una sucesion (Tn) de estimadores del parametro θ (dondecada Tn es una funcion de (X1, . . . ,Xn)) es consistente cuando, para todo θ ∈ Θ,

lımn→∞Pθ(|Tn − θ| ≥ ε) = 0 , para todo ε > 0 .

Es decir, cuando para n grande, la probabilidad de que Tn yerre siquiera ε delverdadero valor θ sea casi nula. Para una tal sucesion de estimadores tendremosmucha confianza (para n grande) en que la estimacion de θ con Tn sera buena.

La condicion anterior es natural, y casi exigible a una sucesion de “buenos”estimadores. Pero nos interesara, no solo establecer si el lımite anterior tiende a 0,sino tambien determinar con que velocidad se va a 0 (en funcion de n): si como 1/n,como 1/n2, o quizas a velocidad exponencial, con objeto de cuantificar lo probableque es que Tn se aparte de θ en una cierta cantidad.

Para establecer la consistencia de una sucesion de estimadores, y para determi-nar de paso esa velocidad de convergencia, caben varias alternativas. Por un lado,

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

60 Capıtulo 5. Estimacion (puntual) de parametros

podemos apelar a desigualdades generales tipo Chebyshev si es que disponemos debuenas estimaciones para las sucesivas varianzas (o errores cuadraticos medios) delos Tn. Veremos algunos ejemplos en el apartado A que sigue. En otras (conta-das) ocasiones, dispondremos de formulas explıcitas para determinar la probabilidadPθ(|Tn − θ| ≥ ε), como veremos en el apartado B.

Pero sin duda el procedimiento mas poderoso, y mas habitual, consistira en apo-yarse en resultados asintoticos generales, como por ejemplo el teorema del lımitecentral, para a partir de ellos deducir buenas estimaciones de la probabilidad ante-rior. Explicaremos brevemente este proceder en el apartado C, y luego dedicaremoslas secciones 5.4.1 y 5.4.2 a ilustrar su uso en el analisis de estimadores obtenidospor momentos y por maxima verosimilitud.

� Nota 5.4.1. La convergencia de Tn a θ exhibida en la definicion 5.12 se conoce como convergenciaen probabilidad.

A. Varianzas, errores cuadraticos y Chebyshev/Markov

Digamos que los estimadores Tn son (todos ellos) estimadores insesgados delparametro θ. Es decir, que

Eθ(Tn) = θ

para todo θ ∈ Θ y para todo n. Entonces, apelando a la desigualdad de Chebyshevtenemos, para ε > 0 dado, que

(5.20) Pθ(|Tn − θ| ≥ ε) ≤ Vθ(Tn)

ε2.

De manera que si la varianza de los Tn tiende a 0, la sucesion de los Tn sera consis-tente.

En el caso general de estimadores no necesariamente insesgados, necesitamos queel error cuadratico medio tienda a cero (es decir, que tanto la varianza como el sesgotiendan a 0), pues apelando a la desigualdad de Markov tenemos que, para ε > 0,

(5.21) Pθ(|Tn−θ| ≥ ε) ≤ Eθ(|Tn − θ|)ε

≤√

Eθ((Tn − θ)2)

ε=

√ecmθ(Tn)

ε

n→∞−−−→ 0,

donde la segunda desigualdad es consecuencia de la de Cauchy–Schwarz.

Reunimos estas observaciones en el siguiente lema, que recoge criterios directospara comprobar la consistencia de una sucesion de estimadores.

Lema 5.13 a) Sea (Tn)n≥1 una sucesion de estimadores de θ tales que

lımn→∞ecmθ(Tn) = 0 .

Entonces la sucesion (Tn)n≥1 es consistente.

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.4. Comportamiento asintotico de estimadores 61

b) En particular, si (Tn)n≥1 es una sucesion de estimadores insesgados de θtales que

lımn→∞Vθ(Tn) = 0 ,

entonces la sucesion (Tn)n≥1 es consistente.

Repare, lector, en que si ademas de saber queVθ(Tn) → 0 (o bien ecmθ(Tn) → 0)cuando n → ∞ (que nos darıa la consistencia), supieramos estimar cuan rapidamen-te tiende esa varianza/ecm a 0, entonces (5.20), o quizas (5.21), nos darıan unaestimacion de la velocidad de convergencia a 0 de Pθ(|Tn − θ| ≥ ε).

Ilustramos este enfoque en un par de ejemplos.

Ejemplo 5.4.1. La media y la cuasivarianza muestrales, como estimadores consis-tentes de la media y la varianza de X.

Llamemos E(X) = μ a la media de X, y V(X) = σ2 a su varianza. Para indicarla dependencia en el tamano de la muestra escribimos X(n) y S2

(n) para la media yla cuasivarianza muestrales, respectivamente.

Sabemos que

X(n) =1

n

n∑i=1

Xi

es un estimador insesgado de μ, para cualquier n, y ademas que

V(X(n)) = σ2/n .

Ası que, por el lema 5.13, (X(n)) es una sucesion consistente de estimadores de E(X).Esto requiere, por supuesto, que E(X2) < +∞. La velocidad de convergencia serıadel orden de 1/n.

Como ilustracion numerica, pongamos que X es una variable con media μ yvarianza 1. La desigualdad de Chebyshev nos darıa entonces

Pμ(|X(n) − μ| ≥ ε) ≤ Vμ(X(n))

ε2=

1

nε2.

Tomando, por ejemplo, ε = 1/10 y n = 900, obtenemos que la probabilidad anteriores menor o igual que 1/9 = 11.11%.

Analogamente obtendrıamos que la sucesion (S2(n)) de estimadores de σ2, da-

da por

S2(n) =

1

n− 1

n∑i=1

(Xi −X)2,

es consistente, siempre que tuvieramos E(X4) < +∞ y usando por ejemplo el coro-lario 4.6, que nos decıa que

V(S2(n)) ≤

1

nE((X −E(X))4

).

De nuevo, la velocidad de convergencia serıa 1/n. ♣

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

62 Capıtulo 5. Estimacion (puntual) de parametros

Ejemplo 5.4.2. Estimadores del parametro a para muestras de una unif[0, a].

Si tomamos Tn = n+1n max(X1, . . . ,Xn), como ya sabemos del ejemplo 5.1.9,

Ea(Tn) = a y Va(Tn) =1

n(n+2)a2. Ası que, por el lema 5.13, tendrıamos que (Tn) es

una sucesion consistente de estimadores de a; aunque ahora la velocidad de conver-gencia serıa del orden de 1/n2.

Si hubieramos tomado como estimador a Tn = max(X1, . . . ,Xn), entonces ten-drıamos que

Ea(Tn) =n

n+ 1a = a

=sesgo︷ ︸︸ ︷− a

n+ 1y Va(Tn) =

n

(n+ 1)2(n+ 2)a2.

Ahora Tn no serıa un estimador insesgado, pero tanto el sesgo como la varianzatienden a 0 cuando n → ∞. Ası que (Tn) es una sucesion consistente, con velocidadde convergencia del orden de 1/n2. ♣

B. A partir de la distribucion exacta del estimador

En ocasiones, podemos determinar la distribucion exacta de Tn y obtener cotasmucho mejores de Pθ(|Tn − θ| ≥ ε) que la dada por Chebyshev/Markov, precisan-do ası mucho mas la confianza en las estimaciones que ofrecen las sucesiones deestimadores consistentes.

Para los siguientes ejemplos usaremos resultados ya obtenidos anteriormente. Dela discusion de las variables media y cuasivarianza muestral en el caso normal delcapıtulo 4 obtenemos directamente las dos siguientes ilustraciones.

Ejemplo 5.4.3. La media muestral como estimador de μ en una X ∼ N (μ, σ20),

con σ20 conocida.

Si X ∼ N (μ, σ20) entonces X(n) ∼ N (μ, σ2

0/n), ası que

(5.22) Pμ(|X(n) − μ| ≥ ε) = Pμ

( |X(n) − μ|σ0/

√n

≥ ε

σ0/√n

)= 2(1− Φ

(√nε

σ0

)),

que es una formula explıcita que unicamente requiere calcular (numericamente) va-lores de la funcion de distribucion Φ. Si, como en el ejemplo 5.4.1, tomamos σ0 = 1,n = 900 y ε = 1/10, la probabilidad anterior es

2(1− Φ(3)) ≈ 0.27%.

Comparese con el 11.11% que se obtenıa con la estimacion general vıa Chebyshev,que no sacaba partido de que X(n) es una variable normal. ♣

� Nota 5.4.2. Podemos reescribir la velocidad de convergencia que supone la expresion (5.22) enterminos de funciones elementales usando la estimacion 1− Φ(x) ≤ φ(x)/x, para x > 0, de la colade la normal estandar (nota 2.3.3), de la siguiente manera:

Pμ(|X(n) − μ| ≥ ε) = 2(1− Φ

(ε√n

σ0

))≤ 2σ0

ε√n

1√2π

e−nε2/(2σ20) .

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.4. Comportamiento asintotico de estimadores 63

Recuerdese que la desigualdad de Chebyshev daba

Pμ(|X(n) − μ| ≥ ε) ≤ Vμ(X(n))

ε2=

σ20

nε2.

Como comparacion, pongamos que σ0 = 1 y tomemos ε = n−1/4 (aunque, para esta com-paracion, en lugar de 1/4 valdrıa cualquier exponente menor que 1/2). Tendrıamos entonces unaestimacion

Pμ(|X(n) − μ| ≥ n1/4) ≤√

2

π

1

n1/4e−

√n/2

vıa el teorema del lımite central, frente a la estimacion

Pμ(|X(n) − μ| ≥ n1/4) ≤ 1√n

que darıa Chebyshev. ¡No hay color!

Ejemplo 5.4.4. La cuasivarianza muestral como estimador de σ2 para una variableX ∼ N (μ0, σ

2), con μ0 conocida.

Como (n− 1)S2(n)/σ

2 ∼ χ2n−1, tenemos que

Pσ2(|S2(n) − σ2| ≥ ε) = Pσ2

(∣∣∣(n − 1)S2(n)

σ2− (n− 1)

∣∣∣ ≥ ε(n − 1)

σ2

)= Pσ2

((n− 1)S2(n)

σ2≥ (n− 1)

(1 +

ε

σ2

))+Pσ2

( (n− 1)S2(n)

σ2≤ (n− 1)

(1− ε

σ2

))=[1− Fχ2

n−1

((n− 1)(1 + ε/σ2)

]+ Fχ2

n−1

((n− 1)(1 − ε/σ2)

);

una expresion exacta, en terminos de percentiles de la χ2n−1, valida para todo n.

Adelantandonos a los argumentos que detallaremos en el apartado C, observemosque una χ2

n−1 es una suma de n − 1 variables independientes, todas con la mismadistribucion (de hecho, normales estandar al cuadrado), y su esperanza es n− 1 y suvarianza 2(n − 1). Por el teorema del lımite central tenemos que, si n es grande,

(n−1)S2(n)

σ2 − (n− 1)√2(n − 1)

≈ N (0, 1)

(��≈�� en el sentido de que las funciones de distribucion son proximas), lo que nos da,tras unas ligeras manipulaciones, que

Pσ2(|S2(n) − σ2| ≥ ε) ≈ 2

(1−Φ

(ε√n− 1√2σ2

))cuando n es grande, que es justamente el caso de interes. ♣

Ejemplo 5.4.5. Estimador Mn = max(X1, . . . ,Xn) del parametro a de unif[0, a].

El estimador Mn es sesgado, pero asintoticamente es insesgado, pues su media,como ya sabemos, es Ea(Mn) =

nn+1 a.

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

64 Capıtulo 5. Estimacion (puntual) de parametros

De Mn = max(X1, . . . ,Xn) conocemos la distribucion exacta (ejemplo 5.1.7), quenos permite escribir

Pa(|Mn − a| ≥ ε) = Pa(Mn ≤ a− ε) = (1− ε/a)n .

Ası que Mn no solo es consistente, sino que ademas la probabilidad de error deestimacion converge exponencialmente a 0.

Pero, mas interesante: cambiemos la escala del error y consideremos

Pa(|Mn − a| ≥ (aε/n)) =(1− ε/n

)n −→n→∞ e−ε

Esto nos dice que

n

a(a−Mn) converge en distribucion a exp(1) .

Es decir, con esa normalizacion tenemos una distribucion exacta en el lımite, queprecisa el error que se puede llegar a cometer cuando se estima a con Mn. ♣

Ejemplo 5.4.6. La media muestral como estimador del parametro θ = 1/λ paraX ∼ exp(λ).

Recuerdese (seccion 2.3.3) que X ∼ gamma(1/θ, 1). Usando la proposicion 2.13y las propiedades de rescalado de las variables Gamma, obtenemos:

n∑i=1

Xi ∼ gamma(1θ, n)

=⇒ 2

θ

n∑i=1

Xi ∼ gamma(12, n)= gamma

(12,2n

2

)= χ2

2n .

De manera que podemos calcular explıcitamente:

( ∣∣∣X(n) −1

θ

∣∣∣ ≥ ε)= Pθ

( ∣∣∣ 2θ

n∑i=1

Xi − 2n∣∣∣ ≥ 2n

ε

θ

)= P(χ22n > 2n

(1 +

ε

θ

))+P(χ22n < 2n

(1− ε

θ

))De nuevo una expresion exacta, en terminos de percentiles de χ2

2n. ♣

� Nota 5.4.3. En los ejemplos anteriores la velocidad de consistencia se ha expresado en terminos dela N (0, 1), de la χ2

n y de la exp(1).

C. Mediante aproximaciones asintoticas generales

Supongamos que (Tn) es una sucesion consistente de estimadores de un parame-tro θ. Esto nos dice que, para todo a > 0,

Pθ(|Tn − θ| ≤ a)n→∞−−−→ 1,

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.4. Comportamiento asintotico de estimadores 65

esto es, que para n grande, es muy probable Tn se “parezca” mucho al valor de θ.Vamos ahora a reescalar esas (tan pequenas) diferencias entre Tn y θ, considerandouna sucesion (kn) y la probabilidad

(5.23) Pθ(kn |Tn − θ| ≤ a),

donde a > 0 esta fijo. Si la sucesion (kn) es constante, por muy grande que estasea, la probabilidad (5.23) seguira tendiendo a 1 cuando n → ∞. Por otro lado,si kn → ∞ muy rapidamente, esa probabilidad tendera a 0 cuando n → ∞. Cabeimaginar entonces que pudiera existir una sucesion (kn) para la que la probabilidadanterior tienda a un numero estrictamente entre 0 y 1, para ese a > 0 prefijado.

En la mayor parte de los estimadores que se manejan, ocurrira que el argumentoanterior se puede extender a todos los valores de a, y que existira una sucesion (kn),que tiende a +∞ cuando n → ∞, para la que

(5.24) Pθ(kn (Tn − θ) ≤ a) → F (a) cuando n → ∞,

donde F (a) es una cierta funcion de distribucion continua. Si este es el caso, ysomos capaces de calcular los valores de la funcion F , entonces podremos usar laconvergencia dada en (5.24) para obtener estimaciones (asintoticas, cuando n → ∞)de probabilidades del tipoPθ(|Tn−θ| ≤ a) sin mas que deshacer los cambios de escala.

El ejemplo paradigmatico de esta manera de proceder es, claro, el teorema dellımite central, en el que por ejemplo tomamos Tn = X(n), y calculamos probabilida-des del tipo

Pμ(|X(n) − μ| < ε)

aprovechando que

(√n(X(n) − μ

σ

)< t)→ Φ(t) cuando n → ∞,

donde Φ es la funcion de distribucion de la normal estandar, como ya se ha ilustradoen varias ocasiones. Notese que la sucesion (kn) viene dada aquı por

√n/σ.

En las dos siguientes secciones usaremos esta idea en el analisis asintotico de losdos tipos de estimadores mas habituales, los que se obtienen por el metodo de losmomentos, y los de maxima verosimilitud.

5.4.1. Comportamiento asintotico de los estimadores por momentos

Para una variable general con E(X2) < +∞, el teorema del lımite central nospermite precisar, con la normalizacion adecuada, cuan buena es la estimacion deE(X) con la media muestral X(n).

Si X tiene E(X) = μ y V(X) = σ2, entonces(X(n) − μ

σ/√n

)converge en distribucion a una variable N (0, 1) .

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

66 Capıtulo 5. Estimacion (puntual) de parametros

Resulta mas conveniente escribir esta convergencia como sigue:

√n (X(n) − μ) converge en distribucion a una variable N (0, σ2) .

Ası que, para n grande,

P(|X (n) − μ| ≥ ε) = P(√n |X(n) − μ|/σ ≥ √

nε/σ) ≈ 2(1− Φ(

√nε/σ)

).

En el caso en que X sea normal, el “≈”es un “=”.

Veamos un ejemplo.

Ejemplo 5.4.7. La media muestral como estimador de p en una X ∼ ber(p).

Recuerdese que Ep(X) = p y que Vp(X) = p(1− p).

La variable media muestral (para muestras de tamano n)

X(n) =1

n

n∑i=1

Xi

tiene media Ep(X(n)) = p y varianza Vp(X(n)) = p(1− p)/n.

De manera que, para n grande,

Pp(|X(n)−p| ≥ ε) = P(√

n|X(n) − p|√p(1− p)

≥ √n

ε√p(1− p)

)≈ 2(1−Φ

( √nε√

p(1− p)

)).

Por cierto, en este caso, como la funcion x �→ x(1−x) en el intervalo [0, 1] alcanzasu maximo en x = 1/2, resulta que 0 ≤ p(1 − p) ≤ 1/4 para p ∈ [0, 1], y por tantopodemos estimar la probabilidad anterior como sigue:

2(1− Φ

( √nε√

p(1− p)

))≤ 2(1− Φ(2

√n ε)),

que es una estimacion uniforme en p. �

Si el estimador en cuestion fuera, en lugar de la habitual media muestral, unpromedio de, digamos, cuadrados, de la forma

X2(n) =

1

n

n∑i=1

X2i ,

aplicarıamos el mismo procedimiento salvo que ahora, claro, los parametros de latipificacion son distintos. En concreto, como

E(X2

(n)

)= E(X2) y V

(X2

(n)

)=

V(X2)

n,

tendrıamos que

√n(X2

(n) −E(X2))

converge en distribucion a una variable N (0,V(X2)) .

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.4. Comportamiento asintotico de estimadores 67

Con frecuencia, el estadıstico de interes para estimar un cierto parametro es unacierta funcion g de la variable media muestral X(n), o de la media muestral de los

cuadrados X2(n), como por ejemplo

1

X(n)

o quizas√

X2(n) =

( 1n

n∑i=1

X2i

)1/2.

Revise el lector los ejemplos vistos hasta ahora, y en particular los estimadores quese obtienen por el metodo de momentos del apartado 5.2.

En esos casos, el siguiente teorema resulta extremadamente util.

Teorema 5.14 (Metodo delta) Sea Zn una sucesion de variables aleatorias en unespacio de probabilidad (Ω,P,F) tal que

√n (Zn − μ) converge en distribucion a N (0, σ2).

Sea g una funcion continua en R, que es C2 en un intervalo que contiene a μ, y talque g′(μ) �= 0. Entonces

√n (g(Zn)− g(μ)) converge en distribucion a una variable N (0, |g′(μ)|2 σ2).

En el uso que haremos aquı de este resultado, como sucesion (Zn) tomaremos lasucesion de medias muestrales (X(n)) (o quizas las de las medias muestrales de cua-drados, o. . . ), cuya normalidad, tras la pertinente normalizacion, viene garantizadapor el teorema del lımite central. La conclusion sera que funciones (razonables) deesa media muestral tambien exhiben normalidad asintotica.

Lector, exhibimos primero la idea de la demostracion, para luego dar una demos-tracion completa con todos sus detalles.

Idea de la demostracion. Se tiene que√n (Zn − μ) ≈ σ Y ,

donde Y es una normal estandar. Obviemos ≈. Ası que

Zn = μ+σ√nY .

Observese que Zn sera proximo a μ para n grande.

Ahorag(x) ≈ g(μ) + g′(μ)(x− μ) ,

si x proximo a μ. Obviemos ≈.

Combinando, tenemos que

g(Zn) = g(μ) + g′(μ) (Zn − μ) = g(μ) +g′(μ)σ√

nY .

Es decir, como la normal estandar es simetrica,√n (g(Zn)− g(μ)) es una normal de

media 0 y varianza |g′(μ)|2 σ2. �

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

68 Capıtulo 5. Estimacion (puntual) de parametros

Demostracion. Fijemos t ∈ R. Queremos comprobar que

lımn→∞P

(√n(g(Zn)− g(μ)) ≤ t

)= Φ( t

σg′(μ)

).

Llamemos I a un intervalo abierto que contenga a μ, y donde 12 |g′′(x)| ≤ M , para

un cierto M > 0. Por la simetrıa de la normal (centrada en 0) podemos suponer queg′(μ) > 0, pues si no es el caso bastarıa considerar −g.

Fijemos x ∈ I. Como∫ x

μ

( ∫ s

μg′′(u) du

)ds =

∫ x

μ

(g′(s)− g′(μ)

)ds = g(x)− g(μ)− g′(μ) (x− μ),

se tiene que

g(x)− g(μ) = g′(μ)(x− μ) +

∫ x

μ

∫ s

μg′′(u) du ds

(esto no es mas que el polinomio de Taylor de grado 1, con termino de error), dedonde

(�) |g(x)− g(μ)− g′(μ)(x−μ)| ≤ 2M

∫ x

μ

∫ s

μdu ds = 2M

(x− μ)2

2= M(x−μ)2 .

Fijemos α ∈ (0, 1) y ε > 0, ambos pequenos, que luego haremos tender a 0. Porhipotesis tenemos que, para todo h > 0,

lımn→∞P(

√n |Zn − μ| ≤ h) = Φ(h/σ)− Φ(−h/σ) = 2Φ(h/σ) − 1 .

Recuerdese que Φ(z) es una funcion que crece hacia 1 cuando z → ∞. Fijemosentonces h grande, tan grande como para que 2Φ(h/σ)−1 ≥ 1−α/2. Y tomemos Nsuficientemente grande como para que, si n ≥ N , se tenga que

P(√n |Zn − μ| ≤ h) ≥ 1− α .

Consideremos, para n ≥ N , el suceso

Ωn = {√n |Zn − μ| ≤ h},

para el que P(Ωn) ≥ 1− α.

En Ωn se tiene que |Zn − μ| ≤ h/√n, ası que aumentando N si fuera necesario,

tenemos que para n ≥ N se tiene en Ωn que Zn ∈ I. Lo relevante de Ωn es queP(Ωn) ≥ 1− α, y ademas que Zn ∈ I en Ωn.

Por tanto, usando (�) y la definicion de Ωn, para n ≥ N se cumple en Ωn que

() |g(Zn)− g(μ) − g′(μ)(Zn − μ)| ≤ M |Zn − μ|2 ≤ Mh2

n,

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.4. Comportamiento asintotico de estimadores 69

Aumentemos N , si fuera necesario, para garantizar que

()M h2√n g′(μ)

≤ ε .

Entonces, para n ≥ N , en el suceso

Ωn := Ωn ∩{√

n(Zn − μ) ≤ t

g′(μ)− ε}

se cumple ademas que √n(g(Zn)− g(μ)) ≤ t ,

pues√n(g(Zn)− g(μ)

) ≤ √ng′(μ) (Zn − μ) +

Mh2√n

≤ √ng′(μ) (Zn − μ) + εg′(μ) ≤ t ,

usando () en la primera desigualdad, () en la segunda, y la definicion de Ωn enla tercera.

Por tanto,

P(Ωn ∩

{√n (Zn − μ) ≤ t

g′(μ)− ε})

≤ P(√n (g(Zn)− g(μ)) ≤ t) .

Como P(Ω \ Ωn) ≤ α, la parte del suceso {√n (Zn − μ) ≤ t/g′(μ) − ε} que no estaen Ωn tiene probabilidad a lo sumo α, de lo que deducimos que, para n ≥ N , se tieneque

P(√

n (Zn − μ) ≤ t

g′(μ)− ε)≤ P(

√n (g(Zn)− g(μ)) ≤ t) + α .

Recordamos que esta desigualdad es valida para n ≥ N , todo t ∈ R, todo α ∈ (0, 1)y todo ε > 0.

Por consiguiente, haciendo n tender a∞ y usando la convergencia en distribucionde

√n(Zn − μ) a N (0, σ2) se deduce que

Φ( t

σg′(μ)− ε

σ

)≤ lım inf

n→∞ P(√

n (g(Zn)− g(μ)) ≤ t)+ α .

Haciendo ahora ε ↓ 0 y usando que la funcion de distribucion Φ es una funcioncontinua se deduce que

Φ( t

σg′(μ)

)≤ lım inf

n→∞ P(√

n (g(Zn)− g(μ)) ≤ t)+ α .

Y haciendo ahora α ↓ 0 se concluye que

Φ( t

σg′(μ)

)≤ lım inf

n→∞ P(√

n (g(Zn)− g(μ)) ≤ t).

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

70 Capıtulo 5. Estimacion (puntual) de parametros

Un argumento analogo nos da que

Φ( t

σg′(μ)

)≥ lım sup

n→∞P(√

n(g(Zn)− g(μ)) ≤ t).

y, por tanto, que

Φ( t

σg′(μ)

)= lım

n→∞P(√

n(g(Zn)− g(μ)) ≤ t).

Finalmente como esto es valido para todo t ∈ R, se concluye que√n(g(Zn)− g(μ))

converge en distribucion a N (0, |g′(μ)|2σ2). �

Corolario 5.15 (Metodo delta, version general) Si todas las variables de la su-cesion (Zn) del enunciado del teorema 5.14 toman valores en un intervalo (a, b) (demanera que μ ∈ (a, b)), entonces la conclusion del teorema 5.14 es cierta sin masque exigir que g este definida y sea continua en (a, b) (y no en todo R).

Usaremos esta version, mas liviana, en los ejemplos que siguen.

Ejemplo 5.4.8. Estimador 1/X (n) del parametro λ para X ∼ exp(λ).

Recordemos que Eλ(X) = 1/λ y que Vλ(X) = 1/λ2. Denotemos X(n) a la mediamuestral para muestras de tamano n. Por el teorema del lımite central,

√n(X(n) −

1

λ

)converge en distribucion a N

(0,

1

λ2

).

Consideremos ahora g(x) = 1/x para x ∈ (0,+∞). Observese que

|g′(μ)|2 = |g′(1/λ)|2 = λ4.

Entonces, por el metodo delta, corolario 5.15,

√n( 1

X(n)

− λ)

converge en distribucion a N (0, λ2). ♣

Ejemplo 5.4.9. Estimacion de odds.

Tenemos una X ∼ ber(p). Queremos estimar el parametro q = p/(1− p), queen la jerga (de apuestas) se conoce como “odds” a favor.

Como√n(X(n) − p

)converge en distribucion a N (0, p(1 − p)

),

usando g(x) = x/(1 − x) para x ∈ (0, 1) se tiene que

√n( X(n)

1−X(n)

− p

1− p

)converge en distribucion a N

(0,

p

(1− p)3

),

pues g′(p) = 1/(1 − p)2. ♣

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.4. Comportamiento asintotico de estimadores 71

Ejemplo 5.4.10. Estimadores para el parametro σ2 de una X ∼ ray(σ2).

El parametro es θ = σ2. Tenemos, vease el ejemplo 5.2.4, dos estimadores pormomentos del parametro θ

M(n) =2

πX

2y M(n) =

12 X

2 .

Los primeros momentos de la variable X son

Eθ(X) =

√π θ

2, Eθ(X

2) = 2θ ,

Vθ(X) =(2− π

2

)θ , Vθ(X

2) = 4θ2 .

El analisis del segundo estimador M(n) es directo. Por el teorema del lımite cen-tral, y usando las expresiones de la media y la varianza de X2 dadas arriba,

√n(X2

(n) − 2θ) d−−−→

n→∞ N (0, 4θ2) ,y, por tanto,

(5.25)√n(M(n) − θ

) d−−−→n→∞ N (0, θ2) .

Para el primer estimador M(n), partimos del teorema del lımite central:

√n(X(n) −

√πθ/2

) d−−−→n→∞ N (0, (2 − π/2)θ

),

y aplicamos el metodo delta con la funcion g(y) = 2y2/π, para y ∈ (0,∞). Como|g′(√πθ/2)| = 8θ/π, se obtiene que

(5.26)√n(M(n) − θ

) d−−−→n→∞ N (0, 4(4 − π)

πθ2).

Observese, comparando (5.26) con (5.25), que el segundo estimador es algo mejorasintoticamente, pues 4(4 − π)/π ≈ 1.092. Vease tambien el ejemplo 5.4.12. ♣

El metodo delta (teorema 5.14) exige, ademas de una cierta regularidad para lafuncion g(x), que en los ejemplos habituales se tiene siempre, que g′(μ) �= 0. En elcaso en el que g′(μ) = 0 tenemos un resultado alternativo, que vamos a enunciara continuacion. Siguiendo la idea de la demostracion del metodo delta, observamos(sustituyendo ‘≈’ por ‘=’) que

g(x)− g(μ) = 12 g

′′(μ)(x− μ)2,

Zn − μ =σ√nZ, con Z normal estandar;

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

72 Capıtulo 5. Estimacion (puntual) de parametros

de lo que “concluimos” que

g(Zn)− g(μ) =1

2g′′(μ)

σ2

nZ2,

es decir,

n (g(Zn)− g(μ)) =g′′(μ)σ2

2Z2 .

Teorema 5.16 (Metodo delta con g′(μ) = 0) Sea Zn una sucesion de variablesaleatorias en un espacio (Ω,P) tal que

√n(Zn − μ) converge en distribucion a una variable N (0, σ2).

Sea g una funcion continua en R, C3 en un intervalo que contiene a μ, y tal queg′(μ) = 0 pero g′′(μ) �= 0. Entonces

n (g(Zn)− g(μ)) converge en distribucion a a una variableg′′(μ)σ2

2χ21 .

Observese que no hay valor absoluto en esta segunda derivada. Como en el teore-ma 5.14, si las variables Zn toman valores en un intervalo (a, b), entonces para que laconclusion del teorema 5.16 sea cierta basta exigir que g este definida y sea continuaen ese intervalo (a, b).

Demostracion. La prueba es completamente analoga a la del teorema 5.14. �

Ejemplo 5.4.11. Estimacion de la varianza en una X ∼ ber(p).

Queremos estimar el parametro p(1 − p) (la varianza). Partimos, como antes,de que √

n(X(n) − p

)converge en distribucion a N (0, p(1 − p)

).

Ahora, el estimador natural es

X(n)(1−X(n)).

Ası que debemos considerar, en x ∈ (0, 1), la funcion g(x) = x(1 − x), para la queg′(x) = 1− 2x.

Esto nos da, si p �= 1/2, usando el teorema 5.14,

(5.27)√n(X(n)(1−X(n))− p(1− p)

) d−−−→n→∞ N (0, (1 − 2p)2p(1− p)

).

Sin embargo, para el caso p = 1/2, tenemos que g′(1/2) = 0. Observese queg′′(x) = −2. La convergencia de partida es ahora

√n(X(n) − 1/2

)converge en distribucion a N (0, 1/4) .

Y la conclusion, vıa el teorema 5.16, es que

(5.28) n(X(n)(1−X(n))− 1/4

)converge en distribucion a − 1

4χ21 . ♣

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.4. Comportamiento asintotico de estimadores 73

El resultado del metodo delta del teorema 5.14 sera extremadamente util en loque sigue, por ejemplo en el diseno de intervalos (aproximados) de confianza; vease,por ejemplo, el apartado 6.3.4. Sin embargo, el uso en estadıstica del metodo deltaen su version del teorema 5.16, que hemos ilustrado en el ejemplo 5.4.11 anterior, esmas inhabitual, pues requiere disponer de una informacion previa que, en muchasocasiones, conforma un cırculo vicioso. Recuerde, lector, que en el ejemplo 5.4.11 pre-tendemos estimar la varianza a partir de muestras; pero si ya sabemos que p = 1/2,que es el caso en el que aplicarıamos el teorema 5.16, entonces la varianza es 1/4, yel experimento en sı pierde sentido.

Sin embargo, el teorema 5.16 desvela que, en ciertas situaciones, la variable trans-formada g(Zn) no es, asintoticamente, una normal, sino mas bien una χ2.

En las graficas de la izquierda hemosrepresentado los resultados recogen un ana-lisis experimental de la variable

Zn =√n(X(n)(1−X(n))− p(1− p)

)que aparece en la ecuacion (5.27), analisiscon el que se intenta “comprobar” la con-vergencia en distribucion que se enuncia enla citada ecuacion. El primer histogramarecoge muestras de Zn para n = 1500, ypara dos valores de p: p = 50% y p = 60%.Para p = 60%, el histograma (en morado)se asemeja a una normal; pero para la mo-neda equilibrada, las muestras tienden aconcentrarse en el 0, como se aprecia en elhistograma verde. Esto sucede porque elfactor

√n no tiende suficientemente rapi-

do a ∞ como para compensar la velocidadcon la que tiende a 0 el otro factor. Sin

embargo, al cambiar la escala de la normalizacion, poniendo un factor n, tal y comose sugiere en (5.28), obtenemos (en este caso de p = 1/2) el histograma que se re-presenta en la segunda grafica de la izquierda, que es (muy aproximadamente) el deuna χ2

1 (multiplicada por −1/4).

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

74 Capıtulo 5. Estimacion (puntual) de parametros

5.4.2. Comportamiento asintotico de los estimadores de maximaverosimilitud

Los estimadores de maxima verosimilitud tienen, en general, buenas propiedadesasintoticas.

El primer resultado que vamos a ver, la convergencia recogida en (5.29), justificaen gran medida el concepto de maxima verosimilitud.

Veamos primero la idea. Estamos en el contexto habitual, de muestras de ta-mano n de una variable X con funcion de densidad/masa f(x; θ), con θ ∈ Θ. Consi-deramos unicamente dos valores distintos, θ0 y θ1, que compiten entre sı.

Disponemos de una muestra (x1, . . . , xn) que ha sido producida con la distribu-cion correspondiente al parametro θ0. Calculamos las cantidades vero(θ0;x1, . . . , xn)y vero(θ1;x1, . . . , xn). Caben dos posibilidades:

a) vero(θ0;x1, . . . , xn) > vero(θ1;x1, . . . , xn);

b) vero(θ0;x1, . . . , xn) ≤ vero(θ1;x1, . . . , xn).

Si ocurriera a), entonces considerarıamos que θ0 es mas verosımil, y nos decan-tarıamos por el en esta comparacion.

Si ocurriera a) la mayor parte de las veces (es decir, para casi todas las muestrasgeneradas con el parametro θ0), entonces tendrıamos alta confianza en que el proce-dimiento de medir verosimilitudes elige (casi siempre) bien el parametro correcto, almenos en esta (limitada) comparacion entre θ0 y θ1.

Para formalizar esta idea, consideramos muestras aleatorias X = (X1, . . . ,Xn) detamano n de una variable X con funcion de densidad/masa f(x; θ), con θ ∈ Θ. Acada muestra aleatoria X le asociamos su verosimilitud

veron(θ;X1, . . . ,Xn) = veron(θ;X) =

n∏i=1

f(Xi; θ).

Sea θ0 ∈ Θ. Entonces, para cualquier θ1 ∈ Θ fijo, θ1 �= θ0, se tiene que

(5.29) Pθ0

(veron(θ0;X) > veron(θ1;X)

)→ 1 cuando n → ∞.

En esta expresion importa, y mucho, el > estricto. Es decir, si θ0 es el verdaderovalor del parametro θ con el que se obtienen las muestras de la distribucion, en-tonces, asintoticamente, es muy probable que concluyamos que el valor θ0 es masverosımil que cualquier otro dado, θ1, fijado previamente. Por ahora, observese, solose compara θ0 con un θ1 prefijado, y no con todos los θ ∈ Θ.

Damos ahora el argumento para probar (5.29), que requerira ciertas hipotesissobre f(x; θ), que iremos senalando oportunamente, y que recogeremos al final en unenunciado formal.

Supongamos ya de partida, primera hipotesis, que

sopθ0 = sopθ1 .

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.4. Comportamiento asintotico de estimadores 75

En este caso, la cantidad

lnf(x; θ1)

f(x; θ0)

toma valores reales para todo x en ese soporte comun (es decir, no se va a ±∞).

Tomando logaritmos, la convergencia (5.29) equivale a

Pθ0

( n∑i=1

lnf(Xi; θ1)

f(Xi; θ0)< 0)→ 1 cuando n → ∞.

O mejor, a

Pθ0

( 1n

n∑i=1

lnf(Xi; θ1)

f(Xi; θ0)< 0)→ 1 cuando n → ∞.

La ley fuerte de los grandes numeros, aplicada a la sucesion de variables inde-pendientes e identicas

Yi = lnf(Xi; θ1)

f(Xi; θ0)

nos dice que, para todo ε > 0,

(5.30) Pθ0

(∣∣∣ 1n

n∑i=1

lnf(Xi; θ1)

f(Xi; θ0)−Eθ0

(ln

f(Xi; θ1)

f(Xi; θ0)

)∣∣∣ > ε)→ 0 cuando n → ∞.

Esta convergencia requiere (condicion de Etemadi) que

Eθ0

(∣∣∣ ln f(X; θ1)

f(X; θ0)

∣∣∣) < ∞,

que incluimos ya como segunda hipotesis.

Ahora, la desigualdad de Jensen, teorema 2.1, aplicada a la funcion logaritmo,

() E(lnZ) ≤ lnE(Z) para una variable Z positiva,

nos da que

Eθ0

(ln

f(X; θ1)

f(X; θ0)

)≤ ln

[Eθ0

(f(X; θ1)

f(X; θ0)

)]= ln

∫sopθ0

f(x; θ1)

f(x; θ0)f(x; θ0) dx

= ln

∫sopθ0

f(x; θ1) dx = ln

∫sopθ1

f(x; θ1) dx = ln 1 = 0.(5.31)

La igualdad en la desigualdad de Jensen () se produce solo cuando la variable Zes constante. En nuestro caso, tendremos igualdad en (5.31) solo si, para un ciertovalor c,

lnf(x; θ1)

f(x; θ0)= c , para todo x ∈ sopθ0 = sopθ1 .

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

76 Capıtulo 5. Estimacion (puntual) de parametros

Es decir, si para todo x ∈ sopθ0 = sopθ1 ,

f(x; θ1) = ec f(x; θ0) ⇐⇒ f(x; θ1) = f(x; θ0),

pues ambas son funciones de densidad, de integral 1. Observese que si este fuera elcaso, aunque θ0 �= θ1, las respectivas funciones de densidad serıan identicas, y notendrıa sentido intentar distinguir θ0 de θ1; desde luego, las muestras no lo conse-guiran.

Tomamos pues, como tercera hipotesis, que f(x; θ0) y f(x; θ1) no sean identicas(en la jerga, se dice que los parametros son distinguibles), y proseguimos el argu-mento.

Tenemos ahora que

μ = Eθ0

(ln

f(X; θ1)

f(X; θ0)

)< 0,

y tomando ε = −μ/2 en (5.30), deducimos que

Pθ0

(3μ2

<1

n

n∑i=1

lnf(Xi; θ1)

f(Xi; θ0)<

μ

2

)→ 1 cuando n → ∞,

y en particular, que

Pθ0

( 1n

n∑i=1

lnf(Xi; θ1)

f(Xi; θ0)< 0)→ 1 cuando n → ∞,

como querıamos.

Teorema 5.17 Sea X con funcion de densidad/masa f(x; θ), con θ ∈ Θ. Suponga-mos que para θ0, θ1 ∈ Θ se tiene que

1) sopθ0 = sopθ1 ,

2) Eθ0(| ln(f(X; θ1)/f(X; θ0))|) < ∞,

3) f(x; θ0) �≡ f(x; θ1).

Entonces

Pθ0

(veron(θ0;X1, . . . ,Xn) > veron(θ1;X1, . . . ,Xn)

)→ 1 cuando n → ∞.

De este resultado se obtiene el siguiente corolario, en el que se compara la vero-similitud para un conjunto finito de posibles valores del parametro.

Corolario 5.18 Sea X con funcion de densidad/masa f(x; θ), con θ ∈ Θ. Supon-gamos que para θ0, θ1, . . . , θN ∈ Θ se tiene que

1) sopθ0 = sopθj para cada j = 1, . . . , N ;

2) Eθ0(| ln(f(X; θj)/f(X; θ0))|) < ∞ para cada j = 1, . . . , N ;

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.4. Comportamiento asintotico de estimadores 77

3) f(x; θ0) �≡ f(x; θj) para cada j = 1, . . . , N .

Entonces, cuando n → ∞,

(5.32) Pθ0

(veron(θ0;X1, . . . ,Xn) > veron(θj ;X1, . . . ,Xn), j = 1, . . . , N

)→ 1.

La comprobacion es casi directa. Para un n fijo, el suceso recogido en (5.32)es una interseccion de condiciones. Su complementario es la union (finita) de loscomplementarios de cada una estas condiciones, y estos conjuntos complementariostienen probabilidades que tienden, por el teorema 5.17, a 0 cuando n → ∞.

Observese que este corolario nos dice que si el espacio de parametros Θ es finito,entonces para n grande, con probabilidad muy elevada, vero(θ;X) tiene maximoestricto (unico) en el verdadero valor θ0 del parametro.

Vamos ahora a utilizar el resultado 5.18 para establecer un resultado de consis-tencia para (la sucesion de) los estimadores por maxima verosimilitud del parame-tro θ, que requerira un par de hipotesis adicionales, que esencialmente se resumenen que la funcion de verosimilitud sea, para cada muestra, suficientemente regular yque tenga un unico maximo, para que el propio concepto de estimador por maximaverosimilitud tenga sentido.

Teorema 5.19 (Consistencia de los estimadores de maxima verosimilitud)Sea X una variable aleatoria con funcion de densidad/masa f(x; θ), con θ ∈ Θ, demanera que

1) Θ es un intervalo, Θ = (a, b) ⊂ (−∞,∞).

2) sopθ = A, comun para todo θ ∈ Θ.

3) Eθ(| ln(f(X; θ′)/f(X; θ))|) < ∞ para cada θ �= θ′ ∈ Θ.

4) f(x; θ) �≡ f(x; θ′) para cada θ �= θ′ ∈ Θ.

5) Para cada (x1, . . . , xn) ∈ An, la funcion vero(θ;x1, . . . , xn) es C1(a, b) y tiene

un unico punto crıtico θ en (a, b), que es un maximo.

Sea emv(n)θ := emvθ(X1, . . . ,Xn) el estadıstico estimador por maxima verosimi-

litud del parametro θ de la variable X para una muestra aleatoria (X1, . . . ,Xn) detamano n. Entonces, para cada θ ∈ Θ y todo ε > 0,

(|emvθ(X1, . . . ,Xn)− θ| > ε)→ 0 cuando n → ∞.

Es decir, la sucesion de estimadores (emv(n)θ ) es consistente.

Ya hemos visto algunos ejemplos en los que la funcion de verosimilitud puedetener mas de un maximo (lo que deja en situacion ambigua la propia definicion deestimacion por maxima verosimilitud), no ser derivable, etc. Estas situaciones quedandescartadas con las condiciones 1), 2) y 5), que por otra parte se cumplen en muchosde los ejemplos habituales.

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

78 Capıtulo 5. Estimacion (puntual) de parametros

Demostracion del teorema 5.19. Consideramos un valor generico θ ∈ (a, b).Podemos encontrar un entero K tal que, para todo k ≥ K,(

θ − 1

k, θ +

1

k

)⊂ (a, b).

Consideramos ahora, para cada k ≥ K y cada n ≥ 1, el conjunto

Sn,k ={(x1, . . . , xn) ∈ An : vero(θ;x1, . . . , xn) > vero(θ − 1/k;x1, . . . , xn)

y vero(θ;x1, . . . , xn) > vero(θ + 1/k;x1, . . . , xn)}

Para cada muestra (x1, . . . , xn) ∈ An, su funcion de verosimilitud tiene un uni-co maximo, por la condicion 5). Si ademas, (x1, . . . , xn) ∈ Sn,k, entonces el punto

donde se alcanza ese maximo, es decir, la estimacion θ(x1, . . . , xn) de θ por maximaverosimilitud, ha de estar en el intervalo (θ − 1/k, θ − 1/k). De manera que, paratodo (x1, . . . , xn) ∈ Sn,k se tiene que

|θ(x1, . . . , xn)− θ| < 1

k.

Por el corolario 5.18, para cualquier k ≥ K,

Pθ(Sn,k) → 1 cuando n → ∞.

Y, por tanto, para cualquier k ≥ K,

(∣∣emvθ(X1, . . . ,Xn)− θ∣∣ ≥ 1

k

)≤ 1−Pθ(Sn,k) → 0 cuando n → ∞,

lo que concluye la demostracion. �

En realidad, los estimadores por maxima verosimilitud tienen, asintoticamente,otras buenas propiedades, mas alla de la consistencia recogida en el teorema 5.19.

Denotamos de nuevo por emv(n)θ ≡ emvθ(X1, . . . ,Xn) al estadıstico que nos da el

estimador maxima verosimilitud del parametro θ de la variable X para una muestraaleatoria (X1, . . . ,Xn) de tamano n.

En condiciones generales, que cubren muchos de los casos de interes, pero no contotal generalidad, se tiene que este estimador es:

1) Asintoticamente insesgado. Es decir,

lımn→∞Eθ(emv

(n)θ ) = θ .

2) Asintoticamente eficiente. Es decir,

lımn→∞nVθ(emv

(n)θ ) =

1

IX(θ).

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez

5.4. Comportamiento asintotico de estimadores 79

ası que

Vθ(emv(n)θ ) ≈ 1

n IX(θ), para n grande .

3) Normalidad asintotica. Esto es,

(5.33)√n(emv

(n)θ − θ

) d−→n→∞ N

(0,

1

IX(θ)

)Es decir, para todo t ∈ R se tiene que

lımn→∞Pθ

(emv

(n)θ ≤ θ +

t√n√

IX(θ)

)= Φ(t) .

De esta ultima propiedad se puede deducir la consistencia de la sucesion deestimadores del teorema 5.19.

� Nota 5.4.4. En detalle, fijemos M > 0. Sea N tal que para n ≥ N se tenga que√n ε > M . Entonces,

Pθ(|emv(n)θ − θ| < ε) = Pθ(

√n |emv

(n)θ − θ| < √

n ε) ≥ Pθ(√n |emv

(n)θ − θ| < M),

ası que

lım infn→∞

Pθ(|emv(n)θ − θ| < ε) ≥ lım

n→∞(√n |emv

(n)θ − θ| < M) = 2Φ(M/IX (θ))− 1 ,

y, como esto es cierto para todo M > 0, se deduce, haciendo M ↑ ∞, que

lım infn→∞

Pθ(|emv(n)θ − θ| < ε) = 1 ,

y, por tanto, quelım

n→∞Pθ(|emv

(n)θ − θ| < ε) = 1 .

Ejemplo 5.4.12. Comprobacion de normalidad asintotica para el estimador maximoverosımil del parametro θ de ray(θ).

El emv de θ es (ejemplo 5.2.9)

emvn(X1, . . . ,Xn) =1

2X2

(n) .

Como ya vimos en el ejemplo 5.4.10, usando el metodo delta,

√n(12X2

(n) − θ)

converge en distribucion a N (0, θ2) .

Observese cuan expeditivamente se obtiene el mismo resultado sin mas que ape-lar a la normalidad asintotica general para estimadores de maxima verosimilitudde (5.33), y recordar (ejemplo 5.3.6) que IX(θ) = 1/θ2, ♣

notas de estadıstica I – 16 de noviembre de 2017 – jose l. fernandez y pablo fernandez