Inferencia Bayesiana

Introduccion a la Inferencia Bayesiana

Eduardo Gutierrez Pena

IIMAS, UNAM

http://www.dpye.iimas.unam.mx/eduardo

1

Temario

1. Introduccion (¿Que es la Estadıstica? ¿Y la Inferencia Bayesiana?)

2. El proceso de aprendizaje (Teorema de Bayes)

3. Especificacion de la distribucion inicial (distribuciones conjugadas,

distribuciones no-informativas)

4. Problemas multiparametricos

5. Resumenes de la informacion contenida en la distribucion final

(estimacion, contraste de hipotesis)

6. Prediccion

7. Teorıa asintotica (Normalidad de la distribucion final)

8. Otros temas (modelos jerarquicos, metodos computacionales,...)

2

1. Introduccion

¿Que es la Estadıstica?

ESTADISTICA

Analisis de Datos

Inferencia

Probabilidad

Encuestas

Experimentos

Censos

Pronosticos

Objeto: estudio de fenomenos inciertos (aleatorios)

3

?

OBSERVADOR

FENOMENO

Fenomeno aleatorio: aquel que no se puede predecir con certeza

4

El estudio se lleva a cabo a partir del posible conocimiento previo y

de observaciones que se realizan sobre el fenomeno

MarcoConceptual

Atributos

de

interes Variables

(X,Y,Z,...)

Datos

(x,y,z,...)

Fenomeno

Descripcion

5

El proceso de observacion

- Variable: codificacion numerica de un atributo

- Dato: registro (numerico), producto de la observacion de un

atributo a traves de una variable.

Estadıstica

“Conjunto de tecnicas para describir un fenomeno, a partir de un

conjunto de datos que presentan variabilidad”

“Conjunto de metodos para alcanzar conclusiones acerca de una o

varias caracterısticas de interes de una poblacion a partir de

informacion parcial provista por una muestra de dicha poblacion”

[Incertidumbre...]

6

¡Toda la Estadıstica es descriptiva!

*

Caso A: se cuenta con todos los datos posibles del fenomeno bajo

estudio (e.g. censos)

Descripcion: exacta −→ Analisis exploratorio de datos

Caso B : se cuenta solamente con una parte de todos los datos

posibles (e.g. encuestas)

Descripcion: aproximada −→ Inferencia Estadıstica

7

Fenomeno

Muestra

Inferencia

(Descripcion aproximada)

x , x ,..., x1 2 n

Pero... ¿como seleccionar la muestra?

¿como medir el grado de aproximacion?

8

Solucion: seleccion probabilıstica de la muestra (i.e. por sorteo)

x −→ X −→ Pr[X = x]

Dato Variable (aleatoria) Modelo de probabilidad

Ası,

Describir el fenomeno ⇐⇒ describir el modelo

9

Inferencia parametrica y no parametrica

En ocasiones resulta conveniente suponer que

Pr[X = x] = f(x|θ),

donde f(·|θ) tiene forma conocida, pero el valor de θ es desconocido

Ası,

Describir el fenomeno ⇐⇒ caracterizar el valor de θ

En otros casos la propia forma funcional de Pr[X = x] se supone

desconocida

10

La Estadıstica clasica

Planteamientos mas comunes

- Estimacion puntual: θ

- Estimacion por intervalo: θ ∈ (θ, θ)

- Prueba de hipotesis: H0 : θ ∈ Θ0 vs H1 : θ ∈ Θ1

Tecnicas: univariadas/multivariadas, regresion/series de tiempo,...

Criterios: suficiencia, insesgamiento, varianza mınima, consistencia,

eficiencia, potencia, confianza, significancia,...

¿Como y cuando aplicar cada receta?

11

Veamos un ejemplo...

Problema: estimar la proporcion de arboles de una especie

determinada que sufren de cierta enfermedad en un bosque.

Se selecciona una muestra aleatoria de arboles, de manera que cada

arbol en la muestra sufra de la enfermedad con probabilidad θ

(independientemente de los otros arboles en la muestra), donde θ

denota la proporcion de arboles enfermos en la poblacion, i.e. en el

bosque.

La variable aleatoria X denota el numero de arboles enfermos en la

muestra.

El valor observado X = x es usado para hacer inferencias acerca del

parametro poblacional θ.

12

Dichas inferencias pueden tomar la forma de

• un estimador puntual : θ = 0.1

• un intervalo de confianza: θ ∈ (0.08,0.12) con 95% de confianza

• una prueba de hipotesis: rechazar H0 : θ < 0.07 con α = 0.05

• un pronostico: predecir que el 15% de los arboles del bosque se

veran afectados para el ano proximo

• una decision: identificar y eliminar todos los arboles infectados

13

Estas inferencias se llevan a cabo especificando un modelo

probabilıstico, f(x|θ), que determina las probabilidades de los

posibles valores de X para un valor dado de θ, e.g.

X ∼ Bin(θ, n),

de manera que el problema de inferencia estadıstica se reduce a

hacer inferencias sobre θ con base en el valor observado X = x.

Principio de maxima verosimilitud : valores de θ que asignan una

probabilidad alta al valor observado x son mas “verosımiles” que

aquellos valores de θ que asignan a x una probabilidad pequena.

[Comentario: inferencia estadıstica y seleccion de modelos]

14

Notemos lo siguiente:

El parametro θ es desconocido, pero se considera constante, no

aleatorio.

De ahı que en la terminologıa clasica se hable de “verosimilitud”,

“confianza”, “nivel de significancia”, etc., y no de probabilidad.

Sin embargo, es comun que la gente interprete intuitivamente a un

intervalo de confianza del 95% para θ, digamos (0.08, 0.12), como si

Pr(0.08 < θ < 0.12) = 0.95.

De manera similar, no es raro que la gente interprete el nivel de

significancia descriptivo (p-value) como la probabilidad de que la

hipotesis nula sea verdadera.

15

El enfoque Bayesiano

Idea: disenar una Teorıa Estadıstica, basada en una pequena serie

de principios basicos (axiomas), que nos permita estructurar la

solucion a cualquier problema de inferencia.

La vıa: la Teorıa de la Decision

¿Para que otro enfoque? ¿Para que una Teorıa Estadıstica?

- Para darle a la Estadıstica una estructura coherente

- Porque con otros enfoques pueden presentarse casos en los que:

(i) no hay una solucion razonable; (ii) se presentan paradojas

16

Teorıa de la decision

En el contexto de la Estadıstica, los elementos de un problema de

decision en ambiente de incertidumbre son los siguientes:

1. El espacio de acciones potenciales disponibles: A

2. El espacio parametral, que contiene los posibles estados de la

naturaleza: Θ

3. El espacio de las consecuencias: C = A× Θ

Para poder resolver un problema de decision, es necesario

cuantificar tanto la incertidumbre sobre Θ como las consecuencias

en C.

Los axiomas implican que la unica forma racional de cuantificar la

incertidumbre es a traves de una medida de probabilidad, f(θ), y

que las consecuencias deben cuantificarse por medio de una funcion

de perdida, L(a, θ)

17

El resultado fundamental de la teorıa es que debe elegirse aquella

accion que minimice la perdida esperada

L∗(a) =

∫

Θ

L(a, θ)f(θ) dθ.

Por supuesto, en problemas estadısticos se cuenta con informacion

adicional en la forma de una muestra X1, . . . , Xn ∼ f(x|θ).

¿Como incorporar esta informacion?

El Teorema de Bayes nos permite combinar las dos fuentes de

informacion, f(θ) y x = (x1, . . . , xn), y de esta manera producir la

distribucion final f(θ|x)

18

Teorema de Bayes

En terminos de funciones de densidad, el Teorema de Bayes toma

la forma

f(θ|x) =f(θ)f(x|θ)

∫

f(θ)f(x|θ)dθ.

El denominador, f(x) =∫

f(θ)f(x|θ)dθ, no depende de θ, por lo que es

comun escribir

f(θ|x) ∝ f(θ)f(x|θ).

Es este caso, la mejor accion sera aquella que minimice la perdida

esperada final

L∗

x(a) =

∫

Θ

L(a, θ)f(θ|x) dθ.

19

¿Que es la inferencia Bayesiana?

En cierto sentido, la diferencia fundamental respecto al enfoque

clasico es que en el enfoque Bayesiano el (valor del) parametro es

tratado como aleatorio.

Las inferencias se basan en f(θ|x) en lugar de f(x|θ); es decir, en la

distribucion de probabilidad (del valor desconocido) del parametro

dados los datos observados, en vez de la distribucion de los datos

dado el valor del parametro.

Lo anterior da lugar a inferencias mas naturales, pero para ello es

necesario un ingrediente mas: una distribucion inicial, f(θ), que

describe la informacion que se tiene sobre (el valor de) θ antes de

observar los datos.

20

La distribucion inicial

Al hacer inferencias sobre de un parametro θ, generalmente se

cuenta con algun tipo de informacion (juicios, creencias) acerca de

su valor, incluso antes de observar los datos.

Consideremos las siguientes tres situaciones:

1. Una mujer afirma que puede detectar, con un solo sorbo de una

taza de cafe, si la leche fue agregada antes o despues del cafe.

La mujer detecta correctamente el orden en diez tazas.

2. Un experto en musica afirma que puede distinguir entre una

pagina de una obra de Hayden y una de Mozart. El experto

clasifica correctamente diez paginas.

3. Un amigo ebrio afirma que puede predecir el resultado del

lanzamiento de una moneda honesta. El amigo predice

correctamente el resultado de diez lanzamientos.

21

En cada uno de los tres casos, el modelo es X ∼ Bin(θ, 10) y se observa

x = 10, de manera que se rechaza la hipotesis H0 : θ ≤ 0.5 en favor de

H1 : θ > 0.5.

Por lo tanto, en terminos de los datos observados, nos verıamos obligados

a hacer las mismas inferencias en los tres casos.

Sin embargo, dada nuestra informacion inicial, muy probablemente

permanecerıamos escepticos acerca de la capacidad del amigo ebrio,

ligeramente impresionados por la bebedora de cafe y poco sorprendidos

por el experto en musica.

El ejemplo anterior muestra que las inferencias deberıan basarse tanto en

los datos como en la informacion inicial.

La teorıa Bayesiana proporciona el mecanismo para combinar estas dos

fuentes de informacion de una manera natural.

[Comentario: distintas distribuciones iniciales pueden dar lugar a inferencias

distintas: ¿es esto una ventaja o una desventaja del enfoque Bayesiano?]

22

Caracterısticas del enfoque Bayesiano

Los siguientes tres aspectos fundamentales caracterizan al enfoque

Bayesiano:

Informacion inicial: cada problema es unico y tiene su propio

contexto, del cual se deriva la informacion inicial sobre el

parametro (o cualquier otra caracterıstica) de interes.

Probabilidad subjetiva: se reconoce explıcitamente que toda

asignacion de probabilidades es subjetiva (i.e., dependen del estado

de informacion del individuo que las asigna). No pretende ser un

enfoque “objetivo”.

Coherencia interna: al considerar a θ como aleatorio, los metodos

Bayesianos de inferencia se desarrollan de manera natural a partir

de la teorıa de la probabilidad y por lo tanto no presentan

contradicciones internas.

23

Como consecuencia, y a diferencia de los metodos clasicos, no es

necesario desarrollar criterios ad hoc (por ejemplo: insesgamiento,

eficiencia) para juzgar si un procedimiento determinado es “bueno”

en algun sentido.

El precio adicional que hay que pagar es la especificacion de una

distribucion de probabilidad sobre θ que describa la informacion

que se tiene sobre su valor.

Cabe mencionar que los procedimientos clasicos tambien se basan

(implıcitamente) en apreciaciones subjetivas (¿Por que un modelo

normal y no un modelo Student?, ¿Por que α = 0.05?)

*

El teorema de Bayes es la clave del proceso de aprendizaje.

24

2. El Proceso de Aprendizaje

Introduccion

Los cuatro pasos a seguir dentro del enfoque Bayesiano:

1. Especificacion de un modelo (verosimilitud), f(x|θ)

2. Especificacion de una distribucion inicial, f(θ)

3. Calculo de la distribucion final, f(θ|x), vıa el Teorema de Bayes

4. Resumen de la informacion contenida en f(θ|x) para hacer

inferencias sobre las cantidades de interes (parametros,

observaciones futuras,...)

25

Verosimilitud

El problema de elegir un modelo para describir el proceso que genero los

datos es esencialmente el mismo que desde el punto de vista clasico.

El modelo elegido dependera del problema en turno y del proposito del

analisis.

En ocasiones, la forma en la que se obtuvieron los datos puede sugerir

modelos apropiados como puntos de partida (e.g., muestro binomial,

conteos Poisson).

Con frecuencia, el modelo refleja una hipotesis cuya plausibilidad es

verificada posteriormente en el contexto de los datos (e.g., Y y X se

relacionan linealmente entre sı).

“Todos los modelos son incorrectos, pero existen algunos modelos mas

utiles que otros” (George E. P. Box).

26

Distribucion inicial

Este es el punto fundamental del enfoque Bayesiano y sera discutido con

mayor detalle en §3.

1. El analisis es subjetivo dado que depende del conocimiento que tu

tienes antes de observar los datos (y que describes a traves de tu

distribucion inicial).

2. Sin embargo, si la distribucion inicial es razonable, su efecto sobre

las inferencias disminuye conforme se tienen mas datos.

3. En ocasiones se tiene una idea vaga de la forma que deberıa tener

la distribucion inicial. Tal vez incluso somos capaces de asignar

valores, por ejemplo, a su media y su varianza, pero no podemos

ser mas precisos.

En estos casos es comun usar una distribucion inicial consistente con

nuestra informacion pero cuya forma sea conveniente, e.g. tal que de

lugar a analisis mas sencillos (ver familias conjugadas mas adelante).

27

4. En otros casos puede considerarse que no se tiene informacion inicial

sobre el valor del parametro (o, por algun motivo, no es deseable

incluir nuestra informacion inicial en el analisis).

En estas situaciones nos gustarıa poder utilizar una distribucion

inicial que refleje nuestra ignorancia acerca del valor del parametro.

En terminos generales siempre es posible encontrar este tipo de

distribuciones iniciales no-informativas (vagas, de referencia). Sin

embargo, excepto en modelos relativamente simples, esta labor es

complicada y no esta exenta de problemas.

28

Distribucion final

En terminos de variables aleatorias, el Teorema de Bayes toma la forma


∫

f(θ)f(x|θ)dθ.

El denominador, f(x) =∫

f(θ)f(x|θ)dθ, no depende de θ, por lo que es

comun escribir

f(θ|x) ∝ f(θ)f(x|θ).

* En la practica, el calculo de la distribucion final puede ser un asunto

complicado, especialmente si la dimension del parametro no es pequena.

* Sin embargo, para ciertas combinaciones de distribuciones iniciales y

verosimilitudes es posible simplificar el analisis.

* En otros casos se requieren aproximaciones analıticas y/o tecnicas

computacionales relativamente sofisticadas. (Ver §7 y §8.)

29

Inferencia

El enfoque Bayesiano proporciona inferencias mas completas en el

sentido de que toda la informacion disponible sobre el valor de θ queda

representada a traves de la distribucion final.

Es decir, desde el punto de vista Bayesiano, el problema de inferencia se

reduce a encontrar f(θ|x): la distribucion final es la inferencia.

La unica receta de la Inferencia Bayesiana: encontrar la distribucion

condicional de todas aquellas cantidades de interes cuyo valor

desconocemos dado el valor conocido de las variables observadas.

Por supuesto, en la practica generalmente es deseable resumir este tipo

de inferencias en la forma de una estimacion puntual, una estimacion

por intervalo, etc. (Ver §5.)

30

Ejemplo (binomial)

Supongamos que X ∼ Bin(θ, n) y que nos interesa hacer inferencias

sobre el valor de θ. Entonces

f(x|θ) =

(

n

x

)

θx(1− θ)n−x; x = 0, 1, . . . , n.

* No olvidemos que la eleccion de la distribucion inicial varıa de problema a

problema.

* Sin embargo, empezaremos considerando una familia de posibles

distribuciones iniciales que, como veremos, da lugar a calculos simples.

* Si dicha familia es suficientemente flexible, i.e., si cubre un rango amplio de

formas posibles, podemos utilizar el elemento de la familia que describa de la

mejor manera nuestro estado de conocimiento acerca del valor de θ.

31

En este caso, supongamos que podemos representar nuestro

conocimiento sobre θ a traves de una distribucion beta:

f(θ) = Beta(θ|p, q),

donde

Beta(θ|p, q) =Γ(p + q)

Γ(p)Γ(q)θp−1(1− θ)q−1 (0 ≤ θ ≤ 1)

∝ θp−1(1− θ)q−1.

Entonces, por el Teorema de Bayes,

f(θ|x) ∝ f(θ) f(x|θ)∝ {θp−1(1− θ)q−1}{θx(1− θ)n−x}= θp+x−1(1− θ)q+n−x−1,

de manera que

f(θ|x) = Beta(θ|p + x, q + n− x).

32

* Ası, eligiendo adecuadamente la forma de la distribucion inicial, hemos

obtenido una distribucion final que pertenece a la misma familia que la

distribucion inicial.

* El efecto de los datos observados consiste en modificar el valor de los

hiperparametros de la distribucion inicial, de (p, q), a los valores finales

(p + x, q + n − x).

Como un ejemplo numerico, supongamos que, de 70 pacientes a los que

se les admnistra un nuevo tratamiento contra el cancer, 34 sobreviven

mas alla de un periodo determinado.

Denotemos por θ a la probabilidad de supervivencia. Supongamos que un

medico, con experiencia en este tipo de ensayos clınicos, considera que su

conocimiento puede ser descrito a traves de E(θ) = 0.4 y Var(θ) = 0.02.

Suponiendo que una distribucion beta da una descripcion adecuada de su

informacion inicial, ahora debemos elegir valores de p y q tales que

E(θ) = 0.4 y Var(θ) = 0.02.

33

Para ello es necesario resolver las siguientes ecuaciones

p

p + q= m y

pq

(p + q)2(p + q + 1)= v,

cuya solucion es

p =(1 − m)m2

v− m y q =

(1 − m)2m

v− (1 − m).

Dado que m = 0.4 y v = 0.02, entonces p = 4.4 y q = 6.6.

* Lo anterior especifica la distribucion inicial y es un ejemplo simple de como

puede asignarse tal distribucion.

* En la practica serıa necesario garantizar que esta distribucion es consistente

con la informacion inicial del medico.

34

La distribucion final correspondiente estarıa dada entonces por

f(θ|x) = Beta(38.4, 42.6)

Esta distribucion encapsula toda la informacion disponible sobre el valor

de θ y representa una inferencia completa. Sin embargo, es posible

resumir esta informacion, por ejemplo, a traves del valor esperado final

de θ:

E(θ|x) =p + x

p + q + n= 0.474.

Notemos los siguiente:

* El estimador maximo-verosımil es esta caso es θ = x/n = 0.486.

* Si n es grande entonces E(θ|x) ≈ θ y la varianza de la distribucion final de θ

sera pequena.

35

Ejemplo (normal)

Sea X1, . . . ,Xn una muestra de observaciones independientes (dado θ) de

una distribucion N(θ, σ2), con σ2 conocida. Entonces

f(xi|θ) =1√2πσ

exp

{

− (xi − θ)2

2σ2

}

,

lo que da lugar a la verosimilitud

l(θ;x) ∝ f(x|θ)

∝ exp

{

−∑n

i=1(xi − θ)2

2σ2

}

.

Supongamos que podemos representar nuestro conocimiento sobre θ a

traves de una distribucion normal:

f(θ) = N(θ|b, d2).

36

Por el teorema de Bayes:

f(θ|x) ∝ exp

{

−(θ − b)2

2d2

}

exp

{

−

∑

i(xi − θ)2

2σ2

}

= exp

{

−θ2 − 2bθ + b2

2d2−

∑

ix2

i − 2nxθ + nθ2

2σ2

}

∝ exp

{

−1

2

[

θ2(

1

d2+

n

σ2

)

− 2θ

(

b

d2+

nx

σ2

)]}

∝ exp

{

−1

2

(

1

d2+

n

σ2

)

(

θ −

bd2 + nx

σ2

1d2 + n

σ2

)2}

Finalmente,

f(θ|x) = N

(

bd2 + nx

σ2

1d2 + n

σ2

,1

1d2 + n

σ2

)

.

37

Este resultado puede presentarse de manera mas concisa si definimos la

precision como el recıproco de la varianza: τ = 1/σ2 y c = 1/d2.

Entonces

f(θ|x) = N(

cb + nτx

c + nτ,

1

c + nτ

)

.

Notemos que

1. E(θ|x) = γnb + (1− γn)x, donde γn = c/(c + nτ). Si nτ es grande

relativo a c, entonces γn ≈ 0 y la media de la distribucion final sera

aproximadamente igual a x.

2. Precision final = Precision inicial + (n× Precision de cada dato).

3. Conforme n→∞, f(θ|x) ≈ N(θ|x, σ2/n), de manera que en el lımite

la distribucion inicial no tiene ningun efecto sobre las inferencias.

4. Si d→∞ (o, equivalentemente, si c→ 0), entonces

f(θ|x) ≈ N(θ|x, σ2/n).

5. La distribucion final depende de la muestra solo a traves de x.

38

Actualizacion secuencial de la informacion

Hemos visto que el Teorema de Bayes proporciona el mecanismo para

actualizar nuestro estado de informacion, llevandonos de la distribucion

inicial a la distribucion final.

Esta distribucion final se convierte entonces una nueva distribucion

inicial antes de observar nuevos datos.

Dado f(θ), supongamos que observamos X1 = x1 de la densidad f(x|θ).Por el Teorema de Bayes

f(θ|x1) ∝ f(θ) f(x1|θ).

Esta es nuestra nueva distribucion inicial antes de observar X2 = x2 de

la densidad f(x|θ), independiente de X1.

39

Aplicando de nuevo el teorema de Bayes, obtenemos

f(θ|x1, x2) ∝ f(θ|x1)f(x2|θ, x1)

∝ { f(θ) f(x1|θ) } f(x2|θ)= f(θ) f(x1, x2|θ).

Este es el resultado que hubiesemos obtenido de haber actualizado de un

solo golpe la distribucion inicial f(θ) con base en la muestra completa

{x1, x2}.

Este argumento puede extenderse, por induccion, a cualquier numero de

observaciones.

40

Suficiencia

• En la escuela clasica de la Estadıstica, el concepto de suficiencia

juega un papel importante tanto en el desarrollo de la teorıa como

en las aplicaciones.

• Hasta cierto punto, dicho concepto tambien es relevante desde el

punto de vista Bayesiano.

• Hemos visto, en los ejemplos anteriores, como la distribucion final

depende de la muestra solo a traves de una estadıstica suficiente.

• De hecho, esta es una caracterizacion Bayesiana de una estadıstica

suficiente y resulta mas natural e intuitiva:

Supongamos que t = t(x) es una estadıstica. Entonces t es suficiente

para θ si f(θ|x) = f(θ|t(x)) para toda distribucion inicial f(θ).

• Puede demostrarse que esta definicion es equivalente a la definicion

clasica de suficiencia.

41

El Principio de Verosimilitud

El Principio de Verosimilitud establece que si dos experimentos producen

la misma verosimilitud para θ (excepto tal vez por una constante de

proporcionalidad), entonces las inferencias obtenidas a partir de cada

uno de los experimentos deben ser las mismas.

En otras palabras, todos los aspectos de la inferencia sobre el valor de θ

deben basarse exclusivamente en la funcion de verosimilitud.

Una virtud del enfoque Bayesiano es que en inherentemente consistente

con el Principio de Verosimilitud. Para verlo, notemos que si, dados dos

experimentos A y B, se tiene que fA(x|θ) ∝ fB(y|θ) entonces

fA(θ|x) ∝ f(θ)fA(x|θ) ∝ f(θ)fB(y|θ) ∝ fB(θ|y),

de donde fA(θ|x) = fB(θ|y).

En contraste, algunos de los metodos clasicos mas utilizados lo violan.

42

El Principio de Verosimilitud fue desarrollado por Barnard (1949).

Se convirtio en un tema de interes cuando Birnbaum (1962) demostro

que dicho principio era consecuencia de otros dos principios comunmente

aceptados.

Principio de Suficiencia: dado un modelo f(x|θ) con estadıstica

suficiente t(x), y dadas dos muestras x1 y x2 tales que t(x1) = t(x2),

las inferencias basadas en x1 deben ser identicas a las basadas en x2.

Principio de Condicionalidad: siempre que exista una estadıstica ancilar

a = a(x), cualquier inferencia sobre el valor de θ debe realizarse

condicionando en el valor observado de a.

Los procedimientos Bayesianos satisfacen implıcitamente estos dos

principios, y por lo tanto satisfacen tambien el P. de Verosimilitud.

43

3. Especificacion de la distribucion inicial

Familias conjugadas

Al trabajar con el Teorema de Bayes, las dificultades computacionales

surgen desde el momento en que es necesario calcular la constante de

proporcionalidad que aparece en el denominador:

f(x) =

∫

f(θ)f(x|θ)dθ.

Por ejemplo, supongamos que X1, . . . ,Xn son observaciones Poisson(θ),

independientes, y que nuestra informacion inicial indica que el valor de θ

esta definitivamente en el intervalo [0, 1]. Mas aun, supongamos que f(θ)

es una distribucion uniforme en el intervalo [0, 1].

Entonces la constante de normalizacion esta dada por

f(x) =

∫ 1

0

θΣixi exp{−nθ}dθ.

44

Esta integral, una funcion gamma incompleta, solo puede ser evaluada

numericamente.

Mas aun, los momentos de la distribucion final de θ tambien dependeran

de integrales de esta forma.

Ası, es aparente que incluso distribuciones iniciales simples pueden dar

lugar a problemas numericos.

Por otra parte, hemos visto ejemplos en los que una seleccion cuidadosa

de la distribucion inicial simplifica el calculo de la distribucion final.

En cada uno de esos casos fue posible identificar una familia conjugada,

C, de distribuciones iniciales tales que las correspondientes distribuciones

finales tambien pertenecıan a C.Estas familias conjugadas deben verse siempre como lo que son: un

artificio matematico que resulta conveniente en ciertas situaciones.

No hay que perder de vista que la descripcion de nuestro conocimiento a

traves de una forma parametrica es siempre una aproximacion.

45

Construccion de las familias conjugadas

Suponiendo que no entra en conflicto con nuestra informacion inicial, y

que es posible encontrar una para nuestro problema especıfico, el uso de

una familia conjugada resulta bastante atractivo.

¿Bajo que condiciones es posible construir una familia conjugada?

Esencialmente el unico caso en el que se pueden construir facilmente

familias conjugadas es para modelos que pertenecen a la familia

exponencial, es decir, modelos de la forma

f(x|θ) = h(x)g(θ) exp{t(x)c(θ)},

donde h(·), g(·), t(·) y c(·) son tales que∫

X

f(x|θ)dx = g(θ)

∫

h(x) exp{t(x)c(θ)}dx = 1

46

La familia exponencial es esencialmente la unica clase de modelos con

estadısticas suficientes de dimension fija (la dimension no depende del

tamano de la muestra).

La familia exponencial puede parecer una clase demasiado restringida. Sin

embargo, contiene a muchos de los modelos mas utilizados en las aplicaciones,

incluyendo el binomial, binomial negativo (geometrico), Poisson, gamma

(exponencial, Raleigh), beta y normal (con varianza conocida). En el caso

multiparametrico incluye modelos como la normal multivariada (varianza

conocida o desconocida), multinomial, multinomial negativa, Dirichlet y

Wishart.

Otros modelos que no pertenecen a la familia exponencial pueden obtenerse a

partir de modelos que sı pertenecen, lo que en ocasiones facilita su analisis

desde el punto de vista Bayesiano.

47

Si X1, . . . , Xn es una muestra de observaciones i.i.d. de f(x|θ), entonces

la verosimilitud toma la forma

l(θ;x) ∝ f(x|θ)∝ g(θ)n exp{c(θ)Σit(xi)}

De esta manera, si elegimos una distribucion inicial de la forma

f(θ) ∝ g(θ)n0 exp{t0 c(θ)},

obtenemos una distribucion final de la forma

f(θ|x) ∝ g(θ)n0+n exp{[t0 + Σit(xi)] c(θ)}= g(θ)n1 exp{t1 c(θ)}.

Por lo tanto, la distribucion final pertenece a la misma familia que la

distribucion inicial.

48


• Dado que f(θ) tiene la misma forma que la verosimilitud, podemos

pensar que una distribucion inicial conjugada con hiperparametros

n0 y t0 contiene la misma informacion que una muestra de tamano

n0 que resulta en un valor observado de la estadıstica suficiente igual

a t0.

• Esta interpretacion de los hiperparametros facilita en ocasiones la

asignacion de una distribucion inicial conjugada en problemas

concretos.

• El Teorema de Bayes se reduce a una regla de actualizacion de los

hiperparametros particularmente simple:

n1 = n0 + n y t1 = t0 + Σi t(xi).

• La familia conjugada de una familia exponencial es a su vez una

familia exponencial.

49

Puede verificarse facilmente que los ejemplos que hemos visto hasta el

momento pueden obtenerse de esta manera.

Por ejemplo, en el caso binomial,

f(x|θ) =

(

n

x

)

θx(1− θ)n−x

=

(

n

x

)

(1− θ)n exp{x log[θ/(1− θ)]},

que en notacion de la familia exponencial corresponde a

h(x) =

(

n

x

)

, g(θ) = (1− θ)n, t(x) = x y c(θ) = log(

θ

1− θ

)

.

Con esta notacion, la distribucion inicial conjugada toma la forma

f(θ) ∝ [(1− θ)n]n0 exp{t0 log[θ/(1− θ)]}∝ θt0 (1− θ)nn0−b,

por lo que, como era de esperarse, es un miembro de la familia de

distribuciones beta.

50

A continuacion se presentan de manera resumida, las familias conjugadas

para algunos de los modelos mas comunes.

Verosimilitud Inicial Final

X ∼ Bin(θ, n) Beta(p, q) Beta(p + x, q + n − x)

X1, . . . , Xn ∼ Poisson(θ) Gamma(p, q) Gamma(p + Σixi, q + n)

X1, . . . , Xn ∼ N(θ, τ−1)∗ N(b, c−1) N( cb+nτxc+nτ

, 1c+nτ

)

X1, . . . , Xn ∼ Gamma(k, θ)∗∗ Gamma(p, q) Gamma(p + nk, q + Σixi)

X ∼ NegBin(θ, r) Beta(p, q) Beta(p + x, q + r)

∗τ conocido; ∗∗

k conocido

51

Mezclas de distribuciones conjugadas

Dado un modelo, en algunos casos la familia conjugada correspondiente

puede no ser suficientemente flexible como para describir nuestra

informacion inicial.

Consideremos el siguiente ejemplo:

Cuando una moneda es lanzada, la probabilidad de obtener una “aguila” es

aproximadamente 0.5. Sin embargo, si la moneda se gira sobre una mesa,

pequenas imperfecciones en la moneda pueden causar una mayor frecuencia de

“aguilas” o “soles”.

Tomando en cuenta lo anterior, se desea asignar una distribucion sobre la

probabilidad de “aguila”, θ, que favorezca valores alrededor de 0.3 o 0.7, de

manera que nuestra informacion inicial puede ser descrita a traves de una

distribucion bimodal.

La verosimilitud dado el numero de “aguilas” en n giros de la moneda es

binomial, por lo que la familia conjugada es la familia beta. Sin embargo,

ninguna distribucion beta presenta la bimodalidad necesaria para describir

nuestra informacion inicial.

52

Una posible solucion es utilizar mezclas de distribuciones conjugadas.

Supongamos que f1(θ), . . . , fk(θ) son miembros de la familia conjugada

para θ, con distribuciones finales f1(θ|x), . . . , fk(θ|x), respectivamente.

Consideremos la familia de mezclas de la forma

f(θ) =

k∑

i=1

πifi(θ)

Entonces

f(θ|x) ∝ f(θ)f(x|θ)

=

k∑

i=1

πifi(θ)f(x|θ)

∝

k∑

i=1

π∗i fi(θ|x),

donde

π∗i =

πifi(x)

Σjπjfj(x)

53

Por lo tanto la distribucion final pertenece a la misma familia de mezclas

que la distribucion inicial.

Este tipo de mezclas puede aproximar a cualquier distribucion inicial.

Sin embargo, el numero de terminos necesarios puede ser muy grande, y

tal vez sea posible representar nuestra informacion inicial de una manera

mas sucinta usando otro tipo de distribuciones iniciales no conjugadas.

En general, asignar una distribucion inicial no es un problema sencillo.

Debemos reconocer que nadie es capaz de llevar a cabo, de manera

coherente, un numero infinito (ni siquiera moderado) de asignaciones de

probabilidades.

Las familias conjugadas y otra ideas similares tienen el proposito de

simplificar esta asignacion, capturando los aspectos mas importantes de

la informacion inicial, y no pretenden proporcionar una descripcion

precisa de esa informacion.

54

Distribuciones iniciales no-informativas

Recordemos el analisis del modelo normal: si X1, . . . , Xn ∼ N(θ, τ−1) y

f(θ) = N(θ|b, c−1) entonces f(θ|x) = N( cb+nτxc+nτ

, 1c+nτ

).

La fuerza de nuestra informacion inicial acerca de valor de θ queda

determinada por la varianza de la distribucion inicial, o equivalentemente

por la precision inicial c.

Un valor muy grande de c indica una gran certeza acerca del valor de θ,

mientras que un valor pequeno de c corresponde a informacion inicial

vaga.

Supongamos ahora que nuestra informacion inicial es tan debil que

dejamos que c→ 0. Entonces f(θ|x)→ N(θ|x, σ2/n).

Aparentemente obtenemos una distribucion final perfectamente valida.

55

Pero hay un problema. Consideremos lo que le ocurre a la distribucion

inicial conforme c→ 0. En el lımite obtendrıamos la distribucion inicial

N(b,∞), que no es una distribucion propia.

De hecho, conforme c→ 0 la distribucion inicial N(b, c−1) se hace cada

vez mas plana, de manera que, en el lımite

f(θ) ∝ 1 (θ ∈ RI ).

Esta no es una densidad de probabilidad, dado que∫

R

f(θ)dθ =∞.

Es decir, la distribucion final N(θ|x, σ2/n) que se obtienen al hacer c→ 0

en el analisis conjugado estandar, no puede obtenerse vıa el Teorema de

Bayes a partir de ninguna distribucion inicial propia.

56

Sin embargo, dicha distribucion final sı puede obtenerse si aplicamos

mecanicamente el Teorema de Bayes usando la distribucion inicial

impropia f(θ) ∝ 1.

¿Es valido usar una distribucion final obtenida a partir de una inicial

impropia (elegida para describir nuestra informacion inicial vaga)?

A pesar de las dificultades que esto implica, el uso de distribuciones

iniciales impropias es comunmente aceptado.

Si escogieramos cualquier valor positivo de c, por mas pequeno que fuese,

obtendrımos una distribucion final perfectamente valida. Por lo tanto

podrıamos escoger un valor de c arbitrariamente cercano a cero, en cuyo

caso obtendrıamos una distribucon final arbitrariamente cercana a la que

se obtiene utilizando la distribucion inicial impropia f(θ) ∝ 1.

57

Represenciones de la ignorancia

El uso de distribuciones uniformes para representrar ignorancia trae

consigo otro tipo de problemas.

Supongamos que asignamos la distribucion inicial f(θ) ∝ 1 para un

determinado parametro θ. Supongamos ahora que el parametro de

interes es en realidad φ = θ2. Entonces,

fφ(φ) = f(θ(φ))

∣

∣

∣

∣

dθ

dφ

∣

∣

∣

∣

∝ 1/√

φ

Por otro lado, si no sabemos nada acerca de θ tampoco sabemos nada

acerca de φ, por lo que pudimos haber usado el mismo argumento que

nos llevo a proponer f(θ) ∝ 1 para proponer en su lugar fφ(φ) ∝ 1.

[¿Que escala utilizar?]

58

Jeffreys propuso una forma de conseguir distribuciones iniciales no

informativas consistentes entre reparametrizaciones del modelo, es decir

invariantes ante transformaciones uno a uno.

La distribucion inicial de Jeffreys se define como

fθ(θ) ∝ |Iθ(θ)|1/2,

donde

Iθ(θ) = −E

[

d2 log f(x|θ)dθ2

]

denota la cantidad de informacion de Fisher.

Este tipo de distribuciones iniciales no informativas es invariante en el

sentido de que respeta la regla de cambio de variables: la distribucion de

Jeffreys para φ puede obtenerse a partir de la distribucion de Jeffreys

para θ a traves de la formula de cambio de variable usual.

59

Veamos algunos ejemplos:

* N(θ, σ2), σ2 conocida: aquı Iθ(θ) = 1/σ2 y por lo tanto fθ(θ) ∝ 1.

* Bin(θ, n): aquı Iθ(θ) = nθ−1(1− θ)−1, de manera que

fθ(θ) ∝ θ−1/2(1− θ)−1/2.

Es decir, fθ(θ) = Be(θ|1/2, 1/2) (← esta distribucion es propia).

* NegBin(θ, n): aquı Iθ(θ) ∝ θ−1(1− θ)−2, por lo que

fθ(θ) ∝ θ−1/2(1− θ)−1.

[Principio de Verosimilitud; Distribuciones de Referencia]

60

Robustez

• En Estadıstica, independientemente del enfoque que se utilice, es

importante entender hasta que punto el modelo usado es robusto

antes posibles violaciones a los supuestos.

• Lo anterior tambien es cierto dentro del enfoque Bayesiano en lo que

se refiere a la especificacion de la distribucion inicial.

• En ocasiones el modelo es tal que las inferencias no se modifican

sustancialmente ante cambios moderados en la distribucion final.

Esto ocurre, por ejemplo, cuando el tamano de la muestra es

suficientemente grande.

• En otros casos, sin embargo, puede ocurrir que incluso cambios

aparentemente insignificantes en la distribucion inicial produzcan

inferencias completamente distintas.

61

Comunidad de distribuciones iniciales

Algunos autores sugieren que, en la practica, es conveniente comparar los

resultados de los analisis derivados de al menos tres distribuciones iniciales

distintas:

• Una distribucion inicial no-informativa

• Una distribucion inicial (tentativa) que refleje los aspectos mas

importantes nuestra informacion inicial

• Una distribucion inicial (tal vez artificialmente) mas informativa

La idea es que, si las inferencias no son muy distintas en cada uno de estos

casos, el analisis (dados los datos observados) sera relativamente robusto en lo

que se refiere a la eleccion de la distribucion inicial. No es necesario entonces

preocuparse demasiado por especificar una distribucion inicial con mucha

precision.

En caso contrario, es importante hacer el esfuerzo necesario para especificar

una distribucion que refleje genuinamente nuestra informacion inicial.

62

4. Problemas multiparametricos

Todos los ejemplos que hemos utilizado hasta ahora involucran un solo

parametro.

Por supuesto, la gran mayorıa de los problemas involucran modelos

probabilısticos que contienen mas de un parametro desconocido, aunque

con frecuencia el interes recae en un solo parametro.

Los metodos para analizar estos modelos multiparametrales desde el

punto de vista Bayesiano son mas sencillos (al menos en principio) que

los respectivos metodos clasicos.

De hecho, no se requiere introducir nada nuevo en la teorıa para atacar

este problema.

63

Dado un modelo f(x|θ) que depende de un vector θ = (θ1, . . . , θd)′ de

parametros desconocidos, es necesario especificar una distribucion inicial

f(θ) y actualizarla vıa el Teorema de Bayes


∫

f(θ)f(x|θ)dθ

El problema es que ahora estamos trabajando con distribuciones

multivariadas.

Sin embargo, la simplicidad del analisis Bayesiano se refleja en el hecho

de que, para hacer inferencias sobre cualquier subvector de θ, basta

calcular la correspondiente distribucion final marginal. Por ejemplo,

f(θ1|x) =

∫

Θd

· · ·∫

Θ2

f(θ1, . . . , θd|x) dθ2 · · · dθd.

[Receta unica; Verosimilitud perfil; Ancilaridad]

*

64

Aunque no es necesario introducir nuevos conceptos, el incremento en la

dimension del problema trae consigo nuevos problemas practicos.

1. Especificacion de la distribucion inicial. Ahora la distribucion inicial

es multivariada y es necesario que describa no solo nuestra

informacion sobre cada parametro individualmente, sino tambien

sobre la dependencia entre los distintos parametros.

2. Calculo. Con una mayor dimension, las integrales requeridas son

bastante mas difıciles de calcular. Esto hace que las familias

conjugadas resulten aun mas atractivas en este caso, aunque tambien

seran mas difıciles de construir. De ahı la necesidad de contar con

tecnicas numericas eficientes para el calculo de las integrales.

3. Interpretacion. La distribucion final contiene toda la informacion

disponible sobre los valores de los parametros, pero en el caso

multiparametrico puede tener una estructura mas compleja y por lo

tanto sera mas difıcil de resumir.

65

5. Resumiendo la distribucion final

Hemos dicho antes que el problema de inferencia queda resuelto una vez

que se encuentra la distribucion final del parametro de interes.

Sin embargo, especialmente en el caso multiparametral, es necesario

resumir de alguna manera la informacion contenida en la distribucion

final.

La forma especıfica de dicho resumen dependera del problema y del

proposito del analisis.

A un nivel informal podemos utilizar, por ejemplo, alguna medida de

tendencia central de la distribucion final (media, mediana, moda) como

estimador puntual del parametro. De manera similar, es posible usar

alguna medida de dispersion (desviacion estandar, rango inter-cuartil)

como una medida de la incertidumbre en la estimacion.

66

Por otra parte, si se desea probar las hipotesis

H0 : θ ∈ Θ0 vs H1 : θ ∈ Θ1 (Θ0 ∩Θ1 = ∅),

podemos usar el siguiente criterio intuitivo: rechazar H0 si

Pr[θ ∈ Θ0|x] < Pr[θ ∈ Θ1|x].

Es decir, aceptar la hipotesis mas probable bajo la distribucion final.

Es posible formalizar estas ideas a traves de la Teorıa de la Decision.

67

Aunque existen diversas propuestas para resolver problemas de decision

en ambiente de incertidumbre (e.g. minimax), la unica teorıa coherente

es la Bayesiana.

Si aceptamos cierto conjunto de Axiomas de Coherencia, la teorıa

Bayesiana nos dice exactamente como tomar decisiones de manera

racional.

Cabe mencionar que esta teorıa es normativa y no descriptiva.

La Teorıa de la Decision se usa con frecuencia como un argumento para

justificar el enfoque Bayesiano de la Estadıstica.

68

Recordemos que, en el contexto de la Estadıstica, los elementos de un

problema de decision en ambiente de incertidumbre son los siguientes:

1. El espacio de acciones potenciales disponibles: A2. El espacio parametral, que contiene los posibles estados de la

naturaleza: Θ

3. El espacio de las consecuencias: C = A×Θ

Para poder resolver un problema de decision, es necesario cuantificar

tanto la incertidumbre sobre Θ como las consecuencias en C.La incertidumbre se cuantifica a traves de una medida de probabilidad,

f(θ), y las consecuencias por medio de una funcion de perdida, L(a, θ).

El resultado fundamental de la teorıa es que debe elegirse aquella accion

que minimice la perdida esperada final

L∗x(a) =

∫

Θ

L(a, θ)f(θ|x) dθ.

69

Estimacion puntual

En este caso A = Θ.

Las funciones de perdida mas comunes son:

1. Cuadratica: L(θ, θ) = (θ − θ)2.

Notemos que L∗x(θ) = Var(θ|x) + {E(θ|x)− θ}2, de manera que el

valor de θ que minimiza a L∗x(θ) es θ = E(θ|x).

2. Valor absoluto: L(θ, θ) = |θ − θ|.Puede demostrarse que en este caso el valor que minimiza la perdida

esperada final es θ = Mediana(θ|x).

3. Lineal: Para g, h > 0,

L(θ, θ) =

{

g · (θ − θ) si θ > θ

h · (θ − θ) si θ < θ

En este caso θ = Cuantil de orden hg+h

de f(θ|x).

70

4. Tipo 0-1: Para ǫ > 0,

L(θ, θ) =

{

0 si |θ − θ| ≤ ǫ

1 si |θ − θ| > ǫ

Notemos que L∗x(θ) = Pr[|θ − θ| > ǫ|x] = 1− Pr[|θ − θ| ≤ ǫ|x].

Consecuentemente, si definimos un intervalo modal de longitud ǫ

como el intervalo de la forma [θ − ǫ, θ + ǫ] que tiene la probabilidad

mas alta, entonces el estimador Bayesiano θ corresponde al punto

medio del intervalo modal.

Ası, escogiendo valores arbitrariamente pequenos de ǫ, este

procedimiento producirıa θ = Moda(θ|x) como el estimador

Bayesiano.

71

Contraste de hipotesis

Supongamos que se desea contrastar las hipotesis

H0 : θ ∈ Θ0 vs H1 : θ ∈ Θ1 (Θ0 ∩Θ1 = ∅; Θ0 ∪Θ1 = Θ).

En este caso A = {a0, a1} = {H0, H1}.

Supongamos que se utiliza una funcion de perdida de la forma

L(ai, θ) =

{

ki si θ /∈ Θi

0 si θ ∈ Θi

(i = 0, 1),

donde k0, k1 > 0.

Entonces

L∗x(ai) = ki(1− Pr[θ ∈ Θi|x]) (i = 0, 1)

72

Por lo tanto, debe rechazarse H0 si y solo si

L∗x(a0) > L∗

x(a1).

Es decir, si y solo siPr[θ ∈ Θ0|x]

Pr[θ ∈ Θ1|x]<

k0

k1.

En particular, si k0 = k1 entonces la mejor accion es rechazar H0 si

Pr[θ ∈ Θ0|x] < Pr[θ ∈ Θ1|x].

73

Las probabilidades finales requeridas pueden calcularse de la siguiente

manera.

Por el Teorema de Bayes,

Pr[θ ∈ Θi|x] =Pr[θ ∈ Θi]f(x|θ ∈ Θi)

f(x),

donde

Pr[θ ∈ Θi] =

∫

Θi

f(θ) dθ

y

f(x|θ ∈ Θi) =

∫

Θi

f(x|θ){

f(θ)∫

Θi

f(θ)dθ

}

dθ.

Entonces, el criterio para rechazar H0 toma la forma

f(x|θ ∈ Θ0)

f(x|θ ∈ Θ1)<

k0

k1

Pr[θ ∈ Θ1]

Pr[θ ∈ Θ0].

[Factores de Bayes]

74


• Si las dos hipotesis fueran simples, i.e. si Θi = {θi} (i = 0, 1),

entonces se rechazarıa H0 siempre que

f(x|θ0)

f(x|θ1)<

k0

k1

Pr[θ = θ1]

Pr[θ = θ0].

Esta “region de rechazo” tiene la misma forma que la producida por

el Lema de Neyman-Pearson.

• Si las dos hipotesis son compuestas, el criterio Bayesiano se basa en

el cociente de verosimilitudes integradas; en contraste, el criterio

clasico se basa en el cociente de verosimilitudes maximizadas.

• Si una de las hipotesis es simple y la otra es compuesta, este

procedimiento no siempre es satisfactorio.

• Otras funciones de perdida dan lugar a otros “criterios de rechazo”.

[Hipotesis multiples]

75

6. Prediccion

Hasta el momento solo hemos discutido el problema de hacer inferencias

acerca del valor desconocido del parametro.

En muchas situaciones, sin embargo, el proposito de formular un modelo

estadıstico es hacer predicciones sobre el valor de una o mas

observaciones futuras.

Este problema se resuelve de manera mucho mas elegante desde el punto

de vista Bayesiano que desde el punto de vista clasico.

El punto esencial aquı es que, al hacer inferencias predictivas sobre el

valor de una observacion futura con base en un modelo ajustado, deben

tomarse en cuenta dos fuentes de incertidumbre:

• Incertidumbre sobre el valor del parametro (sobre el cual se pueden hacer

inferencias con base en datos previos).

• Incertidumbre por el hecho de que cualquier observacion futura es aleatoria

en sı misma (aun si conocieramos el verdadero valor del parametro, no

podrıamos predecir el valor de una observacion futura con certeza).

76

Dentro del enfoque clasico de la Estadıstica, es comun ajustar el modelo

con base en los datos previos (obteniendo un estimador puntual θ), y

entonces hacer predicciones con base en el modelo f(x|θ) como si este

fuera el modelo correcto.

De esta manera, se ignora completamente la primera fuente de

incertidumbre, lo que produce predicciones que aparentan ser mas

precisas de lo que realmente son.

En contraste, el enfoque Bayesiano toma en cuenta las dos fuentes de

incertidumbre de una manera natural.

77

Supongamos que tenemos una muestra observada x = (x1, . . . , xn)′ de

f(x|θ) y que se desea hacer inferencias acerca del valor futuro de

Y = Xn+1.

Dada una distribucion inicial f(θ), el Teorema de Bayes produce la

distribucion final f(θ|x).

Siguiendo la “unica receta de la inferencia Bayesiana”, debemos entonces

encontrar la distribucion condicional de Y dado el valor observado x.

Dicha distribucion esta dada por

f(y|x) =

∫

f(y|θ, x)f(θ|x) dθ

=

∫

f(y|θ)f(θ|x) dθ

= Ef(θ|x)[f(y|θ)]

y se conoce como la distribucion predictiva (final).

78

Ejemplo (normal)

Si X1, . . . , Xn ∼ N(θ, τ−1) (τ conocida) y f(θ) = N(θ|b, c−1), entonces

f(θ|x) = N(

θ∣

∣

∣

cb + nτx

c + nτ,

1

c + nτ

)

.

Puede demostrarse facilmente que en este caso

f(y|x) = N(

y

∣

∣

∣

cb + nτx

c + nτ,1

τ+

1

c + nτ

)

.

Escrito en terminos de la varianza σ2 = 1/τ , y haciendo c→ 0, tenemos

que

f(y|x) = N(

y

∣

∣

∣x, σ2

{

1 +1

n

})

.

79

7. Normalidad asintotica de la distribucion final

Bajo ciertas condiciones de regularidad, y para tamanos de muestra

grandes,

f(θ|x) ≈ Nd(θ|θ, V (θ)),

donde θ es el estimador de maxima verosimilitud para θ y V (θ) denota a

la inversa de la matriz de informacion de Fisher evaluada en θ.

En este caso, practicamente cualquier resumen inferencial de interes,

(e.g. distribuciones marginales o momentos de funciones lineales de θ)

puede aproximarse facilmente.

Sin embargo, en aplicaciones especıficas no siempre es facil determinar si

la aproximacion normal es adecuada para el tamano de muestra dado.

Por esta razon, en la mayorıa de los casos resulta conveniente trabajar

en terminos de una parametrizacion φ = φ(θ), tal que los componentes

φi de φ tomen valores en RI y la distribucion final de φ sea al menos

aproximadamente simetrica.

80

8. Otros metodos

Modelos jerarquicos

Muchas aplicaciones estadısticas involucran colecciones de parametros

que pueden considerarse relacionados entre sı debido a la estructura del

problema.

Una manera natural de modelar esta situacion consiste en usar una

distribucion inicial bajo la cual los parametros, θi, puedan verse como

una muestra de una distribucion poblacional comun, que a su vez

depende de un hiperparametro desconocido φ.

Una caracterıstica importante de este enfoque es que los datos

observados, xi, pueden utilizarse para estimar ciertos aspectos de la

distribucion poblacional de los parametros θi (e.g. funciones de φ) a

pesar de que los valores de θi no son observables.

81

La siguiente figura muestra la estructura general de un modelo jerarquico

simple.

φ

θ1

θ2

..... θk

x1

x2

..... xk

Esta estructura jerarquica puede resultar muy util al analizar modelos

con muchos parametros.

82

De esta manera, un modelo jerarquico tiene la siguiente estructura:

Nivel I. (Observaciones)

f(x|θ) = f(x1, . . . , xk|θ1, . . . , θk)

=

k∏

i=1

f(xi|θi).

Nivel II. (Parametros)

f(θ|φ) = f(θ1, . . . , θk|φ)

=

k∏

i=1

f(θi|φ).

Nivel III. (Hiperparametros)

f(φ).

Es posible formular modelos muy complejos usando este tipo de

estructuras jerarquicas (i.e., por etapas).

83

Metodos computacionales

Resumenes inferenciales. En general, interesa calcular integrales de la

forma

SI [g(θ)] =

∫

g(θ) {f(θ) f(x|θ)} dθI′ ,

donde θ = (θ1, . . . , θd)t, I ⊆ {1, . . . , d} e

I ′ = {1, . . . , d}\I.

Ası, por ejemplo,

f(x) = S∅[1]

f(θi|x) =S{i}[1]

S∅[1]

E[θi θj |x] =S∅[θiθj ]

S∅[1]

84

Desafortunadamente, en la practica f(x|θ) y/o f(θ) pueden tener

formas muy complicadas, por lo que tıpicamente estas integrales no

pueden resolverse de manera analıtica.

Por otra parte, en muchas aplicaciones el numero de parametros

involucrados en el modelo puede ser muy grande, lo cual requiere

de un esfuerzo computacional muy alto.

Casi todos los metodos de integracion (o simulacion) disponibles

son mas eficientes cuando la distribucion final f(θ|x) es

aproximadamente normal y la correlacion entre los distintos

parametros es baja.

Existen diversas tecnicas, tanto analıticas como numericas, para

evaluar o aproximar las integrales requeridas. Sin embargo, las

tecnicas de Monte Carlo (simulacion) has mostrado ser las mas

flexibles y poderosas en las aplicaciones.

85

Monte Carlo vıa Cadenas de Markov

Idea general

• Se desea generar una muestra de una distribucion π(θ), con

θ ∈ Θ ⊆ RI d.

• Puede construirse una cadena de Markov, con espacio de estados Θ,

que sea facil de simular y cuya distribucion de equilibrio sea π(θ).

• Si θ1, θ2, . . . , θt, . . . es una realizacion de esta cadena, entonces

θt D−→ θ ∼ π(θ) cuando t→∞

y

1

t

t∑

i=1

g(θi) −→ Eπ[g(θ)] cuando t→∞ (c.s.)

86

Es posible simular varias cadenas independientes al mismo tiempo y de

esta manera obtener, para un valor grande de t, una muestra aproximada

de la distribucion π(θ).

Alternativamente, puede simularse una sola cadena y usar la muestra

obtenida tomando en cuenta que los valores simulados no son

independientes. Por ejemplo, momentos de funciones de θ pueden

estimarse usando promedios ergodicos.

Los dos algoritmos mas populares para construir cadenas de Markov con

las propiedades deseadas son el de Metropolis-Hastings y el muestreo de

Gibbs.

El muestreo de Gibbs especialmente le ha dado un impulso extraordinario a

las aplicaciones de las tecnicas Bayesianas a problemas reales a lo largo de los

ultimos diez anos.

87

Muestreo de Gibbs

Sea π(θ) = π(θ1, . . . , θk) una densidad conjunta y sea π(θi|θ−i) la

densidad condicional de θi dados los valores de los otros componentes

θ−i = (θj ; j 6= i).

El algoritmo es el siguiente:

- Elegir valores iniciales θ0 = (θ01 , . . . , θ0

k)

- Generar θ11 de π(θ1|θ0

−1)


1 , θ03 , . . . , θ0

k)


1 , θ12 , θ0

4 , . . . , θ0k)

.

.

.

- Generar θ1k de π(θk|θ

1−k) (Esto completa una transicion de θ

0 a θ1.)

- Iterar los pasos anteriores para producir una sucesion θ1, θ2, . . . , θt, . . .

Basta poder generar muestras de las densidades condicionales π(θi|θ−i).

88

Observaciones faltantes

Sea x = (z, z) un conjunto de datos (generados, por ejemplo, a partir de

un diseno balanceado), y supongamos que:

z representa los datos observados

z representa las observaciones faltantes.

Generalmente, en estos casos ocurre que:

f(θ|z) tiene una forma complicada, pero

f(θ|x) tiene una forma sencilla.

Dado que z no se ha observado, puede considerarse como un “parametro

de ruido” e incluirse dentro de un muestreo de Gibbs con densidades

condicionales

f(θ|z, z) = f(θ|x)

f(z|θ, z) = f(z|θ)

89

Variables latentes

La situacion anterior sirve para ilustrar un tecnica general conocida

como el metodo de variables latentes. La idea es simplemente notar

que en ocasiones es posible simular mas facil y eficientemente de una

distribucion

f(θ, λ|x)

que de la distribucion f(θ|x), donde el nuevo “parametro” λ puede ser

esencialmente cualquier variable aleatoria.

Es claro que al generar una muestra de la distribucion conjunta f(θ, λ|x)

automaticamente obtenemos una muestra de la distribucion marginal

f(θ|x) que nos interesaba originalmente.

90

Muestreo condicional

Supongamos que se desea generar una muestra de la distribucion

f(λ, θ|x).

Supongamos tambien que es posible simular eficientemente de f(θ|x) y

de f(λ|θ, x).

Entonces, dada una muestra θ1, . . . , θN de f(θ|x), podemos obtener una

muestra de la distribucion conjunta f(λ, θ|x) simulando, para cada

i = 1, . . . , N ,

λi ∼ f(λ|θi, x).

La muestra (λ1, θ1), . . . , (λN , θN ) ası obtenida es entonces una muestra

de f(λ, θ|x).

Esto es util, por ejemplo, para generar observaciones de la distribucion

predictiva con base en muestras de la distribucion final.

*

91

Implementacion

- Simplificacion del problema original

- Reparametrizaciones

- Combinacion de metodos

- Convergencia

- Software

BUGS (Bayesian Inference Using Gibbs Sampling)

Disponible en:

http://www.mrc-bsu.cam.ac.uk/bugs/

- Mayor informacion:

http://www.dpye.iimas.unam.mx/eduardo/MCB/MCB.html

92

Bibliografıa recomendada

(B) Bernardo, J.M. & Smith, A.F.M. (1994) Bayesian Theory.

Chichester: Wiley.

(I) Berry, D.A. (1996). Statistics: A Bayesian Perspective. Duxbury

Press: Belmont.

(B) Box, G.E.P. & Tiao, G.C. (1973). Bayesian Inference in Statistical

Analysis. Reading: Addison-Wesley.

(A) Congdon, P. (2001). Bayesian Statistical Modelling. Chichester:

Wiley.

(C) Gamerman, D. (1996). Markov Chain Monte Carlo: Stochastic

Simulation for Bayesian Inference. London: Chapman & Hall.

(A) Gelman, A., Carlin, J.B., Stern, H.S. & Rubin, D.B. (1995).

Bayesian Data Analysis. London: Chapman & Hall.

(C) Gilks, W.R., Richardson, S. & Spiegelhalter, D.J. (1996). Markov

Chain Monte Carlo in Practice. London: Chapman & Hall.

93

(B) Leonard, T. & Hsu, J.S.J. (1999). Bayesian Methods: An Analysis

for Statisticians and Interdisciplinary Researchers. Cambridge:

Cambrige University Press.

(I) Migon, H.S. & Gamerman, D. (1999). Statistical Inference: an

Integrated Approach. London: Arnold.

(B) O’Hagan, A. (1994). Kendall’s Advanced Theory of Statistics, Vol.

2b: Bayesian Inference. Cambridge: Edward Arnold.

(B) Press, S.J. (1989). Bayesian Statistics. Principles, Models and

Applications. New York: Wiley.

(I) Sivia, D.S. (1996). Data Analysis: A Bayesian Tutorial. Clarendon

Press: Oxford.

(I) Introductorio; (B) Basico; (A) Aplicaciones; (C) Metodos computacionales

94

Eduardo Gutierrez Pena

Departamento de Probabilidad y Estadıstica

IIMAS, UNAM

Apartado Postal 20-726

Deleg. Alvaro Obregon

01000 Mexico, D.F.

e-mail: [email protected]

Web: http://www.dpye.iimas.unam.mx/eduardo

95

Documents

Inferencia Bayesiana