View
251
Download
1
Embed Size (px)
DESCRIPTION
ana pequeña introduccion al a inferencia bayesiana - escrito por-Eduardo Guti´errez Pe˜naIIMAS, UNAMhttp://www.dpye.iimas.unam.mx/eduardo
Citation preview
Introduccion a la Inferencia Bayesiana
Eduardo Gutierrez Pena
IIMAS, UNAM
http://www.dpye.iimas.unam.mx/eduardo
1
Temario
1. Introduccion (¿Que es la Estadıstica? ¿Y la Inferencia Bayesiana?)
2. El proceso de aprendizaje (Teorema de Bayes)
3. Especificacion de la distribucion inicial (distribuciones conjugadas,
distribuciones no-informativas)
4. Problemas multiparametricos
5. Resumenes de la informacion contenida en la distribucion final
(estimacion, contraste de hipotesis)
6. Prediccion
7. Teorıa asintotica (Normalidad de la distribucion final)
8. Otros temas (modelos jerarquicos, metodos computacionales,...)
2
1. Introduccion
¿Que es la Estadıstica?
ESTADISTICA
Analisis de Datos
Inferencia
Probabilidad
Encuestas
Experimentos
Censos
Pronosticos
Objeto: estudio de fenomenos inciertos (aleatorios)
3
?
OBSERVADOR
FENOMENO
Fenomeno aleatorio: aquel que no se puede predecir con certeza
4
El estudio se lleva a cabo a partir del posible conocimiento previo y
de observaciones que se realizan sobre el fenomeno
MarcoConceptual
Atributos
de
interes Variables
(X,Y,Z,...)
Datos
(x,y,z,...)
Fenomeno
Descripcion
5
El proceso de observacion
- Variable: codificacion numerica de un atributo
- Dato: registro (numerico), producto de la observacion de un
atributo a traves de una variable.
Estadıstica
“Conjunto de tecnicas para describir un fenomeno, a partir de un
conjunto de datos que presentan variabilidad”
“Conjunto de metodos para alcanzar conclusiones acerca de una o
varias caracterısticas de interes de una poblacion a partir de
informacion parcial provista por una muestra de dicha poblacion”
[Incertidumbre...]
6
¡Toda la Estadıstica es descriptiva!
*
Caso A: se cuenta con todos los datos posibles del fenomeno bajo
estudio (e.g. censos)
Descripcion: exacta −→ Analisis exploratorio de datos
Caso B : se cuenta solamente con una parte de todos los datos
posibles (e.g. encuestas)
Descripcion: aproximada −→ Inferencia Estadıstica
7
Fenomeno
Muestra
Inferencia
(Descripcion aproximada)
x , x ,..., x1 2 n
Pero... ¿como seleccionar la muestra?
¿como medir el grado de aproximacion?
8
Solucion: seleccion probabilıstica de la muestra (i.e. por sorteo)
x −→ X −→ Pr[X = x]
Dato Variable (aleatoria) Modelo de probabilidad
Ası,
Describir el fenomeno ⇐⇒ describir el modelo
9
Inferencia parametrica y no parametrica
En ocasiones resulta conveniente suponer que
Pr[X = x] = f(x|θ),
donde f(·|θ) tiene forma conocida, pero el valor de θ es desconocido
Ası,
Describir el fenomeno ⇐⇒ caracterizar el valor de θ
En otros casos la propia forma funcional de Pr[X = x] se supone
desconocida
10
La Estadıstica clasica
Planteamientos mas comunes
- Estimacion puntual: θ
- Estimacion por intervalo: θ ∈ (θ, θ)
- Prueba de hipotesis: H0 : θ ∈ Θ0 vs H1 : θ ∈ Θ1
Tecnicas: univariadas/multivariadas, regresion/series de tiempo,...
Criterios: suficiencia, insesgamiento, varianza mınima, consistencia,
eficiencia, potencia, confianza, significancia,...
¿Como y cuando aplicar cada receta?
11
Veamos un ejemplo...
Problema: estimar la proporcion de arboles de una especie
determinada que sufren de cierta enfermedad en un bosque.
Se selecciona una muestra aleatoria de arboles, de manera que cada
arbol en la muestra sufra de la enfermedad con probabilidad θ
(independientemente de los otros arboles en la muestra), donde θ
denota la proporcion de arboles enfermos en la poblacion, i.e. en el
bosque.
La variable aleatoria X denota el numero de arboles enfermos en la
muestra.
El valor observado X = x es usado para hacer inferencias acerca del
parametro poblacional θ.
12
Dichas inferencias pueden tomar la forma de
• un estimador puntual : θ = 0.1
• un intervalo de confianza: θ ∈ (0.08,0.12) con 95% de confianza
• una prueba de hipotesis: rechazar H0 : θ < 0.07 con α = 0.05
• un pronostico: predecir que el 15% de los arboles del bosque se
veran afectados para el ano proximo
• una decision: identificar y eliminar todos los arboles infectados
13
Estas inferencias se llevan a cabo especificando un modelo
probabilıstico, f(x|θ), que determina las probabilidades de los
posibles valores de X para un valor dado de θ, e.g.
X ∼ Bin(θ, n),
de manera que el problema de inferencia estadıstica se reduce a
hacer inferencias sobre θ con base en el valor observado X = x.
Principio de maxima verosimilitud : valores de θ que asignan una
probabilidad alta al valor observado x son mas “verosımiles” que
aquellos valores de θ que asignan a x una probabilidad pequena.
[Comentario: inferencia estadıstica y seleccion de modelos]
14
Notemos lo siguiente:
El parametro θ es desconocido, pero se considera constante, no
aleatorio.
De ahı que en la terminologıa clasica se hable de “verosimilitud”,
“confianza”, “nivel de significancia”, etc., y no de probabilidad.
Sin embargo, es comun que la gente interprete intuitivamente a un
intervalo de confianza del 95% para θ, digamos (0.08, 0.12), como si
Pr(0.08 < θ < 0.12) = 0.95.
De manera similar, no es raro que la gente interprete el nivel de
significancia descriptivo (p-value) como la probabilidad de que la
hipotesis nula sea verdadera.
15
El enfoque Bayesiano
Idea: disenar una Teorıa Estadıstica, basada en una pequena serie
de principios basicos (axiomas), que nos permita estructurar la
solucion a cualquier problema de inferencia.
La vıa: la Teorıa de la Decision
¿Para que otro enfoque? ¿Para que una Teorıa Estadıstica?
- Para darle a la Estadıstica una estructura coherente
- Porque con otros enfoques pueden presentarse casos en los que:
(i) no hay una solucion razonable; (ii) se presentan paradojas
16
Teorıa de la decision
En el contexto de la Estadıstica, los elementos de un problema de
decision en ambiente de incertidumbre son los siguientes:
1. El espacio de acciones potenciales disponibles: A
2. El espacio parametral, que contiene los posibles estados de la
naturaleza: Θ
3. El espacio de las consecuencias: C = A× Θ
Para poder resolver un problema de decision, es necesario
cuantificar tanto la incertidumbre sobre Θ como las consecuencias
en C.
Los axiomas implican que la unica forma racional de cuantificar la
incertidumbre es a traves de una medida de probabilidad, f(θ), y
que las consecuencias deben cuantificarse por medio de una funcion
de perdida, L(a, θ)
17
El resultado fundamental de la teorıa es que debe elegirse aquella
accion que minimice la perdida esperada
L∗(a) =
∫
Θ
L(a, θ)f(θ) dθ.
Por supuesto, en problemas estadısticos se cuenta con informacion
adicional en la forma de una muestra X1, . . . , Xn ∼ f(x|θ).
¿Como incorporar esta informacion?
El Teorema de Bayes nos permite combinar las dos fuentes de
informacion, f(θ) y x = (x1, . . . , xn), y de esta manera producir la
distribucion final f(θ|x)
18
Teorema de Bayes
En terminos de funciones de densidad, el Teorema de Bayes toma
la forma
f(θ|x) =f(θ)f(x|θ)
∫
f(θ)f(x|θ)dθ.
El denominador, f(x) =∫
f(θ)f(x|θ)dθ, no depende de θ, por lo que es
comun escribir
f(θ|x) ∝ f(θ)f(x|θ).
Es este caso, la mejor accion sera aquella que minimice la perdida
esperada final
L∗
x(a) =
∫
Θ
L(a, θ)f(θ|x) dθ.
19
¿Que es la inferencia Bayesiana?
En cierto sentido, la diferencia fundamental respecto al enfoque
clasico es que en el enfoque Bayesiano el (valor del) parametro es
tratado como aleatorio.
Las inferencias se basan en f(θ|x) en lugar de f(x|θ); es decir, en la
distribucion de probabilidad (del valor desconocido) del parametro
dados los datos observados, en vez de la distribucion de los datos
dado el valor del parametro.
Lo anterior da lugar a inferencias mas naturales, pero para ello es
necesario un ingrediente mas: una distribucion inicial, f(θ), que
describe la informacion que se tiene sobre (el valor de) θ antes de
observar los datos.
20
La distribucion inicial
Al hacer inferencias sobre de un parametro θ, generalmente se
cuenta con algun tipo de informacion (juicios, creencias) acerca de
su valor, incluso antes de observar los datos.
Consideremos las siguientes tres situaciones:
1. Una mujer afirma que puede detectar, con un solo sorbo de una
taza de cafe, si la leche fue agregada antes o despues del cafe.
La mujer detecta correctamente el orden en diez tazas.
2. Un experto en musica afirma que puede distinguir entre una
pagina de una obra de Hayden y una de Mozart. El experto
clasifica correctamente diez paginas.
3. Un amigo ebrio afirma que puede predecir el resultado del
lanzamiento de una moneda honesta. El amigo predice
correctamente el resultado de diez lanzamientos.
21
En cada uno de los tres casos, el modelo es X ∼ Bin(θ, 10) y se observa
x = 10, de manera que se rechaza la hipotesis H0 : θ ≤ 0.5 en favor de
H1 : θ > 0.5.
Por lo tanto, en terminos de los datos observados, nos verıamos obligados
a hacer las mismas inferencias en los tres casos.
Sin embargo, dada nuestra informacion inicial, muy probablemente
permanecerıamos escepticos acerca de la capacidad del amigo ebrio,
ligeramente impresionados por la bebedora de cafe y poco sorprendidos
por el experto en musica.
El ejemplo anterior muestra que las inferencias deberıan basarse tanto en
los datos como en la informacion inicial.
La teorıa Bayesiana proporciona el mecanismo para combinar estas dos
fuentes de informacion de una manera natural.
[Comentario: distintas distribuciones iniciales pueden dar lugar a inferencias
distintas: ¿es esto una ventaja o una desventaja del enfoque Bayesiano?]
22
Caracterısticas del enfoque Bayesiano
Los siguientes tres aspectos fundamentales caracterizan al enfoque
Bayesiano:
Informacion inicial: cada problema es unico y tiene su propio
contexto, del cual se deriva la informacion inicial sobre el
parametro (o cualquier otra caracterıstica) de interes.
Probabilidad subjetiva: se reconoce explıcitamente que toda
asignacion de probabilidades es subjetiva (i.e., dependen del estado
de informacion del individuo que las asigna). No pretende ser un
enfoque “objetivo”.
Coherencia interna: al considerar a θ como aleatorio, los metodos
Bayesianos de inferencia se desarrollan de manera natural a partir
de la teorıa de la probabilidad y por lo tanto no presentan
contradicciones internas.
23
Como consecuencia, y a diferencia de los metodos clasicos, no es
necesario desarrollar criterios ad hoc (por ejemplo: insesgamiento,
eficiencia) para juzgar si un procedimiento determinado es “bueno”
en algun sentido.
El precio adicional que hay que pagar es la especificacion de una
distribucion de probabilidad sobre θ que describa la informacion
que se tiene sobre su valor.
Cabe mencionar que los procedimientos clasicos tambien se basan
(implıcitamente) en apreciaciones subjetivas (¿Por que un modelo
normal y no un modelo Student?, ¿Por que α = 0.05?)
*
El teorema de Bayes es la clave del proceso de aprendizaje.
24
2. El Proceso de Aprendizaje
Introduccion
Los cuatro pasos a seguir dentro del enfoque Bayesiano:
1. Especificacion de un modelo (verosimilitud), f(x|θ)
2. Especificacion de una distribucion inicial, f(θ)
3. Calculo de la distribucion final, f(θ|x), vıa el Teorema de Bayes
4. Resumen de la informacion contenida en f(θ|x) para hacer
inferencias sobre las cantidades de interes (parametros,
observaciones futuras,...)
25
Verosimilitud
El problema de elegir un modelo para describir el proceso que genero los
datos es esencialmente el mismo que desde el punto de vista clasico.
El modelo elegido dependera del problema en turno y del proposito del
analisis.
En ocasiones, la forma en la que se obtuvieron los datos puede sugerir
modelos apropiados como puntos de partida (e.g., muestro binomial,
conteos Poisson).
Con frecuencia, el modelo refleja una hipotesis cuya plausibilidad es
verificada posteriormente en el contexto de los datos (e.g., Y y X se
relacionan linealmente entre sı).
“Todos los modelos son incorrectos, pero existen algunos modelos mas
utiles que otros” (George E. P. Box).
26
Distribucion inicial
Este es el punto fundamental del enfoque Bayesiano y sera discutido con
mayor detalle en §3.
1. El analisis es subjetivo dado que depende del conocimiento que tu
tienes antes de observar los datos (y que describes a traves de tu
distribucion inicial).
2. Sin embargo, si la distribucion inicial es razonable, su efecto sobre
las inferencias disminuye conforme se tienen mas datos.
3. En ocasiones se tiene una idea vaga de la forma que deberıa tener
la distribucion inicial. Tal vez incluso somos capaces de asignar
valores, por ejemplo, a su media y su varianza, pero no podemos
ser mas precisos.
En estos casos es comun usar una distribucion inicial consistente con
nuestra informacion pero cuya forma sea conveniente, e.g. tal que de
lugar a analisis mas sencillos (ver familias conjugadas mas adelante).
27
4. En otros casos puede considerarse que no se tiene informacion inicial
sobre el valor del parametro (o, por algun motivo, no es deseable
incluir nuestra informacion inicial en el analisis).
En estas situaciones nos gustarıa poder utilizar una distribucion
inicial que refleje nuestra ignorancia acerca del valor del parametro.
En terminos generales siempre es posible encontrar este tipo de
distribuciones iniciales no-informativas (vagas, de referencia). Sin
embargo, excepto en modelos relativamente simples, esta labor es
complicada y no esta exenta de problemas.
28
Distribucion final
En terminos de variables aleatorias, el Teorema de Bayes toma la forma
f(θ|x) =f(θ)f(x|θ)
∫
f(θ)f(x|θ)dθ.
El denominador, f(x) =∫
f(θ)f(x|θ)dθ, no depende de θ, por lo que es
comun escribir
f(θ|x) ∝ f(θ)f(x|θ).
* En la practica, el calculo de la distribucion final puede ser un asunto
complicado, especialmente si la dimension del parametro no es pequena.
* Sin embargo, para ciertas combinaciones de distribuciones iniciales y
verosimilitudes es posible simplificar el analisis.
* En otros casos se requieren aproximaciones analıticas y/o tecnicas
computacionales relativamente sofisticadas. (Ver §7 y §8.)
29
Inferencia
El enfoque Bayesiano proporciona inferencias mas completas en el
sentido de que toda la informacion disponible sobre el valor de θ queda
representada a traves de la distribucion final.
Es decir, desde el punto de vista Bayesiano, el problema de inferencia se
reduce a encontrar f(θ|x): la distribucion final es la inferencia.
La unica receta de la Inferencia Bayesiana: encontrar la distribucion
condicional de todas aquellas cantidades de interes cuyo valor
desconocemos dado el valor conocido de las variables observadas.
Por supuesto, en la practica generalmente es deseable resumir este tipo
de inferencias en la forma de una estimacion puntual, una estimacion
por intervalo, etc. (Ver §5.)
30
Ejemplo (binomial)
Supongamos que X ∼ Bin(θ, n) y que nos interesa hacer inferencias
sobre el valor de θ. Entonces
f(x|θ) =
(
n
x
)
θx(1− θ)n−x; x = 0, 1, . . . , n.
* No olvidemos que la eleccion de la distribucion inicial varıa de problema a
problema.
* Sin embargo, empezaremos considerando una familia de posibles
distribuciones iniciales que, como veremos, da lugar a calculos simples.
* Si dicha familia es suficientemente flexible, i.e., si cubre un rango amplio de
formas posibles, podemos utilizar el elemento de la familia que describa de la
mejor manera nuestro estado de conocimiento acerca del valor de θ.
31
En este caso, supongamos que podemos representar nuestro
conocimiento sobre θ a traves de una distribucion beta:
f(θ) = Beta(θ|p, q),
donde
Beta(θ|p, q) =Γ(p + q)
Γ(p)Γ(q)θp−1(1− θ)q−1 (0 ≤ θ ≤ 1)
∝ θp−1(1− θ)q−1.
Entonces, por el Teorema de Bayes,
f(θ|x) ∝ f(θ) f(x|θ)∝ {θp−1(1− θ)q−1}{θx(1− θ)n−x}= θp+x−1(1− θ)q+n−x−1,
de manera que
f(θ|x) = Beta(θ|p + x, q + n− x).
32
* Ası, eligiendo adecuadamente la forma de la distribucion inicial, hemos
obtenido una distribucion final que pertenece a la misma familia que la
distribucion inicial.
* El efecto de los datos observados consiste en modificar el valor de los
hiperparametros de la distribucion inicial, de (p, q), a los valores finales
(p + x, q + n − x).
Como un ejemplo numerico, supongamos que, de 70 pacientes a los que
se les admnistra un nuevo tratamiento contra el cancer, 34 sobreviven
mas alla de un periodo determinado.
Denotemos por θ a la probabilidad de supervivencia. Supongamos que un
medico, con experiencia en este tipo de ensayos clınicos, considera que su
conocimiento puede ser descrito a traves de E(θ) = 0.4 y Var(θ) = 0.02.
Suponiendo que una distribucion beta da una descripcion adecuada de su
informacion inicial, ahora debemos elegir valores de p y q tales que
E(θ) = 0.4 y Var(θ) = 0.02.
33
Para ello es necesario resolver las siguientes ecuaciones
p
p + q= m y
pq
(p + q)2(p + q + 1)= v,
cuya solucion es
p =(1 − m)m2
v− m y q =
(1 − m)2m
v− (1 − m).
Dado que m = 0.4 y v = 0.02, entonces p = 4.4 y q = 6.6.
* Lo anterior especifica la distribucion inicial y es un ejemplo simple de como
puede asignarse tal distribucion.
* En la practica serıa necesario garantizar que esta distribucion es consistente
con la informacion inicial del medico.
34
La distribucion final correspondiente estarıa dada entonces por
f(θ|x) = Beta(38.4, 42.6)
Esta distribucion encapsula toda la informacion disponible sobre el valor
de θ y representa una inferencia completa. Sin embargo, es posible
resumir esta informacion, por ejemplo, a traves del valor esperado final
de θ:
E(θ|x) =p + x
p + q + n= 0.474.
Notemos los siguiente:
* El estimador maximo-verosımil es esta caso es θ = x/n = 0.486.
* Si n es grande entonces E(θ|x) ≈ θ y la varianza de la distribucion final de θ
sera pequena.
35
Ejemplo (normal)
Sea X1, . . . ,Xn una muestra de observaciones independientes (dado θ) de
una distribucion N(θ, σ2), con σ2 conocida. Entonces
f(xi|θ) =1√2πσ
exp
{
− (xi − θ)2
2σ2
}
,
lo que da lugar a la verosimilitud
l(θ;x) ∝ f(x|θ)
∝ exp
{
−∑n
i=1(xi − θ)2
2σ2
}
.
Supongamos que podemos representar nuestro conocimiento sobre θ a
traves de una distribucion normal:
f(θ) = N(θ|b, d2).
36
Por el teorema de Bayes:
f(θ|x) ∝ exp
{
−(θ − b)2
2d2
}
exp
{
−
∑
i(xi − θ)2
2σ2
}
= exp
{
−θ2 − 2bθ + b2
2d2−
∑
ix2
i − 2nxθ + nθ2
2σ2
}
∝ exp
{
−1
2
[
θ2(
1
d2+
n
σ2
)
− 2θ
(
b
d2+
nx
σ2
)]}
∝ exp
{
−1
2
(
1
d2+
n
σ2
)
(
θ −
bd2 + nx
σ2
1d2 + n
σ2
)2}
Finalmente,
f(θ|x) = N
(
bd2 + nx
σ2
1d2 + n
σ2
,1
1d2 + n
σ2
)
.
37
Este resultado puede presentarse de manera mas concisa si definimos la
precision como el recıproco de la varianza: τ = 1/σ2 y c = 1/d2.
Entonces
f(θ|x) = N(
cb + nτx
c + nτ,
1
c + nτ
)
.
Notemos que
1. E(θ|x) = γnb + (1− γn)x, donde γn = c/(c + nτ). Si nτ es grande
relativo a c, entonces γn ≈ 0 y la media de la distribucion final sera
aproximadamente igual a x.
2. Precision final = Precision inicial + (n× Precision de cada dato).
3. Conforme n→∞, f(θ|x) ≈ N(θ|x, σ2/n), de manera que en el lımite
la distribucion inicial no tiene ningun efecto sobre las inferencias.
4. Si d→∞ (o, equivalentemente, si c→ 0), entonces
f(θ|x) ≈ N(θ|x, σ2/n).
5. La distribucion final depende de la muestra solo a traves de x.
38
Actualizacion secuencial de la informacion
Hemos visto que el Teorema de Bayes proporciona el mecanismo para
actualizar nuestro estado de informacion, llevandonos de la distribucion
inicial a la distribucion final.
Esta distribucion final se convierte entonces una nueva distribucion
inicial antes de observar nuevos datos.
Dado f(θ), supongamos que observamos X1 = x1 de la densidad f(x|θ).Por el Teorema de Bayes
f(θ|x1) ∝ f(θ) f(x1|θ).
Esta es nuestra nueva distribucion inicial antes de observar X2 = x2 de
la densidad f(x|θ), independiente de X1.
39
Aplicando de nuevo el teorema de Bayes, obtenemos
f(θ|x1, x2) ∝ f(θ|x1)f(x2|θ, x1)
∝ { f(θ) f(x1|θ) } f(x2|θ)= f(θ) f(x1, x2|θ).
Este es el resultado que hubiesemos obtenido de haber actualizado de un
solo golpe la distribucion inicial f(θ) con base en la muestra completa
{x1, x2}.
Este argumento puede extenderse, por induccion, a cualquier numero de
observaciones.
40
Suficiencia
• En la escuela clasica de la Estadıstica, el concepto de suficiencia
juega un papel importante tanto en el desarrollo de la teorıa como
en las aplicaciones.
• Hasta cierto punto, dicho concepto tambien es relevante desde el
punto de vista Bayesiano.
• Hemos visto, en los ejemplos anteriores, como la distribucion final
depende de la muestra solo a traves de una estadıstica suficiente.
• De hecho, esta es una caracterizacion Bayesiana de una estadıstica
suficiente y resulta mas natural e intuitiva:
Supongamos que t = t(x) es una estadıstica. Entonces t es suficiente
para θ si f(θ|x) = f(θ|t(x)) para toda distribucion inicial f(θ).
• Puede demostrarse que esta definicion es equivalente a la definicion
clasica de suficiencia.
41
El Principio de Verosimilitud
El Principio de Verosimilitud establece que si dos experimentos producen
la misma verosimilitud para θ (excepto tal vez por una constante de
proporcionalidad), entonces las inferencias obtenidas a partir de cada
uno de los experimentos deben ser las mismas.
En otras palabras, todos los aspectos de la inferencia sobre el valor de θ
deben basarse exclusivamente en la funcion de verosimilitud.
Una virtud del enfoque Bayesiano es que en inherentemente consistente
con el Principio de Verosimilitud. Para verlo, notemos que si, dados dos
experimentos A y B, se tiene que fA(x|θ) ∝ fB(y|θ) entonces
fA(θ|x) ∝ f(θ)fA(x|θ) ∝ f(θ)fB(y|θ) ∝ fB(θ|y),
de donde fA(θ|x) = fB(θ|y).
En contraste, algunos de los metodos clasicos mas utilizados lo violan.
42
El Principio de Verosimilitud fue desarrollado por Barnard (1949).
Se convirtio en un tema de interes cuando Birnbaum (1962) demostro
que dicho principio era consecuencia de otros dos principios comunmente
aceptados.
Principio de Suficiencia: dado un modelo f(x|θ) con estadıstica
suficiente t(x), y dadas dos muestras x1 y x2 tales que t(x1) = t(x2),
las inferencias basadas en x1 deben ser identicas a las basadas en x2.
Principio de Condicionalidad: siempre que exista una estadıstica ancilar
a = a(x), cualquier inferencia sobre el valor de θ debe realizarse
condicionando en el valor observado de a.
Los procedimientos Bayesianos satisfacen implıcitamente estos dos
principios, y por lo tanto satisfacen tambien el P. de Verosimilitud.
43
3. Especificacion de la distribucion inicial
Familias conjugadas
Al trabajar con el Teorema de Bayes, las dificultades computacionales
surgen desde el momento en que es necesario calcular la constante de
proporcionalidad que aparece en el denominador:
f(x) =
∫
f(θ)f(x|θ)dθ.
Por ejemplo, supongamos que X1, . . . ,Xn son observaciones Poisson(θ),
independientes, y que nuestra informacion inicial indica que el valor de θ
esta definitivamente en el intervalo [0, 1]. Mas aun, supongamos que f(θ)
es una distribucion uniforme en el intervalo [0, 1].
Entonces la constante de normalizacion esta dada por
f(x) =
∫ 1
0
θΣixi exp{−nθ}dθ.
44
Esta integral, una funcion gamma incompleta, solo puede ser evaluada
numericamente.
Mas aun, los momentos de la distribucion final de θ tambien dependeran
de integrales de esta forma.
Ası, es aparente que incluso distribuciones iniciales simples pueden dar
lugar a problemas numericos.
Por otra parte, hemos visto ejemplos en los que una seleccion cuidadosa
de la distribucion inicial simplifica el calculo de la distribucion final.
En cada uno de esos casos fue posible identificar una familia conjugada,
C, de distribuciones iniciales tales que las correspondientes distribuciones
finales tambien pertenecıan a C.Estas familias conjugadas deben verse siempre como lo que son: un
artificio matematico que resulta conveniente en ciertas situaciones.
No hay que perder de vista que la descripcion de nuestro conocimiento a
traves de una forma parametrica es siempre una aproximacion.
45
Construccion de las familias conjugadas
Suponiendo que no entra en conflicto con nuestra informacion inicial, y
que es posible encontrar una para nuestro problema especıfico, el uso de
una familia conjugada resulta bastante atractivo.
¿Bajo que condiciones es posible construir una familia conjugada?
Esencialmente el unico caso en el que se pueden construir facilmente
familias conjugadas es para modelos que pertenecen a la familia
exponencial, es decir, modelos de la forma
f(x|θ) = h(x)g(θ) exp{t(x)c(θ)},
donde h(·), g(·), t(·) y c(·) son tales que∫
X
f(x|θ)dx = g(θ)
∫
h(x) exp{t(x)c(θ)}dx = 1
46
La familia exponencial es esencialmente la unica clase de modelos con
estadısticas suficientes de dimension fija (la dimension no depende del
tamano de la muestra).
La familia exponencial puede parecer una clase demasiado restringida. Sin
embargo, contiene a muchos de los modelos mas utilizados en las aplicaciones,
incluyendo el binomial, binomial negativo (geometrico), Poisson, gamma
(exponencial, Raleigh), beta y normal (con varianza conocida). En el caso
multiparametrico incluye modelos como la normal multivariada (varianza
conocida o desconocida), multinomial, multinomial negativa, Dirichlet y
Wishart.
Otros modelos que no pertenecen a la familia exponencial pueden obtenerse a
partir de modelos que sı pertenecen, lo que en ocasiones facilita su analisis
desde el punto de vista Bayesiano.
47
Si X1, . . . , Xn es una muestra de observaciones i.i.d. de f(x|θ), entonces
la verosimilitud toma la forma
l(θ;x) ∝ f(x|θ)∝ g(θ)n exp{c(θ)Σit(xi)}
De esta manera, si elegimos una distribucion inicial de la forma
f(θ) ∝ g(θ)n0 exp{t0 c(θ)},
obtenemos una distribucion final de la forma
f(θ|x) ∝ g(θ)n0+n exp{[t0 + Σit(xi)] c(θ)}= g(θ)n1 exp{t1 c(θ)}.
Por lo tanto, la distribucion final pertenece a la misma familia que la
distribucion inicial.
48
Notemos lo siguiente:
• Dado que f(θ) tiene la misma forma que la verosimilitud, podemos
pensar que una distribucion inicial conjugada con hiperparametros
n0 y t0 contiene la misma informacion que una muestra de tamano
n0 que resulta en un valor observado de la estadıstica suficiente igual
a t0.
• Esta interpretacion de los hiperparametros facilita en ocasiones la
asignacion de una distribucion inicial conjugada en problemas
concretos.
• El Teorema de Bayes se reduce a una regla de actualizacion de los
hiperparametros particularmente simple:
n1 = n0 + n y t1 = t0 + Σi t(xi).
• La familia conjugada de una familia exponencial es a su vez una
familia exponencial.
49
Puede verificarse facilmente que los ejemplos que hemos visto hasta el
momento pueden obtenerse de esta manera.
Por ejemplo, en el caso binomial,
f(x|θ) =
(
n
x
)
θx(1− θ)n−x
=
(
n
x
)
(1− θ)n exp{x log[θ/(1− θ)]},
que en notacion de la familia exponencial corresponde a
h(x) =
(
n
x
)
, g(θ) = (1− θ)n, t(x) = x y c(θ) = log(
θ
1− θ
)
.
Con esta notacion, la distribucion inicial conjugada toma la forma
f(θ) ∝ [(1− θ)n]n0 exp{t0 log[θ/(1− θ)]}∝ θt0 (1− θ)nn0−b,
por lo que, como era de esperarse, es un miembro de la familia de
distribuciones beta.
50
A continuacion se presentan de manera resumida, las familias conjugadas
para algunos de los modelos mas comunes.
Verosimilitud Inicial Final
X ∼ Bin(θ, n) Beta(p, q) Beta(p + x, q + n − x)
X1, . . . , Xn ∼ Poisson(θ) Gamma(p, q) Gamma(p + Σixi, q + n)
X1, . . . , Xn ∼ N(θ, τ−1)∗ N(b, c−1) N( cb+nτxc+nτ
, 1c+nτ
)
X1, . . . , Xn ∼ Gamma(k, θ)∗∗ Gamma(p, q) Gamma(p + nk, q + Σixi)
X ∼ NegBin(θ, r) Beta(p, q) Beta(p + x, q + r)
∗τ conocido; ∗∗
k conocido
51
Mezclas de distribuciones conjugadas
Dado un modelo, en algunos casos la familia conjugada correspondiente
puede no ser suficientemente flexible como para describir nuestra
informacion inicial.
Consideremos el siguiente ejemplo:
Cuando una moneda es lanzada, la probabilidad de obtener una “aguila” es
aproximadamente 0.5. Sin embargo, si la moneda se gira sobre una mesa,
pequenas imperfecciones en la moneda pueden causar una mayor frecuencia de
“aguilas” o “soles”.
Tomando en cuenta lo anterior, se desea asignar una distribucion sobre la
probabilidad de “aguila”, θ, que favorezca valores alrededor de 0.3 o 0.7, de
manera que nuestra informacion inicial puede ser descrita a traves de una
distribucion bimodal.
La verosimilitud dado el numero de “aguilas” en n giros de la moneda es
binomial, por lo que la familia conjugada es la familia beta. Sin embargo,
ninguna distribucion beta presenta la bimodalidad necesaria para describir
nuestra informacion inicial.
52
Una posible solucion es utilizar mezclas de distribuciones conjugadas.
Supongamos que f1(θ), . . . , fk(θ) son miembros de la familia conjugada
para θ, con distribuciones finales f1(θ|x), . . . , fk(θ|x), respectivamente.
Consideremos la familia de mezclas de la forma
f(θ) =
k∑
i=1
πifi(θ)
Entonces
f(θ|x) ∝ f(θ)f(x|θ)
=
k∑
i=1
πifi(θ)f(x|θ)
∝
k∑
i=1
π∗i fi(θ|x),
donde
π∗i =
πifi(x)
Σjπjfj(x)
53
Por lo tanto la distribucion final pertenece a la misma familia de mezclas
que la distribucion inicial.
Este tipo de mezclas puede aproximar a cualquier distribucion inicial.
Sin embargo, el numero de terminos necesarios puede ser muy grande, y
tal vez sea posible representar nuestra informacion inicial de una manera
mas sucinta usando otro tipo de distribuciones iniciales no conjugadas.
En general, asignar una distribucion inicial no es un problema sencillo.
Debemos reconocer que nadie es capaz de llevar a cabo, de manera
coherente, un numero infinito (ni siquiera moderado) de asignaciones de
probabilidades.
Las familias conjugadas y otra ideas similares tienen el proposito de
simplificar esta asignacion, capturando los aspectos mas importantes de
la informacion inicial, y no pretenden proporcionar una descripcion
precisa de esa informacion.
54
Distribuciones iniciales no-informativas
Recordemos el analisis del modelo normal: si X1, . . . , Xn ∼ N(θ, τ−1) y
f(θ) = N(θ|b, c−1) entonces f(θ|x) = N( cb+nτxc+nτ
, 1c+nτ
).
La fuerza de nuestra informacion inicial acerca de valor de θ queda
determinada por la varianza de la distribucion inicial, o equivalentemente
por la precision inicial c.
Un valor muy grande de c indica una gran certeza acerca del valor de θ,
mientras que un valor pequeno de c corresponde a informacion inicial
vaga.
Supongamos ahora que nuestra informacion inicial es tan debil que
dejamos que c→ 0. Entonces f(θ|x)→ N(θ|x, σ2/n).
Aparentemente obtenemos una distribucion final perfectamente valida.
55
Pero hay un problema. Consideremos lo que le ocurre a la distribucion
inicial conforme c→ 0. En el lımite obtendrıamos la distribucion inicial
N(b,∞), que no es una distribucion propia.
De hecho, conforme c→ 0 la distribucion inicial N(b, c−1) se hace cada
vez mas plana, de manera que, en el lımite
f(θ) ∝ 1 (θ ∈ RI ).
Esta no es una densidad de probabilidad, dado que∫
R
f(θ)dθ =∞.
Es decir, la distribucion final N(θ|x, σ2/n) que se obtienen al hacer c→ 0
en el analisis conjugado estandar, no puede obtenerse vıa el Teorema de
Bayes a partir de ninguna distribucion inicial propia.
56
Sin embargo, dicha distribucion final sı puede obtenerse si aplicamos
mecanicamente el Teorema de Bayes usando la distribucion inicial
impropia f(θ) ∝ 1.
¿Es valido usar una distribucion final obtenida a partir de una inicial
impropia (elegida para describir nuestra informacion inicial vaga)?
A pesar de las dificultades que esto implica, el uso de distribuciones
iniciales impropias es comunmente aceptado.
Si escogieramos cualquier valor positivo de c, por mas pequeno que fuese,
obtendrımos una distribucion final perfectamente valida. Por lo tanto
podrıamos escoger un valor de c arbitrariamente cercano a cero, en cuyo
caso obtendrıamos una distribucon final arbitrariamente cercana a la que
se obtiene utilizando la distribucion inicial impropia f(θ) ∝ 1.
57
Represenciones de la ignorancia
El uso de distribuciones uniformes para representrar ignorancia trae
consigo otro tipo de problemas.
Supongamos que asignamos la distribucion inicial f(θ) ∝ 1 para un
determinado parametro θ. Supongamos ahora que el parametro de
interes es en realidad φ = θ2. Entonces,
fφ(φ) = f(θ(φ))
∣
∣
∣
∣
dθ
dφ
∣
∣
∣
∣
∝ 1/√
φ
Por otro lado, si no sabemos nada acerca de θ tampoco sabemos nada
acerca de φ, por lo que pudimos haber usado el mismo argumento que
nos llevo a proponer f(θ) ∝ 1 para proponer en su lugar fφ(φ) ∝ 1.
[¿Que escala utilizar?]
58
Jeffreys propuso una forma de conseguir distribuciones iniciales no
informativas consistentes entre reparametrizaciones del modelo, es decir
invariantes ante transformaciones uno a uno.
La distribucion inicial de Jeffreys se define como
fθ(θ) ∝ |Iθ(θ)|1/2,
donde
Iθ(θ) = −E
[
d2 log f(x|θ)dθ2
]
denota la cantidad de informacion de Fisher.
Este tipo de distribuciones iniciales no informativas es invariante en el
sentido de que respeta la regla de cambio de variables: la distribucion de
Jeffreys para φ puede obtenerse a partir de la distribucion de Jeffreys
para θ a traves de la formula de cambio de variable usual.
59
Veamos algunos ejemplos:
* N(θ, σ2), σ2 conocida: aquı Iθ(θ) = 1/σ2 y por lo tanto fθ(θ) ∝ 1.
* Bin(θ, n): aquı Iθ(θ) = nθ−1(1− θ)−1, de manera que
fθ(θ) ∝ θ−1/2(1− θ)−1/2.
Es decir, fθ(θ) = Be(θ|1/2, 1/2) (← esta distribucion es propia).
* NegBin(θ, n): aquı Iθ(θ) ∝ θ−1(1− θ)−2, por lo que
fθ(θ) ∝ θ−1/2(1− θ)−1.
[Principio de Verosimilitud; Distribuciones de Referencia]
60
Robustez
• En Estadıstica, independientemente del enfoque que se utilice, es
importante entender hasta que punto el modelo usado es robusto
antes posibles violaciones a los supuestos.
• Lo anterior tambien es cierto dentro del enfoque Bayesiano en lo que
se refiere a la especificacion de la distribucion inicial.
• En ocasiones el modelo es tal que las inferencias no se modifican
sustancialmente ante cambios moderados en la distribucion final.
Esto ocurre, por ejemplo, cuando el tamano de la muestra es
suficientemente grande.
• En otros casos, sin embargo, puede ocurrir que incluso cambios
aparentemente insignificantes en la distribucion inicial produzcan
inferencias completamente distintas.
61
Comunidad de distribuciones iniciales
Algunos autores sugieren que, en la practica, es conveniente comparar los
resultados de los analisis derivados de al menos tres distribuciones iniciales
distintas:
• Una distribucion inicial no-informativa
• Una distribucion inicial (tentativa) que refleje los aspectos mas
importantes nuestra informacion inicial
• Una distribucion inicial (tal vez artificialmente) mas informativa
La idea es que, si las inferencias no son muy distintas en cada uno de estos
casos, el analisis (dados los datos observados) sera relativamente robusto en lo
que se refiere a la eleccion de la distribucion inicial. No es necesario entonces
preocuparse demasiado por especificar una distribucion inicial con mucha
precision.
En caso contrario, es importante hacer el esfuerzo necesario para especificar
una distribucion que refleje genuinamente nuestra informacion inicial.
62
4. Problemas multiparametricos
Todos los ejemplos que hemos utilizado hasta ahora involucran un solo
parametro.
Por supuesto, la gran mayorıa de los problemas involucran modelos
probabilısticos que contienen mas de un parametro desconocido, aunque
con frecuencia el interes recae en un solo parametro.
Los metodos para analizar estos modelos multiparametrales desde el
punto de vista Bayesiano son mas sencillos (al menos en principio) que
los respectivos metodos clasicos.
De hecho, no se requiere introducir nada nuevo en la teorıa para atacar
este problema.
63
Dado un modelo f(x|θ) que depende de un vector θ = (θ1, . . . , θd)′ de
parametros desconocidos, es necesario especificar una distribucion inicial
f(θ) y actualizarla vıa el Teorema de Bayes
f(θ|x) =f(θ)f(x|θ)
∫
f(θ)f(x|θ)dθ
El problema es que ahora estamos trabajando con distribuciones
multivariadas.
Sin embargo, la simplicidad del analisis Bayesiano se refleja en el hecho
de que, para hacer inferencias sobre cualquier subvector de θ, basta
calcular la correspondiente distribucion final marginal. Por ejemplo,
f(θ1|x) =
∫
Θd
· · ·∫
Θ2
f(θ1, . . . , θd|x) dθ2 · · · dθd.
[Receta unica; Verosimilitud perfil; Ancilaridad]
*
64
Aunque no es necesario introducir nuevos conceptos, el incremento en la
dimension del problema trae consigo nuevos problemas practicos.
1. Especificacion de la distribucion inicial. Ahora la distribucion inicial
es multivariada y es necesario que describa no solo nuestra
informacion sobre cada parametro individualmente, sino tambien
sobre la dependencia entre los distintos parametros.
2. Calculo. Con una mayor dimension, las integrales requeridas son
bastante mas difıciles de calcular. Esto hace que las familias
conjugadas resulten aun mas atractivas en este caso, aunque tambien
seran mas difıciles de construir. De ahı la necesidad de contar con
tecnicas numericas eficientes para el calculo de las integrales.
3. Interpretacion. La distribucion final contiene toda la informacion
disponible sobre los valores de los parametros, pero en el caso
multiparametrico puede tener una estructura mas compleja y por lo
tanto sera mas difıcil de resumir.
65
5. Resumiendo la distribucion final
Hemos dicho antes que el problema de inferencia queda resuelto una vez
que se encuentra la distribucion final del parametro de interes.
Sin embargo, especialmente en el caso multiparametral, es necesario
resumir de alguna manera la informacion contenida en la distribucion
final.
La forma especıfica de dicho resumen dependera del problema y del
proposito del analisis.
A un nivel informal podemos utilizar, por ejemplo, alguna medida de
tendencia central de la distribucion final (media, mediana, moda) como
estimador puntual del parametro. De manera similar, es posible usar
alguna medida de dispersion (desviacion estandar, rango inter-cuartil)
como una medida de la incertidumbre en la estimacion.
66
Por otra parte, si se desea probar las hipotesis
H0 : θ ∈ Θ0 vs H1 : θ ∈ Θ1 (Θ0 ∩Θ1 = ∅),
podemos usar el siguiente criterio intuitivo: rechazar H0 si
Pr[θ ∈ Θ0|x] < Pr[θ ∈ Θ1|x].
Es decir, aceptar la hipotesis mas probable bajo la distribucion final.
Es posible formalizar estas ideas a traves de la Teorıa de la Decision.
67
Aunque existen diversas propuestas para resolver problemas de decision
en ambiente de incertidumbre (e.g. minimax), la unica teorıa coherente
es la Bayesiana.
Si aceptamos cierto conjunto de Axiomas de Coherencia, la teorıa
Bayesiana nos dice exactamente como tomar decisiones de manera
racional.
Cabe mencionar que esta teorıa es normativa y no descriptiva.
La Teorıa de la Decision se usa con frecuencia como un argumento para
justificar el enfoque Bayesiano de la Estadıstica.
68
Recordemos que, en el contexto de la Estadıstica, los elementos de un
problema de decision en ambiente de incertidumbre son los siguientes:
1. El espacio de acciones potenciales disponibles: A2. El espacio parametral, que contiene los posibles estados de la
naturaleza: Θ
3. El espacio de las consecuencias: C = A×Θ
Para poder resolver un problema de decision, es necesario cuantificar
tanto la incertidumbre sobre Θ como las consecuencias en C.La incertidumbre se cuantifica a traves de una medida de probabilidad,
f(θ), y las consecuencias por medio de una funcion de perdida, L(a, θ).
El resultado fundamental de la teorıa es que debe elegirse aquella accion
que minimice la perdida esperada final
L∗x(a) =
∫
Θ
L(a, θ)f(θ|x) dθ.
69
Estimacion puntual
En este caso A = Θ.
Las funciones de perdida mas comunes son:
1. Cuadratica: L(θ, θ) = (θ − θ)2.
Notemos que L∗x(θ) = Var(θ|x) + {E(θ|x)− θ}2, de manera que el
valor de θ que minimiza a L∗x(θ) es θ = E(θ|x).
2. Valor absoluto: L(θ, θ) = |θ − θ|.Puede demostrarse que en este caso el valor que minimiza la perdida
esperada final es θ = Mediana(θ|x).
3. Lineal: Para g, h > 0,
L(θ, θ) =
{
g · (θ − θ) si θ > θ
h · (θ − θ) si θ < θ
En este caso θ = Cuantil de orden hg+h
de f(θ|x).
70
4. Tipo 0-1: Para ǫ > 0,
L(θ, θ) =
{
0 si |θ − θ| ≤ ǫ
1 si |θ − θ| > ǫ
Notemos que L∗x(θ) = Pr[|θ − θ| > ǫ|x] = 1− Pr[|θ − θ| ≤ ǫ|x].
Consecuentemente, si definimos un intervalo modal de longitud ǫ
como el intervalo de la forma [θ − ǫ, θ + ǫ] que tiene la probabilidad
mas alta, entonces el estimador Bayesiano θ corresponde al punto
medio del intervalo modal.
Ası, escogiendo valores arbitrariamente pequenos de ǫ, este
procedimiento producirıa θ = Moda(θ|x) como el estimador
Bayesiano.
71
Contraste de hipotesis
Supongamos que se desea contrastar las hipotesis
H0 : θ ∈ Θ0 vs H1 : θ ∈ Θ1 (Θ0 ∩Θ1 = ∅; Θ0 ∪Θ1 = Θ).
En este caso A = {a0, a1} = {H0, H1}.
Supongamos que se utiliza una funcion de perdida de la forma
L(ai, θ) =
{
ki si θ /∈ Θi
0 si θ ∈ Θi
(i = 0, 1),
donde k0, k1 > 0.
Entonces
L∗x(ai) = ki(1− Pr[θ ∈ Θi|x]) (i = 0, 1)
72
Por lo tanto, debe rechazarse H0 si y solo si
L∗x(a0) > L∗
x(a1).
Es decir, si y solo siPr[θ ∈ Θ0|x]
Pr[θ ∈ Θ1|x]<
k0
k1.
En particular, si k0 = k1 entonces la mejor accion es rechazar H0 si
Pr[θ ∈ Θ0|x] < Pr[θ ∈ Θ1|x].
73
Las probabilidades finales requeridas pueden calcularse de la siguiente
manera.
Por el Teorema de Bayes,
Pr[θ ∈ Θi|x] =Pr[θ ∈ Θi]f(x|θ ∈ Θi)
f(x),
donde
Pr[θ ∈ Θi] =
∫
Θi
f(θ) dθ
y
f(x|θ ∈ Θi) =
∫
Θi
f(x|θ){
f(θ)∫
Θi
f(θ)dθ
}
dθ.
Entonces, el criterio para rechazar H0 toma la forma
f(x|θ ∈ Θ0)
f(x|θ ∈ Θ1)<
k0
k1
Pr[θ ∈ Θ1]
Pr[θ ∈ Θ0].
[Factores de Bayes]
74
Notemos lo siguiente:
• Si las dos hipotesis fueran simples, i.e. si Θi = {θi} (i = 0, 1),
entonces se rechazarıa H0 siempre que
f(x|θ0)
f(x|θ1)<
k0
k1
Pr[θ = θ1]
Pr[θ = θ0].
Esta “region de rechazo” tiene la misma forma que la producida por
el Lema de Neyman-Pearson.
• Si las dos hipotesis son compuestas, el criterio Bayesiano se basa en
el cociente de verosimilitudes integradas; en contraste, el criterio
clasico se basa en el cociente de verosimilitudes maximizadas.
• Si una de las hipotesis es simple y la otra es compuesta, este
procedimiento no siempre es satisfactorio.
• Otras funciones de perdida dan lugar a otros “criterios de rechazo”.
[Hipotesis multiples]
75
6. Prediccion
Hasta el momento solo hemos discutido el problema de hacer inferencias
acerca del valor desconocido del parametro.
En muchas situaciones, sin embargo, el proposito de formular un modelo
estadıstico es hacer predicciones sobre el valor de una o mas
observaciones futuras.
Este problema se resuelve de manera mucho mas elegante desde el punto
de vista Bayesiano que desde el punto de vista clasico.
El punto esencial aquı es que, al hacer inferencias predictivas sobre el
valor de una observacion futura con base en un modelo ajustado, deben
tomarse en cuenta dos fuentes de incertidumbre:
• Incertidumbre sobre el valor del parametro (sobre el cual se pueden hacer
inferencias con base en datos previos).
• Incertidumbre por el hecho de que cualquier observacion futura es aleatoria
en sı misma (aun si conocieramos el verdadero valor del parametro, no
podrıamos predecir el valor de una observacion futura con certeza).
76
Dentro del enfoque clasico de la Estadıstica, es comun ajustar el modelo
con base en los datos previos (obteniendo un estimador puntual θ), y
entonces hacer predicciones con base en el modelo f(x|θ) como si este
fuera el modelo correcto.
De esta manera, se ignora completamente la primera fuente de
incertidumbre, lo que produce predicciones que aparentan ser mas
precisas de lo que realmente son.
En contraste, el enfoque Bayesiano toma en cuenta las dos fuentes de
incertidumbre de una manera natural.
77
Supongamos que tenemos una muestra observada x = (x1, . . . , xn)′ de
f(x|θ) y que se desea hacer inferencias acerca del valor futuro de
Y = Xn+1.
Dada una distribucion inicial f(θ), el Teorema de Bayes produce la
distribucion final f(θ|x).
Siguiendo la “unica receta de la inferencia Bayesiana”, debemos entonces
encontrar la distribucion condicional de Y dado el valor observado x.
Dicha distribucion esta dada por
f(y|x) =
∫
f(y|θ, x)f(θ|x) dθ
=
∫
f(y|θ)f(θ|x) dθ
= Ef(θ|x)[f(y|θ)]
y se conoce como la distribucion predictiva (final).
78
Ejemplo (normal)
Si X1, . . . , Xn ∼ N(θ, τ−1) (τ conocida) y f(θ) = N(θ|b, c−1), entonces
f(θ|x) = N(
θ∣
∣
∣
cb + nτx
c + nτ,
1
c + nτ
)
.
Puede demostrarse facilmente que en este caso
f(y|x) = N(
y
∣
∣
∣
cb + nτx
c + nτ,1
τ+
1
c + nτ
)
.
Escrito en terminos de la varianza σ2 = 1/τ , y haciendo c→ 0, tenemos
que
f(y|x) = N(
y
∣
∣
∣x, σ2
{
1 +1
n
})
.
79
7. Normalidad asintotica de la distribucion final
Bajo ciertas condiciones de regularidad, y para tamanos de muestra
grandes,
f(θ|x) ≈ Nd(θ|θ, V (θ)),
donde θ es el estimador de maxima verosimilitud para θ y V (θ) denota a
la inversa de la matriz de informacion de Fisher evaluada en θ.
En este caso, practicamente cualquier resumen inferencial de interes,
(e.g. distribuciones marginales o momentos de funciones lineales de θ)
puede aproximarse facilmente.
Sin embargo, en aplicaciones especıficas no siempre es facil determinar si
la aproximacion normal es adecuada para el tamano de muestra dado.
Por esta razon, en la mayorıa de los casos resulta conveniente trabajar
en terminos de una parametrizacion φ = φ(θ), tal que los componentes
φi de φ tomen valores en RI y la distribucion final de φ sea al menos
aproximadamente simetrica.
80
8. Otros metodos
Modelos jerarquicos
Muchas aplicaciones estadısticas involucran colecciones de parametros
que pueden considerarse relacionados entre sı debido a la estructura del
problema.
Una manera natural de modelar esta situacion consiste en usar una
distribucion inicial bajo la cual los parametros, θi, puedan verse como
una muestra de una distribucion poblacional comun, que a su vez
depende de un hiperparametro desconocido φ.
Una caracterıstica importante de este enfoque es que los datos
observados, xi, pueden utilizarse para estimar ciertos aspectos de la
distribucion poblacional de los parametros θi (e.g. funciones de φ) a
pesar de que los valores de θi no son observables.
81
La siguiente figura muestra la estructura general de un modelo jerarquico
simple.
φ
θ1
θ2
..... θk
x1
x2
..... xk
Esta estructura jerarquica puede resultar muy util al analizar modelos
con muchos parametros.
82
De esta manera, un modelo jerarquico tiene la siguiente estructura:
Nivel I. (Observaciones)
f(x|θ) = f(x1, . . . , xk|θ1, . . . , θk)
=
k∏
i=1
f(xi|θi).
Nivel II. (Parametros)
f(θ|φ) = f(θ1, . . . , θk|φ)
=
k∏
i=1
f(θi|φ).
Nivel III. (Hiperparametros)
f(φ).
Es posible formular modelos muy complejos usando este tipo de
estructuras jerarquicas (i.e., por etapas).
83
Metodos computacionales
Resumenes inferenciales. En general, interesa calcular integrales de la
forma
SI [g(θ)] =
∫
g(θ) {f(θ) f(x|θ)} dθI′ ,
donde θ = (θ1, . . . , θd)t, I ⊆ {1, . . . , d} e
I ′ = {1, . . . , d}\I.
Ası, por ejemplo,
f(x) = S∅[1]
f(θi|x) =S{i}[1]
S∅[1]
E[θi θj |x] =S∅[θiθj ]
S∅[1]
84
Desafortunadamente, en la practica f(x|θ) y/o f(θ) pueden tener
formas muy complicadas, por lo que tıpicamente estas integrales no
pueden resolverse de manera analıtica.
Por otra parte, en muchas aplicaciones el numero de parametros
involucrados en el modelo puede ser muy grande, lo cual requiere
de un esfuerzo computacional muy alto.
Casi todos los metodos de integracion (o simulacion) disponibles
son mas eficientes cuando la distribucion final f(θ|x) es
aproximadamente normal y la correlacion entre los distintos
parametros es baja.
Existen diversas tecnicas, tanto analıticas como numericas, para
evaluar o aproximar las integrales requeridas. Sin embargo, las
tecnicas de Monte Carlo (simulacion) has mostrado ser las mas
flexibles y poderosas en las aplicaciones.
85
Monte Carlo vıa Cadenas de Markov
Idea general
• Se desea generar una muestra de una distribucion π(θ), con
θ ∈ Θ ⊆ RI d.
• Puede construirse una cadena de Markov, con espacio de estados Θ,
que sea facil de simular y cuya distribucion de equilibrio sea π(θ).
• Si θ1, θ2, . . . , θt, . . . es una realizacion de esta cadena, entonces
θt D−→ θ ∼ π(θ) cuando t→∞
y
1
t
t∑
i=1
g(θi) −→ Eπ[g(θ)] cuando t→∞ (c.s.)
86
Es posible simular varias cadenas independientes al mismo tiempo y de
esta manera obtener, para un valor grande de t, una muestra aproximada
de la distribucion π(θ).
Alternativamente, puede simularse una sola cadena y usar la muestra
obtenida tomando en cuenta que los valores simulados no son
independientes. Por ejemplo, momentos de funciones de θ pueden
estimarse usando promedios ergodicos.
Los dos algoritmos mas populares para construir cadenas de Markov con
las propiedades deseadas son el de Metropolis-Hastings y el muestreo de
Gibbs.
El muestreo de Gibbs especialmente le ha dado un impulso extraordinario a
las aplicaciones de las tecnicas Bayesianas a problemas reales a lo largo de los
ultimos diez anos.
87
Muestreo de Gibbs
Sea π(θ) = π(θ1, . . . , θk) una densidad conjunta y sea π(θi|θ−i) la
densidad condicional de θi dados los valores de los otros componentes
θ−i = (θj ; j 6= i).
El algoritmo es el siguiente:
- Elegir valores iniciales θ0 = (θ01 , . . . , θ0
k)
- Generar θ11 de π(θ1|θ0
−1)
- Generar θ12 de π(θ2|θ1
1 , θ03 , . . . , θ0
k)
- Generar θ13 de π(θ3|θ1
1 , θ12 , θ0
4 , . . . , θ0k)
.
.
.
- Generar θ1k de π(θk|θ
1−k) (Esto completa una transicion de θ
0 a θ1.)
- Iterar los pasos anteriores para producir una sucesion θ1, θ2, . . . , θt, . . .
Basta poder generar muestras de las densidades condicionales π(θi|θ−i).
88
Observaciones faltantes
Sea x = (z, z) un conjunto de datos (generados, por ejemplo, a partir de
un diseno balanceado), y supongamos que:
z representa los datos observados
z representa las observaciones faltantes.
Generalmente, en estos casos ocurre que:
f(θ|z) tiene una forma complicada, pero
f(θ|x) tiene una forma sencilla.
Dado que z no se ha observado, puede considerarse como un “parametro
de ruido” e incluirse dentro de un muestreo de Gibbs con densidades
condicionales
f(θ|z, z) = f(θ|x)
f(z|θ, z) = f(z|θ)
89
Variables latentes
La situacion anterior sirve para ilustrar un tecnica general conocida
como el metodo de variables latentes. La idea es simplemente notar
que en ocasiones es posible simular mas facil y eficientemente de una
distribucion
f(θ, λ|x)
que de la distribucion f(θ|x), donde el nuevo “parametro” λ puede ser
esencialmente cualquier variable aleatoria.
Es claro que al generar una muestra de la distribucion conjunta f(θ, λ|x)
automaticamente obtenemos una muestra de la distribucion marginal
f(θ|x) que nos interesaba originalmente.
90
Muestreo condicional
Supongamos que se desea generar una muestra de la distribucion
f(λ, θ|x).
Supongamos tambien que es posible simular eficientemente de f(θ|x) y
de f(λ|θ, x).
Entonces, dada una muestra θ1, . . . , θN de f(θ|x), podemos obtener una
muestra de la distribucion conjunta f(λ, θ|x) simulando, para cada
i = 1, . . . , N ,
λi ∼ f(λ|θi, x).
La muestra (λ1, θ1), . . . , (λN , θN ) ası obtenida es entonces una muestra
de f(λ, θ|x).
Esto es util, por ejemplo, para generar observaciones de la distribucion
predictiva con base en muestras de la distribucion final.
*
91
Implementacion
- Simplificacion del problema original
- Reparametrizaciones
- Combinacion de metodos
- Convergencia
- Software
BUGS (Bayesian Inference Using Gibbs Sampling)
Disponible en:
http://www.mrc-bsu.cam.ac.uk/bugs/
- Mayor informacion:
http://www.dpye.iimas.unam.mx/eduardo/MCB/MCB.html
92
Bibliografıa recomendada
(B) Bernardo, J.M. & Smith, A.F.M. (1994) Bayesian Theory.
Chichester: Wiley.
(I) Berry, D.A. (1996). Statistics: A Bayesian Perspective. Duxbury
Press: Belmont.
(B) Box, G.E.P. & Tiao, G.C. (1973). Bayesian Inference in Statistical
Analysis. Reading: Addison-Wesley.
(A) Congdon, P. (2001). Bayesian Statistical Modelling. Chichester:
Wiley.
(C) Gamerman, D. (1996). Markov Chain Monte Carlo: Stochastic
Simulation for Bayesian Inference. London: Chapman & Hall.
(A) Gelman, A., Carlin, J.B., Stern, H.S. & Rubin, D.B. (1995).
Bayesian Data Analysis. London: Chapman & Hall.
(C) Gilks, W.R., Richardson, S. & Spiegelhalter, D.J. (1996). Markov
Chain Monte Carlo in Practice. London: Chapman & Hall.
93
(B) Leonard, T. & Hsu, J.S.J. (1999). Bayesian Methods: An Analysis
for Statisticians and Interdisciplinary Researchers. Cambridge:
Cambrige University Press.
(I) Migon, H.S. & Gamerman, D. (1999). Statistical Inference: an
Integrated Approach. London: Arnold.
(B) O’Hagan, A. (1994). Kendall’s Advanced Theory of Statistics, Vol.
2b: Bayesian Inference. Cambridge: Edward Arnold.
(B) Press, S.J. (1989). Bayesian Statistics. Principles, Models and
Applications. New York: Wiley.
(I) Sivia, D.S. (1996). Data Analysis: A Bayesian Tutorial. Clarendon
Press: Oxford.
(I) Introductorio; (B) Basico; (A) Aplicaciones; (C) Metodos computacionales
94
Eduardo Gutierrez Pena
Departamento de Probabilidad y Estadıstica
IIMAS, UNAM
Apartado Postal 20-726
Deleg. Alvaro Obregon
01000 Mexico, D.F.
e-mail: [email protected]
Web: http://www.dpye.iimas.unam.mx/eduardo
95