129

TESIS_edgarSM

Embed Size (px)

DESCRIPTION

Verosimilitud Compuesta

Citation preview

Page 1: TESIS_edgarSM
Page 2: TESIS_edgarSM
Page 3: TESIS_edgarSM

Dedicado a

mi familia

Page 4: TESIS_edgarSM

AGRADECIMIENTOS

A mi asesor y maestro el Dr. Antonio Villanueva Morales por dirigir esta tesis. Gracias por

su apoyo, dedicacion y oportunas observaciones para el desarrollo de este trabajo. Tambien

al Dr. Eduardo Gutierrez Gonzalez, el M.C. Margarito Soriano Montero, el M.C. Alejandro

Corona Ambrız y al Dr. Gerardo Terrazas Gonzalez por revisar esta tesis y sus valiosas

aportaciones para el termino de la misma.

A mis padres y hermanos, sin lugar a duda las personas mas importantes en mi vida.

Gracias por su apoyo incondicional.

A mis maestros que durante toda mi carrera profesional contribuyeron a mi formacion

academica.

A mis amigos que han estado conmigo en todo momento, gracias por su tiempo, consejos

y paciencia.

A todos ustedes muchas gracias.

Page 5: TESIS_edgarSM

INDICE GENERAL

RESUMEN IX

SUMMARY XI

INTRODUCCION XIII

1. VEROSIMILITUD 1

1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. La funcion de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2.1. Datos dependientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.2. Funcion score e informacion . . . . . . . . . . . . . . . . . . . . . . . 4

1.3. Estimadores de maxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . 5

1.3.1. Propiedades de los estimadores de maxima verosimilitud . . . . . . . 10

1.4. Pruebas estadısticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2. VEROSIMILITUD COMPUESTA 17

2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2. Definicion de verosimilitud compuesta . . . . . . . . . . . . . . . . . . . . . . 17

2.2.1. Verosimilitudes compuestas condicionales . . . . . . . . . . . . . . . . 18

2.2.2. Verosimilitudes compuestas marginales . . . . . . . . . . . . . . . . . 19

2.2.3. Terminologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.3. Estimadores de maxima verosimilitud compuesta . . . . . . . . . . . . . . . 20

Page 6: TESIS_edgarSM

IV

2.3.1. Teorıa asintotica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.3.2. Aplicaciones de la verosimilitud compuesta . . . . . . . . . . . . . . . 26

2.3.2.1. Campos aleatorios Gaussianos . . . . . . . . . . . . . . . . . 26

2.3.2.2. Extremos espaciales . . . . . . . . . . . . . . . . . . . . . . 28

2.3.2.3. Efectos aleatorios serialmente correlacionados . . . . . . . . 29

2.3.2.4. Efectos aleatorios espacialmente correlacionados . . . . . . . 32

2.3.2.5. Modelos mixtos conjuntos . . . . . . . . . . . . . . . . . . . 33

2.3.2.6. Matrices de correlacion de variables con el tiempo . . . . . . 34

2.3.2.7. Modelos de regresion marginal con datos faltantes . . . . . . 35

2.3.3. Eficiencia relativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.4. Robustez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.5. Identificabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.6. Aspectos computacionales de la verosimilitud compuesta . . . . . . . . . . . 44

2.6.1. Errores estandar de los estimadores de maxima verosimilitud compuesta 44

2.6.2. Algoritmo EM para la verosimilitud compuesta . . . . . . . . . . . . 46

2.6.3. Integracion en bajas dimensiones versus integracion en altas dimensiones 47

2.6.4. Dificultades combinatorias . . . . . . . . . . . . . . . . . . . . . . . . 48

3. MODELOS ESPACIALES SOBRE LATTICES 49

3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.2. Campos aleatorios de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.2.1. Cadenas de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.2.2. Generalizacion en dos dimensiones . . . . . . . . . . . . . . . . . . . 52

Page 7: TESIS_edgarSM

V

3.2.3. Campos aleatorios de Gibbs . . . . . . . . . . . . . . . . . . . . . . . 53

3.2.4. Funcion negpotencial y teorema de Hammersley-Clifford . . . . . . . 55

3.3. Generacion de un campo aleatorio de Markov . . . . . . . . . . . . . . . . . 57

3.3.1. El Muestreador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.3.2. Criterio de convergencia . . . . . . . . . . . . . . . . . . . . . . . . . 59

4. EL MODELO CONDICIONAL POISSON WINSORIZADO 63

4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.2. El auto-modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.3. El auto-modelo Poisson Winsorizado . . . . . . . . . . . . . . . . . . . . . . 66

4.3.1. Distribucion Poisson Winzorizada . . . . . . . . . . . . . . . . . . . . 67

4.3.2. Formulacion espacial de la distribucion Poisson Winzorizada . . . . . 68

4.4. Modelo condicional Poisson Winsorizado centrado . . . . . . . . . . . . . . . 69

4.4.1. Estimacion por maxima verosimilitud . . . . . . . . . . . . . . . . . . 70

4.4.2. Maxima verosimilitud vıa Monte Carlo . . . . . . . . . . . . . . . . . 71

4.5. Alternativas a la estimacion por maxima verosimilitud . . . . . . . . . . . . 74

4.5.1. Pseudo-verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.5.2. Pseudo-verosimilitud generalizada . . . . . . . . . . . . . . . . . . . . 75

5. ESTUDIO DE SIMULACION PARA EL MODELO POISSON WINSORIZA-

DO 78

6. APLICACION DE LA VEROSIMILITUD COMPUESTA A UN CON-

JUNTO DE DATOS REALES 87

Page 8: TESIS_edgarSM

VI

7. CONCLUSIONES 90

BIBLIOGRAFIA 95

Page 9: TESIS_edgarSM

INDICE DE FIGURAS

1.1. Funciones de verosimilitud y log-verosimilitud para datos de una distribucion

Poisson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.1. Diferentes estructuras de vecindades . . . . . . . . . . . . . . . . . . . . . . . 53

3.2. Tipos de cliques para un sistema de orden 1. . . . . . . . . . . . . . . . . . . 54

3.3. Tipos de cliques para un sistema de orden 2. . . . . . . . . . . . . . . . . . . 54

5.1. Lattice regular 10×10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5.2. Grafica de convergencia del muestreador de Gibbs para sitios 1 y 100. . . . . 79

5.3. Grafica de convergencia del muestreador de Gibbs para sitios 35 y 80. . . . . 79

5.4. Grafica de convergencia del muestreador de Gibbs para sitios 25 y 55. . . . . 80

5.5. Valores de 500 estimaciones de κ simulados de un modelo condicional Poisson

Winsorizado con θ = (κ, η) =(1.099,0.01) y R=10. . . . . . . . . . . . . . . . 81

5.6. Valores de 500 estimaciones de η simulados de un modelo condicional Poisson

Winsorizado con θ = (κ, η) =(1.099,0.01) y R=10. . . . . . . . . . . . . . . . 82

5.7. Estimaciones del error cuadrado medio para estimadores de los parametros κ

y η (×102) para un modelo condicional Poisson Winsorizado con valores de

η =(0.01,...,0.05) y κ =1.099. . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

5.8. Estimaciones del sesgo para estimadores de los parametros κ y η (×102) para

un modelo condicional Poisson Winsorizado con valores de η =(0.01,...,0.05)

y κ =1.099. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.9. Estimaciones del error estandar de κ y η (×102) para un modelo condicional

Poisson Winsorizado con valores de η =(0.01,...,0.05) y κ =1.099. . . . . . . 85

Page 10: TESIS_edgarSM

VIII

6.1. Distribucion espacial del numero de acaros. . . . . . . . . . . . . . . . . . . . 87

6.2. Grafica de contorno de los valores de la funcion log-verosimilitud Monte Carlo

para el modelo condicional Poisson Winsorizado ajustado a los datos de acaros. 89

Page 11: TESIS_edgarSM

RESUMEN

Recientemente, ha habido un interes creciente en los metodos de verosimilitud compuesta para

inferencia estadıstica de datos de una amplia variedad de aplicaciones. Estos metodos estan

siendo aplicados con la finalidad de resolver el problema de inferencia en situaciones donde la

verosimilitud completa de los datos es computacionalmente intratable debido principalmente

a la compleja estructura de dependencias, lo cual es comun encontrar en datos espaciales. Los

metodos de maxima pseudo-verosimilitud (MPV) de Besag y maxima pseudo-verosimilitud

generalizada (MPVG) de Huang y Ogata son ambos buenos ejemplos de metodos de vero-

similitud compuesta que han mostrado ser utiles en la simplificacion de la inferencia para

datos espaciales. Estudios recientes han mostrado que el metodo de MPVG puede ser tan facil

de implementar computacionalmente como el metodo de MPV pero tiene significativamente

mejor desempeno que este ultimo y mas cercano al desempeno del metodo de verosimilitud or-

dinaria cuando existen dependencias muy fuertes entre los datos. Sin embargo, estos estudios

solamente consideran modelos los cuales la verosimilitud existe en forma explıcita (cerrada)

y el metodo de MPVG es facil de implementar como en el caso del modelo auto-normal para

datos continuos y el modelo Ising para datos espaciales binarios. De este modo, existe la

necesidad de comparar el desempeno de dos metodos en modelos computacionalmente mas

complicados, donde la verosimilitud no existe en forma explıcita. En este trabajo, extendemos

la aplicacion del metodo de MPVG al auto-modelo Poisson de Kaiser y Cressie. Las compara-

ciones en desempeno con el metodo de MPV se lleva a cabo tanto en datos simulados como

en datos reales en una region de lattice espacial cuadrado. Resultados de nuestros estudios

con el auto-modelo Poisson Winsorizado muestran que los estimadores producidos por el

Page 12: TESIS_edgarSM

X

metodo de MPVG tienen un mejor desempeno que los estimadores producidos por el metodo

de MPV con respecto al error cuadrado medio, sesgo, error estandar y cercanıa al estimador

de maxima verosimilitud. Adicionalmente, en este trabajo tambien se presenta una revision

sintetizada de avances recientes en la teorıa y aplicacion de las verosimilitudes compuestas,

incluyendo aplicaciones en geoestadıstica, extremos espaciales, modelos espacio-temporales,

datos longitudinales y de series de tiempo.

Page 13: TESIS_edgarSM

SUMMARY

Recently, there has been an important increase in the use of composite likelihood methods in

statistical inference of data. These methods are being applied to deal with inference when the

full likelihood of the data is intractable computationally due mainly to a complex estructure

of dependences, which happens commonly in spatial data. The methods of maximum pseudo-

likelihood (MPL) of Besag and maximum generalized pseudo-likelihood (MGPL) of Huang

and Ogata are both good examples of composite likelihood methods that have shown to

be useful to simplify inference for spatial data. Recent studies have shown that Huang and

Ogata’s MGPL method can be as easy to implement computationally as Besag’s MPL method

but has significantly better performance than the latter and closer to the ordinary maximum

likelihood method when dependences among the data are strong. Nevertheless, these studies

only consider models for which the likelihood exists in explicit (closed) form and Huang and

Ogata’s method is easy to implement as in the auto-normal model for continuos site variables

and the Ising model for binary spatial data. So, there is a need for comparisons of performance

between the two methods in computationally more complex models, where the likelihood

does not exist in closed form. In this work we extend the application of Huang and Ogata’s

MGPL method to the Winsorized Poisson auto-model of Kaiser and Cressie. Comparisons in

performance with Besag’s MPL method are conducted both in simulated and in real data on

a region of a spatial square lattice. Results from our studies in the Winsorized Poisson auto-

model show better performance of the MGPL estimators than the MPL estimators respect to

mean square error, bias, standard error and closeness to the maximum likelihood estimator.

Finally, in this work we also present a short review of recent developments in the theory and

Page 14: TESIS_edgarSM

application of composite likelihoods, including applications to geostatistics, spatial extremes,

and space-time models, as well as clustered and longitudinal data and time series.

Page 15: TESIS_edgarSM

INTRODUCCION

En un numero importante de aplicaciones, la presencia de grandes conjuntos de datos co-

rrelacionados o la especificacion de modelos estadısticos altamente estructurados hace muy

difıcil y en ocasiones imposible, el calculo del estimador de maxima verosimilitud para los

datos. Para tales situaciones, una alternativa a los metodos de verosimilitud ordinarios es

adoptar el uso de pseudo-verosimilitudes simples, como aquellas que pertenecen a la clase

de verosimilitudes compuestas (Lindsay, 1988). Una verosimilitud compuesta consiste de una

combinacion de terminos validos de verosimilitud, los cuales usualmente estan relacionados

a pequenos subconjuntos de datos. Se ha demostrado que la verosimilitud compuesta tiene

buenas propiedades teoricas y posee un amplio rango de aplicaciones potenciales. Por ejemplo,

ha mostrado ser de gran utilidad en estadıstica espacial (Hjort y Omre, 1994; Heagerty y

Lele, 1998; Varin et al., 2005), analisis de supervivencia multivariada (Parner, 2001), mode-

los lineales mixtos generalizados (Renard et al., 2004), modelos de fragilidad (Henderson y

Shimakura, 2003) y genetica (Fearnhead y Donnelly, 2002).

Los metodos de verosimilitud compuesta son una extension de la teorıa de verosimilitud

de Fisher, uno de los enfoques mas influyentes en la estadıstica. Tal extension es generalmente

motivada por cuestiones de factibilidad computacional surgida en la aplicacion del metodo de

maxima verosimilitud en analisis de datos correlacionados en altas dimensiones. Las depen-

dencias complejas en estas situaciones implican cambios sustanciales en la modelacion y en los

metodos estadısticos de analisis. La idea de proyectar funciones de verosimilitud complicadas

en altas dimensiones a objetos de verosimilitud de menos dimension computacionalmente

factibles es metodologicamente atractivo. La verosimilitud compuesta hereda muchas de las

Page 16: TESIS_edgarSM

XIV

buenas propiedades inferenciales de la funcion de verosimilitud completa, pero es mas facil

de implementar en conjuntos de datos correlacionados de altas dimensiones.

Una de las aplicaciones fundamentales de los metodos de verosimilitud compuesta ocurre

en los modelos estadısticos espaciales, particularmente en el caso de modelos para datos en

lattice o lo que se conoce como campos aleatorios de Markov. El metodo de maxima pseudo-

verosimilitud de Besag (1975) y el metodo de maxima pseudo-verosimilitud generalizada de

Huang y Ogata (2002) son ejemplos de metodos de verosimilitud compuesta que han mostra-

do ser de gran utilidad para estimacion en campos aleatorios de Markov. La distribucion

conjunta para estos modelos tiene la forma de una distribucion de Gibbs, la cual involucra

una constante de normalizacion que resulta muy difıcil y en muchas ocasiones imposible de

evaluar. Esto hace muy complicado o a veces imposible el calculo del estimador de maxima

verosimilitud para estos modelos. Como una alternativa a este problema, Besag (1974, 1975)

propuso primero el metodo coding y luego el estimador de maxima pseudo-verosimilitud

(EMPV), los cuales son muy faciles de calcular. En Besag (1977) se demostro que el EMPV

es mas eficiente que el estimador producido por el metodo coding. Desde entonces, muchos in-

vestigadores han demostrado que bajo condiciones adecuadas, el EMPV es consistente y con

distribucion asintotica normal. Sin embargo, en muchos estudios se ha demostrado que cuando

la interaccion entre los datos se hace fuerte, el EMPV se hace menos eficiente. Debido a este

problema, Huang y Ogata (2002) propusieron el estimador de maxima pseudo-verosimilitud

generalizada (EMPVG), el cual es una generalizacion del EMPV de Besag. Huang y Ogata

(2002) implementaron el EMPV y el EMPVG en conjuntos de datos simulados para un mode-

lo Ising y dos modelos auto-normales sobre un lattice rectangular. En ese estudio, se muestra

que el EMPVG es mejor que el EMPV en cuanto a error cuadrado medio, error estandar,

eficiencia asintotica y cercanıa al EMV. Ademas, en tal estudio tambien se muestra que las

diferencias entre el EMPVG y el EMPV se hacen mas notables conforme se incrementa la de-

pendencia espacial entre los datos. Sin embargo, Huang y Ogata (2002) calculan el EMPVG

en modelos donde este es facil de computar, ademas de que la constante normalizadora de la

distribucion de Gibbs para estos modelos tiene una forma explıcita facil de evaluar. En este

Page 17: TESIS_edgarSM

XV

contexto, existe la necesidad de extender la aplicabilidad y evaluar la eficiencia del EMPVG

en otros modelos diferentes al Ising y auto-normal y donde la constante normalizadora de la

distribucion de Gibbs sea difıcil o imposible de computar.

En este trabajo, implementamos el calculo del EMPVG y del EMPV en conjuntos de

datos simulados y reales de un modelo condicional Poisson Winsorizado. Los estimadores son

comparados en cuanto al error cuadrado medio, sesgo, error estandar y cercanıa al EMV.

En el Capıtulo 1 se hace una revision general del metodo de maxima verosimilitud. En el

Capıtulo 2 se presenta una revision sobre los avances recientes en la teorıa y aplicaciones de los

metodos de verosimilitud compuesta. Se considera un amplio rango de areas de aplicaciones

que incluyen geoestadıstica, extremos espaciales, modelos espacio-temporales y modelos para

datos de series de tiempo y longitudinales. El Capıtulo 3 hace referencia a los campos aleato-

rios de Markov y sus propiedades. En el Capıtulo 4 se presenta el modelo condicional Poisson

Winsorizado. En los Capıtulos 6 y 7 se implementa el calculo de los estimadores EMPVG y el

EMPV a conjuntos de datos simulados y reales del modelo condicional Poisson Winsorizado,

respectivamente. Finalmente, el trabajo concluye con una conclusion en el Capıtulo 7.

Page 18: TESIS_edgarSM

CAPITULO 1

VEROSIMILITUD

1.1. Introduccion

Existen dos areas principales dentro de la inferencia estadıstica: estimacion y pruebas de

hipotesis. A continuacion nos enfocaremos solo en la parte de estimacion ya que es allı donde

podemos encontrar la esencia de nuestro trabajo.

La estimacion es un metodo inferencial cuyo objetivo es conocer el valor de uno o mas

parametros de la distribucion de una variable aleatoria. Cuando se muestrea de una poblacion

descrita por una funcion de densidad de probabilidad (fdp) o una funcion de masa de pro-

babilidad (fmp) representada como f(x; θ), el conocimiento de θ produce conocimiento de

la poblacion completa. Entonces, es natural buscar un buen estimador del valor θ, que sea

un buen estimador puntual de θ. Una de las tecnicas mas usadas de estimacion es el meto-

do de Maxima Verosimilitud. En este capıtulo desarrollaremos los principales resultados de

esta tecnica estadıstica para posteriormente introducirnos a los metodos de verosimilitud

compuesta en el capıtulo 2.

Page 19: TESIS_edgarSM

La funcion de verosimilitud 2

1.2. La funcion de verosimilitud

La funcion de verosimilitud es muy importante dentro de la estadıstica y es uno de los

conceptos basicos de la misma. La podemos definir como sigue:

Sea f(x; θ) una fdp o fmp de la muestra X = (X1, ..., Xn). Entonces dado que X = x es

observado, la funcion de θ definida por

L(θ;x) = f(x; θ), (1.1)

se conoce como verosimilitud o funcion de verosimilitud.

En la mayorıa de las ocasiones es preferible, por cuestiones computacionales, considerar

la funcion log-verosimilitud obtenida al tomar el logaritmo de (1.1); esto es,

`(θ;x) = log(L(θ;x)).

Si X es un vector aleatorio discreto, entonces L(θ;x) = Pθ(X = x). Si comparamos la

funcion de verosimilitud en dos puntos del parametro y encontramos que

Pθ1(X = x) = L(θ1;x) > L(θ2;x) = Pθ2(X = x),

entonces la muestra observada es mas probable de ocurrir si θ = θ1 que si θ = θ2, lo cual

puede ser interpretado diciendo que θ1 es un valor mas plausible para el valor verdadero de θ

que θ2. Se han propuesto diferentes formas para el uso de esta informacion, pero ciertamente

es razonable examinar la probabilidad de la muestra que se observa bajo varios valores de θ.

Esta es la informacion proporcionada por la funcion de verosimilitud.

Si X1, ..., Xn es una muestra aleatoria de una poblacion con fdp o fmp f(x; θ1, ..., θk), la

funcion de verosimilitud esta definida por

L(θ;x) = L(θ1, ..., θk;x1, ..., xn) =n∏i=1

f(xi; θ1, ..., θk). (1.2)

Page 20: TESIS_edgarSM

La funcion de verosimilitud 3

Ejemplo 1.1 (Distribucion Exponencial). Sea x1, ..., xn una muestra aleatoria de la den-

sidad f(x; θ) = θ−1e−x/θ, x > 0, θ > 0. Entonces, en este caso (1.2) es

L(θ;x) =n∏i=1

θ−1e−xi/θ = θ−n exp

(−1

θ

n∑i=1

xi

), θ > 0.

Ejemplo 1.2 (Distribucion Weibull). La densidad Weibull es

f(x; β, α) =α

β

(x

β

)α−1

exp

−(x

β

)α, x > 0 β, α > 0, (1.3)

donde para este caso θ = (α, β). Una muestra aleatoria x1, ..., xn de (1.3) produce la funcion

de verosimilitud

L(β, α;x) =αn

βnα

(n∏i=1

xi

)α−1

exp

n∑i=1

(xiβ

)α, β, α > 0.

1.2.1. Datos dependientes

Hay problemas donde existe una estructura de dependencia de los datos que puede hacer

muy complejo su estudio y comunmente es complicado escribir explıcitamente la fdp (o

fmp) conjunta f(x; θ). Lo podemos ver por ejemplo, cuando los datos son dispuestos por

orden de tiempo, tal que x1 precede a x2 precede a x3, ...; entonces

f(x; θ) = f(x1, ..., xn; θ) = f(x1; θ)n∏i=2

f(xi | x1, ..., xi−1; θ). (1.4)

En el caso de que los datos surjan de un proceso de Markov, la expresion (1.4) viene a ser

f(x; θ) = f(x1; θ)n∏i=2

f(xi | xi−1; θ).

Ejemplo 1.3. Suponga que X0, ..., Xn son tales que dado Xi = xi, la densidad condicional

Page 21: TESIS_edgarSM

La funcion de verosimilitud 4

de Xi+1 es Poisson con media θxi; esto es,

f(xi+1|xi; θ) =(θxi)

i+1

xi+1!exp(−θxi), xi+1 = 0, 1, ..., θ > 0.

Si X0 es Poisson con media θ, la densidad conjunta de los datos x0, ..., xn es

f(x0; θ)n∏i=1

f(xi | xi−1; θ) =θx0

x0!exp(−θ)

n−1∏i=0

(θxi)xi+1

xi+1

exp(−θxi),

de modo que la funcion de verosimilitud (1.1) es igual a

L(θ;x) =

(n∏i=0

xi!

)−1

exp(s0 log θ − s1θ), θ > 0,

donde s0 =∑n

i=0 xi y s1 = 1 +∑n−1

i=0 xi.

1.2.2. Funcion score e informacion

Si asumimos un modelo con la log-verosimilitud `(θ;x), entonces la funcion score se define

como

U(θ;x) =∂`(θ;x)

∂θ, (1.5)

la cual es simplemente la primera derivada de la log-verosimilitud. Si θ es un vector, entonces

(1.5) es un vector de primeras derivadas.

Ahora, la ecuacion de verosimilitud se define como

∂`(θ;x)

∂θ= 0.

Estos dos conceptos seran tratados mas a detalle cuando calculemos los estimadores de maxi-

ma verosimilitud.

Page 22: TESIS_edgarSM

Estimadores de maxima verosimilitud 5

La informacion observada se define como

J(θ) = −∂2`(θ;x)

∂θ2.

Cuando `(θ;x) es una suma de n componentes (observaciones independientes), entonces J(θ)

tambien lo es,

J(θ) = −∂2`(θ;x)

∂θ2=

∂2

∂θ2

n∑i=1

`i(θ;x) =n∑i=1

−∂2 log f(xi; θ)

∂θ2.

Una alta informacion, precisara θ mas exactamente que una informacion observada baja. La

cantidad de informacion tıpicamente se relaciona al tamano del conjunto de datos. Antes

de que hagamos algun experimento, obviamente no tenemos datos, entonces no podemos

obtener la informacion observada. Sin embargo, podemos calcular la informacion esperada o

informacion de Fisher,

I(θ) = E

(−∂

2`(θ;x)

∂θ2

),

la cual es la informacion media que contendran los datos cuando sean colectados, suponiendo

que el modelo es correcto y el valor del parametro verdadero es θ.

1.3. Estimadores de maxima verosimilitud

El estimador de maxima verosimilitud (EMV) se define como

θ = arg supθL(θ;x);

esto es, θ es el valor de θ para el cual la muestra observada es mas probable. Hay dos

desventajas inherentes asociadas con el problema de encontrar el maximo de una funcion,

y por lo tanto del EMV. El primer problema es en realidad encontrar el maximo global

y verificar, que en efecto, un maximo global ha sido encontrado. La segunda desventaja

Page 23: TESIS_edgarSM

Estimadores de maxima verosimilitud 6

es la sensibilidad numerica. ¿Que tan sensible es la estimacion a cambios pequenos en los

datos?. Desafortunadamente, a veces se da el caso en que una muestra ligeramente diferente

producira un EMV notablemente diferente, haciendo dudoso su uso.

Si la funcion de verosimilitud es diferenciable en θi, los posibles candidatos para el EMV

son los valores de (θ1, ..., θk) que resuelven

∂θiL(θ;x) = 0. (1.6)

Las soluciones de las ecuaciones (1.6) son solo los posibles candidatos para el EMV ya que la

primera derivada siendo 0 es solo una condicion necesaria para un maximo, no una condicion

suficiente. Ademas, los ceros de la primera derivada localizan solo puntos extremos en el

interior del dominio de una funcion. Puntos en los cuales las primeras derivadas son 0 pueden

ser mınimos locales o globales, maximos locales o globales, o puntos de inflexion.

La logica de estimacion por maxima verosimilitud es primeramente ilustrada para datos

de una distribucion discreta y despues se da un ejemplo para una distribucion normal. Con-

sideremos una muestra aleatoria de las siguientes 10 observaciones independientes de una

distribucion Poisson: 5, 0, 1, 1, 0, 3, 2, 3, 4 y 1. La fmp de cada observacion es

f(xi; θ) =e−θθxi

xi!.

Puesto que las observaciones son independientes, la funcion de verosimilitud para estos datos

es

L(θ;x) = f(x1, x2, ..., x10; θ) =10∏i=1

f(xi; θ) =e−10θθ

∑10i=1 xi∏10

i=1 xi!=e−10θθ20

207360. (1.7)

La ecuacion (1.7) da la probabilidad de observar la muestra en particular asumiendo que

una distribucion Poisson con parametro θ, aun desconocido, genero los datos. ¿Que valor de

θ podrıa hacer esta muestra mas probable de ocurrir? La figura (1.1) presenta la grafica de

la funcion (1.7) para varios valores de θ. Note que la funcion (1.7) tiene una sola moda en

θ = 2. Este valor podrıa ser el estimador de maxima verosimilitud de θ para estos datos.

Page 24: TESIS_edgarSM

Estimadores de maxima verosimilitud 7

Figura 1.1: Funciones de verosimilitud y log-verosimilitud para datos de unadistribucion Poisson.

Ahora, maximizaremos L(θ;x) con respecto a θ. En vista de que es mas facil trabajar con el

logaritmo de L(θ;x), entonces

`(θ;x) = −nθ + ln θn∑i=1

xi −n∑i=1

ln(xi!)

∂`(θ;x)

∂θ= −n+

1

θ

n∑i=1

xi = 0

lo cual nos dice que θ = x. Para nuestras observaciones tendrıamos lo siguiente,

`(θ;x) = −10θ + 20 ln θ − 12.242 (1.8)

∂`(θ;x)

∂θ= −10 +

20

θ= 0⇒ θ = 2

Ahora, para nuestra funcion definida en (1.8) note que

∂2`(θ;x)

∂θ2=−20

θ2< 0

Page 25: TESIS_edgarSM

Estimadores de maxima verosimilitud 8

lo cual nos dice que θ = 2 es un maximo. En la figura 1.1 tambien se presenta la grafica de

`(θ;x).

Ejemplo 1.4 (Distribucion Normal). Sea x1, ..., xn una muestra aleatoria con fdp Normal

(µ, σ2), entonces la funcion de verosimilitud en este caso es

L(µ, σ2;x) =n∏i=1

1√2πσ

exp

(1/2σ2)(xi − µ)2

=

(1

2πσ2

)n/2exp

[− 1

2σ2

n∑i=1

(xi − µ)2

],

con logaritmo

`(µ, σ2;x) = −n2

log 2π − n

2log σ2 − 1

2σ2

n∑i=1

(xi − µ)2

donde σ > 0 y −∞ < µ <∞.

Para encontrar la localizacion de su maximo, calculamos primero los componentes de la

funcion score

∂`(µ, σ2;x)

∂µ=

1

σ2

n∑i=1

(xi − µ)

∂`(µ, σ2;x)

∂σ2=

1

σ2

n∑i=1

(xi − µ) = −n2

1

σ2+

1

2σ4

n∑i=1

(xi − µ)2.

Igualando estas derivadas a 0 y resolviendo las ecuaciones resultantes para µ y σ2 se obtienen

las estimaciones de maxima verosimilitud

µ =1

n

n∑i=1

xi = x

y

σ2 =1

n

n∑i=1

(xi − x)2.

Luego tenemos que ver que al menos una derivada parcial de segundo orden sea negativa,

esto es,∂2`(µ, σ2)

∂µ

∣∣∣∣µ=µ,σ2=σ2

< 0 o∂2`(µ, σ2)

∂(σ2)2

∣∣∣∣µ=µ,σ2=σ2

< 0.

Page 26: TESIS_edgarSM

Estimadores de maxima verosimilitud 9

Note que

∂2`(µ, σ2)

∂µ

∣∣∣∣µ=µ,σ2=σ2

= − n

σ2= − n

σ2

∂2`(µ, σ2)

∂(σ2)2

∣∣∣∣µ=µ,σ2=σ2

=n

2σ4− 1

σ6

n∑i=1

(xi − µ)2 =n

2σ4− 1

σ6

n∑i=1

(xi − µ)2

Para saber si tenemos un maximo local en (µ, σ2), tenemos que ver si el Jacobiano (determi-

nante de la matriz de informacion observada) de las derivadas de segundo orden es positivo,

esto es, debemos verificar que

J =

∣∣∣∣∣∣∂2`(µ,σ2)∂µ2

∂2`(µ,σ2)∂µ∂σ2

∂2`(µ,σ2)∂σ2∂µ

∂2`(µ,σ2)∂(σ2)2

∣∣∣∣∣∣µ=µ,σ=σ2

=∂2`(µ, σ2)

∂µ2

∂2`(µ, σ2)

∂(σ2)2−(∂2`(µ, σ2)

∂µ∂σ2

)2∣∣∣∣∣µ=µ,σ=σ2

> 0.

De lo anterior tenemos lo siguiente,

J =

∣∣∣∣∣∣ − nσ2 − 1

σ4

∑ni=1(xi − µ)

− 1σ4

∑ni=1(xi − µ) n

2σ4 − 1σ6

∑ni=1(xi − µ)2

∣∣∣∣∣∣µ=µ,σ2=σ2

=1

σ6

−n2

2+

n

σ2

n∑i=1

(xi − µ)2 − 1

σ2

(n∑i=1

(xi − µ)

)2µ=µ,σ2=σ2

=1

σ6

−n2

2+n2

σ2σ2 − 1

σ2

(n∑i=1

(xi − x)

)2 =

1

σ6

n2

2> 0

y en efecto hemos encontrado un maximo en (µ, σ2).

Page 27: TESIS_edgarSM

Estimadores de maxima verosimilitud 10

1.3.1. Propiedades de los estimadores de maxima verosimilitud

Los estimadores de maxima verosimilitud (EMV) son atractivos por sus propiedades exactas y

asintoticas. Sea θ el estimador de maxima verosimilitud y θ el valor verdadero del parametro.

Bajo condiciones de regularidad, que seran listadas mas adelante, las propiedades de los

EMV´s pueden resumirse como sigue:

[I] Consistencia. El estimador θ de θ es consistente si, cuando el tamano de la muestra

se incrementa, θ es “mas cercano” a θ. Esto es,

lımn→∞

P (|θ − θ| > 0) = ε ∀ε > 0

[II] Normalidad asintotica. Cuando n→∞ se tiene que θa∼ N

[θ, I(θ)−1] donde

I(θ) = E

(−∂2`(θ;x)

∂θ∂θT

).

[III] Eficiencia asintotica. El estimador θ es asintoticamente eficiente, lo cual significa que

la varianza de θ alcanza la cota inferior de Cramer-Rao para estimadores insesgados de

θ.

[IV] Invarianza. El estimador de maxima verosimilitud de γ = c(θ) es c(θ) si c(θ) es

una funcion continua y continuamente diferenciable.

Para que se cumplan estas propiedades de los EMV´s, las funciones de densidad nece-

sitan seguir ciertas condiciones de regularidad. Suponga que (x1, x2, ..., xn) es una muestra

aleatoria de una poblacion con funcion de densidad f(xi; θ). Las condiciones de regularidad

a las que se hace referencia anteriormente son:

[I] Las primeras tres derivadas de ln f(xi; θ) con respecto a θ son continuas y finitas

Page 28: TESIS_edgarSM

Pruebas estadısticas 11

para casi todos los xi y para todo θ. Esta condicion asegura la existencia de una

cierta aproximacion de Taylor y la varianza finita de las derivadas de lnL.

[II] Las condiciones necesarias para obtener las esperanzas de la primera y la segunda

derivadas de ln f(xi; θ) son conocidas.

[III] Para todos los valores de θ, |∂3 ln f(xi; θ)/∂θj∂θk∂θl| es menor que una funcion que

tiene una esperanza finita. Esta condicion nos permitira truncar las series de Taylor.

1.4. Pruebas estadısticas

Suponiendo que el modelo utilizado satisface las condiciones de regularidad para normalidad

asintotica del estimador de maxima verosimilitud, en muestras grandes el estadıstico de razon

de verosimilitudes

W (θ) = 2`(θ;x)− `(θ;x)

tiene una distribucion aproximada chi-cuadrada con p grados de libertad bajo repetido

muestreo de los datos del modelo. Esto es I(θ)→∞,

W (θ)D→ χ2

p. (1.9)

La expresion (1.9) muestra que W (θ) es un pivote aproximado, el cual puede ser usado

para proveer regiones de confianza para θ.

Ahora, suponga que θ = (ψT , λT ), donde ψ es un vector de dimension p×1 que representa

el parametro de interes y λ es un vector de dimension q × 1 que representa parametros de

ruido. Nuestro interes es en ψ pero no podemos evitar incluir λ.

Dos modelos se dicen que son anidados si uno reduce al otro cuando ciertos parametros

son fijos. Un estadıstico natural que compara dos modelos anidados es el logaritmo de la

Page 29: TESIS_edgarSM

Pruebas estadısticas 12

razon de verosimilitudes maximizadas

Wp(ψ) = 2`(ψ, λ;x)− `(ψ, λ)

,

el cual se conoce como estadıstico de razon de verosimilitud generalizada. Con lo anterior

tenemos el siguiente resultado

Wp(ψ)D→ χ2

p.

Tambien, podemos suponer que nuestro parametro de interes, ψ, tiene una dimension mucho

menor que el parametro de ruido, λ, y deseamos regiones de confianza para el valor verdadero

de ψ sin tener en cuenta λ, entonces es conveniente usar la verosimilitud profile

`p(ψ;x) = `(ψ, λψ;x)

donde λψ es el estimador de maxima verosimilitud de λ para ψ fijo.

Hasta ahora hemos supuesto que el modelo es conocido, pero en la practica es raramente

cierto y es esencial revisar el modelo ajustado. Una aproximacion usual es la prueba score, y la

idea principal radica en que si el modelo restringido es adecuado, entonces la log-verosimilitud

maximizada no incrementara bruscamente en la direccion de ψ.

Si el modelo mas simple es adecuado, entonces

S =∂`(ψ, λψ)

∂ψT(Iψψ − IψλI−1

λλ Iλψ)−1∂`(ψ, λψ)

∂ψ

.∼ χ2p

donde Iψλ = E(−∂2`/∂λ∂ψT ).

Hasta ahora hemos visto las principales caracterısticas del metodo de maxima verosimilitud,

sin embargo muchas veces tenemos escenarios donde la verosimilitud es mas complicada, por

ejemplo para series de tiempo un modelo dado en Li (2009).

Page 30: TESIS_edgarSM

Pruebas estadısticas 13

Ejemplo 1.5 (Modelo AR(1)). Sea Xt un proceso Gaussiano autoregresivo de orden

uno con coeficiente de correlacion a. Esto se define como Xt = aXt−1 + εt. Donde εt es una

secuencia de ruido blanco Gaussiano con media cero y varianza constante σ2. Entonces la

funcion de verosimilitud para la muestra X1, ..., XT esta dada por

L(a, σ2;x) = f(x1)T∏t=2

f(xt|xt−1)

=1√

2π σ2

1−a2

exp

− x2

1

2 σ2

1−a2

T∏t=2

1√2πσ

exp

−(xt − axt−1)2

2σ2

donde X0 se asume N(0, σ2/(1− a2)) e independiente de ε2, ..., εT .

La log-verosimilitud es

l(a, σ2;x) =1

2log(1− a2)− T

2log σ2 − 1

2σ2[S1 + a2S2 − 2aS12], (1.10)

donde S1 =∑T

t=1 x2t , S2 =

∑T−1t=2 x

2t y S12 =

∑T−1t=1 xtxt+1.

Los estimadores de maxima verosimilitud, a y σ2, son las soluciones a 0 =(1− 1

T

)S2a

3 −(1− 2

T

)S12a

2 −(S2 + S1

T

)a+ S12

σ2 = (S1 + a2S2 − 2aS12)/T.(1.11)

Resolviendo la primera ecuacion en (1.11) significa encontrar las raıces de la funcion cubica

de a,

g(a) = a3 − T − 2

T − 1

S12

S2

a2 − S1 + TS2

(T − 1)S2

+T

T − 1

S12

S2

para T grande, podrıamos tener

g(a) = a3 − S12

S2

a2 − a+S12

S2

+O

(1

T

)=

(a− S12

S2

)(a2 − 1) +O

(1

T

)

Page 31: TESIS_edgarSM

Pruebas estadısticas 14

Como la raız de interes esta entre (−1, 1), vemos que a es asintoticamente igual a S12/S2 y

es facil verificar que S12/S2p→ a.

Ademas, la informacion de Fisher esperada se puede obtener como

I(θ) = E

(− ∂2l

∂θ∂θ′

)=

1+a2

(1−a2)2+ T−2

1−a2a

σ2(1−a2)

aσ2(1−a2)

T2σ4

Hasta aquı podemos ver que la forma para calcular los estimadores de maxima verosimil-

itud tenemos que hacerlo numericamente, sin embargo surge una pregunta ¿existe alguna

manera de encontrar esos estimadores de una forma mas sencilla?, la respuesta es sı. Por

ejemplo consideremos realizar la siguiente modificacion al ejemplo anterior, suponiendo que

la verosimilitud esta formada por pares adyacentes, denotando la nueva funcion de verosimil-

itud como L2.

L2 =T∏t=2

f(xt, xt−1)

donde (Xt, Xt−1) sigue una distribucion normal bivariada con media cero, varianza σ2/(1−a2)

y correlacion a. La funcion de verosimilitud serıa

L2(a, σ2;x) = f(x1)T∏t=2

f(xt|xt−1)T−1∏t=2

f(xt) = L(a, σ2)T−1∏t=2

f(xt)

donde L(a, σ2;x) es la funcion de verosimilitud completa

La log-verosimilitud es,

`2(a, σ2;x) = `(a, σ2) +T−1∑t=2

log f(xt)

Page 32: TESIS_edgarSM

Pruebas estadısticas 15

Podemos ver ahora que la log-verosimilitud se compone de la log-verosimilitud completa y

un termino adicional de la suma de marginales de primer orden.

Es sencillo escribir la log-verosimilitud en terminos de S1, S2, y S12,

`2(a, σ2) =T − 1

2log(1− a2)− 2(T − 1) log σ − 1

2σ2(S1 + S2 − 2aS12)

lo cual en este caso se mantiene una forma explıcita de los estimadores de maxima verosimil-

itud, los cuales los podemos denotar como (a, σ2) a = 2S12

S1+S2

σ2 =(S1+S2)2−4S2

12

2(T−1)(S1+S2)

(1.12)

Simplificar la ecuacion de σ2 para

σ2 =S1 + S2 − 4S2

12

S1+S2

2(T − 1)=S1

T− S2

12

TS1

+O

(1

T 2

)y ya que

S1

T

p→ E[X2t ] y

S212

TS1

=S12

T.S12

S1

p→ aE[X2t ].a = a2E[X2

t ].

Por lo tanto, σ2 p→ E[X2t ] − a2E[X2

t ] = σ2. Podemos notar que σ2 es un estimador consis-

tente de σ2 cuando T incrementa, lo cual se ve muy interesante tomando en cuenta que se

modifico la funcion de verosimilitud arriesgando no obtener las buenas propiedades cuando

utilizamos una verosimilitud completa.

La modificacion anterior a la funcion de verosimilitud compuesta es solo una de tantas que se

podrıan proponer, la funcion de verosimilitud que se obtiene es llamada funcion de verosimil-

itud pairwise y es una forma de verosimilitud compuesta.

La estimacion por maxima verosimilitud muchas veces requiere la especificacion completa de

la variable aleatoria observada. Si la distribucion correcta es algunas veces otra de la que

asumimos, entonces la funcion de verosimilitud estarıa mal especificada y las propiedades

Page 33: TESIS_edgarSM

Pruebas estadısticas 16

deseables de los estimadores podrıan no mantenerse. Otro escenario que se nos podrıa pre-

sentar serıa el hecho de que la funcion de verosimilitud es demasiado complicada como ya se

menciono anteriormente y serıa practicamente imposible trabajar con ella, entonces bajo este

esquema tendrıamos que buscar una alternativa para calcular o aproximar la estimacion. En

el siguiente capıtulo proponemos una alternativa al metodo de maxima verosimilitud llamada

verosimilitud compuesta.

Page 34: TESIS_edgarSM

CAPITULO 2

VEROSIMILITUD COMPUESTA

2.1. Introduccion

En este capıtulo se revisan conceptos fundamentales para el conocimiento y desarrollo de

lo que es llamado verosimilitud compuesta. Se exponen las caracterısticas fundamentales y

las principales propiedades que nos hacen pensar en una alternativa potencial cuando nos

enfrentamos a ciertos tipos de problemas con el metodo de maxima verosimilitud.

La motivacion para el uso de cualquier version de verosimilitud compuesta es usualmente

computacional: para evitar, calcular, o en algunos casos, modelar la distribucion conjunta de

un posible vector de respuestas con dependencias en altas dimensiones.

2.2. Definicion de verosimilitud compuesta

Considere un vector aleatorio m-dimensional X, con funcion de densidad de probabilidad

f(x;θ), para algun vector de parametros desconocido θ ∈ Θ. Denote por A1, ...,AK a

un conjunto de eventos marginales o condicionales con verosimilitudes asociadas Lk(θ;x)∝

f(x ∈ Ak;θ). Siguiendo Lindsay (1988), una verosimilitud compuesta es el producto ponde-

Page 35: TESIS_edgarSM

Definicion de verosimilitud compuesta 18

rado

Lc(θ;x) =K∏k=1

Lk(θ;x)wk ,

donde wk son pesos no negativos a ser escogidos.

Aunque la definicion anterior permite combinaciones de densidades marginales y condi-

cionales (Cox y Reid, 2004), las verosimilitudes compuestas se distinguen tıpicamente en sus

versiones marginales y condicionales.

2.2.1. Verosimilitudes compuestas condicionales

Tal vez el precedente de la verosimilitud compuesta es la pseudo-verosimilitud propuesta

por Besag (1974; 1975) en el contexto de datos espaciales. Esta pseudo-verosimilitud es el

producto de densidades condicionales de una sola observacion en un sitio dado valores de sus

sitios vecinos,

Lc(θ;x) =m∏r=1

f(xr| xs : s es vecino de r ;θ).

Variantes mas recientes de la propuesta de Besag involucran bloques de observaciones sobre

eventos condicionales.

Huang y ogata (2002) generalizaron la pseudo-verosimilitud de Besag y propusieron la

pseudo-verosimilitud generalizada para procesos espaciales. Sea g(r) un grupo de sitios ad-

yacentes para cada sitio r y xg(r) := xl : l ∈ g(r) y xg(r) := xl : l /∈ g(r) el conjunto de

variables aleatorias dentro y fuera del grupo de sitios adyacentes g(r), respectivamente. La

pseudo-verosimilitud generalizada se define como

Lg(θ;x) =m∏r=1

f(xg(r)|xg(r);θ)1/|g(r)|,

donde |g(r)| denota en numero de sitios en el conjunto g(r).

Page 36: TESIS_edgarSM

Definicion de verosimilitud compuesta 19

Liang (1987) estudio verosimilitudes compuestas del tipo

Lc(θ;x) =m−1∏r=1

m∏s=r+1

f(xr|xr + xs;θ)

y las aplico a estudios de control estratificados. Trabajo adicional sobre este mismo tema

puede ser encontrado en Hanfelt (2004), Wang y Williamson (2005) y Fujii y Yanagimoto

(2005).

Molenberghs y Verbeke (2005) estudiaron verosimilitudes compuestas condicionales en el

contexto de estudios longitudinales y Mardia et al. (2008) en bioinformatica, construyendo

verosimilitudes compuestas juntando densidades condicionales de la forma

Lc(θ;x) =m∏r=1

m∏s=r+1

f(xr|xs;θ),

o con densidades condicionales completas

Lc(θ;x) =m∏r=1

f(xr|x(−r);θ),

donde x(−r) denota el vector de todas las observaciones menos xr.

2.2.2. Verosimilitudes compuestas marginales

La verosimilitud compuesta marginal mas simple es la pseudo-verosimilitud construida bajo

el supuesto de independencia,

Lind(θ;x) =m∏r=1

f(xr;θ)

a veces denominada en la literatura como verosimilitud de independencia (Chandler y Bate,

2007). La verosimilitud de independencia solo permite inferencia sobre parametros marginales.

Si los parametros relacionados a la dependencia tambien son de interes, entonces es necesario

Page 37: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 20

modelar bloques de observaciones, como en la verosimilitud por pares (Cox y Reid, 2004;

Varin, 2008)

Lpar(θ;x) =m−1∏r=1

m∏s=r+1

f(xr,xs;θ),

y en sus extensiones construidas de conjuntos de observaciones mas grandes (Caragea y

Smith, 2007).

Para respuestas continuas simetricas con inferencia enfocada en la dependencia de la

estructura, Curriero y Lele (1999) y Lele y Taper (2002) proponen verosimilitudes compuestas

marginales basadas en diferencias por pares,

Ldif (θ;x) =m−1∏r=1

m∏s=r+1

f(xr − xs;θ). (2.1)

2.2.3. Terminologıa

La verosimilitud compuesta ha sido referenciada con diferentes nombres, incluyendo la pseudo-

verosimilitud condicional (Besag, 1974), pseudo-verosmilitud generalizada (Huang y Ogata,

2002), pseudo-verosimilitud (Molenberghs y Verveke, 2005), verosimilitud aproximada (Stein,

Chi y Welty, 2004) y quasi-verosimilitud (Hjort y Omre, 1994; Glasbey, 2001; Hjort y Varin,

2008). En series de tiempo, las verosimilitudes compuestas marginales son comunmente lla-

madas verosimilitudes de datos divididos. En la literatura psicometrica, metodos basados

sobre la verosimilitud compuesta son llamados metodos de informacion limitados.

2.3. Estimadores de maxima verosimilitud compuesta

El estimador de maxima verosimilitud compuesta θc localiza el maximo de la verosimilitud

compuesta, o equivalentemente de la log-verosimilitud compuesta

Page 38: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 21

c`(θ;x) =K∑k=1

`k(θ;x)wk

donde `k(θ;x) = logLk(θ;x).

En problemas estandar θc puede ser encontrado resolviendo la funcion score compuesta

uc(θ;x) = ∇θc`(θ;x)

la cual es una combinacion lineal de los scores asociados con cada termino log-verosımil

`k(θ;x) .

El estimador de maxima verosimilitud compuesta (EMVC) se define como

θc = arg supθc`(θ;x)

donde c`(θ;x) =∑K

k=1 c`(θ;xi).

Las verosimilitudes compuestas se pueden ver como verosimilitudes especificadas incorrec-

tamente, donde la especificacion incorrecta ocurre debido a que se trabaja bajo la suposicion

de independencia entre los terminos de verosimilitud que forman la verosimilitud compuesta.

El hecho de que la verosimilitud compuesta no sea una funcion de verosimilitud valida conduce

a que no se satisface la segunda identidad de Bartlett y se necesita distinguir entre la matriz

de sensibilidad

H(θ) = Eθ −∇θuc(θ;X) =

∫−∇θuc(θ;x) f(x;θ)dx

y la matriz de variabilidad

J(θ) = varθ uc(θ;X) = Euc(θ;X)uTc (θ;X)

,

Page 39: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 22

y la informacion de Fisher necesita ser sustituida por la matriz de informacion de Godambe

(Godambe, 1960)

G(θ) = H(θ)J(θ)−1H(θ), (2.2)

tambien conocida como la matriz de informacion “sandwich”. Si c`(θ) fuera una funcion

log-verosimilitud valida entonces G = H = I, donde I(θ) = varθ ∇ log f(X; θ) es la

informacion esperada de Fisher. Una ecuacion de estimacion uc(θ;x) que satisface H(θ) =

J(θ) para toda θ se conoce como informacion insesgada (Lindsay, 1982).

Diferenciando la ecuacion score compuesta; E uc(θ;X) = 0, con respecto a θ, tenemos

E ∇θuc(θ;X)+ Eu(θ;X)uTc (θ;X)

= 0

donde u(θ;X) es la funcion score de la verosimilitud completa. Entonces,H(θ)=cov u(θ;X)

uTc (θ;X)

y la informacion de Godambe G(θ) puede tambien ser escrita como

G(θ) = covu(θ;X)uTc (θ;X)

varθ

uTc (θ;X)

−1covuc(θ;X)uT (θ;X)

.

La version multivariada de la desigualdad de Cauchy-Schwarz implica que

I(θ) = varθ u(θ;X) ≥ G(θ),

esto significa que la funcion de verosimilitud completa es mas eficiente que cualquier otra

funcion de verosimilitud compuesta (Lindsay, 1988, Lema 4A).

2.3.1. Teorıa asintotica

En el caso de n observaciones independientes e identicamente distribuidas X1, ..., Xn del

modelo f(x; θ) sobre Rm y n −→∞ con m fijo, algunos resultados asintoticos son disponibles

Page 40: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 23

en Kent (1982), Lindsay (1988), y Molenberhs y Verbeke (2005, Cap. 9). Puesto que

Lc(θ;x) =n∏i=1

Lc(θ;xi), c`(θ;x) =n∑i=1

c`(θ;xi),

y bajo condiciones de regularidad sobre las log-densidades componentes, se tiene un teore-

ma del lımite central para el estadıstico score de la verosimilitud compuesta, dando lugar

al resultado de que el estimador de maxima verosimilitud compuesta, θc, sea distribuido

asintoticamente normal,√n(θc − θ)

d→ Np

0, G−1(θ)

donde Np(µ; Σ) es la distribucion normal p-dimensional con media y varianza como se indican,

y G(θ) es la matriz de informacion de Godambe en una sola observacion, definida en (2.2).

La razon de G(θ) a la informacion esperada de Fisher I(θ) determina la eficiencia asintotica

de θc relativo al estimador de maxima verosimilitud del modelo completo. Si θ es un escalar,

esto puede ser determinado o graficado sobre el rango de valores de θ; ver, por ejemplo, Cox

y Reid (2004, Fig. 1).

Suponga que el interes es sobre un subvector q−dimensional ψ del parametro θ = (ψ, τ ).

Versiones de verosimilitud compuesta para los estadısticos de Wald y score para probar

H0 : ψ = ψ0 son facilmente construidos y tienen la distribucion asintotica usual χ2q, ver

Molenberghs y Verbeke (2005). La version del estadıstico de Wald tiene la siguiente forma

We = n(ψc −ψ0)TGψψ(θc)(ψc −ψ0),

donde Gψψ es la submatriz q × q de la informacion de Godambe correspondiente a ψ.

La version del estadıstico score tiene la siguiente forma

Wu =1

nuψ ψ0, τ c(ψ0)T HψψGψψH

ψψuψ ψ0, τ c(ψ0) , (2.3)

Page 41: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 24

donde Hψψ es la submatriz q × q de la inversa de H(θ) correspondiente a ψ y H =

H ψ0, τ c(ψ0). Como en inferencia con verosimilitud ordinaria, We y Wu sufren de limi-

taciones practicas: We no es invariante a la reparametrizacion, mientras que Wu puede ser

numericamente inestable. Ademas, se necesitan estimaciones de las matrices de variabilidad

y sensibilidad H(θ) y J(θ). Algunas veces estas pueden ser evaluadas explıcitamente, sin em-

bargo, es mas comun usar estimaciones empıricas. Como H(θ) es una media, su estimacion

empırica es sencilla, pero la estimacion empırica de J(θ) requiere alguna replicacion interna.

El estadıstico de razon de verosimilitud compuesta tendrıa la siguiente forma

W = 2c`(θc;x)− c`(ψ0, τ c(ψ0))

d→

q∑j=1

λjZ2j ,

donde Z1, ..., Zq son variables aleatorias normales independientes y λ1, ..., λq son los valores

propios de la matriz (Hψψ)−1Gψψ. Este resultado puede ser derivado bajo el esquema general

de verosimilitudes especificadas incorrectamente, ver Kent (1982) y White (1994).

Geys, Molenberghs y Ryan (1999) proponen el estadıstico de razon de verosimilitud com-

puesta ajustado W ′ = W/λ con una distribucion aproximada χ2q, donde λ denota el promedio

de los valores propios λj; Rotnitzky y Jewell (1990) sugieren esto para la verosimilitud de

independencia. La media de W ′ coincide con la de su distribucion asintotica χ2q, pero difiere

de sus momentos de orden superior. Una mejor solucion es provista en Satterthwaite (1946)

por un ajuste W ′′ = νW/(qλ) con distribucion aproximada χ2ν , donde el re escalamiento y

los grados de libertad efectivos ν = (∑q

j=1 λj)2/∑q

j=1 λ2j son escogidos tal que la media y

la varianza de W ′′ coinciden con su distribucion aproximada (Varin, 2008; Lindsay, Pilla y

Basak, 2000).

Chandler y Bate (2007) proponen un tipo diferente de ajuste para la verosimilitud de in-

dependencia: esencialmente extendiendo la log-verosimilitud compuesta en el eje θ sobre θc

para asegurar, al menos aproximadamente, que la segunda identidad de Bartlett se mantiene y

ası que la aproximacion usual χ2q puede ser usada. Re escalamiento vertical es otra posibilidad,

discutida ampliamente en Chandler y Bate (2007, Sec. 6) y extendida a la verosimilitud com-

Page 42: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 25

puesta en Pace, Salvan y Sartori (2011). En el caso de parametros escalares, el re escalamiento

vertical es lo mismo que dividir el estadıstico de razon de log-verosimilitud compuesta por

J−1H.

Aproximaciones saddlepoint para formas cuadraticas son derivadas en Kuonen (1999) y

parecen directamente aplicables a W .

La simplicidad computacional de las funciones de verosimilitud compuesta en tıpicas situa-

ciones permiten usar el bootstrap parametrico. Esto tiene la ventaja tambien de trabajar en

conjuntos no estandar, tales como cuando el parametro bajo la hipotesis nula se encuentra

en el lımite del espacio parametrico (Bellio y Varin, 2005), pero tiene el inconveniente de

requerir la especificacion completa de un modelo conjunto para los datos, perdiendo ası en

la robustez del modelo.

Analogamente existe un criterio de informacion Akaike (AIC) y un criterio de informacion

bayesiana (BIC) para modelos de seleccion para la verosimilitud compuesta. El criterio de

informacion Akaike tiene la siguiente forma

AIC = −2c`(θc;x) + 2 dim(θ)

y el criterio de informacion bayesiana serıa

BIC = −2c`(θc;x) + dim(θ) log n,

donde dim(θ) es un numero efectivo de los parametros estimados de la matriz de sensibil-

idad y la informacion de Godambe: dim(θ) = tr H(θ)G(θ)−1. La derivacion formal de

esos criterios de informacion pueden ser encontrados en Varin y Vidoni (2005) para el AIC

compuesto y en Gao y Song (2010) para el BIC compuesto.

Estos criterios pueden ser utilizados para modelar promedios (Claeskens y Hjort, 2008) o

para la seleccion de ajuste de parametros en metodos de disminucion. Ver Gao y Song (2010)

para ejemplos de pena de Lasso con verosimilitudes compuestas marginales.

Page 43: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 26

Tambien es de interes considerar el caso donde n es fijo y m incrementa, como en el caso

de una sola (n = 1) serie de tiempo grande o un conjunto de datos espacial. En este caso

la teorıa asintotica depende de la disponibilidad de la replicacion interna: por ejemplo en

un modelo autoregresivo de orden pequeno, hay suficiente independencia en una sola serie

grande para obtener un resultado lımite central.

La varianza asintotica de la verosimilitud por pares y una version modificada de esta, fue

tratada en Cox y Reid (2004) usando expansiones de series de Taylor. Ya que la validez de

esas expansiones dependen de la consistencia de θ, la cual no se mantiene en general para

m −→ ∞, el argumento es puramente informal y un tratamiento mas riguroso es necesario.

Cox y Reid (2004) tambien sugieren que esto puede ser posible al escoger a 6= 0 en la log-

verosimilitud compuesta `c(θ) = `par(θ) − am`ind(θ) para asegurar la consistencia cuando

m −→∞ para n fijo.

2.3.2. Aplicaciones de la verosimilitud compuesta

2.3.2.1. Campos aleatorios Gaussianos

Modelos geoestadısticos para grandes conjuntos de datos son cada vez mas comunes, particu-

larmente con el uso de metodos de coleccion automatica tales como la sensacion remota. En

este contexto, los metodos de verosimilitud compuesta para llevar a cabo inferencia aproxi-

mada son muy atractivos. Un modelo tıpico en aplicaciones geoestadısticas es el de un campo

aleatorio Gaussiano X = X(c) : c ∈ C ⊂ R2 con media µ(c) y matriz de covarianzas Σ(θ)

cuyas entradas reflejan la correlacion espacial; Cressie (1993) proporciona varios ejemplos

de funciones de correlacion espacial parametricas. La estimacion clasica del parametro θ en

geoestadıstica se basa en varios metodos de ajuste de curvas al variograma muestral (Cressie,

1993). Estos metodos han sido fuertemente criticados por su considerable arbitrariedad en la

sintonıa de los algoritmos de ajuste y los estimadores resultantes son a menudo ineficientes

(Diggle y Ribeiro, 2007, Sec. 6.3). La estimacion por maxima verosimilitud serıa mas efi-

ciente, pero requiere la inversion de la matriz de covarianzas Σ(θ), usualmente con un costo

Page 44: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 27

computacional de orden O(m3). Tal costo es prohibitivo en muchos conjuntos de datos espa-

ciales o espacio temporales de la actualidad.

Sea xr = x(cr) la observacion del proceso X en la localidad cr. Apoyandose en el tra-

bajo de Besag (1974), Vecchia (1988) propone aproximar la verosimilitud completa con la

verosimilitud compuesta condicional

Lcc(θ;x) = f(x1;θ)m∏r=2

f(xr|Br;θ),

donde Br es un subconjunto de xr−1, ..., x1 elegidos de modo que sea posible el computo

de Lcc. Vecchia (1988) sugiere restringir Br a un numero de vecinos de xr. El uso de esta

verosimilitud condicional compuesta es ilustrado en Vecchia (1988) en el analisis espacial de

niveles de agua en 93 pozos de observacion de un acuıfero en el valle Saratoga en Wyoming.

Stein, Chi y Welty (2004) extienden la propuesta de Vecchia y la usan para aproximar

la funcion de verosimilitud restringida. Estos autores muestran que la eficiencia estadıstica

puede mejorarse usando bloques de observaciones en lugar de observaciones individuales,

Lcc(θ;x) = f(z1;θ)B∏b=2

f(zb|B´b;θ),

donde z1, ..., zB son B bloques de datos y B´b es un subconjunto de zb−1, ..., z1. Este metodo

de verosimilitud restringida aproximado es usado en Stein, Chi y Welty (2004) para analizar

un conjunto de datos sobre 13000 mediciones de niveles de clorofila en el lago Michigan. Las

mediciones fueron hechas en un patron altamente irregular, lo que crea algunos retos en la

eleccion de los conjuntos condicionantes. En tal estudio se encontro que algunas observaciones

distantes en los conjuntos condicionantes conducen a una notable mejorıa en la eficiencia de

los estimadores de maxima verosimilitud compuesta.

Algunas dificultades surgen con las verosimilitudes compuestas de Stein, Chi y Welty

(2004) al seleccionar el orden de observacion y los conjuntos condicionantes Bb y B´b. Para

superar tales complicaciones, en un par de artıculos de Caragea y Smith (2006, 2007) se

Page 45: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 28

proponen tres diferentes aproximaciones de la verosimilitud, todas basadas en dividir los datos

en bloques. El primer metodo, “la verosimilitud de grandes bloques”, consiste en estimar θ

a partir de la densidad conjunta de las medias de bloques. El segundo metodo es denotado

como “bloques pequenos” y es la verosimilitud compuesta marginal formada por el producto

de densidades para todas las observaciones en cada bloque,

Lmc(θ;x) =B∏b=1

f(zb;θ),

donde z1,, ..., zB son B bloques de los datos. Ası, mientras que la verosimilitud de grandes blo-

ques captura las propiedades asintoticas del proceso, ignora la dependencia dentro de bloques.

Por el contrario, el metodo de bloques pequenos hace lo opuesto. Un compromiso propuesto

entre ambos metodos, conocido como un metodo hıbrido, consiste en usar la verosimilitud de

grandes bloques multiplicada por la verosimilitud compuesta condicional formada por el pro-

ducto de densidades condicionales de las observaciones dentro de los bloques, condicionando

sobre la media del bloque. Estudios de eficiencia indican un pobre desempeno del metodo de

grandes bloques, mientras que los metodos hıbrido y de bloques pequenos trabajan similar-

mente con alta eficiencia. Caragea y Smith (2006) ilustran el buen desempeno de los ultimos

dos metodos en la estimacion espacial de tendencias en niveles de lluvia a traves de la region

centro-sur de los Estados Unidos.

2.3.2.2. Extremos espaciales

El aumento en eventos ambientales de alto riesgo conduce al incremento del interes en la

modelacion estadıstica de extremos espaciales. Un enfoque flexible a este problema es pro-

visto por los modelos “max-stable” obtenidos de campos aleatorios Gaussianos subyacentes

construidos usando un trabajo no publicado de Smith (1990). A pesar de las propiedades

atractivas de estos modelos, tanto la inferencia clasica como la Bayesiana son impracticas de-

bido al problema de dimensionalidad con el computo de la verosimilitud, ver Davison y Gho-

lamrezaee (2009). Actualmente, solo expresiones para las densidades marginales bivariadas

Page 46: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 29

han sido derivadas. Ası, la inferencia a traves de la verosimilitud por pares es naturalmente

considerada como un sustituto para el analisis imposible con la verosimilitud ordinaria en

Davison y Gholamrezaee (2009) y Padoan, Ribatet y Sisson (2010) con aplicaciones a tem-

peraturas maximas en Suiza y precipitacion maxima en los Estados Unidos, respectivamente.

Las computaciones en estos artıculos son llevadas a cabo con el paquete SpatialExtremes

del lenguaje R por Ribatet (2009), el cual parece ser el primer software disponible publica-

mente para implementar metodos de verosimilitud compuesta.

Un enfoque relacionado es seguido por Smith y Stephenson (2009), donde se usa la

verosimilitud por pares en lugar de la verosimilitud ordinaria intratable para inferencia

Bayesiana en procesos espaciales “max-stable”. Tal enfoque es ilustrado a traves del analisis

de datos de precipitacion maxima anual en el sur-este de Inglaterra.

2.3.2.3. Efectos aleatorios serialmente correlacionados

En estudios longitudinales, modelos con efectos aleatorios son elecciones populares para mo-

delar heterogeneidad no observada. En estos modelos los datos se modelan como variables

condicionalmente independientes sobre un efecto aleatorio del sujeto, usualmente asumidos

constantes para todas las mediciones.

Considere conteos longitudinales Xir observados en la ocasion r = 1, ..,mi para el sujeto

i = 1, .., n. Este tipo de datos pueden ser naturalmente modelados como variables condi-

cionales Poisson independientes

Xir|Ui ∼ PoUi exp(yTirβ)

donde Ui es un efecto aleatorio, yir es un vector de covariables, y β son coeficientes de

regresion desconocidos. Una suposicion comun es que U1, ..., Un son variables Gamma inde-

pendientes con media 1. En correspondencia con esto, la distribucion marginal de Xir es

binomial negativa.

Para incluir dependencia serial, Henderson y Shimakura (2003) sugieren extender el mo-

Page 47: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 30

delo anterior asumiendo diferentes efectos aleatorios Gamma distribuidos Uir para cada medi-

cion,

Xir|Uir ∼ PoUir exp(yTirβ)

especificando la distribucion conjunta de Uir para describir la dependencia serial. Por ejemplo,

Henderson y Shimakura (2003) proponen una dependencia autoregresiva del tipo

corr(Uir, Ujs) =

|r−s| si i = j

0 si i 6= j.

Desafortunadamente, una mayor flexibilidad del modelo en la formulacion anterior es pa-

gada en terminos de complejidad computacional. La funcion de verosimilitud involucra un

numero de terminos creciendo exponencialmente con series de longitud mi. El computo de la

verosimilitud es impractico, excepto en bajas dimensiones. Por tanto, Henderson y Shimakura

(2003) proponen que tal inferencia sea basada en la verosimilitud por pares

Lpar(θ;x) =n∏i=1

1

mi − 1

mi−1∏r=1

m1∏s=r+1

f(xir, xis;θ).

Los pesos 1/(mi − 1) son usados para concordar con la verosimilitud ordinaria en el caso

de independencia, como se sugiere en LeCessie y van Houwelingen (1994). Henderson y Shi-

makura (2003) ilustran inferencia a traves de la verosimilitud por pares para el modelo de

arriba con el analisis de un estudio clınico sobre el numero de dosis de un analgesico tomado

por pacientes de un hospital por intervalos de tiempo sucesivos despues de una cirugıa ab-

dominal.

Un desarrollo adicional al trabajo de Henderson y Shimakura (2003) es proveıdo por Fioc-

co, Putter y van Houwelingen (2009), quienes modifican el proceso Gamma autoregresivo Uir

para mejorar la estabilidad numerica cuando se involucran conteos grandes. Una motivacion

similar a las anteriores subyacen en el trabajo de Varin y Czado (2010), quienes sugieren

un modelo probit mixto autorregresivo para datos longitudinales ordinarios y binarios. La

respuesta Xir es vista como una version censurada de una variable continua no observada

Page 48: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 31

X∗ir,

Xir = xir ←→ αxir−1 < X∗ir ≤ αyir , xir ∈ 1, ..., h

donde −∞ ≡ α0 < α1 < ... < αh−1 < αh ≡ ∞ son parametros de umbral apropiados.

La variable no observada X∗ir es modelada con un modelo normal lineal mixto

X∗ir = yTirβ + Ui + εir,

donde U1, ..., Un son n efectos aleatorios independientes distribuidos normalmente con media

0 y varianza σ2. Para tomar en cuenta la dependencia serial, se asume que los errores εir son

generados de un proceso autoregresivo de orden uno,

εir = ρεir−1 + (1− ρ2)1/2ηir

donde ηir son innovaciones normales estandar independientes. En consecuencia, la funcion

de verosimilitud es el producto de n probabilidades normales rectangulares de dimensiones

m1, ...,mn. Con la excepcion de estudios longitudinales con un numero pequeno de mediciones

mi, la evaluacion de la verosimilitud requiere de metodos Monte Carlo computacionalmente

tardados con posibles inestabilidades. Por tanto, Varin y Czado (2010) proponen el uso de la

inferencia a traves de la verosimilitud por pares basada en pares de observaciones menores

que q unidades aparte,

L(q)pair(θ;x) =

n∏i=1

∏r,s:|tir−tis|≤q

f(xir, xis;θ),

donde tir es el tiempo de observacion r sobre el sujeto i. Las probabilidades bivariadas

f(xir, xis;θ) son facilmente computadas con metodos de cuadratura determinıstica muy pre-

cisa disponibles en software estadıstico estandar, evitando ası, la necesidad de simulaciones.

Tal estudio es motivado por el analisis de un estudio longitudinal sobre los determinantes

de la severidad de un dolor de cabeza: los datos consisten de diarios de severidad de dolor

compilados por los pacientes cuatro veces al dıa a casi un ano de mediciones consecuti-

Page 49: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 32

vas; el resultado es la severidad del dolor de cabeza medida en una escala ordinal con seis

niveles. Datos de covariables incluyen informacion personal y clınica, ademas de condiciones

climaticas.

2.3.2.4. Efectos aleatorios espacialmente correlacionados

Las dificultades numericas en el caso de efectos aleatorios correlacionados en serie incre-

mentan con efectos aleatorios espacialmente correlacionados. Considerar un modelo lineal

generalizado con predictor lineal

g(E(X(c))) = y(c)Tβ + U(c), c ∈ C ⊂ R2

donde g es una funcion liga adecuada y U(c) : c ∈ C ⊂ R2 es la media estacionaria de un

campo aleatorio Gaussiano. Modelos de este tipo son denominados modelos lineales gener-

alizados geoestadısticos en Diggle y Ribeiro (2007). Dado las observaciones en m localiza-

ciones c1, ..., cm, la funcion de verosimilitud es expresada en terminos de una sola integral

m-dimensional es,

L(θ;x) =

∫R2

m∏r=1

f x(cr)|u(cr);θ f u(c1), ..., u(cm);θ du(c1)...du(cm),

la cual puede tener una aproximacion difıcil para m moderado. Existen soluciones que son

tıpicas, como aquellas basadas en algoritmos de simulacion, tales como el algoritmo Monte

Carlo EM y los metodos Monte Carlo vıa cadenas de Markov, ver Diggle y Ribeiro (2007).

Para grandes conjuntos de datos, los metodos de simulacion vienen a ser demasiado deman-

dantes y ası la verosimilitud por pares representa una alternativa efectiva. Esto fue estudiado

primeramente por Heagerty y Lele (1998) para datos binarios con liga probit. Ellos pro-

pusieron una verosimilitud pairwise formada por pares de observaciones con no mas de q

unidades aparte,

Lqpar(θ;x) =∏

r,s:‖cr−cs‖2≤qf x(cr), x(cs); θ .

Page 50: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 33

Heagerty y Lele (1998) usaron estas ideas para el modelamiento espacial de defoliacion

de la polilla gitana en Massachusetts.

2.3.2.5. Modelos mixtos conjuntos

Efectos aleatorios correlacionados son usados para modelar perfiles longitudinales multivari-

ados. Sea (X(1)ir , ..., X

(d)ir )T un vector aleatorio de d resultados para el sujeto i = 1, ..., n en

la ocasion r = 1, ...,mi. Una posible estrategia para modelar datos de este tipo consiste en

asumir un modelo mixto para cada resultado y entonces modelar la asociacion entre los re-

sultados con una matriz de covarianzas adecuada para los efectos aleatorios. Suponer por

facilidad de exposicion, un modelo de intercepto aleatorio generalizado para cada resultado,

gE(X

(v)ir )

= yTirβ + U(v)i , v = 1, ..., d

donde U(v)i es un efecto aleatorio especıfico para el resultado v y sujeto i, (i = 1, ..., n). Varios

modelos mixtos univariados pueden ser combinados asumiendo una distribucion multivariada

normal d−dimensional para todos los efectos aleatorios, U(1)i , ..., U

(d)i , para un solo sujeto

(i = 1, ..., n).

Con la asuncion de independencia entre los diferentes sujetos, la verosimilitud es

L(θ;x) =n∏i=1

Li(θ;x(1)i , ...,x

(d)i ),

donde x(v)i = (x

(v)i1 , ...,x

(v)imi

)T indica el vector de todas las observaciones del resultado v para

el sujeto i. Cuando la dimension d de los resultados incrementa, el numero de parametros de

efectos aleatorios(d2

)+ d, crece cuadraticamnete, haciendo la maximizacion de la verosimili-

tud rapidamente fuera de cualquier alcance en el caso de modelos normales lineales mixtos

donde la verosimilitud tiene una forma analıtica.

Molenberghs y Verbeke (2005, Sec. 25) proponen aliviar esas dificultades computacionales

por el metodo de “ajuste pairwise”. Considerar la verosimilitud compuesta marginal constru-

Page 51: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 34

ida de todos los pares de resultados

Lmc(θ1,2, ...,θd−1, d;x) =d−1∏v=1

d∏w=v+1

L(θv,w;x(v),x(w)), (2.4)

donde L(θv,w;x(v),x(w)) es la verosimilitud basada solo sobre el resultado v y w. Aquı se

asume que los diferentes pares de parametros especificados son asumidos, esto es, θv,w es un

subconjunto de θ a la distribucion asumida de (X(v),X(w)). Esta parametrizacion separa-

da es necesaria, ya que permite distinta maximizacion para cada termino L(θv,w;x(v),x(w))

formando la verosimilitud compuesta (2.4), y ası resolver las dificultades computacionales

asociadas con la maximizacion conjunta.

Mas detalles del metodo de ajuste pairwise puede ser encontrado en una serie de artıculos

por S. Fieuws y sus colegas, con aplicaciones a perfiles longitudinales multivariados de um-

brales de audicion (Fieuws and Verbeke (2006); Fieuws, Verbeke, and Molenberghs (2007)),

cuestionarios binarios sobre funcionalidad psico-congnitiva (Fieuws et al. (2006), Fieuws, Ver-

beke, and Molenberghs (2007)) y analisis de muchos indicadores bioquımicos y fisiologicos

para fallas de injertos renales (Fieuws et al. (2007)).

2.3.2.6. Matrices de correlacion de variables con el tiempo

Engle, Shephard, y Sheppard (2009) proponen metodos de verosimilitud compuesta para el

manejo de riesgos con portafolios de alta dimensionalidad. Considere un vectorm−dimensional

de log-retornos xt observados en los tiempos t = 1, ..., T. El modelo de manejo de riesgos

asume que Xt es una secuencia de diferencias Martingala

E(Xt|Ft−1) = 0, Cov(Xt|Ft−1) = Ht,

donde Ft−1 es la informacion hasta el tiempo t− 1 y Ht es la matriz de covarianza variante

con el tiempo. Modelos propuestos para Ht son parametrizados en terminos de parametros

dinamicos de interes θ y de parametros de ruido λ. Inferencia estandar es basada en un

Page 52: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 35

enfoque de dos etapas. Primero, los parametros de ruido son estimados usando un metodo

de momentos. Luego, los parametros de interes son obtenidos maximizando una verosimil-

itud incorrectamente especificada construida bajo asunciones de multinormalidad con los

parametros de ruido mantenidos fijos en sus estimaciones basadas en momentos.

Existen dos fuentes de dificultad con el metodo de ajuste de arriba. Primero, el metodo

necesita la inversion de T matrices de correlacion Ht, donde cada una requiere O(m3) op-

eraciones. Segundo, aun si estas inversiones fueran posibles, la precision de los estimadores

resultantes para θ fallarıa rapidamente debido a que la dimension de los parametros de ruido

crece conforme el numero de activos K se incrementa.

Con el fin de superar estas dificultades, Engle, Shephard, y Sheppard (2009) investigan el

uso de verosimilitudes compuestas marginales formadas al sumar log-verosimilitudes (incor-

rectamente especificadas) de subconjuntos de activos. Este enfoque resuelve las dificultades

numericas relacionadas a la inversion de matrices de alta dimensionalidad. El problema en el

incremento del numero de parametros de ruido es abordado al usar para los parametros de

ruido especıficos a cada activo y asumiendo un conjunto comun de parametros a todos los

activos; estos parametros comunes son estimados con verosimilitud compuesta.

2.3.2.7. Modelos de regresion marginal con datos faltantes

El analisis estadıstico de datos longitudinales es complicado debido a la potencial ocurencia de

respuestas faltantes. El popular metodo de ecuaciones de estimacion generalizadas (GEEs)

ideado por Liang y Zeger (1986) provee una inferencia valida bajo la suposicion de datos

faltantes ignorables (faltantes completamente al azar). Los problemas surgen cuando tal

suposicion no puede ser asegurada. Si la asuncion mas debil de faltantes al azar es valida,

entonces GEEs pueden todavıa usarse con el uso de pesos de probabilidad inversa, como en

Robins (1995). Una dificultad con esta estrategia es que requiere de la especificacion correcta

del proceso de datos faltantes, algo que puede ser imposible en la practica. Alternativamente,

uno puede basar la inferencia en la verosimilitud observada. Sin embargo, esta estrategia sufre

de falta de robustez ya que se basa en la especificacion correcta de la distribucion conjunta

Page 53: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 36

de todas las respuestas observadas. La inferencia con verosimilitud compuesta para regresion

marginal en presencia de datos faltantes no ignorables se explica a continuacion.

Si solo parametros en marginales univariadas son de interes, Troxel, Lipsitz y Harrington

(2003) sugieren basar la inferencia bajo asunciones de faltantes al azar en la verosimilitud de

independencia

Lind(β,γ;x; r) =n∏i=1

mi∏r=1

f(xir, oir;β,γ)0ir

∫x

f(xir, oir;β,γ)dxir

1−oir

=n∏i=1

mi∏r=1

f(xir;β)πir(γ)0ir

[∫x

f(xir;β) 1− πir(γ) dxir]1−oir

donde β son los parametros de regresion marginal, oir indica si la observacion r sobre el sujeto

i ha sido observada o no y πir(γ) es la probabilidad de haberla observado modelada como

una funcion del parametro γ. Esta verosimilitud de independencia requiere ası solamente

la correcta especificacion de las marginales univariadas f(xir;β) y las probabilidades de

observacion πir(γ). Este enfoque es aplicado en Troxel, Lipsitz y Harrington (2003) para la

evaluacion de quimioterapia coadyuvante despues de cirugıa en un estudio longitudinal de

430 pacientes de cancer de pecho con hasta 37 % de respuestas faltantes. Ver tambien Parzen

et al. (2006) para otra ilustracion usando datos del bien conocido estudio longitudinal de las

Seis Ciudades sobre los efectos sobre la salud de la polucion del aire.

En situaciones donde la asociacion entre las respuestas es sustancial, la verosimilitud de

independencia puede conducir a inferencias sensibles, pero ineficientes sobre los regresores

β. Para tales situaciones, Paerzen et al. (2007) sugieren incorporar informacion acerca de la

dependencia cambiando a la verosimilitud por pares

Lpair(β,α,γ;x, o) = L1 × L2 × L3 × L4

Page 54: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 37

con

L1 =n∏i=1

m1−1∏r=1

mi∏s=r+1

f(xir, xis, oir, ois;β,α,γ)oirois ,

L2 =n∏i=1

m1−1∏r=1

mi∏s=r+1

∫x

f(xir, xis, oir, ois;β,α,γ)dxir

(1−oir)ois

,

L3 =n∏i=1

m1−1∏r=1

mi∏s=r+1

∫x

f(xir, xis, oir, ois;β,α,γ)dxir

oir(1−ois)

,

L4 =n∏i=1

m1−1∏r=1

mi∏s=r+1

∫x

∫x

f(xir, xis, oir, ois;β,α,γ)dxirdxis

(1−oir)(1−ois)

,

donde α es un vector de parametros de asociacion involucrados en la distribucion conjunta

de un par de respuestas. Esta verosimilitud por pares es contrastada en Parzen et al. (2007)

con la verosimilitud de independencia previamente descrita en Troxel, Lipsitz y Harrington

(2003), nuevamente con el analisis de datos del estudio de las Seis Ciudades. Los resultados

muestran ventajas de modelar tambien la dependencia entre respuestas.

Si bien la verosimilitud por pares puede mejorar la eficiencia en la estimacion en com-

paracion con la verosimilitud de independencia, esto viene con el costo de la especificacion

correcta de las marginales bivariadas tanto de respuestas como de indicadores de ausencia.

En particular, la especificacion del mecanismo de datos faltantes aun solamente para pares es

un aspecto crıtico. Yi, Zeng y Cook (2009) muestran como superar esto. Ellos asumen, que

dado cualquier par de respuestas (xij, xik) y covariables yi, el proceso de datos faltantes no

contiene informacion sobre los parametros β y α. Con esta suposicion, la inferencia puede

ser basada en la verosimilitud por pares construida solamente de los pares observados de

respuestas,

Lpair(β,α;x) =n∏i=1

mi−1∏r=1

mi∏s=r+1

f(xir, xis;β,α)oirois ,

lo cual no requiere la especificacion de un proceso de distribucion de datos faltantes. Yi, Zeng

y Cook (2009) muestran que esto conduce a una ecuacion de estimacion insesgada y ası a

inferencia consistente para (β,α), sin asumir el mecanismo de faltantes al azar.

Page 55: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 38

2.3.3. Eficiencia relativa

La aparente alta eficiencia de los metodos de verosimilitud compuesta en muchas aplicaciones

ha contribuido a un incremento del interes y en la literatura sobre estos metodos. Tres tipos

posibles de comparaciones de eficiencia son: (i) eficiencia asintotica computada por una cal-

culacion analıtica de G(θ) y comparacion con la informacion de Fisher I(θ), (ii) eficiencia

asintotica estimada usando simulacion basada en estimaciones de G(θ) y I(θ), y (iii) eficien-

cia empırica usando simulacion basada en estimaciones de var(θc) y var(θ). La primera da la

interpretacion mas clara, aunque bajo la asuncion de un modelo “asintotico ideal”, mientras

que la tercera esta mas cercana que es lo que puede obtenerse con tamanos de muestras

finitas. Una desventaja de los estudios basados en simulacion es que muchos aspectos del

modelo deben ser especificados con anticipacion, de modo que la relevancia de los resultados

sobre otros modelos ligeramente diferentes, no es siempre clara. Cuando θ es un vector, un

resumen global de la comparacion de G(θ) con I(θ) puede computarse usando la razon de los

determinantes, pero es mas comun comparar los componentes diagonales correspondientes a

los parametros en particular.

En casos excepcionales, los estimadores de verosimilitud compuesta por pares son to-

talmente eficientes e incluso identicos a los estimadores de maxima verosimilitud. Mardia,

Hughes y Taylor (2007) muestran que los estimadores de verosimilitud compuesta condicional

son identicos a los estimadores de maxima verosimilitud en el caso de la distribucion normal

multivariada con medias y covarianzas arbitrarias y Zi (2009) da el mismo resultado para la

verosimilitud compuesta por pares.

Mardia et al. (2009) proveen una explicacion para esto, mostrando que los estimadores

de verosimilitud compuesta condicional son altamente eficientes en familias exponenciales

que tienen cierta propiedad de cerradura bajo la formacion de subconjuntos. Bajo restric-

ciones adicionales, los estimadores de verosimilitud compuesta marginal son tambien to-

talmente eficientes. Un caso especial interesante es la distribucion normal multivariada equi-

correlacionada: un solo vector de observacion tiene media µ y matriz de covarianzas σ2 (1− ρ)I

Page 56: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 39

+ρ11T

, donde I es la matriz identidad de dimension m y 1 es un vector de m 1´s. Con µ

y σ desconocidos, tanto los estimadores de maxima verosimilitud compuesta por pares como

los estimadores de maxima verosimilitud compuesta condicional completa y por pares son

identicos al estimador de maxima verosimilitud. Si µ es fijo, se cumplen los mismos resulta-

dos, pero si σ2 es fijo, entonces las estimaciones de verosimilitud compuesta para ρ no son

totalmente eficientes.

La distribucion exponencial cuadratica fue propuesta como un modelo para datos binarios

multivariados en Cox (1972) e inferencia para este modelo fue desarrollada en Zhao y Prenc-

tice (1990). Como se ha senalado en Cox y Reid (2004) su funcion de verosimilitud es igual a

la funcion de verosimilitud por pares para datos binarios generados por un modelo de liga pro-

bit. Esto provee un simple ejemplo donde la verosimilitud por pares es totalmente eficiente.

Las tablas de contingencia de doble entrada tambien tienen estimadores de verosimilitud por

pares iguales a los estimadores de maxima verosimilitud (Mardia et al., 2009).

Hjort y Varin (2008) tambien estudian a detalle propiedades de las verosimilitudes com-

puestas condicionales y marginales en una clase de modelos simplificados. En su caso, ellos

restringen la atencion a modelos de cadenas de Markov y tanto el analisis teorico y un calculo

detallado proveen una fuerte evidencia de que la verosimilitud compuesta marginal es eficiente

y robusta y preferible a la inferencia basada en la verosimilitud compuesta condicional. En

su caso la verosimilitud completa esta dada por

`(θ;x) =∑a,b

xa,b log pa,b(θ),

donde xa,b es el numero de transiciones de a a b, pa,b(θ) es la funcion de transicion de

probabilidad estacionaria y a, b oscilan entre el numero de estados en la cadena de Markov.

Este es un modelo de la familia exponencial curva, de tal modo que la teorıa de Mardia et

al. (2009) no aplica. La funcion de log-verosimilitud por pares es

c`(θ;x) =∑a,b

xa,b log pa,b(θ) +∑a

xa+ log pa(θ), (2.5)

Page 57: TESIS_edgarSM

Estimadores de maxima verosimilitud compuesta 40

donde xa+ =∑

b xa,b y pa(θ) es la probabilidad de equilibrio de que la cadena este en el estado

a. La ecuacion (2.5) es interpretada en Hjort y Varin (2008) como una log-verosimilitud pe-

nalizada, con una funcion de penalizacion que es especificada adecuando con la distribucion

de equilibrio. Esto provee una explicacion diferente de la eficiencia y robustez de la inferencia

basada en la verosimilitud por pares.

En modelos para datos agrupados, donde observaciones xir, r = 1, ...,mi, dentro del grupo

i-th estan correlacionadas, la eficiencia relativa asintotica a menudo puede ser determinada

obteniendo expresiones analıticas para G(θ) y J(θ). Dentro de este contexto, se dispone de es-

tudios extensivos de eficiencia relativa asintotica y existe tambien una literatura sobre la elec-

cion de las ponderaciones, usualmente relacionada con el tamano del grupo, para lograr una

eficiencia optima. Para la verosimilitud por pares, Joe y Lee (2009) investigan la eleccion de

ponderaciones en detalle para datos agrupados y muestran que la mejor eleccion de pondera-

ciones depende de la fuerza de la dependencia dentro de los grupos. Los modelos investigados

analıticamente son el normal multivariado, donde se pueden hacer comparaciones directas

con el estimador de maxima verosimilitud y el binario multivariado, creado dicotomizando

observaciones normales multivariadas. Las ponderaciones 1/(mi − 1), recomendadas en Kuk

y Nott (2000), LeCessie y Houwelingen (1994) y Zhao y Joe (2005), son apropiadas para

el caso lımite de independencia entre los grupos, pero las ponderaciones 1/ mi(mi − 1)

son optimas para los casos de dependencia muy fuertes. Un compromiso sugerido en Joe

y Lee (2009) es 1/ [(mi − 1) 1 + 0.5(mi − 1)], los cuales funcionan bien para un rango de

parametros y modelos. La mayorıa de las aplicaciones hasta ahora sin embargo han usado

las ponderaciones mas simples 1/(mi − 1). Joe y Lee (2009) tambien muestran que la mejor

eleccion de ponderaciones depende del parametro a ser estimado, proporcionando detalles

adicionales sobre resultados previos de Kuk y Nott (2000) y otros de que la verosimilitud por

pares sin ponderacion puede ser preferible para inferencia acerca de parametros de asociacion,

mientras que el ponderar mejora la estimacion de los parametros en la media.

Page 58: TESIS_edgarSM

Robustez 41

2.4. Robustez

Muchos autores se refieren a la inferencia basada en la verosimilitud compuesta como robus-

ta, ya que la verosimilitud compuesta requiere solamente de asunciones del modelo para las

densidades marginales o condicionales de bajas dimensiones y no una especificacion detallada

de la distribucion conjunta completa. Ası si existen varias distribuciones conjuntas con las

mismas distribuciones marginales o condicionales de bajas dimensiones, la inferencia es la

misma para todos los miembros de esa familia.

Un numero pequeno de artıculos investigan la robustez en mas detalle, usualmente a

traves de simulaciones de un modelo incorrectamente especificado. Por ejemplo, Lele y Ta-

per (2002) investigan el comportamiento de θc de la verosimilitud basada en diferencias

entre pares, (2.1), en su caso un modelo de efectos aleatorios de una sola vıa, asumiendo

primero normalidad de la distribucion de los efectos aleatorios y luego simulando los efec-

tos aleatorios bajo distribuciones no normales. Estos autores concluyen que los estimadores

de maxima verosimilitud compuesta y los estimadores de maxima verosimilitud restringida

(REML) de los componentes de varianza se comportan similarmente bajo un modelo in-

correctamente especificado. La verosimilitud REML es la funcion de verosimilitud para la

distribucion marginal de los residuales, la cual para modelos de la teorıa normal es la misma

que la verosimilitud basada en las diferencias entre pares. Wang y Williamson (2005) pre-

sentan simulaciones de datos binarios agrupados dispersos bajo un modelo para el cual la

estructura de correlacion esta incorrectamente especificada y sus resultados tambien indican

que los metodos de verosimilitud compuesta continuan teniendo una alta eficiencia.

En el analisis de datos longitudinales no es inusual tener observaciones faltantes y la

modelacion en este caso puede ser importante para inferencias validas. Esto es considerado

en detalle en Parzen et al. (2007) y nuevamente en Yi, Zeng y Cook (2009). El hecho de que

algunas versiones de verosimilitud compuesta sean en verdad robustas a la especificacion del

mecanismo de datos faltantes es otra caracterıstica muy atractiva de la verosimilitud com-

puesta.

Page 59: TESIS_edgarSM

Identificabilidad 42

La inversa de la informacion de Godambe, G(θ), es a menudo denominada como la es-

timacion robusta de la varianza, ya que es computada bajo el supuesto de que el modelo

esta incorrectamente especificado y los modelos de verosimilitud compuesta son por defini-

cion incorrectamente especificados. Sin embargo el uso de G−1(θ) como un estimador de la

varianza, no garantiza, por ejemplo, de que el estimador de verosimilitud compuesta tenga

una eficiencia alta bajo un rango de modelos consistente con la verosimilitud compuesta.

Liang y Qin (2000) usan una version especializada de la verosimilitud compuesta condi-

cional para un numero de modelos de regresion no estandar, donde puede requerirse la mod-

elacion de la distribucion para las variables explicativas. Sus simulaciones abordan la robustez

a la especificacion incorrecta de este aspecto de la modelacion, notando que el estimador de

maxima verosimilitud compuesta continua teniendo un sesgo pequeno, pero de algun modo

una varianza mas grande, bajo esta especificacion incorrecta.

Finalmente, Kent (1982) llama estadıstica de razon de lgo-verosimilitudes W robusta si

su distribucion asintotica fuera χ2p y discute una clase especial de modelos de la familia expo-

nencial que garantiza este resultado al mostrar que las ecuaciones score son de informacion

insesgada. Esta lınea de argumentos es adicionalmente desarrollada en Mardia et al. (2009).

2.5. Identificabilidad

No esta claro si los metodos de verosimilitud compuesta proporcionan resultados utiles si no

existe distribucion conjunta compatible con las densidades componentes usadas para constru-

ir la verosimilitud compuesta. En el caso de que la verosimilitud compuesta sea construida

de distribuciones condicionales, el teorema de Hammersley-Clifford especifica cuando existe

una distribucion conjunta genuina consistente con estas distribuciones condicionales, lo cual

fue usado en Besag (1974, 1975) en su desarrollo de la pseudo-verosimilitud para datos es-

paciales. Este asunto es perseguido en Wang y Ip (2008), donde se define la nocion clave de

interacciones y se enfatiza su papel clave en asegurar la compatibilidad de las distribuciones

conjuntas y condicionales; ver tambien Arnold, Castillo y Sarabia (2001).

Page 60: TESIS_edgarSM

Identificabilidad 43

No exıste un resultado analogo para la verosimilitud compuesta marginal, aunque es posi-

ble que haya una conexion con la teorıa de construccion de verosimilitudes conjuntas usando

copulas. Varios artıculos sobre el uso de la verosimilitud compuesta marginal usan una con-

struccion de copulas (Bhat, Sener y Eluru (2010); Tibaldi et al. (2004); Andersen (2004))

pero muchas aplicaciones de la verosimilitud compuesta marginal no lo hacen. Por ejemplo,

el desarrollo de la verosimilitud compuesta para extremos espaciales usa marginales por pares

como una aproximacion a una distribucion conjunta genuina.

Podemos, sin embargo, considerar la divergencia Kullback-Leibler compuesta,

CKL(g, f ;θ) =K∑K=1

wkEg log g(x ∈ Ak − log f(x ∈ Ak;θ))

que consiste de una combinacion lineal de divergencias Kullback-Leibler para cada termi-

no de la verosimilitud compuesta. Bajo algunas condiciones de regularidad el estimador de

maxima verosimilitud compuesta θ es consistente para el valor del parametro que minimiza

CKL e inferencia para este pseudo-parametro puede ser util para aplicaciones particulares.

Podrıamos tambien ver la ecuacion de estimacion de la verosimilitud compuesta como una

especificacion razonable del conocimiento acerca de parametros de distribuciones marginales

de baja dimensionalidad, en el espıritu de las ecuaciones de estimacion generalizadas; ver

Varin (2008). Esto puede ser especialmente verdadero para estimar parametros en la funcion

media.

Joe y Lee (2009) de paso senalan que a menos que los componentes de verosimilitud en la

construccion de una verosimilitud compuesta sean “lo suficientemente ricos para identificar el

parametro”, el estimador de verosimilitud compuesta no sera consistente. Presumiblemente,

si existe una distribucion conjunta completa en la cual los parametros de los componentes

sean (subvectores de los) parametros de la distribucion conjunta completa, esto garantiza

identificabilidad. Sin embargo parece posible que los parametros de las densidades compo-

nentes pudieran ser identificables bajo condiciones mas debiles.

Page 61: TESIS_edgarSM

Aspectos computacionales de la verosimilitud compuesta 44

2.6. Aspectos computacionales de la verosimilitud com-

puesta

2.6.1. Errores estandar de los estimadores de maxima verosimili-

tud compuesta

El calculo de errores estandar e intervalos de confianza requiere de la estimacion de la matriz

de Godambe y sus componentes. Nuevamente, es util distinguir entre el caso de n grande

con m fija y viceversa. El primer caso es mas simple con estimaciones muestrales facilmente

computadas de las matrices de sensibilidad y variabilidad. La estimacion muestral de la

matriz de sensibilidad esta dada por

H(θ) = − 1

n

n∑i=1

∇uc(θc;xi),

donde uc(θ;xi) = ∇c`(θ;xi). El calculo de las Hessianas puede ser evitado aprovechando

la segunda identidad de Bartlett, la cual permanece valida para cada termino individual de

verosimilitud que forma la verosimilitud compuesta. Esto produce la estimacion alternativa

H(θ) =1

n

n∑i=1

m∑r=1

uc(θc;xir)uc(θc;xir)T .

La estimacion muestral de la matriz de variabilidad es expresada por el producto externo de

las scores compuestas calculadas en θc

J(θ) =1

n

n∑i=1

uc(θc;xi)uc(θc;xi)T .

Las estimaciones empıricas de arriba de H y J pueden ser imprecisas cuando n no es sufi-

cientemente grande comparado con la dimension de θ. Esto es bien conocido en la literatura

longitudinal donde los metodos de re muestreo, tales como jackknife o bootstrap, son en

Page 62: TESIS_edgarSM

Aspectos computacionales de la verosimilitud compuesta 45

ocasiones usados para obtener estimaciones mas robustas de la matriz de covarianzas de θc;

ver por ejemplo Lipsitz, Dear y Zhao (1994). La matriz de covarianzas jackknife esta dada

por

varjack(θc) =n− 1

n

n∑i=1

(θ(−i)c − θc)(θ

(−i)c − θc)T ,

donde θ(−i)c es el estimador de verosimilitud compuesta de θ con xi eliminado. Zhao y Joe

(2005) usan varjack para la estimacion de los errores estandar de los estimadores de maxima

verosimilitud por pares con datos agrupados. Una ventaja adicional posible del metodo de

jackknife es la posibilidad de obtener una correccion por sesgo aproximada de θc. En ciertas

aplicaciones la computacion del conjunto de θ(−i)c puede ser excesivamente costosa y puede

ser conveniente considerar una aproximacion de primer orden donde θ(−i)c sea aproximado

con una sola etapa del algoritmo de Newton-Raphson.

El caso mas difıcil es cuando m es grande para un n fijo, con la situacion extrema de

n = 1 cuando una sola serie de tiempo o proceso espacial es observado. Mientras la estimacion

muestral de la matriz de sensibilidad H tiene una forma usual, las dificultades surgen para

la matriz de variabilidad J . Una estimacion muestral de la ultima es posible solamente si

los datos pueden ser agrupados en replicaciones pseudo-independientes. Considerando un

proceso espacial o temporal con buenas propiedades de mezclado, una estimacion muestral

de J puede ser obtenida dividiendo la region bajo estudio en subregiones tratadas como

aproximadamente independientes:

Jws(θ) =1

B

B∑b=1

|Sb|uc(θc;x ∈ Sb)uc(θc;x ∈ Sb)T ,

donde S1, ...,SB son B subregiones sobrepuestas posibles y |S| denota la dimension del con-

junto S. Heagerty y Lele (1998) llaman a este metodo submuestreo por ventanas y lo usan

para inferencia con verosimilitud por pares con datos binarios espaciales. Para mas detalles

y orientacion sobre la eleccion de las subregiones, refierase a Lumley y Heagerty (1999).

Cuando las condiciones para asegurar la validez del submuestreo por ventanas u otras

estimaciones empıricas no son satisfechas, la estimacion de J debe ser hecha bajo las asun-

Page 63: TESIS_edgarSM

Aspectos computacionales de la verosimilitud compuesta 46

ciones del modelo. En ciertos contextos, puede ser posible computar J explıcitamente. Por

ejemplo, en el caso de la verosimilitud por pares, la estimacion de J basada en el modelo

tıpicamente requiere la estimacion de esperanzas de 4 dimensiones. Cuando es facil simular

datos del modelo completo, simulaciones Monte Carlo pueden ser usadas ya sea para estimar

la matriz J con

Jmc(θ) =1

B

B∑b=1

uc(θc;x(b))uc(θc;x

(b))T ,

donde x(1), ..., x(B) son elecciones independientes del modelo ajustado, o por estimacion di-

recta de la matriz de covarianzas de θc del ajuste repetido de los datos simulados.

2.6.2. Algoritmo EM para la verosimilitud compuesta

El algoritmo EM (Dempster, Laird y Rubin, 1997) y sus variantes son metodos populares

para obtener estimadores de maxima verosimilitud en un numero de situaciones. Ejemplos

incluyen datos faltantes, datos censurados, variables latentes, modelos de mezclas finitas y

modelos ocultos de Markov. Ver el libro de McLachlan y Krishnan (2008) para larga pre-

sentacion.

El algoritmo EM puede ser facilmente extendido para la maximizacion de verosimilitudes

compuestas. Esto puede ser util para modelos donde la etapa de esperanza involucra inte-

gracion en altas dimensiones, haciendo ası impractico el uso del algoritmo estandar EM. El

primer ejemplo del algoritmo compuesto EM parece ser el algoritmo EM por pares propuesto

por Liang y Yu (2003) en tomografıa de redes, ver tambien Castro et al. (2004). Varin, Hφst

y Skare (2005) consideran una version aproximada del mismo algoritmo para inferencia en

modelos lineales generalizados espaciales mixtos. Gao y Song (2011) discuten propiedades de

un algoritmo EM general para la verosimilitud compuesta marginal y dan una ilustracion de

la version por pares para modelos ocultos de Markov multivariados.

En este caso se resume brevemente el algoritmo EM por pares. Sea y1, ..., ym los datos

completos y x1, ..., xm los datos observados. Denote por θ(0) un valor inicial para θ. Dado

θ(h), la iteracion en la etapa h del algoritmo EM por pares, la siguiente iteracion θ(h+1) es el

Page 64: TESIS_edgarSM

Aspectos computacionales de la verosimilitud compuesta 47

valor tal que

Q(θ(h+1)|θ(h)) ≥ Q(θ|θ(h)), para cualquier θ ∈ Θ,

donde Q(θ|θ(h)) es la suma de las probabilidades condicionales bivariadas

Q(θ|θ(h)) =m−1∑r=1

m∑s=r+1

E

log f(yr, ys;θ)|xr, xs;θ(h−1).

Como se muestra en detalle por Gao y Song (2011), es facil probar que este algoritmo com-

parte las tres propiedades clave del algoritmo EM estandar, esto es

[I] la propiedad de ascenso

Lpar(θ(h+1);x) ≥ Lpar(θ(h);x), h = 1, 2, ...

[II] convergencia a un punto estacionario de la funcion objetivo y

[III] tasa de convergencia dependiendo de la curvatura de la funcion objetivo.

2.6.3. Integracion en bajas dimensiones versus integracion en altas

dimensiones

En muchas aplicaciones, la motivacion para inferencia a traves de la verosimilitud compuesta

es sustituir la integracion complicada en altas dimensiones involucrada en las verosimilitudes

completas con integrales en bajas dimensiones. Estas ultimas a menudo pueden ser calcu-

ladas usando reglas de cuadratura determinısticas precisas. Por ejemplo, Bellio y Varin (2005)

aproximan integrales involucradas en modelos de regresion logısticos con efectos aleatorios

usando mezclas de escala normal y reglas de cuadratura bivariadas.

En contraste, las integrales en altas dimensiones tıpicamente requieren metodos de sim-

ulacion Monte Carlo con varias dificultades potenciales. Primero, el tiempo computacional

puede ser demasiado grande para propositos practicos. Segundo, el error de simulacion puede

Page 65: TESIS_edgarSM

Aspectos computacionales de la verosimilitud compuesta 48

ser sustancial y difıcil de evaluar, haciendo la optimizacion de la verosimilitud aproximada

muy problematica. Una tercera razon preocupante se refiere a la reproducibilidad de los re-

sultados, especialmente para audiencias no tecnicas.

Una posible ventaja de la maxima verosimilitud simulada versus los metodos de maxi-

ma verosimilitud compuesta es la posibilidad de basar la inferencia en resultados asintoticos

estandar, sin necesidad de computar la mas complicada informacion de Godambe o modificar

la distribucion chi-cuadrada de la prueba de razon de verosimilitud. Sin embargo, muchos

autores sugieren tambien el uso de la informacion de Godambe para la maxima verosimilitud

simulada para tomar en cuenta el error de simulacion debido al uso de un numero finito de

extracciones; ver por ejemplo McFadden y Train (2000). Ası, la simplicidad potencial de la

inferencia a traves de maxima verosimilitud se pierde usando simulaciones para aproximar

la verosimilitud. Para una comparacion entre la maxima verosimilitud simulada basada en

reglas quasi-Monte Carlo y la verosimilitud por pares para modelos probit ordinales ver Bhat,

Varin y Ferdous (2010).

2.6.4. Dificultades combinatorias

Otra motivacion computacional para preferir el metodo de verosimilitud compuesta es la

dificultad combinatoria asociada con algunos analisis tipo verosimilitud basados en datos

completos. Ejemplos de esto incluyen el computo de la verosimilitud parcial (Cox, 1975) para

el modelo de riesgo proporcional cuando el numero de eventos es grande y el computo de

la verosimilitud condicional para estudios de caso-control con un numero grande de casos.

Otras dificultades combinatorias surgen cuando el computo de la distribucion conjunta de

los datos requiere el condicionamiento sobre los estadısticos de orden, involucrando ası m!

permutaciones, donde m es el tamano de la muestra (Kalbfleisch, 1978). Mientras que la difi-

cultad del computo de integrales en altas dimensiones conduce naturalmente a las verosimil-

itudes compuestas marginales, el evitar estas dificultades combinatorias conducen al uso de

verosimilitudes compuestas condicionales, como en Liang (1987) y Liang y Qin (2000).

Page 66: TESIS_edgarSM

CAPITULO 3

MODELOS ESPACIALES SOBRE LATTICES

3.1. Introduccion

En problemas espaciales, la estructura probabilıstica de los datos suele representar depen-

dencias muy complejas, ademas de la presencia potencial de una alta dimensionalidad. Por

consecuencia, esta es una de las areas donde los metodos de verosimilitud compuesta han

adquirido una gran relevancia.

Aplicaciones potenciales de los modelos espaciales ocurren en ecologıa, epidemiologıa, agri-

cultura, genetica, etc. Hay ocasiones donde tenemos que considerar un sistema arbitrario, que

consiste de un conjunto finito de sitios, cada uno de los cuales tienen asociado una variable

aleatoria univariada. En muchas aplicaciones, los sitios representaran puntos o regiones en

un plano Euclidiano y probablemente estaran sujetos a una estructura en lattice.

Hay muchas situaciones donde podemos encontrar esquemas espaciales. No obstante, para

la especificacion de procesos espaciales estocasticos, necesitamos introducirnos a la teorıa de

los campos aleatorios de Markov.

Page 67: TESIS_edgarSM

Campos aleatorios de Markov 50

3.2. Campos aleatorios de Markov

Un campo aleatorio se puede definir como un proceso estocastico multidimiensional, es decir

una familia de variables aleatorias indexadas en mas de una dimension. En la siguiente

subseccion analizamos algunas propiedades de los procesos de Markov unidimensionales y

luego generalizamos a mas dimensiones.

3.2.1. Cadenas de Markov

Una cadena de Markov finita es una sucesion de variables aleatorias Xt con t = 1, ..., N tal

que se cumple la siguiente propiedad:

P (Xt = xt | Xk = xk ∀ k < t) = P (Xt = xt | Xt−1 = xt−1)

donde xt es el valor que toma la variable Xt, la cual pertenece a un conjunto discreto finito.

Lo que quiere decir, que las probabilidades condicionales sobre todos los valores anteriores

depende solo del valor de la variable anterior mas reciente.

En una cadena de Markov quedan determinadas todas las probabilidades si se tienen

las probabilidades de transicion P (Xt = xt | Xt−1 = xt−1) para t = 1, ..., N y ademas la

probabilidad inicial P (X0 = x0). Esto lo podemos notar a partir de la expresion para la

probabilidad conjunta de las variables

P (X0, X1, ..., XN) = P (XN | XN−1)P (XN−1 | XN−2)...P (X1 | X0)P (X0) (3.1)

Por definicion, la probabilidad condicional se puede escribir de la siguiente forma:

P (Xt | Xk ∀ X 6= t) =P (X0, X1, ..., XN)∑XtP (X0, X1, ..., XN)

donde en el denominador se suma sobre todos los valores que puede asumir Xt.

Page 68: TESIS_edgarSM

Campos aleatorios de Markov 51

Ahora, usando (3.1) se obtiene

P (Xt | Xk ∀ k 6= t) =P (XN | XN−1)...P (Xt+1 | Xt)P (xt | Xt−1)...P (X1 | X0)P (X0)∑XtP (XN | XN−1)...P (Xt+1 | Xt)P (Xt | Xt−1)...P (X1 | X0)P (X0)

=P (Xt+1 | Xt)P (Xt | Xt−1)∑XtP (Xt+1 | Xt)P (Xt | Xt−1)

Entonces tenemos lo siguiente:

P (Xt | Xk ∀ k 6= t) = P (Xt | Xt−1, Xt+1). (3.2)

Para los extremos tendrıamos

P (XN | Xk ∀ k 6= N) = P (XN | XN−1) (3.3)

y

P (X0 | Xk ∀ k 6= 0) = P (X0 | X1) (3.4)

Todo proceso Xt con t = 1, ..., N que cumpla con las condiciones dadas en (3.2), (3.3)

y (3.4) se define como un proceso estocastico Markoviano bilateral.

Se define como sistema de vecinos ∆ a la coleccion de vecindades asociadas a cada variable

del proceso. Es decir,

∆ = δ0, ..., δN

donde δt se define como:

δt =

Xt−1, Xt+1 si 0 < t < N

X1 si t = 0

XN−1 si t = N

Y por lo tanto se puede escribir (3.2), (3.3) y (3.4) en una sola ecuacion

P (Xt | Xk ∀ k 6= t) = P (Xt | δt) (3.5)

Page 69: TESIS_edgarSM

Campos aleatorios de Markov 52

3.2.2. Generalizacion en dos dimensiones

Dado el conjunto de variables aleatorias X = Xij | i, j = 1, ..., N cuyos elementos pueden

asumir los valores del conjunto S = 0, 1, ..., L, debe definirse el sistema de vecinos ∆ =

δij | i, j = 1, ..., N.

Ası X es un campo aleatorio de Markov si se cumple que

P (Xij | Xk,l ∀ (i, j) 6= (k, l)) = P (Xi,j | δi,j) (3.6)

Estas probabilidades condicionadas son llamadas caracterısticas locales y determinan un

campo aleatorio de Markov.

Como ejemplo, se puede considerar el sistema de vecinos de primer orden

δij =X(i−1,j), X(i+1,j), X(i,j−1), X(i,j+1)

(3.7)

para i 6= 0, i 6= N , j 6= 0 y j 6= N , es decir, para las posiciones que no se encuentran

en la frontera del campo, los vecinos son las variables contiguas en sentido horizontal y

vertical. Para las variables de la frontera, es posible asumir distintos criterios que completen

la definicion del sistema de vecinos.

Un criterio muy utilizado para determinar los vecinos de las variables de la frontera es

considerar que el campo forma un “torus” y por lo tanto, se definen los vecinos de una variable

a traves de (3.7) con la salvedad de que las sumas y restas en los subındices se efectuan en

modulo N . En forma mas general, el esquema dado por (3.7) puede considerarse sistema de

vecinos de orden p (Figura 3.1).

Es decir, que si δpi,j representa los vecinos de la variable en la posicion (i, j) en el esquema de

orden p, entonces se tiene lo siguiente:

Page 70: TESIS_edgarSM

Campos aleatorios de Markov 53

X X X X

(a)orden1 (b) orden2 (c) orden3 (d)orden4

Figura 3.1: Diferentes estructuras de vecindades

δ1i,j = Xi−1,j, Xi+1,j, Xi,j−1, Xi,j+1

δ2i,j = Xi−1,j, Xi+1,j, Xi,j−1, Xi,j+1, Xi−1,j−1, Xi−1,j+1, Xi+1,j−1, Xi+1,j+1

δ3i,j = Xi−1,j, Xi+1,j, Xi,j−1, Xi,j+1, Xi−1,j−1, Xi−1,j+1, Xi+1,j−1, Xi+1,j+1, Xi−2,j, Xi+2,j, Xi,j−2, Xi,j+2...

etc.

3.2.3. Campos aleatorios de Gibbs

Se considera un campo aleatorio X = Xij | i, j = 0, ..., N y un sistema de vecinos sobre

dicho campo ∆ = δi,j | i, j = 1, ..., N.

Se define como potencial U sobre el campo X a la familia de funciones UA con A ∈X,

donde cada UA toma un valor real y depende solamente de las variables incluidas en A.

La energıa de un potencial U se obtiene sumando sobre los potenciales de todos los subcon-

juntos de X, es decir

HU =∑A∈χ

UA

Page 71: TESIS_edgarSM

Campos aleatorios de Markov 54

Un campo aleatorio de Gibbs con potencial U es aquel cuya probabilidad conjunta del campo

es

P (X) =1

Zexp HU

donde X es un vector que contiene las variables del campo y Z es la constante normalizadora

tal que se cumpla que∑X P (X) = 1.

Se define como clique a todo conjunto de sitios que consiste de un solo sitio c ∈X o sitios

c donde, para cada elemento de C, se cumple que este es vecino del resto de los elementos

de ese conjunto. Es decir, dados cualesquiera Xi,j, Xk,l ∈ C con (i, j) 6= (k, l) se cumple que

Xk,l ∈ δi,j.

Figura 3.2: Tipos de cliques para un sistema de orden 1.

Figura 3.3: Tipos de cliques para un sistema de orden 2

En las figuras 3.2 y 3.3 se muestra, para los sistemas de vecinos de orden 1 y 2 que se

consideraron anteriormente, las configuraciones de las variables del campo con las cuales se

obtienen todos los cliques.

Cuando el potencial U es tal que UA = 0 ∀A /∈ C, donde C es el conjunto de todos los

cliques de un campo, se dice que tal potencial es un potencial de vecinos. Cuando se tiene

este caso, la energıa se obtiene sumando sobre todos los potenciales asociados a los cliques.

Page 72: TESIS_edgarSM

Campos aleatorios de Markov 55

Entonces la probabilidad conjunta serıa:

P (X) =1

Zexp

∑c∈C

UC

Todas las probabilidades en un campo de Gibbs, quedan determinadas por el sistema de

vecinos y los potenciales asociados a los cliques.

Usando la definicion de probabilidad condicional, las caracterısticas locales para un Cam-

po de Markov se pueden escribir como

P (Xi,j | δi,j) =P (X)∑Xi,j

P (X). (3.8)

Como P (X) es una distribucion de Gibbs, la ecuacion anterior se puede escribir como

P (Xi,j | δi,j) =exp HU∑Xi,j

exp HU(3.9)

donde HU es la energıa y se obtiene sumando los potenciales asociados a todos los cliques.

Si dividimos HU en dos terminos, digamos los cliques que contienen a Xi,j, HA, y a HB

como los cliques que no lo contienen, entonces la ecuacion (3.9) puede ser escrita como

P (Xi,j | δi,j) =exp

∑AHA∑

Xi,jexp

∑AHA

La equivalencia entre campos de Gibbs y campos de Markov es muy importante ya que

permite definir unıvocamente un campo aleatorio de Markov a traves de los potenciales de

Gibbs.

3.2.4. Funcion negpotencial y teorema de Hammersley-Clifford

Como ya mencionamos anteriormente, existe una conexion entre los campos aleatorios de

Markov y los campos aleatorios de Gibbs. El teorema que establece formalmente tal conexion

Page 73: TESIS_edgarSM

Campos aleatorios de Markov 56

se conoce como teorema de Hammersley-Clifford (1971). Antes de enunciar este teorema, se

requiere hacer una revision de algunos resultados y conceptos importantes para la construc-

cion de la verosimilitud de una especificacion condicional.

Considere un conjunto de variables aleatorias discretas X1, X2, ..., Xn definidas en los

sitios 1, 2, .., n, respectivamente. Haremos la siguiente asuncion importante: si x1, x2, ..., xn

pueden ocurrir individualmente en los sitios 1, 2, .., n, repectivamente, entonces pueden ocu-

rrir conjuntamente. Formalmente, si P (xi) > 0 para cada i, entonces P (x1, x2, ..., xn) > 0. Sin

perdida de generalidad, asuma que cero puede ocurrir en cada sitio, es decir 0 ∈ Ω. Donde

Ω ≡ x : P (x) > 0. Esto asegura, que bajo la condicion de positividad, una realizacion de

ceros es posible. Ası, P (0) > 0 y entonces legıtimamente definimos

Q(x) = log P (x)/P (0) .

El conocimiento de Q(·) es equivalente al conocimiento de P (·), puesto que

P (x) = exp(Q(x))/∑t∈Ω

exp(Q(t))

en el caso discreto. La funcion analoga en el caso continuo se obtiene reemplazando P (·) por

la fdp f(·) y∑

con∫

. En la literatura sobre mecanica estadıstica (e.g., Ruelle, 1969), −Q

juega el rol de una funcion de energıa potencial y el termino normalizador∑t∈Ω exp(Q(t))

es llamado funcion de particion. En el contexto espacial, ver por ejemplo Cressie (1993, Pag.

415), a Q se le conoce como la funcion negpotencial. En adelante nos referiremos a Q

como la funcion negpotencial.

La funcion negpotencial Q satisface las siguientes dos propiedades

(i)P (xi| xj : j 6= i)P (0i| xj : j 6= i)

=P (x)

Pr(xi)= exp(Q(x)−Q(xi)).

donde 0i denota el evento Xi = 0 y xi = (x1, ..., xi−1, 0, xi+1..., xn).

Page 74: TESIS_edgarSM

Generacion de un campo aleatorio de Markov 57

(ii) De Besag (1974), Q puede ser expandida unicamente sobre Ω de la siguiente forma

Q(x) =∑

1≤i≤n

xiGi(xi) +∑1≤i<

∑j≤n

xixjGi,j(xi, xj) +∑1≤i<

∑j<k

∑≤n

xixjxkGi,j,k(xi, xj, xk)

+...+ x1x2...xnG1,2,...,n(x1, x2, ..., xn). (3.10)

Una demostracion de las propiedades (i) y (ii) puede verse en Cressie (1993, Pag.416).

Recuerde que P (x) (o f(x)) es proporcional a exp(Q(x)). Ya que la funcion de vero-

similitud es P (x), expresada como una funcion de los parametros del proceso aleatorio, es

claro que encontrar la constante de proporcionalidad como una funcion (en forma cerrada) de

esos parametros es importante. Esto no es siempre posible. Sin embargo, existe un resultado

disponible muy poderoso con respecto a la forma que debe tomar la funcion Q:

Teorema de Hammersley-Clifford (Hammersley y Clifford, 1971). Suponer que X

es distribuido acorde a un campo aleatorio de Markov sobre Ω que satisface la condicion de

positividad. Entonces la funcion negpotencialQ(·) dada por (3.10) debe satisfacer la siguiente

propiedad

Si los sitios i, j, ..., s no forman un clique, entonces Gi,j,...,s ≡ 0.

donde los cliques son definidos por la estructura de vecindades δ1, ..., δn.

3.3. Generacion de un campo aleatorio de Markov

3.3.1. El Muestreador de Gibbs

Actualmente, uno de los topicos mas activos en la estadıstica computacional es la inferencia

de la simulacion iterativa, especialmente el algoritmo de Metropolis y el muestreador de Gibbs

(Metropolis y Ulam, 1949; Metropolis et al., 1953; Hasting, 1970; Geman y Geman, 1984;

y Gelfand et al., 1990). La idea esencial de la simulacion iterativa es tomar valores de una

Page 75: TESIS_edgarSM

Generacion de un campo aleatorio de Markov 58

variable X de una secuencia de distribuciones que convergen, como iteraciones continuas,

a la distribucion objetivo deseada de X. Para inferencia sobre X, la simulacion iterativa es

tıpicamente menos eficiente que la simulacion directa, la cual es simplemente elegir de la

distribucion objetivo, pero la simulacion iterativa es aplicable a un amplio rango de casos.

El muestreador de Gibbs es un metodo para producir muestras de una distribucion. Es

particularmente usado cuando se muestrea de una distribucion de Gibbs y las muestras re-

sultantes forman un campo aleatorio de Markov.

Como vimos anteriormente un campo de Gibbs con potencial U tiene una probabilidad con-

junta

P (X) =1

Zexp HU (3.11)

Tambien vimos que podemos escribir una distribucion de Gibbs como sigue

P (Xi,j | δi,j) =exp HU∑Xi,j

exp HU. (3.12)

El algoritmo del muestreador de Gibbs esta basado en el teorema de Relajacion de Gelman

y Geman (1984). Este teorema establece que, independientemente de la configuracion inicial

y la secuencia en la cual los sitios son visitados para el reemplazo, a condicion de que todos

los sitios son visitados infinitas veces, la distribucion de la secuencia, X(t)t≥1, producida

por el muestreador de Gibbs, converge a la distribucion de Gibbs (3.11).

El muestreador de Gibbs puede ser esbozado en los siguientes pasos para simular un valor

de una distribucion conjunta P (x1, ..., xn) como en (3.11):

1. Determinar un conjunto de valores iniciales

x(0)1 , ..., x(0)

n ∈ Ω.

Page 76: TESIS_edgarSM

Generacion de un campo aleatorio de Markov 59

2. Generar un valor x(1)1 de la densidad condicional

P (x1|x(0)2 , ..., x(0)

n ).

3. Generar un valor x(1)2 de la densidad condicional

P (x2|x(1), x(0)3 , ..., x(0)

n ).

4. Generar un valor x(1)3 de la densidad condicional

P (x3|x(1), x(1)2 , x

(0)4 , ..., x(0)

n ).

5. Continuar la progresion de arriba hasta que un valor de x(1)n ha sido generado para la

ultima variable aleatoria de,

P (xn|x(1), x(1)2 , ..., x

(1)n−1),

la cual ahora resulta en un nuevo valor x(1)1 , ..., x

(1)n .

6. Reeemplazar x(0)1 , ..., x

(0)n con x

(1)1 , ..., x

(1)n y regresar al paso 2.

7. Repetir un gran numero de veces M, resultando en el valor

x(M)1 , ..., x(M)

n ,

la cual es una sola observacion de la densidad conjunta o funcion masa P (x1, ..., xn).

3.3.2. Criterio de convergencia

El muestreo de Gibbs, el algoritmo de Metropolis y metodos similares para la simulacion

iterativa son usados para resumir distribuciones multivariadas. Muchos autores han aborda-

Page 77: TESIS_edgarSM

Generacion de un campo aleatorio de Markov 60

do el problema de tomar inferencias de la simulacion iterativa, incluyendo a Ripley (1987),

Gelfand y Smith (1990), Geweke (1992) y Raftery y Lewis (1992) en la reciente literatura

estadıstica. El uso practico de los metodos de simulacion iterativa pueden ser complicado ya

que despues de cualquier numero finito de iteraciones, la distribucion intermedia es usada

para tomar x entre la distribucion inicial y la distribucion objetivo. Como Gelman y Rubin

(1992) demostraron para un modelo sobre lattices Ising, el cual es una aplicacion estandar de

la simulacion iterativa (Kinderman y Snell, 1980), generalmente no es posible monitorear la

convergencia de una simulacion iterativa de una sola secuencia (i.e, una caminata aleatoria).

La dificultad basica es que la caminata aleatoria puede permanecer para muchas iteraciones

en una region altamente influenciada por la distribucion inicial. Este problema puede ser

especialmente agudo cuando se examina una baja dimension de la variable aleatoria multidi-

mensional que esta siendo simulada y puede ocurrir incluso cuando la distribucion objetivo

es univariada y unimodal, como en el ejemplo de Gelman y rubin (1992).

Gelman y Rubin (1992) proponen un metodo para probar convergencia en dos partes

principales: Crear una distribucion aproximada sobredispersa de la cual tomar multiples val-

ores iniciales para multiples secuencias iteradas y usar las multiples secuencias para obtener

inferencias de la distribucion objetivo.

Comenzamos creando una aproximacion con una distribucion que sea sobredispersa de

la cual obtenemos multiples valores iniciales. Encontramos tal distribucion en tres pasos.

Primero, localizamos las regiones de alta densidad de la distribucion objetivo (multivariada)

de X para asegurar que nuestros valores iniciales para la simulacion iterativa no pierda total-

mente regiones importantes de la distribucion objetivo. Segundo, creamos una aproximacion

sobredispersa, tal que la distribucion inicial cubra la distribucion objetivo en el mismo senti-

do que una distribucion aproximada por muestreo por rechazo deberıa cubrir la distribucion

exacta. Tercero, reducimos las elecciones de la distribucion aproximada que tengan relativa-

mente menor densidad bajo la distribucion objetivo.

Para realizar la inferencia de secuencias simuladas procedemos en siete pasos:

Primero, independientemente simulamos m ≥ 2 secuencias, cada una de longitud 2n, con

Page 78: TESIS_edgarSM

Generacion de un campo aleatorio de Markov 61

puntos iniciales tomadas de una distribucion sobredispersa. Para disminuir el efecto de la

distribucion inicial, descartamos las primeras n iteraciones de cada secuencia y enfocamos la

atencion en las ultimas n.

Segundo, para cada parametro escalar de interes, se calcula

B/n = la varianza entre las m secuencias de medias, xi., cada una basada en los n valores

de x, B/n =∑m

i=1(xi. − x..)2/(m− 1); y

W = el promedio de las m varianzas entre secuencias, s2i , cada una basado en n−1 grados

de libertad, W =∑m

i=1 s2i /m.

Si solo una secuencia es simulada, B no puede ser calculado.

Tercero, estimamos la media objetivo, µ =∫xP (x)dx, por µ, la media muestral de los

mn valores simulados de x, µ = x...

Cuarto, estimamos la varianza objetivo, σ2 =∫

(x− µ)2P (x)dx, por un promedio pon-

derado de W y B, es decir,

σ2 =n− 1

nW +

1

nB, (3.13)

la cual sobreestima σ2, asumiendo que la distribucion inicial es apropiadamente sobredisper-

sada, pero es insesgada para σ2 bajo estacionariedad, (i.e, si la distribucion inicial es igual

a la distribucion objetivo) o el lımite n → ∞. Mientras tanto, para cualquier n finito, W

deberıa ser menos que σ2 porque las secuencias individuales no tienen tiempo para recorrer

todo el rango de la distribucion objetivo y como un resultado, habra menos variabilidad; en

el lımite cuando n→∞, la esperanza de W se aproxima a σ2.

Quinto, estimar lo que es conocido sobre x. Podemos mejorar la estimacion optima

(i.e., demasiado precisa) de la distribucion objetivo N(µ, σ2) permitiendo la variabilidad

de la muestra de las estimaciones, µ y σ2. El resultado es una aproximacion a la distribu-

cion t de Student para x con centro µ, escala√V =

√σ2 +B/mn y grados de libertad

df = 2V 2/var(V ), donde

var(V ) =

(n− 1

n

)21

mvar(s2

i ) +

(m+ 1

mn

)22

m− 1B2 + 2

(m+ 1)(n− 1)

mn2

.n

m[ ˆcov(s2

i , x2i.)− 2x.. ˆcov(s2

i , xi.)], (3.14)

Page 79: TESIS_edgarSM

Generacion de un campo aleatorio de Markov 62

y donde las varianzas estimadas y covarianzas son obtenidas de los m valores muestrales de

xi. y s2i ; df →∞ cuando n→∞.

Sexto, monitorear la convergencia de la simulacion iterativa estimando el factor por el

cual el parametro de escala de la distribucion para x podrıa ser reducido si las simulaciones

fueron seguidas en el lımite n → ∞. Esta reduccion potencial de la escala es estimada por√R =

√(V /W )df/(df − 2), el cual declina a 1 cuando n → ∞. R es la razon de la actual

varianza estimada, V , la varianza entre las secuencias, W , con un factor para tener en cuenta

la varianza extra de la distribucion de Student. Si la reduccion de la escala es alta, entonces

tenemos razones para creer que el procedimiento con simulaciones adicionales pueden mejorar

nuestra inferencia sobre la distribucion objetivo.

Septimo, una vez que R esta cercano a 1 para todos los escalares estimados de interes, es

tıpicamente deseable resumir la distribucion objetivo para un conjunto de simulaciones con

el fin de detectar caracterısticas normales de la distribucion objetivo. Los valores simulados

de las ultimas mitades de las secuencias simuladas proveen tales comparaciones.

Page 80: TESIS_edgarSM

CAPITULO 4

EL MODELO CONDICIONAL POISSON

WINSORIZADO

4.1. Introduccion

En muchas areas encontramos datos en donde existen razones fısicas para creer que el valor de

la respuesta en localidades vecinas tiene una influencia directa en el valor de la respuesta en

una localidad en particular. Para modelar tales escenarios, los campos aleatorios de Markov, la

familia de auto-modelos propuestos por Besag (1974) en particular, son una opcion apropiada.

Si las respuestas observadas son conteos, se puede hacer uso del auto-modelo Poisson.

El auto-modelo Poisson es un modelo natural para modelar datos que consisten de

pequenos conteos y pueden exhibir dependencia, frecuentemente dependencia espacial. Sin

embargo, no es posible modelar dependencia positiva con un auto-modelo Poisson regular.

Para modelar dependencias positivas en conteos multivariados se hace uso del modelo condi-

cional Poisson Winsorizado (Kaisser y Cressie, 1977). De hecho, este modelo puede ser usado

para incorporar dependencia positiva o negativa entre las variables. Es importante ver como

surge este tipo de auto-modelo para posteriormente trabajar con el mismo.

Page 81: TESIS_edgarSM

El auto-modelo Poisson 64

4.2. El auto-modelo Poisson

Para considerar la formulacion del auto-modelo Poisson sea si una localidad fısica en una

region geografica de interes y sea Z ≡ si : i = 1, ..., n un lattice finito (regular o irregu-

lar) definido por estos sitios. El proceso aleatorio asociado con estas localidades geograficas

sera denotado como X ≡ X(si) : si ∈ Z. Los auto-modelos son formulados sobre la base de

un campo aleatorio de Markov definido por la especificacion de una vecindad para cada com-

ponente de X. Como ya mencionamos anteriormente, un sitio sj es un vecino de un sitio si si

la distribucion condicional de X(si) dado X(sk) : k 6= i depende funcionalmente del valor

de X(sj). Por ejemplo, para variables aleatorias discretas, la funcion masa de probabilidad

de X(si) condicional sobre sus vecinos serıa

p(x(si)|x(Ni))) ≡ p(x(si)| x(sj) : sj ∈ Ni)

dondeNi ≡ sj : sj es vecino de si. Un auto-modelo Poisson resulta de especificar que todos

los componentes de X tienen fmps condicionales Poisson. La cantidad que conecta al modelo

especificado condicionalmente con la verosimilitud conjunta de X se conoce como “funcion

negpotencial” y puede definirse como Q(x) ≡ log Pr(x)/Pr(0) donde 0 denota un vector

de ceros de longitud n y x ∈ Ω. Si uno puede calcular Q(·), la fmp conjunta de X se obtiene

como

f(x) =exp Q(x)∑t∈Ω exp Q(t)

(4.1)

El metodo existente para construir un auto-modelo Poisson y cualquier otro auto-modelo

depende de las siguientes dos asumsiones (Besag, 1974):

1.- La estructura de probabilidad del sistema depende solo de las contribuciones de cliques

conteniendo no mas de dos sitios, de modo que Q(·) se puede escribir como

Q(x) =∑

1≤i≤n

x(si)Gi(x(si)) +∑1≤i<

∑j≤n

x(si)x(sj)Gij(x(si), x(sj)), (4.2)

Page 82: TESIS_edgarSM

El auto-modelo Poisson 65

donde Gij(·, ·) es cero si sj no es un elemento del conjunto Ni. Esta restriccion sobre los

lımites de la sumatoria en el termino de interaccion surge del teorema de Hammersley

y Clifford visto en el capıtulo anterior. Este teorema indica la forma en la cual puede

ser construida la funcion negpotencial directamente de la especificacion de las fmps

condicionales.

2.- La distribucion de probabilidad condicional asociada con cada uno de los sitios pertenece

a la familia de distribuciones exponenciales, tal que

p(x(si)|x(Ni)) = exp Ai(x(Ni))Bi(x(si))−Di(x(Ni)) + Ci(x(si)) (4.3)

Como consecuencia de las asunciones 1 y 2, en Besag (1974) se muestra que las funciones

A(·) deben satisfacer

Ai(x(Ni)) = αi +n∑j=1

ηijBj(x(sj)), (4.4)

donde ηij = ηji para todo i y j, y ηij = 0 si sj no esta en la vecindad Ni. Una especificacion

estandar Poisson para la fmp condicional resulta de tomar Bi(x(si)) = x(si), Di(x(Ni)) =

exp Ai(x(Ni)), y Ci(x(si)) = − log(x(si)!). Ahora, Cressie (1993, p.416) demuestra que los

terminos de la ecuacion (4.2) pueden escribirse como funciones de las fmp condicionales,

x(si)Gi(x(si)) = log

p(x(si)|0(Ni))

p(0(si)|0(Ni))

(4.5)

y

x(si)x(sj)Gij(x(si), x(sj)) = log

p(x(si)|x(sj),0(N

(−j)i ))p(0(si)|0(Ni))

p(0(si)|x(sj),0(N(−j)i ))p(x(si)|0(Ni))

(4.6)

donde N(−j)i = x(sk) : sk ∈ Ni, k 6= j. En este contexto de dependencia por pares, el resul-

tado dice que cualquier especificacion de las fmps condicionales p(x(si)|x(Ni)) : i = 1, ..., n

tal que los terminos resultantes para x(si)xsjGij(x(si), x(s) son simetricos en i y j, conducen

a un unico y bien definido modelo de probabilidad conjunta para X, siempre que la condicion

Page 83: TESIS_edgarSM

El auto-modelo Poisson Winsorizado 66

de sumabilidad se cumpla, esto es, siempre que

∑t∈Ω

exp Q(t) <∞. (4.7)

Si este es el caso, la fmp conjunta y la verosimilitud estan disponibles a traves de las ecua-

ciones (4.1) y (4.2).

Usando las ecuaciones (4.2)-(4.6) es facil verificar que la funcion negpotencial para el

modelo Poisson regular es

Q(x) =∑

1≤i≤n

[αix(si)− log x(si)!] +∑1≤i<

∑j≤n

ηijx(si)x(sj) (4.8)

donde ηij = ηji y ηij = 0 si sj no esta en la vecindad Ni. El soporte conjunto Ω para este

modelo es el producto cartesiano n-veces del conjunto de enteros no negativos. Ahora como

un resultado de la condicion de sumabilidad (4.7) aplicado a Q(·) dado por (4.8), vemos que

la suma∑

t∈Ω exp Q(t) es infinita si cualquiera de los ηij es positivo. Ası, para un auto-

modelo Poisson bien definido, debemos tener ηij ≤ 0 para todo i y j, lo cual especifica que

el modelo debe contener solamente relaciones de dependencia negativa entre los elementos

de X. Esto puede representar un problema si creemos que nuestro fenomeno de estudio

exhibe dependencia espacial positiva. A continuacion, se presenta un modelo que sı permite

la modelacion de dependencias positivas entre los componentes de X.

4.3. El auto-modelo Poisson Winsorizado

El auto-modelo con distribuciones condicionales Poisson Winsorizadas (Kaiser y Cressie,

1997) provee una estructura valida y util donde podemos considerar dependencias positi-

vas entre los elementos de X. Enseguida, se presenta como surge la distribucion Poisson

Winsorizada y posteriormente su formulacion en el contexto espacial.

Page 84: TESIS_edgarSM

El auto-modelo Poisson Winsorizado 67

4.3.1. Distribucion Poisson Winzorizada

Consideramos una variable aleatoria Z con soporte sobre los enteros no negativos y un valor

entero fijo 0 ≤ R <∞. Una version truncada de Z resulta de definir la variable aleatoria

X = ZI(Z ≤ R) +RI(Z > R), (4.9)

donde I(·) denota la funcion indicadora. La truncacion descrita por (4.9) es a veces llamada

Winsorizacion (Galambos, 1988) y convierte Z con soporte infinito a X con soporte en el

conjunto 0, 1, ..., R.

Ahora si consideramos una variable aleatoria Poisson Z con fmp

f(z;λ) =λz

z!exp(−λ)

con λ > 0 y z ∈ 0, 1, ..., , entonces la fmp de la variable aleatoria Poisson Winzorizada X

definida en (4.9) esta dada por

p(x;λ,R) =

λx

x!exp (−λ)

I(x ≤ R− 1) +

1−

R−1∑t=0

λt

t!exp(−λ)

I(x = R)

Ahora, de la formula de Taylor para exp(λ), tenemos que

R−1∑t=0

λt

t!= exp(λ)− λR

R!exp (ψ) para algun 0 < ψ < λ

Por lo tanto,

p(x;λ,R) =

λx

x!exp (−λ)

I(x ≤ R− 1) +

λR

R!exp(ψ − λ)

I(x = R) (4.10)

donde (ψ − λ) < 0.

Page 85: TESIS_edgarSM

El auto-modelo Poisson Winsorizado 68

4.3.2. Formulacion espacial de la distribucion Poisson Winzorizada

Primeramente, debemos notar que la fmp Poisson Winsorizada (4.10) puede ser escrita en

la forma exponencial canonica como

p(x;λ,R) = exp xθ −D(θ)− log(x!) (4.11)

donde θ ≡ log(λ) y 0 < ψ < exp(θ),

D(θ) ≡

exp(θ) si x ≤ R− 1

exp(θ)− ψ si x = R

Escribiendo la fmp condicional de cada componente de X en esta forma obtenemos

p(x(si)|x(Ni)) = exp Ai(x(Ni))x(si)−Di(x(Ni))− log(x(si)!) (4.12)

donde

D(x(Ni)) =

exp(Ai(x(Ni))) si x(si) ≤ R− 1

exp(Ai(x(Ni)))− ψ si x(si) = R

y 0 < ψi < exp Ai(x(Ni)).

Para fmp condicionales Poisson Winsorizada (4.12), donde los valores de los parametros

αi y ηij no estan sujetos a alguna restriccion excepto que sean reales, tambien que

ηij = ηji y que ηij = 0 si sj no esta en la vecindad Ni, entonces, un modelo valido es obtenido

cuando

Ai(x(Ni)) = αi +n∑j=1

ηijx(sj) (4.13)

La validacion del modelo se verifica a traves de la substitucion de (4.12) en la ecuacion (4.6).

Haciendo uso de las ecuaciones (4.2), (4.5) y (4.6), la funcion negpotencial resulta en

Q(x) =∑

1≤i≤n

αix(si)− log x(si)!+∑1≤i<

∑j≤n

ηij x(si)x(sj) (4.14)

Page 86: TESIS_edgarSM

Modelo condicional Poisson Winsorizado centrado 69

4.4. Modelo condicional Poisson Winsorizado centrado

La forma en la expresion (4.13) sugiere que las diferencias en las esperanzas marginales entre

las X(si) podrıan ser modeladas a traves de los terminos αi y la dependencia estadıstica

podrıa ser modelada a traves de los parametros ηij. Sin embargo, no es claro en (4.13) si

las αi solo afectaran esperanzas, o dado αi fijo, las ηij solo afectaran dependencias. Una

parametrizacion equivalente a (4.13) y que permite que las esperanzas marginales sean ais-

ladas se obtiene como

Ai(x(Ni)) = αi +n∑j=1

ηij x(sj)− exp(αj) (4.15)

la parametrizacion anterior es llamada parametrizacion centrada debido a que la suma se

hace sobre los (x(sj)−exp(αj)) donde las esperanzas condicionales E X(si) son monotonas

crecientes en las funciones del parametro natural Ai(x(Ni)), sin embargo αi no corresponde

al valor esperado condicional o marginal.

Para conseguir una parametrizacion general para los modelos con familia exponencial

que aıslen las esperanzas marginales y permita parametros de dependencia que afecten solo

a varianzas y covarianzas para esperanzas fijas, primero, definimos una funcion τ−1(·) que

mapee valores esperados dentro de los parametros naturales de una familia exponencial y que

satisfaga la estructura de la expresion (4.13). La forma alternativa para (4.15) considerando

esta condicion, tendrıa la forma

Ai(x(Ni)) = τ−1(λi) +∑sj∈Ni

ηij x(sj)− λj) (4.16)

donde ηij = ηji. Un modelo de independencia resultarıa de tomar ηij = 0 tal que τ−1(λi)

representa el parametro natural del modelo sin dependencia estadıstica. Furukawa (2004)

demostro que bajo algunas restricciones adecuadas de la magnitud de ηij, la parametrizacion

(4.16) produce un λi cercano a la media marginal de X(si), i = 1, ..., n. La expresion propu-

esta captura la dependencia estadıstica por medio de ηij.

Page 87: TESIS_edgarSM

Modelo condicional Poisson Winsorizado centrado 70

En nuestro estudio consideramos una version reducida de la parametrizacion en (4.16)

en la cual τ−1(·) = log(·) = κ y ηij = η para todo i, j. Ası, tendrıamos la siguiente

parametrizacion

Ai(x(Ni)) = κ+∑sj∈Ni

η x(sj)− exp(κ) (4.17)

Considerando que el numero de vecinos es distinto para cada sitio y teniendo a η como

parametro de dependencia global, nuestra Q tendrıa la siguiente forma:

Q(x) =∑

1≤i≤n

κx(si)− log x(si)!+∑1≤i<

∑j≤n

ηx(si)x(sj)− η exp(κ)∑

1≤i≤n

x(si)wi (4.18)

4.4.1. Estimacion por maxima verosimilitud

En esta seccion mostramos porque la maxima verosimilitud puede ser muy difıcil de imple-

mentar en la forma usual para el modelo condicional Poisson Winsorizado y para la mayorıa

de auto-modelos. Esto es cierto incluso para conjuntos de datos de tamano moderado y el

principio se mantiene para muchas estructuras de datos espaciales.

Sean x(si) : si ∈ Z los valores que se asumen en el campo aleatorio donde Z es el

conjunto de localidades donde fueron observados nuestros datos y |Z| el numero total de

observaciones. Por ejemplo, podrıamos considerar datos dispuestos sobre un lattice regular

10× 10, lo cual produce 100 localidades disponibles. Ahora, para cada localidad si definimos

la estructura de vecindades Ni, donde Ni representa a los cuatro vecinos mas cercanos de la

localidad si. Ya que definimos nuestro sistema de vecinos fijamos un valor de Winsorizacion,

por ejemplo, R = 10, lo que quiere decir que lo valores posibles de x(si) son 0, 1, ..., 10.

Suponga que los datos x(si) : si ∈ Z fueron generados por un auto-modelo Poisson Win-

sorizado como en (4.12) con parametrizacion definida como en (4.17).

El objetivo es estimar los parametros κ y η y hacer inferencia sobre estos parametros. De

Page 88: TESIS_edgarSM

Modelo condicional Poisson Winsorizado centrado 71

lo visto anteriormente la probabilidad conjunta puede ser escrita como

p(x) =exp(Q(x))∑t∈ξ exp(Q(t))

donde Q es la funcion negpotencial dada por (4.18). Por lo tanto nuestra funcion de verosi-

militud tendrıa la siguiente forma

L(κ, η) = exp

(κ∑

1≤i≤n

x(si)−∑

1≤i≤n

log x(si)!+ η∑1≤i<

∑j≤n

x(si)x(sj)− η exp(κ)∑

1≤i≤n

x(si)wi

)

/∑

t1,...,tn

exp

(κ∑

1≤k≤n

tk(sk)−∑

1≤k≤n

log tk(sk)!+ η∑

1≤k<

∑l≤n

tk(sk)tl(sl)− η exp(κ)∑

1≤k≤n

tk(sk)wk

)

Podemos notar que la suma en el denominador se suma sobre todas las configuraciones

posibles de los datos. Es este denominador lo que se conoce como constante normalizadora

y es precisamente lo que causa una gran dificultad al tratar de computar la verosimilitud.

Por ejemplo, en el caso de un conjunto de datos de tamano 100; esto es |Z| = 100, el

numero de terminos en la suma del denominador serıa igual a 11100 =1.378061e+104 para

un valor de Winsorizacion R=10. Esto demandarıa un esfuerzo computacional excesivo en

el computo de la constante normalizadora para calcular la verosimilitud. Sin embargo, es

posible implementar el metodo de maxima verosimilitud vıa metodos Monte Carlo.

4.4.2. Maxima verosimilitud vıa Monte Carlo

Ya que llevar a cabo la estimacion por maxima verosimilitud exacta es muy costosa o practi-

camente imposible, consideramos la maxima verosimilitud vıa Monte Carlo. Muchos autores

han usado los metodos de Monte Carlo para aproximar el estimador de maxima verosimili-

tud. Primero ilustramos el algoritmo en general y entonces describimos la forma que tomarıa

nuestro nuestro modelo ocupando los metodos Monte Carlo.

Page 89: TESIS_edgarSM

Modelo condicional Poisson Winsorizado centrado 72

Sea µ una medida y t una funcion vectorial (juntas en el mismo espacio); entonces

c(θ) =

∫exp 〈t(x), θ〉 dµ(x) (4.19)

es la transformada de Laplace de la medida t(µ), y las funciones

fθ(x) =1

c(θ)exp 〈t(x), θ〉

son densidades de probabilidad con respecto a µ constituyendo una familia exponencial con

θ y t como parametros canonicos (〈t, θ〉 denota el producto interno∑

i tiθi de los vectores

t y θ). A c suele llamarse transformada de Laplace de la familia exponencial. Sin embargo,

nosotros la conocemos como “funcion particion” o “constante normalizadora”.

Como ya lo mostramos anteriormente es esta constante normalizadora la que no puede ser

calculada directamente, entonces, utilizamos los metodos Monte Carlo, los cuales se describen

a continuacion.

Sea Pψ la medida que tiene densidad fψ con respecto a µ. Entonces la ecuacion (4.19)

puede ser escrita como

c(θ) = c(ψ)

∫exp 〈t(x), θ − ψ〉 dPψ(x) (4.20)

la cual es una pequena variacion en la funcion generadora de momentos del estadıstico

canonico t(X) inducido por PΨ

Mψ(τ) =

∫exp 〈t(x), τ〉 dPψ(x) =

c(ψ + τ)

c(ψ).

El punto de la ecuacion (4.20) es expresar a c como una integral con respecto a una

distribucion de probabilidad, haciendo los metodos Monte Carlo aplicables. Como c(ψ) no

es conocida, la ecuacion (4.20) determina c a traves de una constante de proporcionalidad.

Los metodos Monte Carlo vıa cadenas de Markov (Hastings, 1970), tal como el algoritmo

de Metropolis (Metropolis et al., 1953) y el muestreo de Gibbs (Geman y Geman, 1984),

Page 90: TESIS_edgarSM

Modelo condicional Poisson Winsorizado centrado 73

pueden ser usadas para simular una cadena ergodica de Markov X1, ..., Xn la cual tiene una

distribucion de equilibrio Pψ. Muestras de una realizacion de la cadena, aunque ninguna sea

independiente e identicamente distribuida a Pψ, pueden ser usadas por metodos Monte Carlo

al igual que muestras independientes de Pψ.

Sea Ti = t(Xi); entonces para cualquier θ fijo

dn(θ) =1

n

n∑i

exp 〈Ti, θ − ψ〉 −→ d(θ) =c(θ)

c(ψ)casi seguramente (4.21)

por el teorema ergodico. La log-verosimilitud dado la observacion x puede ser escrita como

lx(θ) = log fθ(x) + log c(ψ) = 〈t(x), θ〉 − log d(θ)

y su aproximacion serıa

ln,x(θ) = 〈t(x), θ〉 − log dn(θ).

Entonces para cualquier θ fijo

ln,x(θ) −→ lx(θ) casi seguramente (4.22)

debido a la expresion (4.21). Entonces, como una union contable de conjuntos nulos es un

conjunto nulo, la expresion (4.22) se mantiene para cualquier θ en un conjunto contable y

por lo tanto para cualquier conjunto denso.

La aproximacion para nuestro modelo se describe a continuacion:

log L(κ, η)+ log g(ψ) = κ∑

1≤i≤n

x(si)−∑

1≤i≤n

log x(si)!+ η∑1≤i<

∑j≤n

x(si)x(sj)

−η exp(κ)∑

1≤i≤n

x(si)wi − d(κ, η)

donde g(ψ) es el denominador en ψ y d(κ, η) = g(κ, η)/g(ψ). Entonces podemos aproximar

Page 91: TESIS_edgarSM

Alternativas a la estimacion por maxima verosimilitud 74

d(κ, η) con

dn(κ, η) =1

M

M∑l=1

exp

(κ∑

1≤i≤n

tl(si)−∑

1≤i≤n

log tl(si)!+ η∑1≤i<

∑j≤n

tl(si)tl(sj)

−η exp(κ)∑

1≤i≤n

tl(si)wi

)/m(ψ; tl)

donde dn(κ, η) se aproxima a d(κ, η) cuando M → ∞. Ası el termino g(ψ) puede tomarse

como una constante y el maximizador de

κ∑

1≤i≤n

x(si)−∑

1≤i≤n

log x(si)!+ η∑1≤i<

∑j≤n

x(si)x(sj)− η exp(κ)∑

1≤i≤n

x(si)wi − dn(κ, η)

se aproxima al estimador de maxima verosimilitud (EMV) cuando M → ∞. Tomando en

cuenta lo anterior nuestro objetivo serıa maximizar lo siguiente:

lM(κ, η) = κ∑

1≤i≤n

x(si)−∑

1≤i≤n

log x(si)!+ η∑1≤i<

∑j≤n

x(si)x(sj)− η exp(κ)∑

1≤i≤n

x(si)wi

− log

1

M

M∑l=1

exp

[κ∑

1≤i≤n

tl(si)−∑

1≤i≤n

log tl(si)!+ η∑1≤i<

∑j≤n

tl(si)tl(sj)

−η exp(κ)∑

1≤i≤n

tl(si)wi

]/m(ψ; tl)

4.5. Alternativas a la estimacion por maxima verosimil-

itud

4.5.1. Pseudo-verosimilitud

Debido a la dificultad de evaluar la constante normalizadora, el estimador de maxima verosimil-

itud (EMV) no es numericamente disponible o necesita un calculo muy intensivo. Por esto y

otras razones, Besag (1975) propuso el estimador de maxima pseudo-verosimilitud (EMPV)

Page 92: TESIS_edgarSM

Alternativas a la estimacion por maxima verosimilitud 75

el cual maximiza el producto directo de probabilidades condicionales o densidades de proba-

bilidad condicionales de la variable en cada sitio respecto al resto de los sitios.

Para un conjunto de datos x(s1), x(x2), ..., x(xn) con densidades (o funcion masa de proba-

bilidad) condicionales

Lp(θ;x) =n∏i=1

fθ(x(si)| x(sj) : j 6= i)

Muchos investigadores han probado que bajo condiciones apropiadas el EMPV es consis-

tente y distribuido asintoticamente normal alrededor del parametro verdadero para muestras

grandes en varios procesos espaciales (Jensen y Mφller (1991); Comets (1992); Guyon y

Kunsch (1992); Jensen y Kunsch (1994); Guyon (1995); Mase (1995); etc.). Ademas, es apli-

cable a un amplio rango de modelos. Por ejemplo, Besag (1986) lo aplico a la restauracion

de imagenes y Goulard et al. (1996) lo aplico a procesos puntuales marcados de Gibbs. Sin

embargo, tambien se ha mostrado que el EMPV no es eficiente comparado con el EMV (Be-

sag (1997); Geyer (1991); Geyer y Thompson (1992); Guyon y Kunsch (1992); Diggle et al.

(1994); Huang y Ogata (1999); etc.). De acuerdo a esos estudios, el EMPV es tan bueno como

el EMV cuando exıste una interaccion debil, pero la diferencia entre estos dos es sustancial

cuando la interaccion viene a ser fuerte.

4.5.2. Pseudo-verosimilitud generalizada

Debido a la baja eficiencia de la pseudo-verosimilitud para observaciones altamente correla-

cionadas, Huang y Ogata (2002) propusieron la pseudo-verosimilitud Generalizada.

Con el fin de generalizar la pseudo-verosimilitud, definimos un grupo g(i) de sitios adya-

centes a cada sitio i, y definimos a xg(i) := xk : k ∈ g(i) y xg(i) := xk : k /∈ g(i) el conjunto

de variables aleatorias dentro y fuera del grupo de sitios adyacentes g(i), respectivamente.

La pseudo-verosimilitud generalizada (PVG) para el proceso espacial x esta definida por

el producto de probabilidades condicionales (o densidades) de la variable aleatoria xg(i) sobre

Page 93: TESIS_edgarSM

Alternativas a la estimacion por maxima verosimilitud 76

el resto de las variables aleatorias xg(i), que es,

Lg(θ;x) =I∏i=1

fθ(xg(i)|xg(i))1/|g(i)| =I∏i=1

fθ(xg(i)|xg(i))1/|g(i)|

donde |g(i)| denota el numero de sitios en el conjunto g(i). Maximizando la PVG o su loga-

ritmo

lg(θ;x) =I∑i=1

|g(i)|−1 log fθ(xk : k ∈ g(i)|xk : k /∈ g(i))

con respecto a θ se obtiene el estimador de maxima PVG (EMPVG). Cuando g(i) = i,

el EMPVG no es sino el EMPV de Besag. Ahora cuando g(i) es el conjunto de todos los

sitios para cualquier i, entonces el EMPVG es el EMV. Como |g(i)| se hace mas grande,

el desempeno del EMPVG se espera que este mas cerca al EMV, pero la complejidad del

calculo incrementara exponencialmente en |g(i)|. Si las variables de un campo aleatorio son

independientes, entonces lg(θ;x) = lp(θ;x) = l(θ;x), ası todas las estimaciones de arriba

vienen a ser las mismas.

En este caso consideramos que el modelo esta dado por una funcion de energıa U(x; θ)

vista en el capıtulo 3 la cual puede reescribirse como Ui(xg(i),xg(i); θ) para cada sitio i. En-

tonces tenemos

fθ(xg(i)|xg(i)) =exp

−Ui(xg(i),xg(i); θ)

∫exp −Ui(y,xg(i); θ)µ(dy)

Cuando U(x; θ) es una funcion lineal del parametro θ: U(x; θ) = θtV (x) donde θt indica la

transpuesta de un vector fila y V (x) es un vector de la misma dimension de θ, es facil ver

que logfθ(xg(i)|xg(i)) es concava en θ por el mismo argumento dado en Guyon ((1995),§5.1.1)

para la verosimilitud y para la pseudo-verosimilitud, por lo tanto la PVGlg(θ;x) es una fun-

cion finita para funciones concavas. Esto asegura la unicidad del EPMVG si este existe, y la

Page 94: TESIS_edgarSM

Alternativas a la estimacion por maxima verosimilitud 77

convergencia de los algoritmos del gradiente usados en la optimizacion del problema.

En el caso de un campo aleatorio de Markov, la probabilidad condicional f(xj, j ∈

g(i)|todos los valores de los sitios restantes) solo depende de xg(i) y tambien de los val-

ores en los sitios del conjunto frontera de g(i)c a g(i) asociadas con la propiedad Markoviana;

especıficamente, denotada como ∂g(i). Entonces tenemos que f(xg(i)|xg(i)) = f(xg(i)|x∂g(i)).

Huang y Ogata (2002) trabajaron el modelo Ising y el modelo auto-normal para el EMV y

EMPV, mostrando sus varianzas asintoticas y sus valores de eficiencia relativa del EMV como

funciones de correlaciones entre variables vecinas. Para mostrar la superioridad del EMPVG

sobre el EMPV calcularon los valores de eficiencia de todos los estimadores que propusieron

para los dos modelos mencionados anteriormente.

Page 95: TESIS_edgarSM

CAPITULO 5

ESTUDIO DE SIMULACION PARA EL MODELO

POISSON WINSORIZADO

En nuestro estudio de simulacion, el modelo condicional Poisson Winsorizado se considera

sobre un lattice cuadrado N ×N con N = 10. Ası, nuestro lattice regular espacial consta de

100 sitios definidos como si ≡ (ui, vi) donde ui ∈ 1, ..., 10 denota la coordenada horizontal

y vi ∈ 1, ..., 10 la coordenada vertical para una observacion. Se asumira una estructura

de vecindades de primer orden. Esto es, la vecindad para la localidad si esta definida como

Ni ≡ sh : sh ∈ (ui + 1, vi), (ui − 1, vi), (ui, vi + 1), (ui, vi − 1), donde (u, v) ≡ ∅ si u /∈

1, ..., 10 o v /∈ 1, ..., 10. El valor de Winsorizacion fue fijado en R=10. El lattice se

visualiza como sigue,

ui

1

1

2 3 4 5 6 7 8 9 10

2

3

4

5

vi6

7

8

9

10

Figura 5.1: Lattice regular 10×10

Page 96: TESIS_edgarSM

79

Primeramente, con el objeto de monitorear la convergencia de las simulaciones produci-

das por el muestreador de Gibbs simulamos observaciones del modelo condicional Poisson

Winsorizado con κ =1.099 y η =0.01. El criterio de convergencia utilizado fue el metodo de

Gelman y Rubin (1992). En este caso, se generaron 400 iteraciones descartando las primeras

200 y tomando en cuenta las ultimas t=200 para disminuir el efecto de la distribucion inicial.

Se realizaron simulaciones para cada uno de 6 sitios distintos (1, 25, 35, 55, 80, 100).

(a) sitio 1 (b) sitio 100

Figura 5.2: Grafica de convergencia del muestreador de Gibbs para sitios 1 y 100.

(a) sitio 35 (b) sitio 80

Figura 5.3: Grafica de convergencia del muestreador de Gibbs para sitios 35 y 80.

Page 97: TESIS_edgarSM

80

(a) sitio 25 (b) sitio 55

Figura 5.4: Grafica de convergencia del muestreador de Gibbs para sitios 25 y 55.

Note que la velocidad de convergencia de la simulacion es mas lenta para sitios que se en-

cuentran en las orillas del lattice, esto es, sitios con menos de 4 vecinos. Ademas, note que

la velocidad de convergencia es mayor para sitios con tres vecinos (35 y 80) que para sitios

con solo dos vecinos (1 y 100). Sin embargo, note que en general la convergencia es rapida

ya que para t = 100 se han estabilizado practicamente las graficas en todos los sitios.

Se consideraron en el estudio tres tipos de verosimilitud compuesta: 1) la pseudo-verosimilitud

de Besag (1975), 2) la pseudo-verosimilitud generalizada de Huang y Ogata (2002) para gru-

pos adyacentes de tamano 2 y 3) la pseudo-verosimilitud generalizada de Huang y Ogata

(2002) para grupos adyacentes de tamano 5. En el caso de la pseudo-verosimilitud general-

izada de Huang y Ogata, los dos tipos de grupos adyacentes definidos para cada sitio fueron:

1.- g2(u, v) = (u, v), (u, v + 1) ;

2.- g5(u, v) = (u, v), (u, v ± 1), (u± 1, v) ;

En el caso de sitios localizados en los bordes del lattice, las definiciones de los grupos 1 y 2

se ajustan a la condicion de que (u, v) ≡ ∅ si u /∈ 1, ..., 10 o v /∈ 1, ..., 10. Se generaron

500 realizaciones del campo aleatorio de Markov con distribuciones condicionales Poisson

Winsorizadas de la forma (4.12) con parametro de Winsorizacion R=10 para valores de

Page 98: TESIS_edgarSM

81

κ =1.099 y valores de η =(0.01,0.02,...,0.05). Sea θ = (κ, η). En cada realizacion del proceso

se computaron tres estimadores de θ: el estimador de maxima pseudo-verosimilitud (EMPV)

de Besag (denotado por (θp)), el estimador de maxima pseudo-verosimilitud generalizada

(EMPVG) de Huang y Ogata para grupos adyacentes de tamano 2 (denotado por (θ2)) y el

estimador de maxima pseudo-verosimilitud generalizada (EMPVG) de Huang y Ogata para

grupos adyacentes de tamano 5 (denotado por (θ5)). Las Figuras 5.5 y 5.6 muestran los

valores de los tres estimadores propuestos para κ (Figura 5.5) y η (Figura 5.6) computados

de 500 simulaciones del proceso con valores de parametros κ =1.099 y η =0.01.

Figura 5.5: Valores de 500 estimaciones de κ simulados de un modelo condicionalPoisson Winsorizado con θ = (κ, η) =(1.099,0.01) y R=10. κ-p representa valoresdel EMPV de Besag, κ-2 son valores del EMPVG de Huang y Ogata para gruposadyacentes de tamano 2 y κ-5 son valores del EMPVG de Huang y Ogata paragrupos adyacentes de tamano 5.

Page 99: TESIS_edgarSM

82

Figura 5.6: Valores de 500 estimaciones de η simulados de un modelo condicionalPoisson Winsorizado con θ = (κ, η) =(1.099,0.01) y R=10. η-p representa valoresdel EMPV de Besag, η-2 son valores del EMPVG de Huang y Ogata para gruposadyacentes de tamano 2 y η-5 son valores del EMPVG de Huang y Ogata paragrupos adyacentes de tamano 5.

Note que tanto para estimaciones de κ como de η las estimaciones con el EMPV de Besag

son las mas inestables de los tres estimadores. Note tambien que las estimaciones producidas

con el EMPVG con grupos adyacentes de tamano 5 son los menos dispersos.

Los 3 estimadores fueron comparados con respecto a su error cuadrado medio, sesgo y

error estandar cuyas formulas de calculo se presentan a continuacion:

Error Cuadrado Medio (e.c.m) = Eθ0(θ − θ0)2. Estimado por:

∑Mi=1(θi − θ0)2

M(5.1)

Sesgo (sesgo) = Eθ0(θ − θ0). Estimado por:

∑Mi=1(θi − θ0)

M(5.2)

Page 100: TESIS_edgarSM

83

Error estandar (e.e) = (Eθ0(θ − Eθ0(θ))2)1/2. Estimado por

(∑M1 (θi − θM)2

M − 1

)1/2

(5.3)

donde M es el numero de simulaciones que generamos con el muestreo de Gibbs, θM =∑Mi=1 θi/M , θ0 ≡ (κ0, η0)T representa el valor verdadero del parametro θ ≡ (κ, η)T , Eθ0(·)

denota la esperanza bajo θ0, el escalar θ0 denota ya sea κ0 o a η0 y θ representa el estimador

de θ.

Los Cuadros 5.1 y 5.2 muestran las estimaciones del error cuadrado medio (5.1), sesgo

(5.2) y error estandar (5.3) para estimadores de κ y η, respectivamente. Estas estimaciones

son basadas en M = 500 realizaciones del proceso condicional Poisson Winsorizado con

κ =1.099 y η =(0.01,0.02,...,0.05). Estos mismos resultados se muestran graficamente en las

Figuras 5.7, 5.8 y 5.9.

Cuadro 5.1: Errores cuadrados medios (e.c.m), sesgos (sesgo) y errores estandar(e.e) (×102) para estimadores del parametro η. ηp representa el EMPV de Besag,η2 y η5 representan los EMPVG de Huang y Ogata para grupos adyacentes detamanos 2 y 5, respectivamente.

η κ ηp η2 η5

0.01 1.099 e.c.m 0.06300 0.05590 0.04992sesgo 1.82660 1.72965 1.61405e.e 1.72331 1.6137 1.54656

0.02 1.099 e.c.m 0.03849 0.03590 0.03122sesgo 1.11808 1.03191 0.93441e.e 1.61384 1.59074 1.50136

0.03 1.099 e.c.m 0.03423 0.03005 0.02508sesgo 0.76001 0.61972 0.54531e.e 1.68880 1.62064 1.48853

0.04 1.099 e.c.m 0.03356 0.03024 0.02611sesgo 0.26113 0.15231 0.03476e.e 1.81511 1.73418 1.61730

0.05 1.099 e.c.m 0.03201 0.03175 0.02733sesgo -0.23824 -0.35640 -0.46921e.e 1.77499 1.74760 1.58694

Page 101: TESIS_edgarSM

84

Cuadro 5.2: Errores cuadrados medios (e.c.m), sesgos (sesgo) y errores estandar(e.e) (×102) para estimadores del parametro κ. κp representa el EMPV de Besag,κ2 y κ5 representan los EMPVG de Huang y Ogata para grupos adyacentes detamanos 2 y 5, respectivamente.

η κ κp κ2 κ5

0.01 1.099 e.c.m 0.64512 0.63522 0.24095sesgo -0.40623 -0.35203 -0.88005e.e 8.02969 7.97031 4.83397

0.02 1.099 e.c.m 0.52629 0.40622 0.41150sesgo -0.83475 -1.02493 -0.76975e.e 7.21365 6.29696 6.37490

0.03 1.099 e.c.m 0.95437 0.82248 0.51345sesgo -0.58018 -0.71765 -0.90119e.e 9.76174 9.04971 7.11583

0.04 1.099 e.c.m 1.24579 1.30893 0.84393sesgo -0.09299 -0.13063 -0.64916e.e 11.17229 11.45156 9.17281

0.05 1.099 e.c.m 1.59498 1.52284 0.86427sesgo 0.83328 0.90664 0.26438e.e 12.61435 12.31934 9.30218

(a) (b)

Figura 5.7: Estimaciones del error cuadrado medio (e.c.m) para estimadores delos parametros κ (b) y η (a) (×102) para 500 realizaciones del proceso con valoresde parametros, κ =1.099 y η =(0.01,0.02,...,0.05). p representa al EMPV de Besagy 2 y 5 representan los EMPVG de Huang y Ogata para grupos adyacentes detamanos de 2 y 5, respectivamente.

Page 102: TESIS_edgarSM

85

(a) (b)

Figura 5.8: Estimaciones del sesgo (sesgo) para estimadores de los parametros κ(b) y η (a) (×102) para 500 realizaciones del proceso con valores de parametros,κ =1.099 y η =(0.01,0.02,...,0.05). p representa al EMPV de Besag y 2 y 5 repre-sentan los EMPVG de Huang y Ogata para grupos adyacentes de tamanos de 2 y5, respectivamente.

(a) (b)

Figura 5.9: Estimaciones del error estandar (e.e) para estimadores de los pa-rametros κ (b) y η (a) (×102) para 500 realizaciones del proceso con valores deparametros, κ =1.099 y η =(0.01,0.02,...,0.05). p representa al EMPV de Besag y 2y 5 representan los EMPVG de Huang y Ogata para grupos adyacentes de tamanosde 2 y 5, respectivamente.

Page 103: TESIS_edgarSM

86

El Cuadro 5.1 y Figura 5.7 (a) muestran que el estimador de η con las mejores propiedades

es el EMPVG de Huang y Ogata con grupos adyacentes de tamano 5 (η5), ya que se observa

que este estimador tiene los menores errores cuadrados medios de los tres estimadores para

los valores considerados del parametro de dependencia η. Note ademas, que η5 tambien tiene

los valores mas pequenos en sesgo y error estandar para todos los valores de η. Por otra parte,

el Cuadro 5.1 y Figura 5.7 (a) muestran que el peor de los tres estimadores del parametro

η es el EMPV de Besag (ηp) ya que es el que presenta los valores mas grandes del error

cuadrado medio, error estandar y sesgo. Note que el EMPVG de Huang y Ogata para grupos

adyacentes de tamano 2 (η2) es ligeramente mejor que el EMPV de Besag en cuanto a error

cuadrado medio, sesgo y error estandar. Sin embargo, note las diferencias en cuanto a error

cuadrado medio, sesgo y error estandar entre el EMPVG de Huang y Ogata para grupos

adyacentes de tamano 5 y el EMPVG de Huang y ogata para grupos adyacentes de tamano

2 son mas notables que las diferencias entre el EMPV de Besag y el EMPVG de Huang y

Ogata para grupos adyacentes de tamano 2.

El Cuadro 5.2 simplemente muestra algo similar, pero ahora para los valores estimados

de κ, esto es, el mejor estimador de κ con las mejores propiedades es el EMPVG de Huang

y Ogata con grupos adyacentes de tamano 5 (κ5), ya que este estimador tiene los menores

errores cuadrados medios Figura 5.7 (b). Lo mismo ocurre para el sesgo Figura 5.8 (b) y los

errores estandar Figura 5.9 (b). Sin embargo, algo singular ocurre para los estimadores de

κ, y es que conforme η aumenta, las diferencias en cuanto a error cuadrado medio, sesgo y

error estandar tienden a incrementarse sustancialmente como se muestra en las Figuras 5.7

(b), 5.8 (b) y 5.9 (b). Otra diferencia es que el sesgo no tiene un patron bien definido Figura

5.8 (b), sin embargo cuando η =0.05 el EMPVG es mejor.

Page 104: TESIS_edgarSM

CAPITULO 6

APLICACION DE LA VEROSIMILITUD

COMPUESTA A UN CONJUNTO DE DATOS

REALES

En esta seccion se ilustra el uso de la verosimilitud compuesta con un conjunto de datos reales.

Los datos consisten de conteos de acaros de un trozo de material habitat de dimensiones 8 x

8 x 1 pulgadas. Sobre la superficie expuesta de este material se sobrepuso una rejilla de 64

cuadrados de dimensiones 1 x 1 pulgadas. Se procedio a extraer y contar el numero de acaros

por cada uno de los 64 cuadrados de la rejilla. Los datos se reproducen abajo, mostrando la

distribucion espacial de estos pequenos conteos.

u

2 1 2 1 0 0 1 2

1 1 1 1 3 4 1 4

0 1 0 2 2 1 3 1

0 0 0 3 3 0 1 2v

2 1 0 1 1 1 0 0

1 1 0 1 2 1 0 1

0 3 1 0 1 3 3 3

0 0 0 0 1 5 0 1

Figura 6.1: Distribucion espacial del numero de acaros.

Page 105: TESIS_edgarSM

88

Hairston, Hill y Ritte (1971) analizaron estos datos con tamanos de cuadrado variables, a

traves de la agrupacion de cuadrados adyacentes de 1 x 1 pulgadas, computando en cada

caso un ındice de agregacion. En nuestro caso, analizaremos estos datos como provenientes

de un lattice espacial regular con 64 sitios (localidades) definidos como si ≡ (ui, vi), donde

ui ∈ 1, ..., 8 denota la coordenada horizontal y vi ∈ 1, ..., 8 denota a la coordenada

vertical para una observacion. Las vecindades se definieron en base a la estructura de los

“cuatro vecinos mas cercanos”.

Se ajusto a estos datos un modelo condicional Poisson Winsorizado de la forma dada

en (4.12). La media de los datos fue 1.21875 y el valor de Winsorizacion se fijo en R=8.

De este modo, el valor de Winsorizacion es al menos 3 veces el valor promedio de los datos

como se requiere. El Cuadro 6.1 y la Figura 6.2 muestran los resultados de estimacion para

los parametros κ y η usando los metodos de maxima pseudo-verosimilitud de Besag (1974)

y el metodo de maxima pseudo-verosimilitud generalizada de Huang y Ogata (2002) para

grupos adyacentes de tamanos 2 y 5. Con el fin de comparar estos metodos de verosimilitud

compuesta con respecto al valor de la log-verosimilitud en las diferentes estimaciones de κ

y η, se implemento el metodo de maxima verosimilitud Monte Carlo (Geyer y Thompson,

1992).

Cuadro 6.1: Estimacion de κ y η y valor de la log-verosimilitud Monte Carlopara los metodos de verosimilitud compuesta con el modelo condicional PoissonWinsorizado aplicados a loa datos de acaros.

Metodo de estimacion κ η Valor de la log-verosimilitud

Pseudo-verosimilitud de Besag 0.14348239 0.09286893 -92.53588

Pseudo-verosimilitud generalizada 0.21587425 0.08070175 -92.59402grupos tamano 2

Pseudo-verosimilitud generalizada 0.15694479 0.09123772 -92.5297grupos tamano 5

Verosimilitud Monte Carlo 0.1403073 0.1000601 -92.51275

Page 106: TESIS_edgarSM

89

Figura 6.2: Grafica de contorno de los valores de la funcion log-verosimilitudMonte Carlo para el modelo condicional Poisson Winsorizado ajustado a los datosde acaros. Los puntos “M”,“p”, “2”, “5representan las estimaciones de κ y η bajo losmetodos de maxima verosimilitud Monte Carlo, maxima pseudo-verosimilitud deBesag, maxima pseudo-verosimilitud generalizada de Huang y Ogata para gruposadyacentes de tamano 2 y maxima pseudo-verosimilitud generalizada de Huang yOgata para grupos adyacentes de tamano 5, respectivamente.

Los resultados del Cuadro 6.1 muestran que las estimaciones de κ y η producidas por

los metodos de pseudo-verosimilitud de Besag y pseudo-verosimilitud generalizada de Huang

y Ogata para grupos de tamano 5 son las mas cercanas a las estimaciones producidas por

el metodo de maxima verosimilitud Monte Carlo. Esto tambien se manifiesta al observar la

columna de valores de la log-verosimilitud Monte Carlo del Cuadro 6.1 y la grafica de contorno

mostrada en la Figura 6.2. Note que los valores de la log-verosimilitud que corresponden a

las estimaciones producidas por la pseudo-verosimilitud de Besag y la pseudo-verosimilitud

generalizada de Huang y Ogata para grupos de tamano 5 son las mas cercanas al valor

maximo alcanzado por tal funcion.

Page 107: TESIS_edgarSM

CAPITULO 7

CONCLUSIONES

De la presente investigacion se desprende una serie de conclusiones que nos permiten pensar

en la verosimilitud compuesta como una alternativa de gran potencial dentro de la estadıstica

moderna. Al estudiar los metodos de verosimilitud compuesta pudimos darnos cuenta que sus

aplicaciones se extienden a una amplia variedad de fenomenos. Cabe senalar que al aplicar

algun metodo de verosimilitud compuesta debemos tomar en cuenta las implicaciones teoricas

y practicas que esto nos pueda traer como consecuencia. No obstante, habra ocasiones donde

no quedara mas alternativa que usar algun metodo de verosimilitud compuesta.

En esta tesis trabajamos con tres verosimilitudes compuestas diferentes: pseudo-verosimilitud

de Besag y las pseudo-verosimilitudes generalizadas para grupos adyacentes de tamanos 2 y

5 del metodo de MPVG de Huang y Ogata.

De nuestros estudios de simulacion y de datos reales con el modelo Poisson Winsorizado

podemos resaltar los siguientes puntos:

El desempeno del estimador de maxima verosimilitud siempre es mejor que cualquier

otro estimador producido por cualquier metodo de verosimilitud compuesta.

En casos donde el calculo del estimador de maxima verosimilitud se vuelve difıcil o

imposible, el estimador de maxima pseudo-verosmilitud de Besag y los estimadores de

maxima pseudo-verosmilitud generalizada de Huang y ogata ofrecen una alternativa

Page 108: TESIS_edgarSM

91

viable para la estimacion de parametros.

El desempeno del estimador de maxima pseudo-verosmilitud generalizada de Huang y

Ogata mejora conforme se incrementa el tamano de los grupos adyacentes usados para

construir la pseudo-verosimilitud generaliza.

El estimador de maxima pseudo-verosimilitud generalizada de Huang y Ogata tiene

generalalmente un mejor desempeno que el estimador de maxima pseudo-verosimilitud

de Besag, aun con grupos adyacentes de tamano 2.

Al aumentar el parametro de dependencia (η) en el modelo Poisson Winsorizado, el

estimador de maxima pseudo-verosimilitud de Besag se vuelve menos eficiente y las

diferencias en desempeno con el estimador de maxima pseudo-verosimilitud generaliza-

da de Huang y Ogata se hacen mas notables.

El tiempo de computo del estimador de maxima pseudo-verosimilitud generalizada de

Huang y Ogata se incrementa exponencialmente con el tamano de los grupos adya-

centes definidos en cada sitio para construir la funcion a ser maximizada. Sin embargo,

para grupos adyacentes de tamano 2, el calculo del estimador de maxima pseudo-

verosimilitud generalizada de Huang y Ogata es tan facil y rapido como el calculo de

maxima pseudo-verosimilitud de Besag.

Page 109: TESIS_edgarSM

APENDICE A. DERIVADAS PARCIALES DE LA FUN-

CION LOG VEROSIMILITUD PARA EL MODELO

POISSON WINSORIZADO

∂κlM(κ, η) =

∑1≤i≤n

x(si)− η exp(κ)∑

1≤i≤n

x(si)wi −1

Ψ(κ, η)

∂κΨ(κ, η)

donde

Ψ(κ, η) = log

1

M

M∑l=1

exp

[κ∑

1≤i≤n

tl(si)−∑

1≤i≤n

log tl(si)!+ η∑1≤i<

∑j≤n

tl(si)tl(sj)

−η exp(κ)∑

1≤i≤n

tl(si)wi

]/m(φ; tl)

y

∂κΨ(κ, η) =

1

M

M∑l=1

exp

[κ∑

1≤i≤n

tl(si)−∑

1≤i≤n

log tl(si)!+ η∑1≤i<

∑j≤n

tl(si)tl(sj)

−η exp(κ)∑

1≤i≤n

tl(si)wi

]/m(φ; tl)

·

∑1≤i≤n

tl(si)− η exp(κ)∑

1≤i≤n

tl(si)wi

Page 110: TESIS_edgarSM

93

y para η

∂ηlM(κ, η) =

∑1≤i<

∑j≤n

x(si)x(sj)− exp(κ)∑

1≤i≤n

x(si)wi −1

Ψ(κ, η)

∂ηΨ(κ, η)

donde

∂ηΨ(κ, η) =

1

M

M∑l=1

exp

[κ∑

1≤i≤n

tl(si)−∑

1≤i≤n

log tl(si)!+ η∑1≤i<

∑j≤n

tl(si)tl(sj)

−η exp(κ)∑

1≤i≤n

tl(si)wi

]/m(φ; tl)

·

∑1≤i<

∑j≤n

tl(si)tl(sj)− exp(κ)∑

1≤i≤n

tl(si)wi

y las segundas derivadas

∂2

∂κ2lM(κ, η) = −η exp(κ)

∑1≤i≤n

x(si)wi −Ψ(κ, η) ∂2

∂κ2Ψ(κ, η)−

[∂∂κ

Ψ(κ, η)]2

[Ψ(κ, η)]2

donde

∂2

∂κ2Ψ(κ, η) =

1

M

M∑l=1

exp

[κ∑

1≤i≤n

tl(si)−∑

1≤i≤n

log tl(si)!+ η∑1≤i<

∑j≤n

tl(si)tl(sj)

−η exp(κ)∑

1≤i≤n

tl(si)wi

]

·

[−η exp(κ)

∑1≤i≤n

tl(si)wi

]+

[ ∑1≤i≤n

tl(si)− η exp(κ)∑

1≤i≤n

tl(si)wi

]2

· exp

[κ∑

1≤i≤n

tl(si)−∑

1≤i≤n

log tl(si)!+ η∑1≤i<

∑j≤n

tl(si)tl(sj)

−η exp(κ)∑

1≤i≤n

tl(si)wi

]/m(φ; tl)

Page 111: TESIS_edgarSM

94

para η tendrıamos

∂2

∂η2lM(κ, η) = −

Ψ(κ, η) ∂2

∂η2Ψ(κ, η)−

[∂∂η

Ψ(κ, η)]2

[Ψ(κ, η)]2

donde

∂2

∂κ2Ψ(κ, η) =

1

M

M∑l=1

exp

[κ∑

1≤i≤n

tl(si)−∑

1≤i≤n

log tl(si)!+ η∑1≤i<

∑j≤n

tl(si)tl(sj)

−η exp(κ)∑

1≤i≤n

tl(si)wi

]

· [0] +

[∑1≤i<

∑j≤n

tl(si)tl(sj)− exp(κ)∑

1≤i≤n

tl(si)wi

]2

· exp

[κ∑

1≤i≤n

tl(si)−∑

1≤i≤n

log tl(si)!+ η∑1≤i<

∑j≤n

tl(si)tl(sj)

−η exp(κ)∑

1≤i≤n

tl(si)wi

]/m(φ; tl)

y por ultimo

∂κ∂ηLM(κ, η) = − exp(κ)

∑1≤i≤n

x(si)wi −

Ψ(κ, η) ∂

∂κ∂ηΨ(κ, η)− ∂

∂ηΨ(κ, η) ∂

∂κΨ(κ, η)

[Ψ(κ, η)]2

donde

Page 112: TESIS_edgarSM

95

∂κ∂ηΨ(κ, η) =

1

M

M∑l=1

exp

[κ∑

1≤i≤n

tl(si)−∑

1≤i≤n

log tl(si)!+ η∑1≤i<

∑j≤n

tl(si)tl(sj)

−η exp(κ)∑

1≤i≤n

tl(si)wi

]

·

[− exp(κ)

∑1≤i≤n

tl(si)wi

]+

[∑1≤i<

∑j≤n

tl(si)tl(sj)− exp(κ)∑

1≤i≤n

tl(si)wi

]

·

[κ∑

1≤i≤n

tl(si)−∑

1≤i≤n

log tl(si)!+ η∑1≤i<

∑j≤n

tl(si)tl(sj)− η exp(κ)∑

1≤i≤n

tl(si)wi

]

·

[ ∑1≤i≤n

tl(si)/− η exp(κ)∑

1≤i≤n

tl(si)wi

]

Page 113: TESIS_edgarSM

BIBLIOGRAFIA

[1] Bellio, R. and Varin, C. (2005). A pairwise likelihood approach to generalized linear

models with crossed random effects. Stat. Model. 5, 217-227.

[2] Besag, J. (1972). Nearest-neighbour systems and the auto-logistic model for binary data.

Journal of the Royal Statistical Society, B, 34, 75-83.

[3] Besag, J. (1974). Spatial interaction and the statistical analysis of lattice systems. Journal

of the Royal Statistical Society, B, 36, 192-236.

[4] Besag, J. (1975). Statistical analysis of non-lattice data. Statistician, 24:179-195.

[5] Besag, J. (1977). Efficiency of pseudolikelihood estimation for simple Gaussian fields,

Biometrika, 64, 616-618.

[6] Besag, J. (1986). On the statistical analysis of dirty pictures (with discussion), Journal

of the Royal Statistical Society, B, 48, 259-302.

[7] Bhat, C. R., Varin, C. and Ferdous, N. (2010). A comparison of the maximum simulated

likelihood and composite marginal likelihood estimation approaches in the context of

the multivariate ordered response model system. Advances in Econometrics: Maximum

Simulated Likelihood Methods and Applications 26, (Edited by W. H. Greene). Emerald

Group Publishing Limited.

[8] Castro, R., Coates, M., Liang, G., Nowak, R. and Yu, B. (2004). Network tomography:

recent developments. Statist. Sci. 19, 499-517.

Page 114: TESIS_edgarSM

BIBLIOGRAFIA 97

[9] Comets, F. (1992). On consistency of a class of estimators for exponential families of

Markov random fields on the lattice, Ann. Statist., 20, 455-468.

[10] Cox, D. R.(1975). Partial likelihood. Biometrika, 62, 269276.

[11] Cox, D. R. (1972). The analysis of multivariate binary data. Appl. Statist. 21, 113-120.

[12] Diggle, P. J., Fiksel, T., Grabarnik, P., Ogata, Y. , Stoyan, D. and Tanemura, M. (1994).

On parameter estimation for pairwise interaction poin processes, International Statistical

Review, 62, 99-117.

[13] Gao, X. and Song, P. X.-K. (2011). Composite likelihood EM algorithm with applications

to multivariate hidden Markov model. Statist. Sinica 21, ??-??.

[14] Gelman, A. and Rubin, D. B. (1992). Inference from iterative simulating using multiple

sequences. Statistical Science, 7, 457-511.

[15] Geyer, C. J. (1991). Markov chain Monte Carlo maximum likelihood. Computing Sci-

ence and Statistics: Proc. 23rd Symps. Interface (E. Keramidas, ed.) 156-163. Interface

Foundation.

[16] Geyer, C. J. and Thompson, E.A. (1992). Constraited Monte Carlo maximum likelihood

for dependent data. Journal of the Royal Statistical Society, B, 54, 657-699.

[17] Guyon, X. (1995). Random Fields on a Network: Modeling, Statistics and Applications,

Springer, New York.

[18] Guyon, X. and Kunsch, H. R. (1992). Asymptotic comparisonof estimators in the Ising

model, Stochastic Models, Statistical Methods, and Algorithms in Image Analysis, Lecture

Notes in Statist., 74, 177-198, Springer, Berlin.

[19] Hjort, N. and Varin, C. (2008). ML, PL, QL in Markov chain models. Scand. J. Statist.,

35, 64-82.

Page 115: TESIS_edgarSM

BIBLIOGRAFIA 98

[20] Huang, F. and Ogata, Y. (2002). Generalized pseudo-likelihood estimates for Markov

random fields on lattice. The Institute of Statistical Mathematics 54, 1-18.

[21] Jensen, J. L. and Kunsch, H. R. (1994). On asymptotic normality of pseudo likelihood

estimates for pairwise interaction processes, Ann, Inst. Statist. Math., 46, 475-486.

[22] Jensen, J. L. and Mφller, J. (1991). Pseudolikelihood for exponential family models of

spatial point processes, Ann, Appl. Probab., 1, 445-461.

[23] Joe, H. and Lee, Y. (2009). On weighting of bivariate margins in pairwise likelihood. J.

Multivariate Anal. 100, 670-685.

[24] Kaiser, M. S. (2007). Statistical dependence in Markov random field models. Department

of Statistics, Iowa State University.

[25] Kaiser, M. S. and Caragea P.C. (2007). Exploring dependence with data on spatial

lattices. Biometrics, 65, 857-865.

[26] Kaiser, M. S. and Cressie, N. (1997). Modeling Poisson variables with positive spatial

dependence. Statistics Probability Letters, 35, 423-432.

[27] Kaiser, M. S., Caragea, P. C. and Furukawa K. (2012). Centered parameterizations and

dependence limitations in Markov random field models. Journal of Statistical Planning

and Inference, 142, 1885-1863.

[28] Kalbfleisch, J. (1978). Likelihood methods and nonparametric tests. J. Amer. Statist.

Assoc. 73, 167-170.

[29] Kuk, A. and Nott, D. (2000). A pairwise likelihood approach to analyzing correlated

binary data. Statist. Probab. Lett. 47, 329-335.

[30] LeCessie, S. and van Houwelingen, J. C. (1994). Logistic regression for correlated binary

data. Appl. Statist. 43, 95-108.

Page 116: TESIS_edgarSM

BIBLIOGRAFIA 99

[31] Liang, K.-Y. (1987). Extended Mantel-Haenszel estimating procedurefor multivariate

logistic regression models. Biometrics, 43, 289-299.

[32] Liang, K.-Y. and Qin, J. (2000). Regression analysis under non-standard situations: a

pairwise pseudolikelihood approach. J. Roy. Statist. Soc. Ser. B 62, 773-786.

[33] Liang, G. and Yu, B. (2003). Maximum pseudo likelihood estimation in network tomog-

raphy. IEEE Trans. Signal Process. 51, 2043-2053.

[34] Lipsitz, S., Dear, K. and Zhao, L. (1994). Jackknife estimators of variance for param-

eter estimates from estimating equations with applications to clustered survival data.

Biometrics 50, 842-846.

[35] Mardia, K. V., Kent, J. T., Hughes, G. and Taylor, C. C. (2009). Maximum likelihood

estimation using composite likelihoods for closed exponential families. Biometrika 96,

975-982.

[36] Mase, S. (1995). Consistency of the maximum pseudo-likelihood estimator of continous

state space Gibbsian processes, Ann, Appl.Probab., 1, 445-461.

[37] Metropolis, N. and Ulam, S. (1949). The Monte Carlo Method. Journal of the American

Statistical Association 44, 335-341.

[38] McFadden, D. and Train, K. (2000). Mixed MNL models for discrete responses. J. Appl.

Econometrics 15, 447-470.

[39] McLachlan, G. and Krishnan, T. (2008). The EM Algorithm and Extensions. Second

Edition, Wiley, Hoboken, New Jersey.

[40] Molenberghs, G. and Verbeke, G. (2005). Models for Discrete Longitudinal Data.

Springer, New York.

[41] Varin, C. (2008). On composite marginal likelihoods. Adv. Statist. Anal., 92, 1-28.

Page 117: TESIS_edgarSM

BIBLIOGRAFIA 100

[42] Varin, C. and Czado, C. (2010). A mixed autoregressive probit model for ordinal longi-

tudinal data. Biostatistics 11, 127-138.

[43] Varin, C., Høst, G. and Skare, Ø. (2005). Pairwise likelihood inference in spatial gener-

alized linear mixed models. Comput. Statist. Data Anal. 49, 1173-1191.

[44] Varin, C. and Vidoni, P. (2005). A note on composite likelihood inference and model

selection. Boimetrika, 92, 519-528.

[45] Varin, C., Reid, N. and Firth, D. (2011). An overview of composite likelihood methods.

Statistica Sinica, 21, 0-0.

[46] Zhao, Y. and Joe, H. (2005). Composite likelihood estimation in multivariate data anal-

ysis. Canad. J. Statist. 33, 335-356.

[47] Zi, J. (2009). On some aspects of composite likelihood. PhD thesis, University of Toronto.

Andersen, E. (2004). Composite likelihood and two-stage estimation in family studies. Bio-

statistics 5, 15-30.

Arnold, B., Castillo, E. and Sarabia, J. (2001). Conditionally specified distributions: An

introduction. Statist. Sci. 16, 249-274.

Augustin, N. H., McNicol, J. and Marriot, C. A. (2004). Using the truncated auto-Poisson

model for spatially correlated count of vegetation. Journal of Agricultural, Biological, and

Environmental Statistics, 11, 1-23.

Bellio, R. and Varin, C. (2005). A pairwise likelihood approach to generalized linear models

with crossed random effects. Stat. Model. 5, 217-227.

Besag, J. (1972). Nearest-neighbour systems and the auto-logistic model for binary data.

Journal of the Royal Statistical Society, B, 34, 75-83.

Besag, J. (1974). Spatial interaction and the statistical analysis of lattice systems. Journal

of the Royal Statistical Society, B, 36, 192-236.

Page 118: TESIS_edgarSM

BIBLIOGRAFIA 101

Besag, J. (1975). Statistical analysis of non-lattice data. Statistician, 24:179-195.

Besag, J. (1977). Efficiency of pseudolikelihood estimation for simple Gaussian fields, Biometri-

ka, 64, 616-618.

Besag, J. (1986). On the statistical analysis of dirty pictures (with discussion), Journal of

the Royal Statistical Society, B, 48, 259-302.

Bhat, C. R., Sener, P. N. and Eluru, N. (2010). A flexible spatially dependent discrete choice

model: Formulation and application to teenagers weekday recreational activity participation.

Transportation Research Part B 44, 903-921.

Bhat, C. R., Varin, C. and Ferdous, N. (2010). A comparison of the maximum simulated

likelihood and composite marginal likelihood estimation approaches in the context of the

multivariate ordered response model system. Advances in Econometrics: Maximum Simu-

lated Likelihood Methods and Applications 26, (Edited by W. H. Greene). Emerald Group

Publishing Limited.

Caiafa, C. F. (1996). Procesos aleatorios bidimensionales: su aplicacion al procesamiento de

imagenes. Tesis Ingenierıa Electronica, Universidad de Buenos Aires.

Caragea, P. and Smith, R. L. (2006). Approximate likelihoods for spatial processes. Preprint.

Caragea, P. and Smith, R. L. (2007). Asymptotic properties of computationally efficient

alternative estimators for a class of multivariate normal models. J. Multivariate Anal., 98,

1417-1440.

Casella, G. and Berger, R. L. (2002). Statistical inference. Thomson Learning.

Castro, R., Coates, M., Liang, G., Nowak, R. and Yu, B. (2004). Network tomography: recent

developments. Statist. Sci. 19, 499-517.

Chandler, R. E. and Bate, S. (2007). Inference for clustered data using the independence

log-likelihood. Biometrika, 94, 167-183.

Page 119: TESIS_edgarSM

BIBLIOGRAFIA 102

Claeskens, G. and Hjort, N. (2008). Model Selection and Model Averaging, Cambridge Uni-

versity Press, Cambridge.

Comets, F. (1992). On consistency of a class of estimators for exponential families of Markov

random fields on the lattice, Ann. Statist., 20, 455-468.

Cressie, N. A. C. (1993). Statistics for spatial data. Wiley, New York.

Cox, D. R.(1975). Partial likelihood. Biometrika, 62, 269276.

Cox, D. R. (1972). The analysis of multivariate binary data. Appl. Statist. 21, 113-120.

Cox, D. R. and Reid, N. (2004). A note on pseudolikelihood constructed from marginal

densities. Biometrika, 91, 729-737.

Curriero, F. and Lele, S. (1999). A composite likelihood approach to semivariogram estima-

tion. J. Agric. Biol. Environ. Stat., 4, 9-28.

Davison, A. and Gholamrezaee, M. (2009). Geostatistics of extremes. Technical report, EPFL.

Preprint.

Dempster, A., Laird, N. and Rubin, D. (1977). Maximum likelihood from incomplete data

via the EM algorithm. J. Roy. Statist. Soc. Ser. B 39, 1-22.

Diggle, P. and Ribeiro, P. (2007). Model-based Geostatistics. Springer, New York.

Diggle, P. J., Fiksel, T., Grabarnik, P., Ogata, Y. , Stoyan, D. and Tanemura, M. (1994). On

parameter estimation for pairwise interaction poin processes, International Statistical Review,

62, 99-117.

Dillon, J. V. and Lebanon, G. (2010).Stochastic composite likelihood. Journal of Machine

Learning Reseach, 11, 2597-2633.

Engle, R. F., Shephard, N. and Sheppard, K. (2009). Fitting and testing vast dimensional

time-varying covariance models. Preprint.

Page 120: TESIS_edgarSM

BIBLIOGRAFIA 103

Fieuws, S. and Verbeke, G. (2006). Pairwise fitting of mixed models for the joint modeling

of multivariate longitudinal profiles. Biometrics 62, 424-431.

Fieuws, S., Verbeke, G., Boen, G. and Delecluse, C. (2006). High dimensional multivariate

mixed models for binary questionnaire data. Appl. Statist. 55, 449-460.

Fieuws, S., Verbeke, G., Maes, B. and Vanrenterghem, Y. (2007). Predicting renal graft

failure using multivariate longitudinal profiles. Biostatistics 9, 419-431.

Fieuws, S., Verbeke, G. and Molenberghs, G. (2007). Random-effects models for multivariate

repeated measures. Statist. Meth. Medical Res. 16, 387-397.

Fiocco, M., Putter, H. and van Houwelingen, J. C. (2009). A new serially correlated gam-

mafrailty process for longitudinal count data. Biostatistics 10, 245-257.

Fearnhead, P. and Donnelly, P. (2002). Approximate likelihood methods for estimating local

recombination rates. Journal of the Royal Statistical Society, B, 657-680.

Fujii, Y. and Yanagimoto, T. (2005). Pairwise conditional score functions: a generalization

of the Mantel-Haenszel estimator. J. Statist. Plann. Inference, 128, 1-12.

Furukawa, K. (2004). Development of Markov Random Field Models Based on Exponen-

tial Family Conditional Distributions, Unpublished PhD. dissertation, Iowa State University,

Ames, Iowa.

Gaetan, C. and Guyon, X. (2010). Spatial Statistics and Modeling. Springer.

Galambos, J. (1988). Truncation methods in probability theory. In:S. Kotz, N.L. Jhonson

(Eds.), Encyclopedia of Statistical Sciences, Wiley, New York, pp. 355-357.

Gao, X. and Song, P. X.-K. (2010). Composite likelihood Bayesian information criteria for

model selection in high dimensional data. J. Amer. Statist. Assoc., to appear.

Gao, X. and Song, P. X.-K. (2011). Composite likelihood EM algorithm with applications to

multivariate hidden Markov model. Statist. Sinica 21, ??-??.

Page 121: TESIS_edgarSM

BIBLIOGRAFIA 104

Gelman, A. and Rubin, D. B. (1992). Inference from iterative simulating using multiple

sequences. Statistical Science, 7, 457-511.

Geman, S. and Geman, D. (1984). Stochastic Relaxation, Gibbs Distributions and the Bayesian

Restoration of Images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 6,

721-741.

Geyer, C. J. (1991). Markov chain Monte Carlo maximum likelihood. Computing Science and

Statistics: Proc. 23rd Symps. Interface (E. Keramidas, ed.) 156-163. Interface Foundation.

Geyer, C. J. (1992). Practical Markov chain Monte Carlo. Statistical Science, 7, 473-483.

Geyer, C. J. (1994). On the convergence of Monte Carlo maximum likelihood calculations.

Journal of the Royal Statistical Society, B, 56, 261-274.

Geyer, C. J. and Thompson, E.A. (1992). Constraited Monte Carlo maximum likelihood for

dependent data. Journal of the Royal Statistical Society, B, 54, 657-699.

Geys, H., Molenberghs, G. and Ryan, L. (1999). Pseudolikelihood modeling of multivariate

outcomes in developmental toxicology. J. Amer. Statist. Assoc. 94, 734-745.

Glasbey, C. (2001). Non-linear autoregressive time series with multivariate Gaussian mixtures

as marginal distributions. Appl. Statist., 50, 143-154.

Godambe, V. (1960). An optimum property of regular maximum likelihood estimation.

Ann.Math. Statist. 31, 1208-1211.

Gong, G. and Samaniego, F. J. (1981). Pseudo maximum likelihood estimation: theory and

applications. The Annals of Statistics, 9, 861-869.

Gourieroux, C., Monfort, A. and Trognon, A. (1984). Pseudo maximum likelihood methods.

Econometrica, 52, 681-700.

Gourieroux, C., Monfort, A. and Trognon, A. (1984). Pseudo maximum likelihood methods:

applications to Poisson models. Econometrica, 52, 701-720.

Page 122: TESIS_edgarSM

BIBLIOGRAFIA 105

Greene, W. H. (2002). Econometric analysis. Prentice Hall, New Jersey.

Goulard, M., Sarkka, A. and Grabarnik, P. (1996). Parameter estimationfor marked Gibbs

point processes through the maximum pseudolikelihood method, Scandinavian Journal of

Statistics, 23, 365-379.

Gu, M. G. and Zhu, H. (2001). Maximum likelihood estimation for spatial models by Markov

chain Monte Carlo stochastic approximation. Journal of the Royal Statistical Society, B, 63,

339-355.

Guyon, X. (1995). Random Fields on a Network: Modeling, Statistics and Applications,

Springer, New York.

Guyon, X. and Kunsch, H. R. (1992). Asymptotic comparisonof estimators in the Ising model,

Stochastic Models, Statistical Methods, and Algorithms in Image Analysis, Lecture Notes in

Statist., 74, 177-198, Springer, Berlin.

Hairston, N. G., Hill, R. and Ritte, U. (1971). The interpretation of aggregation patterns. In:

Patil, G.P., Pileou, E.C. and Waters, W.E. eds. Statistical Ecology 1: Spatial Patterns and

Statistical Distributions. Penn State Univ. Press, University Park.

Hammersley, J. M. and Clifford, P. (1971). Markov fields on finite graphs and lattices (un-

published).

Hanfelt, J. (2004). Composite conditional likelihood for sparse clustered data. J. Roy. Statist.

Soc. Ser., B 66, 259-273.

Hastings, W. K. (1970). Monte Carlo sampling methods using Markov chains and their

applications. Biometrika, 57, 97-109.

Heagerty, P. J. and Lele S. R. (1998). A composite likelihood approach to binary spatial data.

Journal of the American Statistical Association, 93, 1099-1111.

Page 123: TESIS_edgarSM

BIBLIOGRAFIA 106

Henderson, R. and Shimakura, S. (2003). A serially correlated gamma frailty model for lon-

gitudinal count data. Biometrika, 90, 335-366.

Hjort, N. and Omre, H. (1994). Topics in spatial statistics (with discussion, comments and

rejoinder). Scand. J. Statist., 21, 289-357.

Hjort, N. and Varin, C. (2008). ML, PL, QL in Markov chain models. Scand. J. Statist., 35,

64-82.

Huang, F. and Ogata, Y. (2002). Generalized pseudo-likelihood estimates for Markov random

fields on lattice. The Institute of Statistical Mathematics 54, 1-18.

Hughes, J., Haran, M. and Caragea, P. C. (2011). Autologistic models for binary data on a

lattice. Environmetrics, 22, 857-871.

Jackson, M. C. and Flagg, K. (2008). Simulating discrete spatially correlated Poisson data

on a lattice. International Journal of Pure and Applied Mathematics, 46, 137-154.

Jensen, J. L. and Kunsch, H. R. (1994). On asymptotic normality of pseudo likelihood esti-

mates for pairwise interaction processes, Ann, Inst. Statist. Math., 46, 475-486.

Jensen, J. L. and Mφller, J. (1991). Pseudolikelihood for exponential family models of spatial

point processes, Ann, Appl. Probab., 1, 445-461.

Joe, H. and Lee, Y. (2009). On weighting of bivariate margins in pairwise likelihood. J.

Multivariate Anal. 100, 670-685.

Kaiser, M. S. (2007). Statistical dependence in Markov random field models. Department of

Statistics, Iowa State University.

Kaiser, M. S. and Caragea P.C. (2007). Exploring dependence with data on spatial lattices.

Biometrics, 65, 857-865.

Kaiser, M. S. and Cressie, N. (1997). Modeling Poisson variables with positive spatial depen-

dence. Statistics Probability Letters, 35, 423-432.

Page 124: TESIS_edgarSM

BIBLIOGRAFIA 107

Kaiser, M. S., Caragea, P. C. and Furukawa K. (2012). Centered parameterizations and

dependence limitations in Markov random field models. Journal of Statistical Planning and

Inference, 142, 1885-1863.

Kalbfleisch, J. (1978). Likelihood methods and nonparametric tests. J. Amer. Statist. Assoc.

73, 167-170.

Kent, J. (1982). Robust properties of likelihood ratio tests. Biometrika 69, 19-27.

Kindermann, R. and Snell, J.L. (1980). Markov random fields and their applications. Amer-

ican Mathematical Society, 1.

Kroese, D. P., Taimre, T. and Botev, Z. (2011). Handbook of Monte Carlo methods. Wiley.

Kuk, A. and Nott, D. (2000). A pairwise likelihood approach to analyzing correlated binary

data. Statist. Probab. Lett. 47, 329-335.

Kuonen, D. (1999). Saddlepoint approximations for distributions of quadratic forms in normal

variables. Biometrika 86, 929-935.

LeCessie, S. and van Houwelingen, J. C. (1994). Logistic regression for correlated binary data.

Appl. Statist. 43, 95-108.

Lele, S. and Taper, M. (2002). A composite likelihood approach to (co)variance components

estimation. J. Statist. Plann. Inference, 103, 117-135.

Liang, K.-Y. (1987). Extended Mantel-Haenszel estimating procedurefor multivariate logistic

regression models. Biometrics, 43, 289-299.

Liang, K.-Y. and Qin, J. (2000). Regression analysis under non-standard situations: a pairwise

pseudolikelihood approach. J. Roy. Statist. Soc. Ser. B 62, 773-786.

Liang, G. and Yu, B. (2003). Maximum pseudo likelihood estimation in network tomography.

IEEE Trans. Signal Process. 51, 2043-2053.

Page 125: TESIS_edgarSM

BIBLIOGRAFIA 108

Liang, K.-Y. and Zeger, S. (1986). Longitudinal data analysis using generalized linear models.

Biometrika 73, 13-22.

Lindsay, B. G. (1982). Conditional score functions: some optimality results. Biometrika

69,503-512.

Lindsay, B. G. (1988). Composite likelihood methods. Contemporary Mathematics, 80, 220-

239.

Lindsay, B. G., Yi, G. Y. and Sun, J.. (2011). Issues and strategies in the selection of com-

posite likelihoods. Statistica Sinica, 21, 71105.

Lindsay, B. G., Pilla, R. S. and Basak, P. (2000). Moment-based approximations of distribu-

tions using mixtures: theory and application. Ann. Inst. Statist. Math. 52, 215-230.

Lipsitz, S., Dear, K. and Zhao, L. (1994). Jackknife estimators of variance for parameter

estimates from estimating equations with applications to clustered survival data. Biometrics

50, 842-846.

Lumley, T. and Heagerty, P. (1999). Weighted empirical adaptive variance estimators for

correlated data regression. J. Roy. Statist. Soc. Ser. B 61, 459-477.

Mardia, K. V., Hughes, G., Taylor, C. C. and Singh, H. (2008). A multivariate von Mises

distribution with applications to bioinformatics. Canadian Journal of Statistics, 36, 99-109.

Mardia, K. V., Kent, J. T., Hughes, G. and Taylor, C. C. (2009). Maximum likelihood

estimation using composite likelihoods for closed exponential families. Biometrika 96, 975-

982.

Mase, S. (1995). Consistency of the maximum pseudo-likelihood estimator of continous state

space Gibbsian processes, Ann, Appl.Probab., 1, 445-461.

Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H. and Teller, E. (1953).

Equations of State Calculations by Fast Computing Machines. Journal of Chemical Physics,

Page 126: TESIS_edgarSM

BIBLIOGRAFIA 109

21, 1087-1092.

McFadden, D. and Train, K. (2000). Mixed MNL models for discrete responses. J. Appl.

Econometrics 15, 447-470.

McLachlan, G. and Krishnan, T. (2008). The EM Algorithm and Extensions. Second Edition,

Wiley, Hoboken, New Jersey.

Molenberghs, G. and Verbeke, G. (2005). Models for Discrete Longitudinal Data. Springer,

New York.

Pace, L., Salvan, A. and Sartori, N. (2011). Adjusting composite likelihood ratio statistics.

Statist. Sinica 21, ??-??.

Padoan, S., Ribatet, M. and Sisson, S. (2010). Likelihood-based inference for max-stable

processes. J. Amer. Statist. Assoc. 105, 263-277.

Parke, W. R. (1986). Pseudo maximum likelihood estimation: the asymptotic distribution.

The Annals of Statistics, 14, 355-357.

Parner, E. T. (2001). A Composite Likelihood Approach to Multivariate Survival Data.

Scandinavian Journal of Statistics, 28, 295-302.

Parzen, M., Lipsitz, S., Fitzmaurice, G., Ibrahim, J. and Troxel, A. (2006). Pseudo-likelihood

methods for longitudinal binary data with non-ignorable missing responses and covariates.

Statist. Medicine 25, 2784-2796.

Parzen, M., Lipsitz, S., Fitzmaurice, G., Ibrahim, J., Troxel, A. and Molenberghs, G. (2007).

Pseudo-likelihood methods for the analysis of longitudinal binary data subject to nonignor-

able non-monotone missingness. J. Data Sci. 5, 1-21.

Renard, D., Molenberghs, G. and Geys, H. (2004). A pairwise likelihood approach to estima-

tion in multilevel probit models. Comput. Statist. Data Anal., 44, 649-667.

Reid, N. (2000). Likelihood. Journal of the American Statistical Association, 452, 1335-1340.

Page 127: TESIS_edgarSM

BIBLIOGRAFIA 110

Reid, N. and Xu, X. (2011). On the robustness of maximum composite likelihood estimate.

Journal of Statistical Planning and Inference, 141, 3047-3054.

Ribatet, M. (2009). A Users Guide to the SpatialExtremes Package. EPFL, Lausanne, Switzer-

land.

Robins, J. (1995). Analysis of semiparametric regression models for repeated outcomes in the

presence of missing data. J. Amer. Statist. Assoc. 90, 106-121.

Rotnitzky, A. and Jewell, N. (1990). Hypothesis testing of regression parameters in semi-

parametric generalized linear models for cluster correlated data. Biometrika 77, 485-497.

Satterthwaite, F. E. (1946). An approximate distribution of estimates of variance compo-

nents.Biometrics Bulletin 2, 110-114.

Sherman, M., Apanasovich, T. V. and Carroll, R. J. (2006). On estimation in binary autol-

ogistic spatial models. Journal of Statistical Computation and Simulation, 76, 167-179.

Smith, E. and Stephenson, A. (2009). An extended Gaussian max-stable process model for

spatial extremes. J. Statist. Plann. Inference 139, 1266-1275.

Smith, R. (1990). Max-stable processes and spatial extremes. Unpublished.

Spitzer, F. (1971). Markov random fields and Gibbs ensembles. Amer. Math. Monthly, 78,

142-1 54.

Stein, M., Chi, Z. and Welty, L. (2004). Approximating likelihoods for large spatial data sets.

J. Roy. Statist. Soc. Ser., B 66, 275-296.

Stigler, S. M. (2007). The epic story of maximum likelihood. Statistic Science, 4, 598–620.

Tibaldi, F., Molenberghs, G., Burzykowski, T. and Geys, H. (2004). Pseudo-likelihood esti-

mation for a marginal multivariate survival model. Statist. Medicine 23, 924-963.

Page 128: TESIS_edgarSM

BIBLIOGRAFIA 111

Troxel, A., Lipsitz, S. and Harrington, D. (2003). Marginal models for the analysis of longitu-

dinal measurements with nonignorable non-monotone missing data. Biometrika 85, 661-672.

Varin, C. (2008). On composite marginal likelihoods. Adv. Statist. Anal., 92, 1-28.

Varin, C. and Czado, C. (2010). A mixed autoregressive probit model for ordinal longitudinal

data. Biostatistics 11, 127-138.

Varin, C., Høst, G. and Skare, Ø. (2005). Pairwise likelihood inference in spatial generalized

linear mixed models. Comput. Statist. Data Anal. 49, 1173-1191.

Varin, C. and Vidoni, P. (2005). A note on composite likelihood inference and model selection.

Boimetrika, 92, 519-528.

Varin, C., Reid, N. and Firth, D. (2011). An overview of composite likelihood methods.

Statistica Sinica, 21, 0-0.

Vecchia, A. V. (1988). Estimation and model identification for continuous spatial processes.

J. Roy. Statist. Soc. Ser. B 50, 297-312.

Wang, M. and Williamson, J. M. (2005). Generalization of the Mantel-Haenszel estimating

function for sparse clustered binary data. Biometrics, 61, 973-981.

Wang, Y. and Ip, E. (2008). Conditionally specified continuous distributions. Biometrika 95,

735-746.

White, H. (1994). Estimation, Inference and Specification Analysis. Cambridge University

Press, Cambridge.

Xu, X. (2012). Aspects of composite likelihood estimationand prediction. PhD thesis, Uni-

versity of Toronto.

Yi, G. Y., Zeng, L. and Cook, R. J. (2009). A robust pairwise likelihood method for incomplete

longitudinal binary data arising in clusters. Canad. J. Statist., to appear.

Page 129: TESIS_edgarSM

BIBLIOGRAFIA 112

Zhao, L. P. and Prenctice, R. L. (1990). Correlated binary regression using a quadratic

exponential model. Biometrika 77, 642-648.

Zhao, Y. and Joe, H. (2005). Composite likelihood estimation in multivariate data analysis.

Canad. J. Statist. 33, 335-356.

Zi, J. (2009). On some aspects of composite likelihood. PhD thesis, University of Toronto.