Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Topicos en Series de Tiempo
Propiedades y Estimacion QML
TOPICOS EN SERIES DE TIEMPOPropiedades y Estimacion QML
NORMAN GIRALDO GOMEZProfesor AsociadoEscuela de EstadısticaUniversidad Nacional de ColombiaMedellın
Universidad Nacional de ColombiaMedellín
Copyright c©2011 Norman Diego Giraldo Gómez.
Notaría 6. Folio 23 de Noviembre 2010
Primera Edición
ISBN 2340671110
No está permitido reproducir esta publicación o transmitirla por cualquier forma o medio, electrónico, mecánico, fotocopiado, escaneo
ó de otro tipo excepto para citas cortas, sin el permiso del Autor.
Centro de Documentación Rafael Botero, UN Medellín
Topicos en Series de Tiempo / Norman Diego Giraldo Gomez.
p. cm.—(Coleccion Notas de Clase)
“Universidad Nacional de Colombia."
Incluye referencias bibliograficas e ındice.
ISBN 0000000000 (pbk.)
1. Probabilidades—Teorıa. 2. Matematicas
Ciencias—Investigacion—Teorıa. I. Giraldo, Norman D. II. Series.
519.2
G897c
Diagramación en LaTeX.
Impresión:
Editorial ...
Indice general
1. Desigualdades y Modos de Convergencia 3
1.1. Espacio Muestral y Sigma Algebras . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Variables Aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4. Modos de Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5. Propiedades de la Convergencia en Distribucion. . . . . . . . . . . . . . . . . . 17
1.6. Sımbolos O(·) y o(·) Estocasticos . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7. Metodo Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.8. Propiedades de la Convergencia en Media Cuadratica. . . . . . . . . . . . . . . . 21
1.9. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2. Procesos Estacionarios 27
2.1. Definicion de Proceso Estocastico . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2. Propiedades de las funciones de Autocovarianza . . . . . . . . . . . . . . . . . 30
2.3. Procesos Gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4. Procesos Estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5. Densidad Espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
v
vi
2.6. Causalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.7. Ejemplos de Procesos Estacionarios en Covarianza . . . . . . . . . . . . . . . . 39
2.8. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3. Procesos Estacionarios Estrictos 45
3.1. Procesos Estacionarios Estrictos . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2. Ergodicidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4. Diferencias Martingalas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4. Procesos ARMA 53
4.1. Procesos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2. Analisis de algunos procesos ARMA . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.1. Procesos MA(q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.2. Proceso AR(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.3. Proceso ARMA(1,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3. Estimacion Noparametrica de la Funcion de Autocorrelacion . . . . . . . . . . . 61
4.4. Estimacion de Procesos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.4.1. Estimacion por el Metodo YuleWalker . . . . . . . . . . . . . . . . . . 64
4.4.2. Estimacion por el Metodo de Maxima Verosimilitud . . . . . . . . . . . 64
5. Procesos tipo GARCH 65
5.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2. Caracterısticas Empıricas de los Rendimientos de Activos Financieros . . . . . . 66
5.3. Modelos para la Distribucion de los Rendimientos . . . . . . . . . . . . . . . . . 67
5.3.1. Distribucion Normal Inversa Gaussiana NIG . . . . . . . . . . . . . . . 67
5.3.2. Distribucion GED Asimetrica . . . . . . . . . . . . . . . . . . . . . . . 68
5.3.3. Distribucion t de Student Asimetrica . . . . . . . . . . . . . . . . . . . . 69
5.4. Procesos ARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
vii
5.5. Procesos GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.6. Procesos APARCH y GJR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.7. Procesos EGARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.8. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6. Modelos de Volatilidad Estocastica 83
6.1. Modelo de Volatilidad Estocastica Asimetrico . . . . . . . . . . . . . . . . . . . 84
6.2. Relacion entre los modelos SV y GARCH . . . . . . . . . . . . . . . . . . . . . 86
7. Estimadores QML 89
7.1. Consistencia y Normalidad Asintotica . . . . . . . . . . . . . . . . . . . . . . . 92
7.1.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.1.2. Normalidad Asintotica . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.2. Estimacion de Procesos GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . 95
7.3. Estimacion de Procesos APARCH . . . . . . . . . . . . . . . . . . . . . . . . . 96
8. Metodo Generalizado de Momentos 99
8.1. Metodo de Estimacion de Momentos Generalizado(GMM) . . . . . . . . . . . . 99
8.1.1. Condiciones de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 100
8.1.2. Propiedades Asintoticas . . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.1.3. Eficiencia Asintotica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
8.1.4. Algoritmo para hallar θT . . . . . . . . . . . . . . . . . . . . . . . . . . 104
8.1.5. Prueba de Sobreidentificacion . . . . . . . . . . . . . . . . . . . . . . . 106
8.2. Estimacion GMM de un Modelo de Volatilidad Estocastica Asimetrico . . . . . . 106
8.2.1. Simulaciones Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . 111
9. Metodo de Momentos Simulados 117
9.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
9.2. Condiciones para Consistencia debil del SMM . . . . . . . . . . . . . . . . . . . 118
9.2.1. Condicion adicional para Consistencia fuerte del SMM . . . . . . . . . 120
viii
9.3. Condicion para Normalidad Asintotica . . . . . . . . . . . . . . . . . . . . . . . 120
9.4. Algorıtmo para hallar θT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
10. El Metodo Eficiente de Momentos 123
10.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
10.2. El Procedimiento de Estimacion EMM . . . . . . . . . . . . . . . . . . . . . . . 124
10.3. Seleccion del Modelo Auxiliar . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
10.4. Estimacion EMM en el modelo de Volatilidad Estocastica . . . . . . . . . . . . . 129
10.5. Notas sobre GMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Bibliografıa 136
Indice alfabetico 136
2
CAPITULO 1
Desigualdades y Modos de Convergencia
1.1. Espacio Muestral y Sigma Algebras
Definicion 1.1.1. Espacio Muestral Ω es el conjunto de todos los resultados w del experimento
aleatorio de interes, con ω ∈ Ω ⇐⇒ ω es un posible resultado aleatorio .
Definicion 1.1.2. Una σalgebraF sobre Ω es una coleccion de subconjuntos de Ω que satisfacen
las siguientes condiciones:
1. Ω ∈ F
2. A ∈ F ⇒ Ac ∈ F
3. Si A1, A2, · · · es una sucesion de elementos de F entonces∞⋃i=1
Ai ∈ F .
Los subconjuntos de Ω que estan en F se llaman eventos. Luego A ∈ F equivale a afirmar que A
es un evento y A ⊆ Ω .
Definicion 1.1.3. Una probabilidad P(.) es una funcion P : F −→ [0, 1] que cumple las condi
ciones:
1. P(Ω) = 1
2. P(φ) = 0
3
4
3. Si A1, A2, · · · es una sucesion de eventos mutuamente disjuntos, es decir,
Ai ∩Aj = φ, para i 6= j, entonces:
P
(∞⋃
i=1
Ai
)=
∞∑
i=1
P(Ai).
Es preferible referirse a P(.) como la medida de probabilidad asociada a los eventos. Algunas
propiedades de P(.) se enuncian a continuacion.
Proposicion 1.1.1. Suponga que P es una probabilidad sobre una σalgebraF y que todaA es un
evento, entonces las siguientes propiedades son consecuencia de las propiedades en la definicion
(1.1.3).
1. P(Ac) = 1 − P(A).
2. Si A1 ⊂ A2 entonces P(A1) ≤ P(A2).
3. P (⋃∞
i=1Ai) ≤∑∞
i=1 P(Ai).
4. Si An, n = 1, 2, . . . es una sucesion creciente de eventos, An ⊆ An+1, entonces se cumple
que P (⋃∞
i=1Ai) = lımn→∞ P(An).
5. SiAn, n = 1, 2, . . .es una sucesion decreciente de eventos,An ⊇ An+1, entonces se cumple
que P (⋂∞
i=1Ai) = lımn→∞ P(An).
Ejemplo 1.1.1. Considere una sucesion de eventos An, n = 1, 2, . . ..
1. El evento que consiste en la ocurrencia de un numero infinito de eventos An se denota por
lım supn→∞An y se define como⋂∞
n=1
⋃∞k=n Ak . La sucesion de eventos Bn =
⋃∞k=nAk
es decreciente. Luego
P(lım supn→∞
An) = lımn→∞
P(Bn). (1.1)
2. El evento que consiste en la ocurrencia de todos menos un numero finito de eventos An
se denota por lım infn→∞ An y se define como⋃∞
n=1
⋂∞k=n Ak. La sucesion de eventos
Cn =⋂∞
k=n Ak es creciente. Luego
P(lım infn→∞
An) = lımn→∞
P(Cn). (1.2)
Lema 1.1.1. (Lemas BorelCantelli) Considere una sucesion de eventos An, n = 1, 2, . . ..
(i)
∞∑
j=1
P(Aj) <∞ ⇒ P(lım supn→∞
An) = 0. (1.3)
(ii)
∞∑
j=1
P(Aj) = ∞ y los An son independientes ⇒ P(lım supn→∞
An) = 1. (1.4)
5
Demostracion. (ver Grimmett and Stirzaker (1994), pag. 288)
Para la parte (i). Por la definicion lım supn→∞ An =⋂∞
n=1 Bn, con Bn =⋃∞
k=n Ak sucesion
decreciente. Entonces lım supn→∞An ⊆ Bn, para todon. Luego P(lım supn→∞ An) ≤ P(Bn) ≤∑∞k=n P(Ak) → 0, n→ ∞, ya que
∑∞k=1 P(Ak) <∞.
Para la parte (ii). Denote Ac = (lım supn→∞An)c. Entonces Ac =⋃∞
n=1
⋂∞k=n A
ck. La sucesion⋂m
k=n Ack, m = n, n+ 1, . . . es decreciente en m y por tanto
P
( ∞⋂
k=n
Ack
)= lım
m→∞P(
m⋂
k=n
Ack)
=
∞∏
k=n
(1− P(Ak)), por independencia
≤∞∏
k=n
e−P(Ak ), ya que 1 − x ≤ e−x, x ≥ 0,
= exp
(−
∞∑
k=n
P(Ak)
)= 0.
Por tanto, P(Ac) ≤∑∞n=1 P (
⋂∞k=n A
ck) = 0, y P(A) = 1.
Los tres elementos (Ω,F , P) se asumen dados con relacion a un experimento de interes. Es evidente
que F ⊆ P(Ω), donde P(Ω) es el conjunto de partes de Ω. Sin embargo, la σalgebra no se toma
en general igual a P(Ω) sino que se asume que es un conjunto mas pequeno, concretamente se
asume que contiene solamente los eventos que interesan con respecto al experimento aleatorio
en consideracion. Un conjunto N tal que N ∈ P(Ω) − F no se considera un evento y no tiene
probabilidad asignada.
Definicion 1.1.4. Si A ∈ F y P(A) = 0 se dice queA es un evento nulo. Si A ∈ F y P(A) = 1 se
dice que A es un evento casi seguro.
Se asumira siempre que si A es un evento nulo y B ⊂ A entonces B ∈ F y como P(B) ≤ P(A),
se debe cumplir que P(B) = 0.
Ejemplo 1.1.2. Pueden haber varias σalgebra sobre un mismo conjunto Ω.
1. Si A ∈ F entonces la coleccion A1 = φ,Ω, A, Ac es una σalgebra que esta contenida
en F .
2. Si A,B ∈ F la coleccion
A2 = φ,Ω, A, B, Ac, Bc, A∪ B,AB,Ac ∪ Bc, AcBc, AcB,Ac ∪B,ABc, A ∪Bc
es una σalgebra contenida en F
6
Note que A1 ⊂ A2 ⊂ F y que A1 es la menor σalgebra que contiene la coleccion A, y A2 es
la menor σalgebra que contiene la coleccion A,B.
Teorema 1.1.1. Dada una coleccion de eventos A = A,B, · · · ⊆ F siempre existe una σ
algebra mınima que la contiene, la σalgebra generada por A, σ(A).
Demostracion. Defina el conjunto de todas las σalgebras que contienen la coleccion A como
C(A). No es vacıo porque P(Ω) esta ahı. Luego como la interseccion de una coleccion cualquiera
de σalgebras es de nuevo una σalgebra, se puede definir σ(A) como la interseccion de todas las
σalgebras que contienen a A.
Por ejemplo, si se considera una sucesion de eventos (An, n = 1, 2, . . .), se pueden definir las
sigma algebras Fn = σ(⋃n
j=1 Aj). Entonces se tiene Fn ⊆ Fn+1, y la sigmaalgebra de interes
con relacion a todos los eventos definidos con la sucesion (An, n = 1, 2, . . .) es F = σ(⋃∞
j=1 Aj).
Definicion 1.1.5 ( σalgebra de Borel en R ). Si tomamos Ω = R y la coleccion de subconjuntos es
A = (−∞, a] : a ∈ R es decir la coleccion de todos los semi intervalos cerrados a la derecha,
entonces la σalgebra generada por esta coleccion se denomina σalgebra de Borel, y se denota
por B1 = σ ((−∞, a]; a ∈ R)
Notese que se cumple lo siguiente:
1. R ∈ B1 , φ ∈ B1
2. Si a < b, entonces (−∞, a] , (−∞, b] ∈ B1 luego (−∞, a]c = (a,∞) ∈ B1 y (a,∞) ∩(−∞, b] = (a, b] ∈ B1
3. Cualquier intervalo real esta en B1
Definicion 1.1.6 ( σalgebra de Borel en R2 ). Si tomamos Ω = R2 y
A = (−∞, a] × (−∞, b] : a, b ∈ R
entonces la σalgebra generada por A se llama la σalgebra de Borel en R2 y se denota por
B2 = σ ((−∞, a] × (−∞, b] : a, b ∈ R).
Tenemos que se cumple: R2 ∈ B2 y tambien (−∞, a]× R ∈ B2
Definicion 1.1.7 ( σalgebra de Borel en Rn ). Si tomamos Ω = Rn y
A = (−∞, a1]× · · · × (−∞, an] : a1, · · ·an ∈ R
entonces la σalgebra generada por A se denomina la σalgebra de Borel en Rn y se denota por
Bn = σ ((−∞, a1] × · · · × (−∞, an] : a1, · · ·an ∈ R).
Se cumple Rn ∈ Bn y ademas tambien conjuntos de la forma (−∞, a]× Rn−1 , a ∈ R.
7
1.2. Variables Aleatorias
Definicion 1.2.1. (Variable Aleatoria) Una variable aleatoria es una funcion X : Ω → R tal que
para cada B ∈ B1 se cumple que X−1(B) ∈ F .
Si B = (−∞, a] entonces X−1(B) es el evento ω ∈ Ω : X(ω) ≤ a y se indica por (X ≤ a).
Proposicion 1.2.1. Si X : Ω → R es una variable aleatoria entonces la coleccion de eventosX−1(B) : B ∈ B1
= X−1(B1) es una σalgebra, denotada por σ(X), y se denomina la
informacion generada por X , y satisface:
1. A ∈ σ(X) ⇐⇒ existe B ∈ B1 tal que X−1(B) = A
2. (X ≤ a) ∈ σ(X) ∀a ∈ R
Demostracion Como R ∈ B1 y Ω = X−1(R) entonces Ω ∈ σ(X). Ademas, si A ∈ σ(X)
existe BA ∈ B1 tal que A = X−1(BA), pero entonces Ac = X−1(BcA) por propiedades de las
imagenes inversas. Luego Ac ∈ σ(X).
Si A1, A2, · · · es una sucesion de eventos en σ(X) entonces existe una sucesion de eventos en B1
llamados B1, B2, · · · tal que Ai = X−1(Bi) , i = 1, 2, · · · y entonces
∞⋃
i=1
Ai =
∞⋃
i=1
X−1(Bi) = X−1
( ∞⋃
i=1
Bi
)= X−1(B)
donde B =⋃∞
i=1 Bi ∈ B1 luego⋃∞
i=1 Ai ∈ σ(X).
Definicion 1.2.2 (Funcion de Distribucion). Como para cada x ∈ R , (X ≤ x) ∈ F , entonces
puede calcularse su probabilidad, esta es una funcion de x, y se denota FX(x) = P(X ≤ x). Esta
funcion tiene las siguientes propiedades:
1. FX(x) es monotona creciente con FX(x) → 0 , x→ −∞ y FX(x) → 1 , x→ ∞.
2. FX(x) es continua a la derecha. Significa entonces que
FX(a) = lımx↓a
FX(x) = FX(a+)
El lımite a izquierda es
lımx↑a
FX(x) = FX(a−) = P(X < a)
En general P(X < a) ≤ P(X ≤ a). La funcion FX(x) frecuentemente toma dos formas:
8
1. FX(x) constante excepto por saltos en una serie de puntos En este caso los saltos son iguales
a la diferencia FX(xi) − FX(xi−) = P(X ≤ xi) − P(X < xi), y la variable aleatoria se
dice discreta. Los valores de los saltos son las probabilidades P(X = xi).
2. FX(x) =∫ x−∞ fX(u)du para una funcion fX(u) que es positiva e integrable, con
∫∞−∞ fX(u)du =
1. Si fX(u) es continua en x se tiene F′X(x) = fX(x).
Definicion 1.2.3. Una variable aleatoria bidimensional (X1, X2) es una funcion
(X1, X2) : Ω → R2 tal que para cada B ∈ B2
se cumple que (X1, X2)−1(B) ∈ F donde
(X1, X2)−1(B) = ω ∈ Ω : (X1(ω), X2(ω)) ∈ B2
Un conjunto en B2 es B = (−∞, a] × (−∞, b]. Entonces
(X1, X2)−1(B) = ω ∈ Ω : X1(ω) ≤ a , X2(ω) ≤ b
se denota por (X1 ≤ a , X2 ≤ b) y es igual a (X1 ≤ a) ∩ (X2 ≤ b)
Definicion 1.2.4 ( Informacion generada por (X1, X2)). Es la σalgebra generada por la coleccion
de eventos A =(X1, X2)
−1(B) : B ∈ B2
y se denota por σ(X1, X2).
En σ(X1, X2) estan, por ejemplo, todos los eventos de la forma (X1 ≤ a,X2 ≤ b). Tambien
σ(X1, X2) = (X1, X2)−1(B2) es la imagen inversa de la σalgebra B2. Ademas σ(X1, X2) ⊆ F
y se tiene σ(X1) ⊆ σ(X1, X2) y σ(X2) ⊆ σ(X1, X2)
Definicion 1.2.5 ( La funcion de distribucion conjunta de (X1, X2) ).
Para (X1, X2) ∈ R2, el evento (X1 ≤ x1, X2 ≤ x2) esta en F y su probabilidad depende de
(x1, x2). La funcion que se determina al calcular tal probabilidad se denota por
FX1,X2(x1, x2) = P(X1 ≤ x1, X2 ≤ x2)
y es la funcion de distribucion conjunta de (X1, X2).
Definicion 1.2.6 (Vector Aleatorio (X1, X2, · · · , Xn)).
Un vector Aleatorio (X1, X2, · · · , Xn) es una funcion (X1, X2, · · · , Xn) : Ω → Rn que cumple
(X1, X2, · · · , Xn)−1(B) ∈ F para cada B ∈ Bn
donde
(X1, X2, · · · , Xn)−1(B) = ω ∈ Ω : (X1(ω), X2(ω), · · · , Xn(ω)) ∈ B
9
Definicion 1.2.7 ( Informacion generada por por (X1, X2, · · · , Xn) ).
Informacion generada por (X1, X2, · · · , Xn) es laσalgebra generada por la coleccion de eventos
en FA =
(X1, X2, · · · , Xn)−1(B) : B ∈ Bn
y se denota por σ(X1, X2, · · · , Xn).
Note que en esta σalgebra estan los conjuntos de la forma (X1 ≤ x1, · · · , Xn ≤ xn) para
x1, · · · , xn ∈ R
Definicion 1.2.8 ( Funcion de distribucion conjunta de (X1, X2, · · · , Xn)).
Como (X1 ≤ x1, X2 ≤ x2, · · · , Xn ≤ xn) es un evento, su probabilidad depende de (x1, x2, · · · , xn)
y la funcion ası definida se denomina funcion de distribucion conjunta y se denota por
FX1,X2,··· ,Xn(x1, x2, · · · , xn) = P(X1 ≤ x1, X2 ≤ x2, · · · , Xn ≤ xn)
Si X1, X2, · · · es una sucesion de vectores aleatorios que representa los sucesivos estados de un
sistema, entonces σ(X1, X2, · · · , Xn) es todo lo que puede suceder hasta n. Es el conjunto de
todos los resultados de interes. Si se tiene una sucesion de vectores aleatoriosX1, X2, · · · , entonces
se cumple que
σ(X1) ⊆ σ(X1, X2) ⊆ σ(X1, X2, X3) ⊆ · · ·
Ejemplo 1.2.1. Si n = 18 entonces A = (Xi ≤ 3.1 , ∀ i = 1, · · · , 18) y por tanto A ∈σ(X1, X2, · · · , X18) Si B = (X10 > 7) entonces B ∈ σ(X1, X2, · · · , X10) pero
B /∈ σ(X1, X2, . . . , X9)
1.3. Desigualdades
Las desigualdades son utiles para establecer cotas superiores o inferiores para probabilidades, o
para la solucion de un problema de convergencia 1. Las desigualdades mas utiles son las siguientes:
1. Si E(|X |) <∞ entonces |E(X)| ≤ E(|X |)
2. Desigualdad Triangular
E(|X ± Y |) ≤ E(|X |) + E(|Y |)ademas
|E(X)− E(Y )| ≤ E(|X − Y |) ≤ E(|X |) + E(|Y |)1Alguien en algun texto anoto que se le atribuye a A.N. Kolmogorov la afirmacion: “Detras de todo gran teorema
hay una desigualdad”
10
3. Desigualdad Triangular General
E(|X + Y |r) 1
r ≤ E(|X |r) 1
r + E(|Y |r) 1
r para r ≥ 1
tambien se tiene otra version de esta desigualdad, dada por
E(|X + Y |r) ≤ Cr(E(|X |r) + E(|Y |r)) para r > 0
donde Cr = 1 si r ≤ 1 y Cr = 2r−1 si r ≥ 1.
4. Desigualdad de Markov
Si para algun r > 0 se tiene E(|X |r) <∞ entonces, para todo a > 0 se cumple
P(|X |r ≥ a) ≤ E(|X |r)a
Demostracion. Note que para todo a > 0 se cumple |X |r ≥ aI|X |r>a. Tomando esperanzas
se obtiene la desigualdad.
Ejemplo 1.3.1. Si Y =N∑
j=1Xj es suma aleatoria de variables aleatorias independientes
con Xj positivas y N ∈ 0, 1, 2, · · · entonces
a) P(Y ≥ 0) = 1 ya que por teorema de probabilidad total
P(Y ≥ 0) =
∞∑
n=0
P(Y ≥ 0 | N = n)P(N = n)
= p0 +
∞∑
n=1
P( n∑
j=1
Xj ≥ 0)P(N = n)
pero
P( n∑
j=1
Xj ≥ 0)
= 1 ∀n ≥ 1
luego
P(Y ≥ 0) =
∞∑
n=0
pn = 1
b) Para todo a > 0
P(|Y | ≥ a) = P(Y > a) ≤ E(Y )
a
luego como E(Y ) = µNµX entonces
P(|Y | ≥ a) ≤ µNµX
a
11
5. Desigualdad de Chebyshev
Si V ar(X) <∞ entonces colocando r = 2, X −E(x) en lugar de X y a2 en lugar de a en
la desigualdad de Markov se obtiene
P(|X − µX | ≥ a) ≤ V ar(X)
a2, ∀a > 0. (1.5)
Recuerdese que |x− µX | ≥ a ⇐⇒ x ≤ µX − a o x ≥ µX + a.
Ejemplo 1.3.2. Si X ∼ N (µX , σ2X) y a = 1.645 entonces
P(|X − µX | ≥ 1.645σX) ≤ σ2X
1.6452σ2X
= 0.369
pero P(|X − µX | ≥ 1.645σX) = 1 − P(|X − µX | ≤ 1.645σX) = 1 − 0.95 = 0.05.
6. Desigualdad de CauchySchwarz
|E(XY )| ≤ E(|XY |) ≤√
E(X2)√
E(Y 2)
Ejemplo 1.3.3. Como Cov(X, Y ) = E((X − µX )(Y − µY )) entonces
|Cov(X, Y )| ≤ E(|X − µX ||Y − µY |) ≤√
E((X − µX)2)√
E((Y − µY )2) = σXσY
luego |ρXY | ≤ 1.
7. Desigualdad de Kolmogorov
Si X1, . . . , Xn son variables aleatorias independientes de media cero y varianza σ2 <∞, y
se define Sk = X1 + . . .+Xk, k ≥ 1, entonces se cumple que para cualquier λ > 0
P( max1≤k≤n
|Sk| ≥ λ) ≤ V ar(Xn)/λ2. (1.6)
Demostracion. Defina los eventos Ak = (|Sk| ≥ λ, |Si| < λ, i = 1, . . . , k − 1), para
k = 1, . . . , n. Si ocurre el evento Ak es porque en el tiempo k por primera vez el valor
absolutoSk supero la barrera λ. Por su definicion, losAk son disjuntos. Y ademas, el evento
(max1≤k≤n |Sk| ≤ λ) ocurre si y solamente si ocurre alguno de losAk . Es decir,⋃n
k=1 Ak =
(max1≤k≤n |Sk| ≤ λ). Como los Ak son disjuntos entonces 0 ≤ ∑nk=1 IAk
≤ 1. Como
E(Sn) = 0 entonces usando la identidad S2n = S2
k + 2Sk(Sn − Sk) + (Sn − Sk)2,
V ar(Sn) = E(S2n) ≥
n∑
k=1
E(S2nIAk
)
≥n∑
k=1
E((S2k + 2Sk(Sn − Sk))IAk
)
12
=
n∑
k=1
E(S2kIAk
) + 2
n∑
k=1
E(Sn − Sk)E(SkIAk)
=
n∑
k=1
E(S2kIAk
) ≥ λ2n∑
k=1
P(Ak) = λ2P(
n⋃
k=1
Ak)
= λ2P( max1≤k≤n
|Sk| ≥ λ).
8. Desigualdad de Lyapunov
Si 0 < s ≤ r entonces(E(|X |s)
) 1
s ≤(E(|X |r)
) 1
r .
Ejemplo 1.3.4. Si X es variable aleatoria en R y s = 1 , r = 2 entonces
E(|X |) ≤ [E((X2))]1
2 es decir E2(|X |) ≤ E(X2) y como |E(X)| ≤ E(|X |) entonces
E2(X) ≤ E2(|X |) ≤ E(X2)
de donde
E(X2) −E2(X) = V ar(X) ≥ 0
9. Desigualdad de Jensen
Una funcion f(x) se dice convexa en [a, b] si la lınea que une los puntos (a, f(a)), (b, f(b))
esta siempre por encima de la grafica (x, f(x)). Una condicion suficiente para que f sea
convexa es que exista f ′′(x) y cumpla f ′′(x) > 0 en ese intervalo. En este caso, si X es una
variable aleatoria, f es convexa en el rango de X , y E(f(X)) existe, entonces se cumple:
f(E(X)) ≤ E(f(X))
Una funcion f(x) se dice concava en [a, b] si la lınea que une los puntos (a, f(a)), (b, f(b))
esta siempre por debajo de la grafica (x, f(x)). Una condicion suficiente para que f sea
concava es que exista f ′′(x) y cumpla f ′′(x) < 0 en un intervalo. En este caso, si X es una
variable aleatoria, f es concava y E(f(X)) existe, entonces se cumple:
E(f(X)) ≤ f(E(X))
Ejemplo 1.3.5. a) Si f(x) = 1/x, x > 0, entonces f ′′(x) = 2/x3 > 0, x > 0. Por
tanto, f es convexa en (0,∞). Si X es una variable aleatoria con valores en (0,∞)
aplicando la desigualdad obtenemos 1/E(X) ≤ E(1/X).
b) Si f(x) = ln(x) entonces f ′′(x) < 0, x > 0. Por tanto, f es concava. Si X es una
variable aleatoria con valores en (0,∞) entonces se cumple E(ln(X)) ≤ ln(E(X)).
13
La siguiente identidad es util para calcular momentos de una variable aleatoria.
E(|X |r) = r
∫ ∞
0
xr−1P(|X |> x)dx ≤ +∞, r = 1, 2, . . .
Ejemplo 1.3.6. SiX es una variable aleatoria en [0,∞) con fda P(X ≤ x) = 1−(
λλ+x
)α, λ >
0 , α > 0, se dice que se distribuyePareto(λ, α). Compruebe que siα > 1 entonces E(X) = λα−1
y, si α = 2, entonces E(X2) = +∞.
Demostracion. Usando la identidad anterior con r=2 tenemos:
E(X2) = 2
∫ ∞
0
λ2x
(λ+ x)2dx
= 2λ2 lımt→∞
(λ+ t) ln(λ+ t) − (1 + t) ln(λ)− t
t+ λ= ∞,
luego E(X2) = +∞.
Ejercicio 1.3.1. Suponga que X1 y X2 son variables aleatorias con medias 0 varianzas 1 y
correlacion ρ > 0. Comprobar que E(max(X21 , X
22 )) ≤ 1+
√1 − ρ2, utilizando la desigualdad
de CauchySchwarz y las identidades:max(a, b) = 12 (a+ b+ |a− b|), a2 − b2 = (a+ b)(a− b).
Demostracion. Aplicando las identidades anteriores tenemos
2E(max(X21 , X
22)) = E(X2
1 ) + E(X22 ) + E(|X2
1 −X22 |)
= E(X21 ) + E(X2
2 ) + E(|X1 −X2||X1 +X2|)≤ E(X2
1 ) + E(X22 ) +
√E((X1 +X2)2)E((X1 −X2)2)
= E(X21 ) + E(X2
2 ) +√
E(X21 ) + E(X2
2 ) + 2E(X1X2).√
E(X21 ) + E(X2
2 ) − 2E(X1X2)
= 2 +√
2 + 2ρ√
2 − 2ρ
= 2 + 2√
1− ρ2
de donde E(max(X21 , X
22)) ≤ 1 +
√1 − ρ2.
Luego, para cualquier par de variables aleatorias X1 , X2 con coeficiente de correlacion ρ
E
[max
((X1 − µ1
σ1
)2
,
(X2 − µ2
σ2
)2)]
≤ 1 +√
1 − ρ2.
Ejercicio 1.3.2. Para cualquier par de variables aleatoriasX1 , X2 con coeficiente de correlacion
ρ y para cualquier λ > 0, P(|X1 − µ1| ≥ λσ1) ∪ ((|X2 − µ2| ≥ λσ2) ≤ 1λ2 (1 +
√1 − ρ2).
14
1.4. Modos de Convergencia
Se trata de definir la convergencia de una sucesion de variables aleatorias (Xn)n=0,1,2,···. Hay cinco
modos basicos de convergencia de Xn a un lımiteX cuando n −→ ∞ que son
1. Con probabilidad 1.
2. En media r , r = 1, 2, · · ·
3. En Media cuadratica.
4. En Probabilidad.
5. En Distribucion.
Definicion 1.4.1 (Convergencia con Probabilidad Uno ). Xn converge aX casi seguramente o con
probabilidad uno, indicada por Xnas−→ X cuando n→ ∞ si se cumple que
P( lımn→∞
Xn = X) = 1. (1.7)
Lo anterior significa que para cada ω ∈ Ω, Xn(ω) converge a X(ω) como si fuera una sucesion
de numeros, excepto, posiblemente, para ω en un cierto evento N que tiene probabilidad cero,
P(N ) = 0. Las letras “as” en la notacion se refieren a “almost secure”. CuandoXn es un estimador
θn de un parametro θ, y se cumple θnas−→ θ, se dice que el estimador es “consistente fuerte”.
Para un ε > 0 cualquiera considere el eventoE =⋂∞
n=1
⋃∞k=n(|Xk−X | > ε). Siω ∈ E entonces,
para cada n ≥ 1 puede encontrarse al menos un k ≥ n para el cual |Xk(ω) −X(ω)| > ε. Pero si
Xn converge aX con probabilidad uno entonces debe tenerse P(E) = 0. Por lo tanto, la condicion
(1.7) es equivalente a
∀ε > 0, P
[ ∞⋂
n=1
∞⋃
k=n
(|Xk −X | > ε)
]= 0 (1.8)
Un caso importante de convergencia casi seguramente es el siguiente teorema.
Teorema 1.4.1. (La Ley Fuerte de Grandes Numeros) Suponga que Xn, n = 0, 1, 2 . . . es una
sucesion de variables aleatorias i.i.d. con media finita E(|Xn|) < ∞, entonces se cumple que
Xn = (1/n)∑n
j=1 Xjas→ E(X1).
Un criterio para convergencia casi seguramente de una sucesion de variables aleatorias es la
siguiente proposicion.
Proposicion 1.4.1. Para todo ε > 0 arbitrario si∑∞
n=1 P(|Xn − X | > ε) < ∞, entonces
Xnas→ X , cuando n→ ∞.
15
Demostracion. Denote An = (|Xn − X | > ε) para ε > 0 dado. Como se cumple la hipotesis
del Lema BorelCantelli, (1.1.1), entonces P(lım supn→∞An) = 0 y se cumple la condicion
(1.8).
Definicion 1.4.2 ( Convergencia en Media ). Si r es un entero positivo r = 1, 2, 3, · · · se dice que
Xn converge a X en media r, indicado por
Xnr−→ X , n→ ∞
si se cumple
1. E(|Xn|r) <∞ para n = 1, 2, · · ·
2. E(|Xn −X |r) −→ 0 cuando n→ ∞
La Convergencia en Media Cuadratica corresponde al caso r = 2, es decir, Xn2→ X, n→ ∞ si
se cumple que E(X2n) <∞, ∀n ≥ 1 y E((Xn −X)2) → ∞, n→ ∞.
Definicion 1.4.3 ( Convergencia en Probabilidad ). Xn converge a X en probabilidad, denotada
por Xnp→ X, n→ ∞, si
∀ε > 0, P(|Xn −X | ≥ ε) → 0 cuando n→ ∞.
Cuando Xn es un estimador θn de un parametro, por ejemplo, θ, y se cumple θnp→ θ se dice
que el estimador es “consistente debil”. Un caso importante de convergencia en probabilidad es el
siguiente teorema.
Teorema 1.4.2. (La Ley Debil de Grandes Numeros) Suponga que Xn, n = 0, 1, 2 . . . es una
sucesion de variables aleatorias i.i.d. con media E(Xn) = µ y varianza finita V ar(Xn) = σ2 <
∞, entonces se cumple que Xn = (1/n)∑n
j=1 Xjp→ µ.
Demostracion. Aplicando la desigualdad de Chebyshev a la variable Xn = (1/n)∑n
j=1Xj ,
tenemos que, para ε > 0, P(|Xn − µ| ≥ ε) ≤ V ar(Xn)/ε2. Pero V ar(Xn) = nV ar(X1)/n2 =
σ2/n. Entonces
lımn→∞
P(|Xn − µ| ≥ ε) ≤ lımn→∞
σ2
nε2= 0
es decir, Xnp→ µ, n→ ∞.
Definicion 1.4.4 (Convergencia en Distribucion). Xn converge a X en distribucion, denotado por
Xnd−→ X, n→ ∞ si para todo x en el cual FX(.) es continua se cumple que
FXn(x) → F (x) n −→ ∞
16
La convergencia en distribucion tambien se denomina “convergencia en ley”, y a veces se denota
XnL−→ X , y tambien se denomina “convergencia debil”. Uno de los casos de mayor interes es
cuando X ∼ N (0, σ2). Cuando Xn es un estimador θn de un parametro, por ejemplo, θ, y se
cumple que√n(θn − θ)
d→ N (0, σ2) se dice que el estimador es “asintoticamente normal”.
En las definiciones anteriores las variables Xn, X son unidimensionales con valores en R. Para el
caso de vectores aleatorios, con Xn ∈ Rk las definiciones se hacen mediante una funcion distancia
en Rk, d(Xn, X), por ejemplo, la distancia euclidiana d(Xn, X) = (∑k
j=1(Xn(j)−X(j))2)1/2.
En este caso
(i)Xnas→ X ⇔ P( lım
n→∞d(Xn, X) = 0) = 1,
(ii)Xnp→ X ⇔ ∀ε > 0, P(d(Xn, X) < ε) → 1, n→ ∞,
(iii)Xnr→ X ⇔ E([d(Xn, X)]r) → 0, n→ ∞.
Proposicion 1.4.2. Algunas relaciones entre los modos de convergencia esta dado por las sigu
ientes implicaciones. Suponga que Xn, X son vectores.
(i)Xnas→ X ⇒ Xn
p→ X, (1.9a)
(ii)Xnp→ X ⇒ Xn
d→ X, (1.9b)
(iii)Xnp→ X ⇒ existe una subsucesion (nk, k = 1, 2, . . .)
tal que Xnk
as→ X, (1.9c)
(iv)Xnr→ X ⇒ Xn
p→ X, (1.9d)
(v) Xnd→ c, para c constante ⇒ Xn
p→ c, (1.9e)
(vi) Xnd→ X y d(Xn, Yn)
p→ 0 ⇒ Ynd→ X. (1.9f)
Demostracion. (i) SiXnas→ X entonces para ε > 0, el eventoE(ε) =
⋂∞n=1
⋃∞k=n(|Xk−X | >
ε) tiene probabilidad cero. Por tanto la sucesion decreciente Bn(ε) =⋃∞
k=n(|Xk −X | > ε)
tiene probabilidad convergente a cero cuando n → ∞. Como (|Xn −X | > ε) ⊆ Bn(ε) se
cumple que P(|Xn −X | > ε) → 0, si n→ ∞.
(iv) Es facil comprobar que Xn1→ X ⇒ Xn
p→ X , utilizando la desigualdad de Markov. Si
ε > 0 y se asume que E(|Xn −X |) −→ 0 entonces
P(|Xn −X | ≥ ε) ≤ E(|Xn −X |)ε
→ 0, cuando n→ ∞,
luego Xnp→ X . Para el caso r > 1, Xn
r→ X ⇒ Xnp→ X se comprueba utilizando la
desigualdad de Lyapunov con s = 1 , r > 1: E(|Xn −X |) ≤ [E(|Xn −X |r)]1/r. Luego si
ε > 0
P(|Xn −X | ≥ ε) ≤ E(|Xn −X |)ε
≤ [E((Xn −X)r)]1/r
ε
17
de donde si E((Xn −X)r) → 0 entonces Xnp→ X cuando n→ ∞.
Teorema 1.4.3. (Teorema de Convergencia Monotona) Suponga que Xn, n = 0, 1, 2 . . . es una
sucesion de variables aleatorias, monotonas no decrecientes y no negativas con probabilidad uno
(as), P(0 ≤ X0 ≤ X1 ≤ X2 ≤ . . .) = 1, tales que Xnas→ X . Entonces se cumple que
lımn→∞
E(Xn) = E(X). (1.10)
Un teorema muy util es un teorema de preservacion de la convergencia de una sucesion cuando se
transforma mediante una funcion continua.
Teorema 1.4.4. (Teorema de mapeo continuo) Suponga que (Xn, n = 0, 1, . . .) es una sucesion de
vectores aleatorios en Rk que converge a una variable aleatoria X , en cualquiera de los modos.
Si g : Rk → Rm es una funcion continua en cada punto de un conjunto G ⊆ Rk, abierto, tal que
P(X ∈ G) = 1, entonces g(Xn) converge en as, p, d, a g(X).
(i)Xnd→ X ⇒ g(Xn)
d→ g(X),
(ii)Xnp→ X ⇒ g(Xn)
p→ g(X),
(iii)Xnas→ X ⇒ g(Xn)
as→ g(X).
La prueba esta en el artıculo de Mann and Wald (1943).
Teorema 1.4.5. (Teorema de Slutsky) Suponga que (Xn ∈ Rk, n = 0, 1, . . .) es una sucesion de
vectores aleatorios tales que Xnd→ X , y (Yn ∈ R, n = 0, 1, . . .) es una sucesion de variables
aleatorias tales que Ynp→ c. Entonces se cumple
(i) Xn + Ynd→ X + c, (1.11a)
(ii) YnXnd→ cX, (1.11b)
(iii) Xn/Ynd→ X/c. (1.11c)
1.5. Propiedades de la Convergencia en Distribucion.
Definicion 1.5.1 (Funcion Generadora de Momentos). Si X es una variable aleatoria, suponga
que existe h > 0 tal que para cada t , −h < t < h existe la esperanza E(etX), entonces la
correspondiente funcion de t se denota por MX(t) y es la fgm de X . Luego
MX(t) =∑
j
etjP(X = j) si X es discreta ,
18
=
∫ ∞
−∞etxfX(x)dx si X es continua .
Es evidente que MX(0) = 1. Ademas se tiene la propiedaddkMX(t)
dtk
∣∣∣∣t=0
= E(Xk) k =
1, 2, · · · . Cuatro ejemplos de funciones generadoras de momentos son los siguientes.
1. Si X ∼ N (µ, σ2) entonces MX(t) = exp(µt+ 12 t
2σ2).
2. Si N ∼ Poison(λ), λ > 0, entonces MN (t) = eλ(et−1).
3. Si N ∼ Bin(n, p), entonces MN(t) = (1− p+ pet)n.
4. Si X ∼ Gamma(α, θ),θ, α > 0 entonces fX(x) = xα−1e−x
θ
θkΓ(α), para x ≥ 0 y MX(t) =
[1
1−tθ
]αpara t < 1
θ . El caso α = 1 corresponde a X ∼ Exp(θ).
Teorema 1.5.1. SiX1, X2, · · · , Xn son variables aleatorias independientes con fgmMXj(t) , j =
1, 2, · · · , n para −h < t < h entonces X = X1 + X2 + · · · + Xn tiene fgm MX(t) =
MX1(t)MX2
(t) · · ·MXn(t) e inversamente, si la fgm MX(t) se puede expresar como el producto
de las fgm de las Xj entonces estas son independientes.
Teorema 1.5.2. Si (Yn)n=1,2,··· es una sucesion de variables aleatorias tales que tienen fgmMYn(t)
para −h < t < h y existe una variable aleatoria Y con fgm MY (t) para |t| ≤ h1 < h tal que
MYn(t) →MY (t) cuando n→ ∞ entonces Ynd→ Y cuando n→ ∞.
Ejemplo 1.5.1. Suponga que Yn ∼ Bin(n, pn) tal que pn = µn para n = 1, 2, · · · donde µ > 0
es una constante. EntoncesMYn(t) = E(etYn) = (1− pn + pnet)n =
[1 + µ(et−1)
n
]n. Utilizando
el resultado(1 + α
n
)n → eα cuando n → ∞, se obtiene MYn(t) → exp(µ(et − 1)). Como para
Y ∼ Poison(µ) se tiene MY (t) = eµ(et−1) entonces Ynd→ Y cuando n→ ∞.
Por ejemplo, cuando p << 12 y n > 100, se escribe Bin(n, p)
a∼ Poisson(np), dondea∼ es
una convencion para utilizar la distribucion de la variable lımite en reemplazo de la distribucion
original.
Proposicion 1.5.1. (Teorema del Lımite Central, TLC) Si (Xn, n = 1, 2, . . .) es una sucesion de
variables aleatorias iid con E(Xi) = µ y V ar(Xi) = σ2 entonces la sucesion Yn =√n(Xn −
µ)/σ, donde Xn = (1/n)∑n
j=1 Xj , converge en distribucion a una variable aleatoria Y ∼N (0, 1) es decir Yn
d→ Y, n→ ∞.
Demostracion. Para la demostracion se requiere un resultado auxiliar. Si bn → 0, n → ∞ es
una sucesion infinitesimal, y se define an = (1 + abn)n, para a ∈ R, entonces an → ea cuando
n→ ∞.
19
Para la demostracion del teorema se asume que la funcion generadora de momentos de las variables
Xn existe en un intervalo (−h, h), h > 0. Se forma la sucesion Yn =√n(Xn − µ)/σ =
1√n
∑nj=1(Xj − µ)/σ entonces
MYn(t) = E
(e
t√n
Pnj=1
(Xj−µ)/σ)
=
n∏
j=1
E
(e
t√n
[(Xj−µ)/σ])
=
n∏
j=1
MXj−µ
σ
(t√n
)
=
[MX1−µ
σ
(t√n
)]n
=
[E
(e
t√n
“X1−µ
σ
”)]n
=
[E
(1 +
t√n
(X1 − µ
σ
)+t2
2n
(X1 − µ
σ
)2
+ . . .
)]n
=
[1 +
t2
2n+ o
(1
n
)]n
,
donde o(
1n
)= cn es una sucesion que cumple cn/(1/n) → 0 cuandon→ ∞. Como 1
2n+t−2o(
1n
)
es una sucesion infinitesimal, se cumple que[1 + t2
2n + o(
1n
)]n→ et
2/2, cuando n → ∞, y por
la Proposicion(1.5.2) se concluye que Yn =√n(Xn − µ)/σ
d→ Y, n→ ∞
1.6. Sımbolos O(·) y o(·) Estocasticos
Definicion 1.6.1. Para una sucesion de variables aleatorias (Xn, n = 1, 2, . . .), la notacion
Xn = Op(1) equivale a ∀ε > 0, ∃M > 0, ∃N > 0 tales que P(|Xn| ≤M) ≥ 1 − ε, ∀n ≥ N .
La notacion Xn = Op(1) significa que la sucesion (Xn) esta “acotada en probabilidad”. Es decir,
la probabilidad de estar Xn en un intervalo [−M,M ] es muy alta para todo n. Para otra sucesion
An, aleatoria o no, positiva, la notacion Xn = Op(An) significa que Xn/An = Op(1).
Teorema 1.6.1 (Teorema de Prohorov).
(i) Xnd→ X ⇒ Xn = Op(1),
(ii)Xn = Op(1) ⇒ existe una subsucesion (nk, k = 1, 2, . . .)
tal que Xnk
as→ X.
Definicion 1.6.2. Para una sucesion de variables aleatorias (Xn, n = 1, 2, . . .), la notacion
Xn = op(1) es una forma equivalente de expresar que Xn converge a cero en probabilidad.
20
Proposicion 1.6.1. Las reglas para el manejo de los sımbolos Op(.), op(.) se expresan a contin
uacion.
op(1) + op(1) = op(1) (1.12a)
op(1) +Op(1) = Op(1) (1.12b)
Op(1)op(1) = op(1) (1.12c)
(1 + op(1))−1 = Op(1) (1.12d)
op(An) = Anop(1) (1.12e)
Op(An) = Anop(1) (1.12f)
op(Op(1)) = op(1). (1.12g)
La interpretacion es similar a la del teorema de Slutsky (1.4.5). Por ejemplo, op(1)+op(1) = op(1)
significa que si Xn y Yn ambas convergen a cero en probabilidad, entoncesXn +Yn tambien. Este
resultado es una aplicacion directa del teorema de mapeo continuo (1.4.4), pag. 17.
1.7. Metodo Delta
Si g : Rk → Rm una funcion definida sobre un subconjunto de Rk, con g = (g1, . . . , gm)′, y
diferenciable en x0 entonces su diferencial se define como la matriz Dg(x0) ∈ Rm×k dada por
Dg(x0)[i, j] =∂gi(x0)
∂xj, que cumple, para h ∈ Rk,
g(x0 + h) = g(x0) +Dg(x0)h+ o(||h||), h→ 0 ∈ Rk. (1.13)
La notacion o(||h||) indica una funcion real de ||h|| que cumple limh→0o(||h||)/||h|| = 0. Es
decir, o(||h||) es una funcion que tiende a cero mas rapido que ||h||.
Teorema 1.7.1 (Metodo Delta). Sea g : Rk → Rm una funcion definida sobre un subconjunto
de Rk y diferenciable en x0. Sean Xn vectores aleatorios con valores en el dominio de g. Si
rn(Xn − x0)d−→ X , para rn sucesion numerica tal que rn → ∞, entonces
rn(g(Xn) − g(x0))d−→ Dg(x0)X. (1.14)
Demostracion. Como rn → ∞ entonces por Teorema de Slutsky (1.4.5), (1/rn)rn(Xn−x0)d−→ 0,
y por tanto Xn − x0 converge a cero en probabilidad, por (1.9e). Defina la funcion φ(h) =
(g(x0 + h) − g(x0) − Dg(x0)h)/||h||, para h 6= 0, y φ(0) = 0. Entonces φ(.) es continua en
0 ∈ Rk, es decir, lımh→0 φ(h) = φ(0) = 0, por la hipotesis de aproximacion lineal (1.13).
Aplicando el teorema de mapeo continuo (tmc) (1.4.4) se obtiene φ(Xn − x0)p−→ 0. Ademas, otra
vez por el tmc, como la funcion norma ||.|| es continua, entonces rn||Xn − x0|| d−→ 0, luego, por
21
teorema de Slutsky, rnφ(Xn − x0)||Xn − x0|| d−→ 0. Y por tanto rnφ(Xn − x0)||Xn − x0|| p−→ 0
por (1.9e). Ahora
rnφ(Xn − x0)||Xn − x0|| = rn(g(xn)− g(x0) −Dg(x0)(Xn − x0))
= rn(g(xn)− g(x0)) − rn(Dg(x0)(Xn − x0))
= rn(g(xn)− g(x0)) −Dg(x0)(rn(Xn − x0))p−→ 0.
Pero la multiplicacion matricial es una operacion continua, luego por el tmc,
Dg(x0)(rn(Xn − x0))d−→ Dg(x0)X
Por teorema de Slutsky, sumando las dos ultimas expresiones, se obtine finalmente
rn(g(xn)− g(x0))d−→ Dg(x0)X.
Ejemplo 1.7.1. Suponga dos sucesionesXn, Yn tales que√n(Xn−3))
d−→ X , conX ∼ N (0, 1) y√n(Yn−2))
d−→ Y , con Y ∼ N (0, 1). Y considere la funcion g : R2 → R, dada por g(x, y) = xy3.
Entonces, con x0 = (x, y), Dg(x0) = (∂g(x,y)∂x , ∂g(x,y)
∂y ) = (y3, 3xy2). Reemplazando x0 = (3, 2)
se obtiene Dg(x0) = (8, 36). Entonces, la aplicacion del metodo delta (1.14) permite concluır
que √n(XnY
3n − 24)
d−→ Dg(x0)(X, Y )′ = 8X + 36Y.
Teorema 1.7.2. Considere dos sucesiones de vectores aleatorios en Rk, tales que Ynd−→ Y y
Xn = Yn + Op(an), con an → 0. Y sea g : Rk → R una funcion con derivadas parciales
continuas, excepto en un subconjunto G ⊆ Rk que cumple lımn→∞ P(Yn ∈ G) = 0. Denote el
gradiente de g en un punto x0 ∈ G por ∇g(x0) = (∂g(x0)∂x1
, . . . ,∂g(x0)∂xk
). Entonces se cumple
g(Xn) = g(Yn) + ∇g(Yn)(Xn − Yn) + op(an), n→ ∞. (1.15)
1.8. Propiedades de la Convergencia en Media Cuadratica.
Sabemos que
Xn2−→ X si n −→ ∞ ⇐⇒ E((Xn −X)2) −→ 0 si n −→ ∞
por tanto si
1. Xn2−→ X cuando n −→ ∞ entonces
a) E(Xn) −→ E(X) cuando n −→ ∞
22
b) E(X2n) −→ E(X2) cuando n −→ ∞
Demostracion.
a) Por Lyapunov con s = 1 , r = 2 tenemos
E(|Xn −X |) ≤√
E(|Xn −X |2)
ademas
|E(Xn) − E(X)| ≤ E(|Xn −X |) ≤√
E(|Xn −X |2)
luego como E((Xn −X)2) −→ 0 cuando n −→ ∞ se tiene
E(Xn) −→ E(X) cuando n −→ ∞
b) La siguiente desigualdad es valida
0 ≤[√
E(X2n)−
√E(X2)
]2≤ E((Xn −X)2)
ya que desarrollando ambos miembros de la desigualdad obtenemos
E(X2n) + E(X2) − 2
√E(X2
n)E(X2) ≤ E(X2n) + E(X2)− 2E(XnX)
que a su vez equivale a
E(XnX) ≤√
E(X2n)E(X2)
la cual es cierta por c. s.
E(XnX) ≤ E(|XnX |) ≤√
E(X2n)E(X2)
Nota 1.8.1. Es evidente que Xn2−→ X entonces V ar(Xn) −→ V ar(X)
2. (ver Parzen (1972) pag. 112 Teo 4B ) Si Xn ∼ N (µn, σ2n) y Xn
2−→ X entonces
X ∼ N (µ, σ2) con µ = lımn→∞
µn y σ2 = lımn→∞
σ2n.
Demostracion.
Si Xn2−→ X entonces µn −→ µ = E(X) y σ2
n −→ σ2 = V ar(X) ademas la fgm de Xn
es
MXn(t) = eµnt+ 1
2σ2
nt2 t ∈ R
23
luego MXn(t) −→M(t) cuando n −→ ∞ donde
M(t) = eµt+ 1
2σ2t2, t ∈ R
lo cual significa que Xn converge en distribucion a una variable aleatoria distribuıda
N (µ, σ2). Pero como
Xn2−→ X =⇒ Xn
D−→ X
esta variable debe ser X , por tanto X ∼ N (µ, σ2).
3. Si Xn2→ X cuando n→ ∞ y E(X2
n) <∞ para todo n ≥ 1 entonces E(X2) <∞.
Demostracion.
Utilizando la desigualdad triangular general
E(|X + Y |r) 1
r ≤ E(|X |r) 1
r + E(|Y |r) 1
r para r ≥ 1
con Xn = X , Y = X −Xn , r = 2 se tiene
√E(X2) ≤
√E(X2
n) +√
E((X −Xn)2)
como E((Xn − X)2) −→ 0 cuando n −→ ∞ y E(X2n) < ∞ para todo n ≥ 1 entonces
E(X2) <∞.
4. Si Xn2→ X , Yn
2→ Y entonces E(XnYn) → E(XY ) cuando n −→ ∞
Demostracion.
|E(XnYn) − E(XY )| ≤ E(|XnYn −XY |) = E(|(Xn −X)Y + (Yn − Y )Xn|)≤ E(|(Xn −X)Y |) + E(|(Yn − Y )Xn|)
≤[E((Xn −X)2)E(Y 2)
] 1
2 +[E((Yn − Y )2)E(X2
n)] 1
2
Como E(Y 2) < ∞ se cumple que si n −→ ∞ entonces la ultima expresion tiende a
cero.
5. Xn2−→ X ⇐⇒ ∃ c ∈ R tal que E(XnXm) −→ c para n , m → ∞
Demostracion.
[ ⇐= ]
Si E(XnXm) −→ c entonces
E((Xn −Xm)2) = E(X2n) + E(X2
m)− 2E(XnXm) → c+ c− 2c = 0
24
y (Xn) es una sucesion de Cauchy en L2
[ =⇒ ]
Si Xn2→ X entonces E(XnXm) → E(X2) = c cuando n→ ∞
6. Si Xn2−→ X y Yn
2−→ Y entonces aXn + bYn2−→ aX + bY
7. Si Xn2−→ X y an −→ a entonces anXn
2−→ aX
1.9. Problemas
1. Suponga que N ∼ Poisson(λ), y δ > 0 es una constante. Se define la variable X =∑Nj=0 e
−δj . Utilice el resultado: E(etN) = eλ(et−1) y la desigualdad de Markov para encon
trar una cota superior para la probabilidad P(X > a), a > 0.
2. Suponga una sucesion de variables Normales, Xn ∼ N (0, σ2n), n = 1, 2, . . ., tales que
σ2n → 0, n→ ∞.
a) Compruebe que Xn2→ 0, n→ ∞.
b) Si aceptamos que es valida la operacion ddtE(etXn) = E( d
dtetXn), compruebe que
ddtMXn(t)|t=1 = E(Xne
Xn) = σ2ne
σ2n/2.
c) Compruebe que ‖eXn − 1−Xn‖/‖Xn‖ → 0, n→ ∞.(Nota: El desarrollo de Taylor
de orden 1 alrededor de x = 0 de la funcion f(x) = ex esta dado por ex = 1+x+r(x),
donde r(x) es el residuo que cumple lımx→0 |r(x)/x| = 0. El problema propuesto
puede verse como una generalizacion estocastica de este resultado de calculo).
3. a) Compruebe que si Y ∼ U(0, 1) entonces
MY (t) =
et−1t para t 6= 0
1 para t = 0
b) EncuentreMY (t) si Y ∼ U0, 1, · · · , 9
c) Considere (Yn)n=1,2,··· con Yn ∼ iid U0, 1, 2, · · · , 9 y Xn =n∑
j=110−jYj .
Encuentre
MXn(t) =1
10n
1 − et
1− et10−n t 6= 0
= 1 t = 0
25
d) Compruebe que MXn(t) −→ et − 1
tt 6= 0 recuerde que
lımn→∞
10n(1 − et10−n
) = t lımh→0
1− eh
h= −t
e) Concluya que Xnd−→ X X ∼ U(0, 1)
4. Suponga que Xn2→ X y Yn
2→ Y . Si a, b son constantes y (an) es una sucesion que
converge a a. Compruebe que:
a) aXn + bYn2→ aX + bY . Use la desigualdad triangular.
b) anXn2→ aX . Use la desigualdad tringular.
c) Corr(Xn, Yn) → Corr(X, Y ).
5. Suponga el proceso estocastico (Xn, n = 0, 1, . . .), definido por las siguientes condiciones:
i) X0 ∼ ExP(1/√
2)
ii) Xn|Xn−1 ∼ ExP(Xn−1/√
2), n = 1, 2, . . .
a) Encuentre E(Xn|Xn−1). Y luego E(Xn) en funcion de E(Xn−1). Compruebe que:
E(Xn) = 2−(n+1)/2 (1.16)
b) EncuentreV ar(Xn|Xn−1). Y luego V ar(Xn) en funcion deV ar(Xn−1). Compruebe
que:
V ar(Xn) = 1 − 2−(n+1) (1.17)
c) Con los resultados anteriores encuentre E(X2n), y utilıcelo para encontrar una cota
superior para E(X10X20) y una para E((X10 −X20)2)
d) Utilice la desigualdad de Markov para comprobar que el proceso converge en proba
bilidad a cero: Xnp→ 0, n → ∞. Se puede decir que converge en media cuadratica a
cero: Xn2→ 0 ?. Explique.