To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

Topicos en Series de Tiempo

Propiedades y Estimacion QML

TOPICOS EN SERIES DE TIEMPOPropiedades y Estimacion QML

NORMAN GIRALDO GOMEZProfesor AsociadoEscuela de EstadısticaUniversidad Nacional de ColombiaMedellın

Universidad Nacional de ColombiaMedellín

Copyright c©2011 Norman Diego Giraldo Gómez.

Notaría 6. Folio 23 de Noviembre 2010

Primera Edición

ISBN 2340671110

No está permitido reproducir esta publicación o transmitirla por cualquier forma o medio, electrónico, mecánico, fotocopiado, escaneo

ó de otro tipo excepto para citas cortas, sin el permiso del Autor.

Centro de Documentación Rafael Botero, UN Medellín

Topicos en Series de Tiempo / Norman Diego Giraldo Gomez.

p. cm.—(Coleccion Notas de Clase)

“Universidad Nacional de Colombia."

Incluye referencias bibliograficas e ındice.

ISBN 0000000000 (pbk.)

1. Probabilidades—Teorıa. 2. Matematicas

Ciencias—Investigacion—Teorıa. I. Giraldo, Norman D. II. Series.

519.2

G897c

Diagramación en LaTeX.

Impresión:

Editorial ...

Indice general

1. Desigualdades y Modos de Convergencia 3

1.1. Espacio Muestral y Sigma Algebras . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2. Variables Aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.3. Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.4. Modos de Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.5. Propiedades de la Convergencia en Distribucion. . . . . . . . . . . . . . . . . . 17

1.6. Sımbolos O(·) y o(·) Estocasticos . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.7. Metodo Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.8. Propiedades de la Convergencia en Media Cuadratica. . . . . . . . . . . . . . . . 21

1.9. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2. Procesos Estacionarios 27

2.1. Definicion de Proceso Estocastico . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.2. Propiedades de las funciones de Autocovarianza . . . . . . . . . . . . . . . . . 30

2.3. Procesos Gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.4. Procesos Estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.5. Densidad Espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

v

vi

2.6. Causalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.7. Ejemplos de Procesos Estacionarios en Covarianza . . . . . . . . . . . . . . . . 39

2.8. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3. Procesos Estacionarios Estrictos 45

3.1. Procesos Estacionarios Estrictos . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.2. Ergodicidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.3. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.4. Diferencias Martingalas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4. Procesos ARMA 53

4.1. Procesos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.2. Analisis de algunos procesos ARMA . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2.1. Procesos MA(q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2.2. Proceso AR(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.2.3. Proceso ARMA(1,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.3. Estimacion Noparametrica de la Funcion de Autocorrelacion . . . . . . . . . . . 61

4.4. Estimacion de Procesos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.4.1. Estimacion por el Metodo YuleWalker . . . . . . . . . . . . . . . . . . 64

4.4.2. Estimacion por el Metodo de Maxima Verosimilitud . . . . . . . . . . . 64

5. Procesos tipo GARCH 65

5.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.2. Caracterısticas Empıricas de los Rendimientos de Activos Financieros . . . . . . 66

5.3. Modelos para la Distribucion de los Rendimientos . . . . . . . . . . . . . . . . . 67

5.3.1. Distribucion Normal Inversa Gaussiana NIG . . . . . . . . . . . . . . . 67

5.3.2. Distribucion GED Asimetrica . . . . . . . . . . . . . . . . . . . . . . . 68

5.3.3. Distribucion t de Student Asimetrica . . . . . . . . . . . . . . . . . . . . 69

5.4. Procesos ARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

vii

5.5. Procesos GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5.6. Procesos APARCH y GJR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5.7. Procesos EGARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.8. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6. Modelos de Volatilidad Estocastica 83

6.1. Modelo de Volatilidad Estocastica Asimetrico . . . . . . . . . . . . . . . . . . . 84

6.2. Relacion entre los modelos SV y GARCH . . . . . . . . . . . . . . . . . . . . . 86

7. Estimadores QML 89

7.1. Consistencia y Normalidad Asintotica . . . . . . . . . . . . . . . . . . . . . . . 92

7.1.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

7.1.2. Normalidad Asintotica . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

7.2. Estimacion de Procesos GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . 95

7.3. Estimacion de Procesos APARCH . . . . . . . . . . . . . . . . . . . . . . . . . 96

8. Metodo Generalizado de Momentos 99

8.1. Metodo de Estimacion de Momentos Generalizado(GMM) . . . . . . . . . . . . 99

8.1.1. Condiciones de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 100

8.1.2. Propiedades Asintoticas . . . . . . . . . . . . . . . . . . . . . . . . . . 101

8.1.3. Eficiencia Asintotica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

8.1.4. Algoritmo para hallar θT . . . . . . . . . . . . . . . . . . . . . . . . . . 104

8.1.5. Prueba de Sobreidentificacion . . . . . . . . . . . . . . . . . . . . . . . 106

8.2. Estimacion GMM de un Modelo de Volatilidad Estocastica Asimetrico . . . . . . 106

8.2.1. Simulaciones Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . 111

9. Metodo de Momentos Simulados 117

9.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

9.2. Condiciones para Consistencia debil del SMM . . . . . . . . . . . . . . . . . . . 118

9.2.1. Condicion adicional para Consistencia fuerte del SMM . . . . . . . . . 120

viii

9.3. Condicion para Normalidad Asintotica . . . . . . . . . . . . . . . . . . . . . . . 120

9.4. Algorıtmo para hallar θT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

10. El Metodo Eficiente de Momentos 123

10.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

10.2. El Procedimiento de Estimacion EMM . . . . . . . . . . . . . . . . . . . . . . . 124

10.3. Seleccion del Modelo Auxiliar . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

10.4. Estimacion EMM en el modelo de Volatilidad Estocastica . . . . . . . . . . . . . 129

10.5. Notas sobre GMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

Bibliografıa 136

Indice alfabetico 136

2

CAPITULO 1

Desigualdades y Modos de Convergencia

1.1. Espacio Muestral y Sigma Algebras

Definicion 1.1.1. Espacio Muestral Ω es el conjunto de todos los resultados w del experimento

aleatorio de interes, con ω ∈ Ω ⇐⇒ ω es un posible resultado aleatorio .

Definicion 1.1.2. Una σalgebraF sobre Ω es una coleccion de subconjuntos de Ω que satisfacen

las siguientes condiciones:

1. Ω ∈ F

2. A ∈ F ⇒ Ac ∈ F

3. Si A1, A2, · · · es una sucesion de elementos de F entonces∞⋃i=1

Ai ∈ F .

Los subconjuntos de Ω que estan en F se llaman eventos. Luego A ∈ F equivale a afirmar que A

es un evento y A ⊆ Ω .

Definicion 1.1.3. Una probabilidad P(.) es una funcion P : F −→ [0, 1] que cumple las condi

ciones:

1. P(Ω) = 1

2. P(φ) = 0

3

4

3. Si A1, A2, · · · es una sucesion de eventos mutuamente disjuntos, es decir,

Ai ∩Aj = φ, para i 6= j, entonces:

P

(∞⋃

i=1

Ai

)=

∞∑

i=1

P(Ai).

Es preferible referirse a P(.) como la medida de probabilidad asociada a los eventos. Algunas

propiedades de P(.) se enuncian a continuacion.

Proposicion 1.1.1. Suponga que P es una probabilidad sobre una σalgebraF y que todaA es un

evento, entonces las siguientes propiedades son consecuencia de las propiedades en la definicion

(1.1.3).

1. P(Ac) = 1 − P(A).

2. Si A1 ⊂ A2 entonces P(A1) ≤ P(A2).

3. P (⋃∞

i=1Ai) ≤∑∞

i=1 P(Ai).

4. Si An, n = 1, 2, . . . es una sucesion creciente de eventos, An ⊆ An+1, entonces se cumple

que P (⋃∞

i=1Ai) = lımn→∞ P(An).

5. SiAn, n = 1, 2, . . .es una sucesion decreciente de eventos,An ⊇ An+1, entonces se cumple

que P (⋂∞

i=1Ai) = lımn→∞ P(An).

Ejemplo 1.1.1. Considere una sucesion de eventos An, n = 1, 2, . . ..

1. El evento que consiste en la ocurrencia de un numero infinito de eventos An se denota por

lım supn→∞An y se define como⋂∞

n=1

⋃∞k=n Ak . La sucesion de eventos Bn =

⋃∞k=nAk

es decreciente. Luego

P(lım supn→∞

An) = lımn→∞

P(Bn). (1.1)

2. El evento que consiste en la ocurrencia de todos menos un numero finito de eventos An

se denota por lım infn→∞ An y se define como⋃∞

n=1

⋂∞k=n Ak. La sucesion de eventos

Cn =⋂∞

k=n Ak es creciente. Luego

P(lım infn→∞

An) = lımn→∞

P(Cn). (1.2)

Lema 1.1.1. (Lemas BorelCantelli) Considere una sucesion de eventos An, n = 1, 2, . . ..

(i)

∞∑

j=1

P(Aj) <∞ ⇒ P(lım supn→∞

An) = 0. (1.3)

(ii)

∞∑

j=1

P(Aj) = ∞ y los An son independientes ⇒ P(lım supn→∞

An) = 1. (1.4)

5

Demostracion. (ver Grimmett and Stirzaker (1994), pag. 288)

Para la parte (i). Por la definicion lım supn→∞ An =⋂∞

n=1 Bn, con Bn =⋃∞

k=n Ak sucesion

decreciente. Entonces lım supn→∞An ⊆ Bn, para todon. Luego P(lım supn→∞ An) ≤ P(Bn) ≤∑∞k=n P(Ak) → 0, n→ ∞, ya que

∑∞k=1 P(Ak) <∞.

Para la parte (ii). Denote Ac = (lım supn→∞An)c. Entonces Ac =⋃∞

n=1

⋂∞k=n A

ck. La sucesion⋂m

k=n Ack, m = n, n+ 1, . . . es decreciente en m y por tanto

P

( ∞⋂

k=n

Ack

)= lım

m→∞P(

m⋂

k=n

Ack)

=

∞∏

k=n

(1− P(Ak)), por independencia

≤∞∏

k=n

e−P(Ak ), ya que 1 − x ≤ e−x, x ≥ 0,

= exp

(−

∞∑

k=n

P(Ak)

)= 0.

Por tanto, P(Ac) ≤∑∞n=1 P (

⋂∞k=n A

ck) = 0, y P(A) = 1.

Los tres elementos (Ω,F , P) se asumen dados con relacion a un experimento de interes. Es evidente

que F ⊆ P(Ω), donde P(Ω) es el conjunto de partes de Ω. Sin embargo, la σalgebra no se toma

en general igual a P(Ω) sino que se asume que es un conjunto mas pequeno, concretamente se

asume que contiene solamente los eventos que interesan con respecto al experimento aleatorio

en consideracion. Un conjunto N tal que N ∈ P(Ω) − F no se considera un evento y no tiene

probabilidad asignada.

Definicion 1.1.4. Si A ∈ F y P(A) = 0 se dice queA es un evento nulo. Si A ∈ F y P(A) = 1 se

dice que A es un evento casi seguro.

Se asumira siempre que si A es un evento nulo y B ⊂ A entonces B ∈ F y como P(B) ≤ P(A),

se debe cumplir que P(B) = 0.

Ejemplo 1.1.2. Pueden haber varias σalgebra sobre un mismo conjunto Ω.

1. Si A ∈ F entonces la coleccion A1 = φ,Ω, A, Ac es una σalgebra que esta contenida

en F .

2. Si A,B ∈ F la coleccion

A2 = φ,Ω, A, B, Ac, Bc, A∪ B,AB,Ac ∪ Bc, AcBc, AcB,Ac ∪B,ABc, A ∪Bc

es una σalgebra contenida en F

6

Note que A1 ⊂ A2 ⊂ F y que A1 es la menor σalgebra que contiene la coleccion A, y A2 es

la menor σalgebra que contiene la coleccion A,B.

Teorema 1.1.1. Dada una coleccion de eventos A = A,B, · · · ⊆ F siempre existe una σ

algebra mınima que la contiene, la σalgebra generada por A, σ(A).

Demostracion. Defina el conjunto de todas las σalgebras que contienen la coleccion A como

C(A). No es vacıo porque P(Ω) esta ahı. Luego como la interseccion de una coleccion cualquiera

de σalgebras es de nuevo una σalgebra, se puede definir σ(A) como la interseccion de todas las

σalgebras que contienen a A.

Por ejemplo, si se considera una sucesion de eventos (An, n = 1, 2, . . .), se pueden definir las

sigma algebras Fn = σ(⋃n

j=1 Aj). Entonces se tiene Fn ⊆ Fn+1, y la sigmaalgebra de interes

con relacion a todos los eventos definidos con la sucesion (An, n = 1, 2, . . .) es F = σ(⋃∞

j=1 Aj).

Definicion 1.1.5 ( σalgebra de Borel en R ). Si tomamos Ω = R y la coleccion de subconjuntos es

A = (−∞, a] : a ∈ R es decir la coleccion de todos los semi intervalos cerrados a la derecha,

entonces la σalgebra generada por esta coleccion se denomina σalgebra de Borel, y se denota

por B1 = σ ((−∞, a]; a ∈ R)

Notese que se cumple lo siguiente:

1. R ∈ B1 , φ ∈ B1

2. Si a < b, entonces (−∞, a] , (−∞, b] ∈ B1 luego (−∞, a]c = (a,∞) ∈ B1 y (a,∞) ∩(−∞, b] = (a, b] ∈ B1

3. Cualquier intervalo real esta en B1

Definicion 1.1.6 ( σalgebra de Borel en R2 ). Si tomamos Ω = R2 y

A = (−∞, a] × (−∞, b] : a, b ∈ R

entonces la σalgebra generada por A se llama la σalgebra de Borel en R2 y se denota por

B2 = σ ((−∞, a] × (−∞, b] : a, b ∈ R).

Tenemos que se cumple: R2 ∈ B2 y tambien (−∞, a]× R ∈ B2

Definicion 1.1.7 ( σalgebra de Borel en Rn ). Si tomamos Ω = Rn y

A = (−∞, a1]× · · · × (−∞, an] : a1, · · ·an ∈ R

entonces la σalgebra generada por A se denomina la σalgebra de Borel en Rn y se denota por

Bn = σ ((−∞, a1] × · · · × (−∞, an] : a1, · · ·an ∈ R).

Se cumple Rn ∈ Bn y ademas tambien conjuntos de la forma (−∞, a]× Rn−1 , a ∈ R.

7

1.2. Variables Aleatorias

Definicion 1.2.1. (Variable Aleatoria) Una variable aleatoria es una funcion X : Ω → R tal que

para cada B ∈ B1 se cumple que X−1(B) ∈ F .

Si B = (−∞, a] entonces X−1(B) es el evento ω ∈ Ω : X(ω) ≤ a y se indica por (X ≤ a).

Proposicion 1.2.1. Si X : Ω → R es una variable aleatoria entonces la coleccion de eventosX−1(B) : B ∈ B1

= X−1(B1) es una σalgebra, denotada por σ(X), y se denomina la

informacion generada por X , y satisface:

1. A ∈ σ(X) ⇐⇒ existe B ∈ B1 tal que X−1(B) = A

2. (X ≤ a) ∈ σ(X) ∀a ∈ R

Demostracion Como R ∈ B1 y Ω = X−1(R) entonces Ω ∈ σ(X). Ademas, si A ∈ σ(X)

existe BA ∈ B1 tal que A = X−1(BA), pero entonces Ac = X−1(BcA) por propiedades de las

imagenes inversas. Luego Ac ∈ σ(X).

Si A1, A2, · · · es una sucesion de eventos en σ(X) entonces existe una sucesion de eventos en B1

llamados B1, B2, · · · tal que Ai = X−1(Bi) , i = 1, 2, · · · y entonces

∞⋃

i=1

Ai =

∞⋃

i=1

X−1(Bi) = X−1

( ∞⋃

i=1

Bi

)= X−1(B)

donde B =⋃∞

i=1 Bi ∈ B1 luego⋃∞

i=1 Ai ∈ σ(X).

Definicion 1.2.2 (Funcion de Distribucion). Como para cada x ∈ R , (X ≤ x) ∈ F , entonces

puede calcularse su probabilidad, esta es una funcion de x, y se denota FX(x) = P(X ≤ x). Esta

funcion tiene las siguientes propiedades:

1. FX(x) es monotona creciente con FX(x) → 0 , x→ −∞ y FX(x) → 1 , x→ ∞.

2. FX(x) es continua a la derecha. Significa entonces que

FX(a) = lımx↓a

FX(x) = FX(a+)

El lımite a izquierda es

lımx↑a

FX(x) = FX(a−) = P(X < a)

En general P(X < a) ≤ P(X ≤ a). La funcion FX(x) frecuentemente toma dos formas:

8

1. FX(x) constante excepto por saltos en una serie de puntos En este caso los saltos son iguales

a la diferencia FX(xi) − FX(xi−) = P(X ≤ xi) − P(X < xi), y la variable aleatoria se

dice discreta. Los valores de los saltos son las probabilidades P(X = xi).

2. FX(x) =∫ x−∞ fX(u)du para una funcion fX(u) que es positiva e integrable, con

∫∞−∞ fX(u)du =

1. Si fX(u) es continua en x se tiene F′X(x) = fX(x).

Definicion 1.2.3. Una variable aleatoria bidimensional (X1, X2) es una funcion

(X1, X2) : Ω → R2 tal que para cada B ∈ B2

se cumple que (X1, X2)−1(B) ∈ F donde

(X1, X2)−1(B) = ω ∈ Ω : (X1(ω), X2(ω)) ∈ B2

Un conjunto en B2 es B = (−∞, a] × (−∞, b]. Entonces

(X1, X2)−1(B) = ω ∈ Ω : X1(ω) ≤ a , X2(ω) ≤ b

se denota por (X1 ≤ a , X2 ≤ b) y es igual a (X1 ≤ a) ∩ (X2 ≤ b)

Definicion 1.2.4 ( Informacion generada por (X1, X2)). Es la σalgebra generada por la coleccion

de eventos A =(X1, X2)

−1(B) : B ∈ B2

y se denota por σ(X1, X2).

En σ(X1, X2) estan, por ejemplo, todos los eventos de la forma (X1 ≤ a,X2 ≤ b). Tambien

σ(X1, X2) = (X1, X2)−1(B2) es la imagen inversa de la σalgebra B2. Ademas σ(X1, X2) ⊆ F

y se tiene σ(X1) ⊆ σ(X1, X2) y σ(X2) ⊆ σ(X1, X2)

Definicion 1.2.5 ( La funcion de distribucion conjunta de (X1, X2) ).

Para (X1, X2) ∈ R2, el evento (X1 ≤ x1, X2 ≤ x2) esta en F y su probabilidad depende de

(x1, x2). La funcion que se determina al calcular tal probabilidad se denota por

FX1,X2(x1, x2) = P(X1 ≤ x1, X2 ≤ x2)

y es la funcion de distribucion conjunta de (X1, X2).

Definicion 1.2.6 (Vector Aleatorio (X1, X2, · · · , Xn)).

Un vector Aleatorio (X1, X2, · · · , Xn) es una funcion (X1, X2, · · · , Xn) : Ω → Rn que cumple

(X1, X2, · · · , Xn)−1(B) ∈ F para cada B ∈ Bn

donde

(X1, X2, · · · , Xn)−1(B) = ω ∈ Ω : (X1(ω), X2(ω), · · · , Xn(ω)) ∈ B

9

Definicion 1.2.7 ( Informacion generada por por (X1, X2, · · · , Xn) ).

Informacion generada por (X1, X2, · · · , Xn) es laσalgebra generada por la coleccion de eventos

en FA =

(X1, X2, · · · , Xn)−1(B) : B ∈ Bn

y se denota por σ(X1, X2, · · · , Xn).

Note que en esta σalgebra estan los conjuntos de la forma (X1 ≤ x1, · · · , Xn ≤ xn) para

x1, · · · , xn ∈ R

Definicion 1.2.8 ( Funcion de distribucion conjunta de (X1, X2, · · · , Xn)).

Como (X1 ≤ x1, X2 ≤ x2, · · · , Xn ≤ xn) es un evento, su probabilidad depende de (x1, x2, · · · , xn)

y la funcion ası definida se denomina funcion de distribucion conjunta y se denota por

FX1,X2,··· ,Xn(x1, x2, · · · , xn) = P(X1 ≤ x1, X2 ≤ x2, · · · , Xn ≤ xn)

Si X1, X2, · · · es una sucesion de vectores aleatorios que representa los sucesivos estados de un

sistema, entonces σ(X1, X2, · · · , Xn) es todo lo que puede suceder hasta n. Es el conjunto de

todos los resultados de interes. Si se tiene una sucesion de vectores aleatoriosX1, X2, · · · , entonces

se cumple que

σ(X1) ⊆ σ(X1, X2) ⊆ σ(X1, X2, X3) ⊆ · · ·

Ejemplo 1.2.1. Si n = 18 entonces A = (Xi ≤ 3.1 , ∀ i = 1, · · · , 18) y por tanto A ∈σ(X1, X2, · · · , X18) Si B = (X10 > 7) entonces B ∈ σ(X1, X2, · · · , X10) pero

B /∈ σ(X1, X2, . . . , X9)

1.3. Desigualdades

Las desigualdades son utiles para establecer cotas superiores o inferiores para probabilidades, o

para la solucion de un problema de convergencia 1. Las desigualdades mas utiles son las siguientes:

1. Si E(|X |) <∞ entonces |E(X)| ≤ E(|X |)

2. Desigualdad Triangular

E(|X ± Y |) ≤ E(|X |) + E(|Y |)ademas

|E(X)− E(Y )| ≤ E(|X − Y |) ≤ E(|X |) + E(|Y |)1Alguien en algun texto anoto que se le atribuye a A.N. Kolmogorov la afirmacion: “Detras de todo gran teorema

hay una desigualdad”

10

3. Desigualdad Triangular General

E(|X + Y |r) 1

r ≤ E(|X |r) 1

r + E(|Y |r) 1

r para r ≥ 1

tambien se tiene otra version de esta desigualdad, dada por

E(|X + Y |r) ≤ Cr(E(|X |r) + E(|Y |r)) para r > 0

donde Cr = 1 si r ≤ 1 y Cr = 2r−1 si r ≥ 1.

4. Desigualdad de Markov

Si para algun r > 0 se tiene E(|X |r) <∞ entonces, para todo a > 0 se cumple

P(|X |r ≥ a) ≤ E(|X |r)a

Demostracion. Note que para todo a > 0 se cumple |X |r ≥ aI|X |r>a. Tomando esperanzas

se obtiene la desigualdad.

Ejemplo 1.3.1. Si Y =N∑

j=1Xj es suma aleatoria de variables aleatorias independientes

con Xj positivas y N ∈ 0, 1, 2, · · · entonces

a) P(Y ≥ 0) = 1 ya que por teorema de probabilidad total

P(Y ≥ 0) =

∞∑

n=0

P(Y ≥ 0 | N = n)P(N = n)

= p0 +

∞∑

n=1

P( n∑

j=1

Xj ≥ 0)P(N = n)

pero

P( n∑

j=1

Xj ≥ 0)

= 1 ∀n ≥ 1

luego

P(Y ≥ 0) =

∞∑

n=0

pn = 1

b) Para todo a > 0

P(|Y | ≥ a) = P(Y > a) ≤ E(Y )

a

luego como E(Y ) = µNµX entonces

P(|Y | ≥ a) ≤ µNµX

a

11

5. Desigualdad de Chebyshev

Si V ar(X) <∞ entonces colocando r = 2, X −E(x) en lugar de X y a2 en lugar de a en

la desigualdad de Markov se obtiene

P(|X − µX | ≥ a) ≤ V ar(X)

a2, ∀a > 0. (1.5)

Recuerdese que |x− µX | ≥ a ⇐⇒ x ≤ µX − a o x ≥ µX + a.

Ejemplo 1.3.2. Si X ∼ N (µX , σ2X) y a = 1.645 entonces

P(|X − µX | ≥ 1.645σX) ≤ σ2X

1.6452σ2X

= 0.369

pero P(|X − µX | ≥ 1.645σX) = 1 − P(|X − µX | ≤ 1.645σX) = 1 − 0.95 = 0.05.

6. Desigualdad de CauchySchwarz

|E(XY )| ≤ E(|XY |) ≤√

E(X2)√

E(Y 2)

Ejemplo 1.3.3. Como Cov(X, Y ) = E((X − µX )(Y − µY )) entonces

|Cov(X, Y )| ≤ E(|X − µX ||Y − µY |) ≤√

E((X − µX)2)√

E((Y − µY )2) = σXσY

luego |ρXY | ≤ 1.

7. Desigualdad de Kolmogorov

Si X1, . . . , Xn son variables aleatorias independientes de media cero y varianza σ2 <∞, y

se define Sk = X1 + . . .+Xk, k ≥ 1, entonces se cumple que para cualquier λ > 0

P( max1≤k≤n

|Sk| ≥ λ) ≤ V ar(Xn)/λ2. (1.6)

Demostracion. Defina los eventos Ak = (|Sk| ≥ λ, |Si| < λ, i = 1, . . . , k − 1), para

k = 1, . . . , n. Si ocurre el evento Ak es porque en el tiempo k por primera vez el valor

absolutoSk supero la barrera λ. Por su definicion, losAk son disjuntos. Y ademas, el evento

(max1≤k≤n |Sk| ≤ λ) ocurre si y solamente si ocurre alguno de losAk . Es decir,⋃n

k=1 Ak =

(max1≤k≤n |Sk| ≤ λ). Como los Ak son disjuntos entonces 0 ≤ ∑nk=1 IAk

≤ 1. Como

E(Sn) = 0 entonces usando la identidad S2n = S2

k + 2Sk(Sn − Sk) + (Sn − Sk)2,

V ar(Sn) = E(S2n) ≥

n∑

k=1

E(S2nIAk

)

≥n∑

k=1

E((S2k + 2Sk(Sn − Sk))IAk

)

12

=

n∑

k=1

E(S2kIAk

) + 2

n∑

k=1

E(Sn − Sk)E(SkIAk)

=

n∑

k=1

E(S2kIAk

) ≥ λ2n∑

k=1

P(Ak) = λ2P(

n⋃

k=1

Ak)

= λ2P( max1≤k≤n

|Sk| ≥ λ).

8. Desigualdad de Lyapunov

Si 0 < s ≤ r entonces(E(|X |s)

) 1

s ≤(E(|X |r)

) 1

r .

Ejemplo 1.3.4. Si X es variable aleatoria en R y s = 1 , r = 2 entonces

E(|X |) ≤ [E((X2))]1

2 es decir E2(|X |) ≤ E(X2) y como |E(X)| ≤ E(|X |) entonces

E2(X) ≤ E2(|X |) ≤ E(X2)

de donde

E(X2) −E2(X) = V ar(X) ≥ 0

9. Desigualdad de Jensen

Una funcion f(x) se dice convexa en [a, b] si la lınea que une los puntos (a, f(a)), (b, f(b))

esta siempre por encima de la grafica (x, f(x)). Una condicion suficiente para que f sea

convexa es que exista f ′′(x) y cumpla f ′′(x) > 0 en ese intervalo. En este caso, si X es una

variable aleatoria, f es convexa en el rango de X , y E(f(X)) existe, entonces se cumple:

f(E(X)) ≤ E(f(X))

Una funcion f(x) se dice concava en [a, b] si la lınea que une los puntos (a, f(a)), (b, f(b))

esta siempre por debajo de la grafica (x, f(x)). Una condicion suficiente para que f sea

concava es que exista f ′′(x) y cumpla f ′′(x) < 0 en un intervalo. En este caso, si X es una

variable aleatoria, f es concava y E(f(X)) existe, entonces se cumple:

E(f(X)) ≤ f(E(X))

Ejemplo 1.3.5. a) Si f(x) = 1/x, x > 0, entonces f ′′(x) = 2/x3 > 0, x > 0. Por

tanto, f es convexa en (0,∞). Si X es una variable aleatoria con valores en (0,∞)

aplicando la desigualdad obtenemos 1/E(X) ≤ E(1/X).

b) Si f(x) = ln(x) entonces f ′′(x) < 0, x > 0. Por tanto, f es concava. Si X es una

variable aleatoria con valores en (0,∞) entonces se cumple E(ln(X)) ≤ ln(E(X)).

13

La siguiente identidad es util para calcular momentos de una variable aleatoria.

E(|X |r) = r

∫ ∞

0

xr−1P(|X |> x)dx ≤ +∞, r = 1, 2, . . .

Ejemplo 1.3.6. SiX es una variable aleatoria en [0,∞) con fda P(X ≤ x) = 1−(

λλ+x

)α, λ >

0 , α > 0, se dice que se distribuyePareto(λ, α). Compruebe que siα > 1 entonces E(X) = λα−1

y, si α = 2, entonces E(X2) = +∞.

Demostracion. Usando la identidad anterior con r=2 tenemos:

E(X2) = 2

∫ ∞

0

λ2x

(λ+ x)2dx

= 2λ2 lımt→∞

(λ+ t) ln(λ+ t) − (1 + t) ln(λ)− t

t+ λ= ∞,

luego E(X2) = +∞.

Ejercicio 1.3.1. Suponga que X1 y X2 son variables aleatorias con medias 0 varianzas 1 y

correlacion ρ > 0. Comprobar que E(max(X21 , X

22 )) ≤ 1+

√1 − ρ2, utilizando la desigualdad

de CauchySchwarz y las identidades:max(a, b) = 12 (a+ b+ |a− b|), a2 − b2 = (a+ b)(a− b).

Demostracion. Aplicando las identidades anteriores tenemos

2E(max(X21 , X

22)) = E(X2

1 ) + E(X22 ) + E(|X2

1 −X22 |)

= E(X21 ) + E(X2

2 ) + E(|X1 −X2||X1 +X2|)≤ E(X2

1 ) + E(X22 ) +

√E((X1 +X2)2)E((X1 −X2)2)

= E(X21 ) + E(X2

2 ) +√

E(X21 ) + E(X2

2 ) + 2E(X1X2).√

E(X21 ) + E(X2

2 ) − 2E(X1X2)

= 2 +√

2 + 2ρ√

2 − 2ρ

= 2 + 2√

1− ρ2

de donde E(max(X21 , X

22)) ≤ 1 +

√1 − ρ2.

Luego, para cualquier par de variables aleatorias X1 , X2 con coeficiente de correlacion ρ

E

[max

((X1 − µ1

σ1

)2

,

(X2 − µ2

σ2

)2)]

≤ 1 +√

1 − ρ2.

Ejercicio 1.3.2. Para cualquier par de variables aleatoriasX1 , X2 con coeficiente de correlacion

ρ y para cualquier λ > 0, P(|X1 − µ1| ≥ λσ1) ∪ ((|X2 − µ2| ≥ λσ2) ≤ 1λ2 (1 +

√1 − ρ2).

14

1.4. Modos de Convergencia

Se trata de definir la convergencia de una sucesion de variables aleatorias (Xn)n=0,1,2,···. Hay cinco

modos basicos de convergencia de Xn a un lımiteX cuando n −→ ∞ que son

1. Con probabilidad 1.

2. En media r , r = 1, 2, · · ·

3. En Media cuadratica.

4. En Probabilidad.

5. En Distribucion.

Definicion 1.4.1 (Convergencia con Probabilidad Uno ). Xn converge aX casi seguramente o con

probabilidad uno, indicada por Xnas−→ X cuando n→ ∞ si se cumple que

P( lımn→∞

Xn = X) = 1. (1.7)

Lo anterior significa que para cada ω ∈ Ω, Xn(ω) converge a X(ω) como si fuera una sucesion

de numeros, excepto, posiblemente, para ω en un cierto evento N que tiene probabilidad cero,

P(N ) = 0. Las letras “as” en la notacion se refieren a “almost secure”. CuandoXn es un estimador

θn de un parametro θ, y se cumple θnas−→ θ, se dice que el estimador es “consistente fuerte”.

Para un ε > 0 cualquiera considere el eventoE =⋂∞

n=1

⋃∞k=n(|Xk−X | > ε). Siω ∈ E entonces,

para cada n ≥ 1 puede encontrarse al menos un k ≥ n para el cual |Xk(ω) −X(ω)| > ε. Pero si

Xn converge aX con probabilidad uno entonces debe tenerse P(E) = 0. Por lo tanto, la condicion

(1.7) es equivalente a

∀ε > 0, P

[ ∞⋂

n=1

∞⋃

k=n

(|Xk −X | > ε)

]= 0 (1.8)

Un caso importante de convergencia casi seguramente es el siguiente teorema.

Teorema 1.4.1. (La Ley Fuerte de Grandes Numeros) Suponga que Xn, n = 0, 1, 2 . . . es una

sucesion de variables aleatorias i.i.d. con media finita E(|Xn|) < ∞, entonces se cumple que

Xn = (1/n)∑n

j=1 Xjas→ E(X1).

Un criterio para convergencia casi seguramente de una sucesion de variables aleatorias es la

siguiente proposicion.

Proposicion 1.4.1. Para todo ε > 0 arbitrario si∑∞

n=1 P(|Xn − X | > ε) < ∞, entonces

Xnas→ X , cuando n→ ∞.

15

Demostracion. Denote An = (|Xn − X | > ε) para ε > 0 dado. Como se cumple la hipotesis

del Lema BorelCantelli, (1.1.1), entonces P(lım supn→∞An) = 0 y se cumple la condicion

(1.8).

Definicion 1.4.2 ( Convergencia en Media ). Si r es un entero positivo r = 1, 2, 3, · · · se dice que

Xn converge a X en media r, indicado por

Xnr−→ X , n→ ∞

si se cumple

1. E(|Xn|r) <∞ para n = 1, 2, · · ·

2. E(|Xn −X |r) −→ 0 cuando n→ ∞

La Convergencia en Media Cuadratica corresponde al caso r = 2, es decir, Xn2→ X, n→ ∞ si

se cumple que E(X2n) <∞, ∀n ≥ 1 y E((Xn −X)2) → ∞, n→ ∞.

Definicion 1.4.3 ( Convergencia en Probabilidad ). Xn converge a X en probabilidad, denotada

por Xnp→ X, n→ ∞, si

∀ε > 0, P(|Xn −X | ≥ ε) → 0 cuando n→ ∞.

Cuando Xn es un estimador θn de un parametro, por ejemplo, θ, y se cumple θnp→ θ se dice

que el estimador es “consistente debil”. Un caso importante de convergencia en probabilidad es el

siguiente teorema.

Teorema 1.4.2. (La Ley Debil de Grandes Numeros) Suponga que Xn, n = 0, 1, 2 . . . es una

sucesion de variables aleatorias i.i.d. con media E(Xn) = µ y varianza finita V ar(Xn) = σ2 <

∞, entonces se cumple que Xn = (1/n)∑n

j=1 Xjp→ µ.

Demostracion. Aplicando la desigualdad de Chebyshev a la variable Xn = (1/n)∑n

j=1Xj ,

tenemos que, para ε > 0, P(|Xn − µ| ≥ ε) ≤ V ar(Xn)/ε2. Pero V ar(Xn) = nV ar(X1)/n2 =

σ2/n. Entonces

lımn→∞

P(|Xn − µ| ≥ ε) ≤ lımn→∞

σ2

nε2= 0

es decir, Xnp→ µ, n→ ∞.

Definicion 1.4.4 (Convergencia en Distribucion). Xn converge a X en distribucion, denotado por

Xnd−→ X, n→ ∞ si para todo x en el cual FX(.) es continua se cumple que

FXn(x) → F (x) n −→ ∞

16

La convergencia en distribucion tambien se denomina “convergencia en ley”, y a veces se denota

XnL−→ X , y tambien se denomina “convergencia debil”. Uno de los casos de mayor interes es

cuando X ∼ N (0, σ2). Cuando Xn es un estimador θn de un parametro, por ejemplo, θ, y se

cumple que√n(θn − θ)

d→ N (0, σ2) se dice que el estimador es “asintoticamente normal”.

En las definiciones anteriores las variables Xn, X son unidimensionales con valores en R. Para el

caso de vectores aleatorios, con Xn ∈ Rk las definiciones se hacen mediante una funcion distancia

en Rk, d(Xn, X), por ejemplo, la distancia euclidiana d(Xn, X) = (∑k

j=1(Xn(j)−X(j))2)1/2.

En este caso

(i)Xnas→ X ⇔ P( lım

n→∞d(Xn, X) = 0) = 1,

(ii)Xnp→ X ⇔ ∀ε > 0, P(d(Xn, X) < ε) → 1, n→ ∞,

(iii)Xnr→ X ⇔ E([d(Xn, X)]r) → 0, n→ ∞.

Proposicion 1.4.2. Algunas relaciones entre los modos de convergencia esta dado por las sigu

ientes implicaciones. Suponga que Xn, X son vectores.

(i)Xnas→ X ⇒ Xn

p→ X, (1.9a)

(ii)Xnp→ X ⇒ Xn

d→ X, (1.9b)

(iii)Xnp→ X ⇒ existe una subsucesion (nk, k = 1, 2, . . .)

tal que Xnk

as→ X, (1.9c)

(iv)Xnr→ X ⇒ Xn

p→ X, (1.9d)

(v) Xnd→ c, para c constante ⇒ Xn

p→ c, (1.9e)

(vi) Xnd→ X y d(Xn, Yn)

p→ 0 ⇒ Ynd→ X. (1.9f)

Demostracion. (i) SiXnas→ X entonces para ε > 0, el eventoE(ε) =

⋂∞n=1

⋃∞k=n(|Xk−X | >

ε) tiene probabilidad cero. Por tanto la sucesion decreciente Bn(ε) =⋃∞

k=n(|Xk −X | > ε)

tiene probabilidad convergente a cero cuando n → ∞. Como (|Xn −X | > ε) ⊆ Bn(ε) se

cumple que P(|Xn −X | > ε) → 0, si n→ ∞.

(iv) Es facil comprobar que Xn1→ X ⇒ Xn

p→ X , utilizando la desigualdad de Markov. Si

ε > 0 y se asume que E(|Xn −X |) −→ 0 entonces

P(|Xn −X | ≥ ε) ≤ E(|Xn −X |)ε

→ 0, cuando n→ ∞,

luego Xnp→ X . Para el caso r > 1, Xn

r→ X ⇒ Xnp→ X se comprueba utilizando la

desigualdad de Lyapunov con s = 1 , r > 1: E(|Xn −X |) ≤ [E(|Xn −X |r)]1/r. Luego si

ε > 0

P(|Xn −X | ≥ ε) ≤ E(|Xn −X |)ε

≤ [E((Xn −X)r)]1/r

ε

17

de donde si E((Xn −X)r) → 0 entonces Xnp→ X cuando n→ ∞.

Teorema 1.4.3. (Teorema de Convergencia Monotona) Suponga que Xn, n = 0, 1, 2 . . . es una

sucesion de variables aleatorias, monotonas no decrecientes y no negativas con probabilidad uno

(as), P(0 ≤ X0 ≤ X1 ≤ X2 ≤ . . .) = 1, tales que Xnas→ X . Entonces se cumple que

lımn→∞

E(Xn) = E(X). (1.10)

Un teorema muy util es un teorema de preservacion de la convergencia de una sucesion cuando se

transforma mediante una funcion continua.

Teorema 1.4.4. (Teorema de mapeo continuo) Suponga que (Xn, n = 0, 1, . . .) es una sucesion de

vectores aleatorios en Rk que converge a una variable aleatoria X , en cualquiera de los modos.

Si g : Rk → Rm es una funcion continua en cada punto de un conjunto G ⊆ Rk, abierto, tal que

P(X ∈ G) = 1, entonces g(Xn) converge en as, p, d, a g(X).

(i)Xnd→ X ⇒ g(Xn)

d→ g(X),

(ii)Xnp→ X ⇒ g(Xn)

p→ g(X),

(iii)Xnas→ X ⇒ g(Xn)

as→ g(X).

La prueba esta en el artıculo de Mann and Wald (1943).

Teorema 1.4.5. (Teorema de Slutsky) Suponga que (Xn ∈ Rk, n = 0, 1, . . .) es una sucesion de

vectores aleatorios tales que Xnd→ X , y (Yn ∈ R, n = 0, 1, . . .) es una sucesion de variables

aleatorias tales que Ynp→ c. Entonces se cumple

(i) Xn + Ynd→ X + c, (1.11a)

(ii) YnXnd→ cX, (1.11b)

(iii) Xn/Ynd→ X/c. (1.11c)

1.5. Propiedades de la Convergencia en Distribucion.

Definicion 1.5.1 (Funcion Generadora de Momentos). Si X es una variable aleatoria, suponga

que existe h > 0 tal que para cada t , −h < t < h existe la esperanza E(etX), entonces la

correspondiente funcion de t se denota por MX(t) y es la fgm de X . Luego

MX(t) =∑

j

etjP(X = j) si X es discreta ,

18

=

∫ ∞

−∞etxfX(x)dx si X es continua .

Es evidente que MX(0) = 1. Ademas se tiene la propiedaddkMX(t)

dtk

∣∣∣∣t=0

= E(Xk) k =

1, 2, · · · . Cuatro ejemplos de funciones generadoras de momentos son los siguientes.

1. Si X ∼ N (µ, σ2) entonces MX(t) = exp(µt+ 12 t

2σ2).

2. Si N ∼ Poison(λ), λ > 0, entonces MN (t) = eλ(et−1).

3. Si N ∼ Bin(n, p), entonces MN(t) = (1− p+ pet)n.

4. Si X ∼ Gamma(α, θ),θ, α > 0 entonces fX(x) = xα−1e−x

θ

θkΓ(α), para x ≥ 0 y MX(t) =

[1

1−tθ

]αpara t < 1

θ . El caso α = 1 corresponde a X ∼ Exp(θ).

Teorema 1.5.1. SiX1, X2, · · · , Xn son variables aleatorias independientes con fgmMXj(t) , j =

1, 2, · · · , n para −h < t < h entonces X = X1 + X2 + · · · + Xn tiene fgm MX(t) =

MX1(t)MX2

(t) · · ·MXn(t) e inversamente, si la fgm MX(t) se puede expresar como el producto

de las fgm de las Xj entonces estas son independientes.

Teorema 1.5.2. Si (Yn)n=1,2,··· es una sucesion de variables aleatorias tales que tienen fgmMYn(t)

para −h < t < h y existe una variable aleatoria Y con fgm MY (t) para |t| ≤ h1 < h tal que

MYn(t) →MY (t) cuando n→ ∞ entonces Ynd→ Y cuando n→ ∞.

Ejemplo 1.5.1. Suponga que Yn ∼ Bin(n, pn) tal que pn = µn para n = 1, 2, · · · donde µ > 0

es una constante. EntoncesMYn(t) = E(etYn) = (1− pn + pnet)n =

[1 + µ(et−1)

n

]n. Utilizando

el resultado(1 + α

n

)n → eα cuando n → ∞, se obtiene MYn(t) → exp(µ(et − 1)). Como para

Y ∼ Poison(µ) se tiene MY (t) = eµ(et−1) entonces Ynd→ Y cuando n→ ∞.

Por ejemplo, cuando p << 12 y n > 100, se escribe Bin(n, p)

a∼ Poisson(np), dondea∼ es

una convencion para utilizar la distribucion de la variable lımite en reemplazo de la distribucion

original.

Proposicion 1.5.1. (Teorema del Lımite Central, TLC) Si (Xn, n = 1, 2, . . .) es una sucesion de

variables aleatorias iid con E(Xi) = µ y V ar(Xi) = σ2 entonces la sucesion Yn =√n(Xn −

µ)/σ, donde Xn = (1/n)∑n

j=1 Xj , converge en distribucion a una variable aleatoria Y ∼N (0, 1) es decir Yn

d→ Y, n→ ∞.

Demostracion. Para la demostracion se requiere un resultado auxiliar. Si bn → 0, n → ∞ es

una sucesion infinitesimal, y se define an = (1 + abn)n, para a ∈ R, entonces an → ea cuando

n→ ∞.

19

Para la demostracion del teorema se asume que la funcion generadora de momentos de las variables

Xn existe en un intervalo (−h, h), h > 0. Se forma la sucesion Yn =√n(Xn − µ)/σ =

1√n

∑nj=1(Xj − µ)/σ entonces

MYn(t) = E

(e

t√n

Pnj=1

(Xj−µ)/σ)

=

n∏

j=1

E

(e

t√n

[(Xj−µ)/σ])

=

n∏

j=1

MXj−µ

σ

(t√n

)

=

[MX1−µ

σ

(t√n

)]n

=

[E

(e

t√n

“X1−µ

σ

”)]n

=

[E

(1 +

t√n

(X1 − µ

σ

)+t2

2n

(X1 − µ

σ

)2

+ . . .

)]n

=

[1 +

t2

2n+ o

(1

n

)]n

,

donde o(

1n

)= cn es una sucesion que cumple cn/(1/n) → 0 cuandon→ ∞. Como 1

2n+t−2o(

1n

)

es una sucesion infinitesimal, se cumple que[1 + t2

2n + o(

1n

)]n→ et

2/2, cuando n → ∞, y por

la Proposicion(1.5.2) se concluye que Yn =√n(Xn − µ)/σ

d→ Y, n→ ∞

1.6. Sımbolos O(·) y o(·) Estocasticos

Definicion 1.6.1. Para una sucesion de variables aleatorias (Xn, n = 1, 2, . . .), la notacion

Xn = Op(1) equivale a ∀ε > 0, ∃M > 0, ∃N > 0 tales que P(|Xn| ≤M) ≥ 1 − ε, ∀n ≥ N .

La notacion Xn = Op(1) significa que la sucesion (Xn) esta “acotada en probabilidad”. Es decir,

la probabilidad de estar Xn en un intervalo [−M,M ] es muy alta para todo n. Para otra sucesion

An, aleatoria o no, positiva, la notacion Xn = Op(An) significa que Xn/An = Op(1).

Teorema 1.6.1 (Teorema de Prohorov).

(i) Xnd→ X ⇒ Xn = Op(1),

(ii)Xn = Op(1) ⇒ existe una subsucesion (nk, k = 1, 2, . . .)

tal que Xnk

as→ X.

Definicion 1.6.2. Para una sucesion de variables aleatorias (Xn, n = 1, 2, . . .), la notacion

Xn = op(1) es una forma equivalente de expresar que Xn converge a cero en probabilidad.

20

Proposicion 1.6.1. Las reglas para el manejo de los sımbolos Op(.), op(.) se expresan a contin

uacion.

op(1) + op(1) = op(1) (1.12a)

op(1) +Op(1) = Op(1) (1.12b)

Op(1)op(1) = op(1) (1.12c)

(1 + op(1))−1 = Op(1) (1.12d)

op(An) = Anop(1) (1.12e)

Op(An) = Anop(1) (1.12f)

op(Op(1)) = op(1). (1.12g)

La interpretacion es similar a la del teorema de Slutsky (1.4.5). Por ejemplo, op(1)+op(1) = op(1)

significa que si Xn y Yn ambas convergen a cero en probabilidad, entoncesXn +Yn tambien. Este

resultado es una aplicacion directa del teorema de mapeo continuo (1.4.4), pag. 17.

1.7. Metodo Delta

Si g : Rk → Rm una funcion definida sobre un subconjunto de Rk, con g = (g1, . . . , gm)′, y

diferenciable en x0 entonces su diferencial se define como la matriz Dg(x0) ∈ Rm×k dada por

Dg(x0)[i, j] =∂gi(x0)

∂xj, que cumple, para h ∈ Rk,

g(x0 + h) = g(x0) +Dg(x0)h+ o(||h||), h→ 0 ∈ Rk. (1.13)

La notacion o(||h||) indica una funcion real de ||h|| que cumple limh→0o(||h||)/||h|| = 0. Es

decir, o(||h||) es una funcion que tiende a cero mas rapido que ||h||.

Teorema 1.7.1 (Metodo Delta). Sea g : Rk → Rm una funcion definida sobre un subconjunto

de Rk y diferenciable en x0. Sean Xn vectores aleatorios con valores en el dominio de g. Si

rn(Xn − x0)d−→ X , para rn sucesion numerica tal que rn → ∞, entonces

rn(g(Xn) − g(x0))d−→ Dg(x0)X. (1.14)

Demostracion. Como rn → ∞ entonces por Teorema de Slutsky (1.4.5), (1/rn)rn(Xn−x0)d−→ 0,

y por tanto Xn − x0 converge a cero en probabilidad, por (1.9e). Defina la funcion φ(h) =

(g(x0 + h) − g(x0) − Dg(x0)h)/||h||, para h 6= 0, y φ(0) = 0. Entonces φ(.) es continua en

0 ∈ Rk, es decir, lımh→0 φ(h) = φ(0) = 0, por la hipotesis de aproximacion lineal (1.13).

Aplicando el teorema de mapeo continuo (tmc) (1.4.4) se obtiene φ(Xn − x0)p−→ 0. Ademas, otra

vez por el tmc, como la funcion norma ||.|| es continua, entonces rn||Xn − x0|| d−→ 0, luego, por

21

teorema de Slutsky, rnφ(Xn − x0)||Xn − x0|| d−→ 0. Y por tanto rnφ(Xn − x0)||Xn − x0|| p−→ 0

por (1.9e). Ahora

rnφ(Xn − x0)||Xn − x0|| = rn(g(xn)− g(x0) −Dg(x0)(Xn − x0))

= rn(g(xn)− g(x0)) − rn(Dg(x0)(Xn − x0))

= rn(g(xn)− g(x0)) −Dg(x0)(rn(Xn − x0))p−→ 0.

Pero la multiplicacion matricial es una operacion continua, luego por el tmc,

Dg(x0)(rn(Xn − x0))d−→ Dg(x0)X

Por teorema de Slutsky, sumando las dos ultimas expresiones, se obtine finalmente

rn(g(xn)− g(x0))d−→ Dg(x0)X.

Ejemplo 1.7.1. Suponga dos sucesionesXn, Yn tales que√n(Xn−3))

d−→ X , conX ∼ N (0, 1) y√n(Yn−2))

d−→ Y , con Y ∼ N (0, 1). Y considere la funcion g : R2 → R, dada por g(x, y) = xy3.

Entonces, con x0 = (x, y), Dg(x0) = (∂g(x,y)∂x , ∂g(x,y)

∂y ) = (y3, 3xy2). Reemplazando x0 = (3, 2)

se obtiene Dg(x0) = (8, 36). Entonces, la aplicacion del metodo delta (1.14) permite concluır

que √n(XnY

3n − 24)

d−→ Dg(x0)(X, Y )′ = 8X + 36Y.

Teorema 1.7.2. Considere dos sucesiones de vectores aleatorios en Rk, tales que Ynd−→ Y y

Xn = Yn + Op(an), con an → 0. Y sea g : Rk → R una funcion con derivadas parciales

continuas, excepto en un subconjunto G ⊆ Rk que cumple lımn→∞ P(Yn ∈ G) = 0. Denote el

gradiente de g en un punto x0 ∈ G por ∇g(x0) = (∂g(x0)∂x1

, . . . ,∂g(x0)∂xk

). Entonces se cumple

g(Xn) = g(Yn) + ∇g(Yn)(Xn − Yn) + op(an), n→ ∞. (1.15)

1.8. Propiedades de la Convergencia en Media Cuadratica.

Sabemos que

Xn2−→ X si n −→ ∞ ⇐⇒ E((Xn −X)2) −→ 0 si n −→ ∞

por tanto si

1. Xn2−→ X cuando n −→ ∞ entonces

a) E(Xn) −→ E(X) cuando n −→ ∞

22

b) E(X2n) −→ E(X2) cuando n −→ ∞

Demostracion.

a) Por Lyapunov con s = 1 , r = 2 tenemos

E(|Xn −X |) ≤√

E(|Xn −X |2)

ademas

|E(Xn) − E(X)| ≤ E(|Xn −X |) ≤√

E(|Xn −X |2)

luego como E((Xn −X)2) −→ 0 cuando n −→ ∞ se tiene

E(Xn) −→ E(X) cuando n −→ ∞

b) La siguiente desigualdad es valida

0 ≤[√

E(X2n)−

√E(X2)

]2≤ E((Xn −X)2)

ya que desarrollando ambos miembros de la desigualdad obtenemos

E(X2n) + E(X2) − 2

√E(X2

n)E(X2) ≤ E(X2n) + E(X2)− 2E(XnX)

que a su vez equivale a

E(XnX) ≤√

E(X2n)E(X2)

la cual es cierta por c. s.

E(XnX) ≤ E(|XnX |) ≤√

E(X2n)E(X2)

Nota 1.8.1. Es evidente que Xn2−→ X entonces V ar(Xn) −→ V ar(X)

2. (ver Parzen (1972) pag. 112 Teo 4B ) Si Xn ∼ N (µn, σ2n) y Xn

2−→ X entonces

X ∼ N (µ, σ2) con µ = lımn→∞

µn y σ2 = lımn→∞

σ2n.

Demostracion.

Si Xn2−→ X entonces µn −→ µ = E(X) y σ2

n −→ σ2 = V ar(X) ademas la fgm de Xn

es

MXn(t) = eµnt+ 1

2σ2

nt2 t ∈ R

23

luego MXn(t) −→M(t) cuando n −→ ∞ donde

M(t) = eµt+ 1

2σ2t2, t ∈ R

lo cual significa que Xn converge en distribucion a una variable aleatoria distribuıda

N (µ, σ2). Pero como

Xn2−→ X =⇒ Xn

D−→ X

esta variable debe ser X , por tanto X ∼ N (µ, σ2).

3. Si Xn2→ X cuando n→ ∞ y E(X2

n) <∞ para todo n ≥ 1 entonces E(X2) <∞.

Demostracion.

Utilizando la desigualdad triangular general

E(|X + Y |r) 1

r ≤ E(|X |r) 1

r + E(|Y |r) 1

r para r ≥ 1

con Xn = X , Y = X −Xn , r = 2 se tiene

√E(X2) ≤

√E(X2

n) +√

E((X −Xn)2)

como E((Xn − X)2) −→ 0 cuando n −→ ∞ y E(X2n) < ∞ para todo n ≥ 1 entonces

E(X2) <∞.

4. Si Xn2→ X , Yn

2→ Y entonces E(XnYn) → E(XY ) cuando n −→ ∞

Demostracion.

|E(XnYn) − E(XY )| ≤ E(|XnYn −XY |) = E(|(Xn −X)Y + (Yn − Y )Xn|)≤ E(|(Xn −X)Y |) + E(|(Yn − Y )Xn|)

≤[E((Xn −X)2)E(Y 2)

] 1

2 +[E((Yn − Y )2)E(X2

n)] 1

2

Como E(Y 2) < ∞ se cumple que si n −→ ∞ entonces la ultima expresion tiende a

cero.

5. Xn2−→ X ⇐⇒ ∃ c ∈ R tal que E(XnXm) −→ c para n , m → ∞

Demostracion.

[ ⇐= ]

Si E(XnXm) −→ c entonces

E((Xn −Xm)2) = E(X2n) + E(X2

m)− 2E(XnXm) → c+ c− 2c = 0

24

y (Xn) es una sucesion de Cauchy en L2

[ =⇒ ]

Si Xn2→ X entonces E(XnXm) → E(X2) = c cuando n→ ∞

6. Si Xn2−→ X y Yn

2−→ Y entonces aXn + bYn2−→ aX + bY

7. Si Xn2−→ X y an −→ a entonces anXn

2−→ aX

1.9. Problemas

1. Suponga que N ∼ Poisson(λ), y δ > 0 es una constante. Se define la variable X =∑Nj=0 e

−δj . Utilice el resultado: E(etN) = eλ(et−1) y la desigualdad de Markov para encon

trar una cota superior para la probabilidad P(X > a), a > 0.

2. Suponga una sucesion de variables Normales, Xn ∼ N (0, σ2n), n = 1, 2, . . ., tales que

σ2n → 0, n→ ∞.

a) Compruebe que Xn2→ 0, n→ ∞.

b) Si aceptamos que es valida la operacion ddtE(etXn) = E( d

dtetXn), compruebe que

ddtMXn(t)|t=1 = E(Xne

Xn) = σ2ne

σ2n/2.

c) Compruebe que ‖eXn − 1−Xn‖/‖Xn‖ → 0, n→ ∞.(Nota: El desarrollo de Taylor

de orden 1 alrededor de x = 0 de la funcion f(x) = ex esta dado por ex = 1+x+r(x),

donde r(x) es el residuo que cumple lımx→0 |r(x)/x| = 0. El problema propuesto

puede verse como una generalizacion estocastica de este resultado de calculo).

3. a) Compruebe que si Y ∼ U(0, 1) entonces

MY (t) =

et−1t para t 6= 0

1 para t = 0

b) EncuentreMY (t) si Y ∼ U0, 1, · · · , 9

c) Considere (Yn)n=1,2,··· con Yn ∼ iid U0, 1, 2, · · · , 9 y Xn =n∑

j=110−jYj .

Encuentre

MXn(t) =1

10n

1 − et

1− et10−n t 6= 0

= 1 t = 0

25

d) Compruebe que MXn(t) −→ et − 1

tt 6= 0 recuerde que

lımn→∞

10n(1 − et10−n

) = t lımh→0

1− eh

h= −t

e) Concluya que Xnd−→ X X ∼ U(0, 1)

4. Suponga que Xn2→ X y Yn

2→ Y . Si a, b son constantes y (an) es una sucesion que

converge a a. Compruebe que:

a) aXn + bYn2→ aX + bY . Use la desigualdad triangular.

b) anXn2→ aX . Use la desigualdad tringular.

c) Corr(Xn, Yn) → Corr(X, Y ).

5. Suponga el proceso estocastico (Xn, n = 0, 1, . . .), definido por las siguientes condiciones:

i) X0 ∼ ExP(1/√

2)

ii) Xn|Xn−1 ∼ ExP(Xn−1/√

2), n = 1, 2, . . .

a) Encuentre E(Xn|Xn−1). Y luego E(Xn) en funcion de E(Xn−1). Compruebe que:

E(Xn) = 2−(n+1)/2 (1.16)

b) EncuentreV ar(Xn|Xn−1). Y luego V ar(Xn) en funcion deV ar(Xn−1). Compruebe

que:

V ar(Xn) = 1 − 2−(n+1) (1.17)

c) Con los resultados anteriores encuentre E(X2n), y utilıcelo para encontrar una cota

superior para E(X10X20) y una para E((X10 −X20)2)

d) Utilice la desigualdad de Markov para comprobar que el proceso converge en proba

bilidad a cero: Xnp→ 0, n → ∞. Se puede decir que converge en media cuadratica a

cero: Xn2→ 0 ?. Explique.

Documents

To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral