77
Teor´ ıa de Probabilidad Pontificia Universidad Cat´ olica de Chile Facultad de Matem´ aticas Alejandro Ram´ ırez

aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

Teorıa de ProbabilidadPontificia Universidad Catolica de Chile

Facultad de Matematicas

Alejandro Ramırez

Page 2: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

2

Page 3: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

Capıtulo 1

Fundamentos

La modelacion de fenomenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que sea natural introducir modelos matematicoscon aleatoriedad o estocasticidad. Gracias al desarrollo de la teorıa de la medida y de la integra-cion a fines del siglo 19, los cimientos matematicos para la modelacion de fenomenos aleatorioscomenzaron a desarrollarse a principios del siglo XX con la axiomatizacion de Kolmogorov. Lamedalla Fields otorgadas a Wendelin Werner en 2006 y el premio Abel a S.R. Srinivasa Varad-han en 2007, dio pleno reconocimiento a esta area de las matematicas, llamada probabilidad.El impacto y aplicaciones de la probabilidad en las matematicas y otras ciencias es diverso yprofundo. A modo de ilustracion, a continuacion enumeramos algunos ejemplos.

1. Confirmacion de la naturaleza atomica de la materia. El ano 1827, el botanicoRobert Brown, observa que al al dejar partıculas de polen en una solucion de agua, estas demueven siguiendo trayectorias irregulares. Recien el ano 1905, Albert Einstein formula lateorı a del movimiento browniano, que explica tal movimiento suponiendo que la materiatiene una naturaleza atomica, por lo que trayectorias de partıculas macroscopicas songeneradas por las colisiones de los atomos de conforman el agua. Se puede entenderen lineas gruesas el concepto de movimiento browniano, como una version microscopicade una marcha aleatoria en medio aleatorio: es decir una partıcula que se mueve entiempos enteros saltando aleatoriamente cada vez, e independientemente de los saltosanteriores. Jean-Baptiste Perrin obtiene en el ano 1926 el premio Nobel de Fısica porhaber confirmado experimentalmente la teorıa del movimiento Browniano de Einstein,habiendo comprobado experimentalmente que la materia tiene una naturaleza atomica.

2. El metodo probabilıstico. El numero de Ramsey R(k, l) es el entero n mas pequenotal que para cualquier bi-coloracion de las aristas de un grafo completo de n verticesKn, o bien existe un subgrafo completo rojo Kk o un subgrafo completo azul Kl. Quere-mos encontrar una cota inferior para R(k, k). Ocupando el llamado metodo probabilıstico

probaremos que si(nk

)21−(k2) < 1, entonces R(k, k) > n. Consideremos una coloracion

aleatoria de las aristas de Kn en rojas y azules, donde ambos colores tienen la mismaprobabilidad. Para cada subconjunto fijo R de k vertices, sea AR el evento que el sub-

grafo inducido Kk de R es monocromatico. Es obvio que P (AR) = 21−(k2). Ahora, comoexisten

(nk

)formas de elegir R, la probabilidad de que alguno de los eventos AR ocurra

es a lo mas(nk

)21−(k2). Es decir R(k, k) > n. Si elegimos n = b2k/2c y k ≥ 3 entonces(

nk

)21−(k2) < 21+

k2

k! ·nk

2k2/2

< 1. Por lo tanto

1

Page 4: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

2 CAPITULO 1. FUNDAMENTOS

R(k, k) > b2k/2c, para todo k ≥ 3.

Este es un ejemplo de Paul Erdos del ano 1947 y es uno de los mas elementales queilustra el llamado del metodo probabilıstico, que consiste en construır un espacio deprobabilidad de estructuras apropiadas, y luego probar que las propiedades buscadas sesatisfacen con probabilidad positiva.

3. Ecuaciones diferenciales parciales estocasticas. El desarrollo de la probabilidad hapermitido modelar ecuaciones diferenciales ordinarias y estocasticas con terminos inho-mogeneos “rugosos” o altamente irregulares. Estos terminos son representados por pro-cesos estocasticos para los cuales se ha logrado desarrollar una teorıa de la integracionque dicho de modo simplificado, extiende la integral de Lebesgue-Stieljes. La ecuacion deKardar-Parisi-Zhang (KPZ), que modela la evolucion de interfaces irregulares h(t, x) quedependen del tiempo t y la posicion x,

∂th(x, t) = ν∂xxh(x, t) +λ

2(∂xh(x, t))2 + W (x, t),

donde ν y λ son parametros y W es ruido blanco espacio-temporal, es un ejemplo de ello.Esta ecuacion tiene atributos de universalidad y esta estrechamente relacionada con laecuacion del calor estocsatica

∂tu(x, t) = ∂xxu(x, t) + u(x, t)W (t, x).

4. Teorıa de la informacion. La teorıa de la informacion permite efectuar una descripcionmatematica de sistemas generales de comunicacion. En 1947, C. E. Shannon ocupo herra-mientas de la probabilidad para desarrollar tal teorıa lo que le llevo a definir la llamadaentropıa de Shannon. En sus estudios, Shannon modela una fuente discreta de informacioncon una cadena de Markov.

5. La modelacion del precio de derivados financieros. En 1973, Fischer Black y MyronScholes publican un trabajo donde proponen un modelo para predecir el comportamientode ciertos derivados financieros. Estos son las llamadas opciones. Una opcion de com-pra, es un contrato entre un comprador y un vendedor, donde el comprador adquierepor un cierto precio el derecho, pero no la obligacion, de comprar una cantidad fija deacciones al vendedor si estas sobrepasan un precio lıımite. Por ejemplo, el comprador Aadquiere el 12 de Agosto del 2008, por 150 pesos por accon, el derecho de adquirir 1000acciones de Salfacorp a un precio lımite de 1700 pesos por accion dentro de los proximos3 meses. El precio de las acciones de Salfacorp el dıa 12 de Agosto es de 1550 pesos poraccion. Si dentro del plazo establecido, la accion de Salfacorp llegase al valor de 2000pesos, y en aquel momento el comprador ejerce su derecho, entonces tendra que pagar1700 × 1000 = 1,700,000 pesos. Si las vende inmediatamente, 2000 × 1000 = 2,000,000pesos. Sus ganancias serıan entonces de 300,000− 150,000 = 150,000 pesos. La ecuacionde Black-Scholes permite calcular el precio adecuado de una opcion de compra comofuncion del precio de la accion. Se asume que el precio de la accion satisface lo que sellama una ecuacion diferencial estocastica. En 1997 Scholes recibio el premio Nobelde Economıa por este trabajo.

Page 5: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

1.1. UNIVERSALIDAD EN FENOMENOS ALEATORIOS 3

6. Buscadores en la web. Uno de los primeros buscadores de la web, Google, ordena laspaginas con las palabras buscadas, segun el peso que le asigna la medida invariante deuna cadena de Markov, correspondiente al movimiento en un grafo cuyos lazos son losenlaces entre distinas paginas.

7. Percolacion. El modelo de Percolacion fue propuesto en 1958 por los fısicos John Ha-mersley y Simon Broadbent para modelar el flujo de agua por un material poroso. Apartir de la red hipercubica Zd, donde d ≥ 1 es la dimension, definimos el grafo Ed for-mado por las aristas que conectan los sitios que son primeros vecinos. Dado 0 ≤ p ≤ 1,decretamos que cada arista esta abierta con probabilidad p y cerrrada con probabilidad1− p independientemente del estado de las otras aristas. Llamemos C0 a la componenteconexa de aristas abiertas que contiene 0. En dimensiones d ≥ 2, la funcion

θ(p) = Pp(|C0| =∞),

muestra la presencia de una transicion de fase. En efecto, existe un numero pc tal que0 < pc < 1 y tal que θ(p) = 0 si p < pc, θ(p) > 0 si p > pc. Se sabe que esta funcion escontinua para p 6= pc. Tamben se ha demostrado que es continua en p = pc en dimensiond = 2 y para dimensiones suficientemente grandes.

8. El metodo de Montecarlo. El desarrollo de la bomba de Hidrogeno por Edward Tellery Stanislav Ulam, es el origen de uno de los metodos para efectuar calculos mas eficientesque se conocen, basado en el azar.

1.1. Universalidad en fenomenos aleatorios

Una pregunta fundamental que idealmente habrıa que responder es que significa en lapractica que un fenmeno sea aleatorio. Aunque no nos detendremos aquıa responderla, solopara ilustrar lo complejo que puede ser tal definicion, consideremos el experimento de tirar unamoneda 23 veces. Si examinamos los siguientes tres resultados

00000000000000000000000,

01101010000010011110011

y11011110011101011111011,

tenderıamos a pensar que el primer resultado es “no aleatorio”, mientras que los dos ultimossi lo son. Sin embargo, en la realidad, cada una de estas sucesiones debiera tener la mismaprobabilidad (0,5)23. Ademas, la segunda son los primeros 23 dıgitos de la expansion binaria de√

2−1. Esto muestra lo difıcil que puede ser definir el concepto de “aleatoridad” en la practica.En este curso no nos enfocaremos en eso, y proseguiremos con la presentacion axiomtica de lateorıa de probabilidad siguiendo las ideas de Kolmogorov de 1933.

Antes de hacerlo, examinaremos lo que llamaremos una propiedad de universalidad: unapropiedad que se encuentra en distintos fenomenos que presentan suficiente componente aleato-ria. Consideremos el experimento de tirar n veces una moneda. Llamemos Xn a la cantidad deveces que aparecio una cara. Suponemos que la moneda tiene sesgo por lo que la probabilidadde obtener cara cada vez es p ∈ [0, 1]. Por un argumento combinatorio podemos concluır que la

Page 6: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

4 CAPITULO 1. FUNDAMENTOS

probabilidad de que Xn sea igual a un natural k, que llamaremos P (Xn = k) se puede escribircomo

P (Xn = k) =n!

(n− k)!k!pk(1− p)n−k.

Luego, si llamamos P (Xn ≥ r) a la probabilidad de que Xn sea mayor que r, vemos que

P (Xn ≥ vn) =n∑

k=[vn]+1

n!

(n− k)!k!pk(1− p)n−k.

De aquı vemos que para todo θ ∈ R,

P (Xn ≥ vn) = e−nvθn∑

k=[vn]+1

n!

(n− k)!k!ekθpk(1− p)n−k = e−nvθ(peθ + 1− p)n.

Eligiendo θ = log v(1−p)p(1−v) , vemos que el lado derecho del despliegue de arriba es(

1− p1− v

)1−v (pv

)v.

Para todo v > p, esta funcion es menor que 1. Luego para todo v > p se tiene que

P (Xn ≥ vn) ≤ cn1para algun numero c1 < 1. Similarmente se puede concluır que para todo v < p

P (Xn ≤ vn) ≤ cn2para algun numero c2 < 1. Es decir, de alguna manera lo que esta sucediendo es que

Xn

n−→ p.

En realidad lo que hemos probado es una instancia debil de la ley de universalidad llamadala ley de los numeros grandes. Durante el resto del capıtulo construiremos la teorıa de prob-sabilidad definiendo los conceptos fundamentales como eventos, variables aleatorias, medidasde probabilidad, funciones de distribucion e independencia, que nos permitiran estudiar lasnociones de universalidad que se pueden presentar, incluyendo la ley de los numeros grandesy el teorema del lımite central en los capıtulos 2 y 3. Luego en el capıtulo 4 estudiaremos elconcepto de martingalas y la aparicion de otros fenomenos de universalidad en ese contexto.

1.2. Eventos

El concepto primario en la teorıa de probabilidad es el de evento. Imaginemos un experi-mento cuyos posibles resultados se pueden identificar con cualquier elemento de un conjuntoΩ, que llamaremos el experimento. Informalmente, un evento es cualquier subconjunto deΩ. Es decir, un conjunto de resultados del experimento. Posteriormente asignaremos a cadaevento un numero real positivo. Sin embargo, en general, si insistimos en asignar un numero atodo subconjunto de un experimento Ω llegarıamos a contradicciones. Por esa razon, exigiremossiempre que los eventos formen una σ-algebra de Ω.

Page 7: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

1.2. EVENTOS 5

Definicion 1.1. (Eventos). Sea Ω un conjunto. Cualquier σ-algebra F de Ω se denomina unaσ-algebra de eventos o simplemente eventos del experimento Ω. Es decir, una coleccionde eventos F de Ω se define por las siguientes propiedades:

(i) φ ∈ F .

(ii) Fi ∈ F , entonces ∩iFi ∈ F

(iii) F ∈ F entonces F c ∈ F .

Llamamos al par ordenado (Ω,F) un espacio de eventos.

Ejemplo. 1. Un dado que no esta cargado se puede modelar por el experimento Ω :=1, 2, 3, 4, 5, 6 con la σ-algebra de eventos P(Ω).

2. Si Ω = R, dos colecciones habituales de eventos son la coleccion de borelianos B y lacoleccion de conjuntos medibles M.

3. El resultado de tirar una moneda una cantidad infinita de veces se puede modelar por elexperimento Ω := C, SN, donde C es cara y S sello.

Un problema basico en general es la construccion de ciertas medidas de probabilidad. Que-remos recordar algunos conceptos importantes que permiten efectuar tal construccion.

Definicion 1.2. Sea X un conjunto. Decimos que una coleccion A de subconjuntos de X esun algebra si las siguientes condiciones se satisfacen.

(i) φ ∈ A.

(ii) A ∩B ∈ A si A,B ∈ A.

(iii) A ∈ A entonces Ac ∈ A,

Dada un algebra A, en lo que sigue ocuparemos la notacion habitual σ(A) para referirnosa la σ-algebra mas pequena que contiene al algebra A.

Ejemplo. Considere la coleccion A de subconjuntos de los naturales definidos por A ∈ A si ysolo si

lımn→∞

1

N

∑n∈A,n≤N

1,

existe. Esta coleccion se llama conjuntos de densidad. Los conjuntos de densidad no formanuna σ-algebra de conjuntos ni tampoco un algebra.

Definicion 1.3. Sea X un conjunto. Decimos que una colecion de subconjuntos M de X esuna clase monotona si se satisfacen las siguientes propiedades.

(i) Si An ∈M y An ⊂ An+1, para todo natural n, entonces

A =∞⋃n=1

An

tambien esta en M.

Page 8: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

6 CAPITULO 1. FUNDAMENTOS

(ii) Si Bn ∈M y Bn+1 ⊂ Bn, para todo natural n, entonces

B =∞⋂n=1

Bn

tambien esta en M.

Recordemos el Teorema de Clase Monotona.

Teorema 1.4 (Clase Monotona). Sea A una algebra de conjuntos y M una clase monotonaque contiene a A. Luego σ(A) ⊂M.

El teorema de extension de Caratheodory permite pasar desde una medida de probabilidaddefinida en un algebra A a una extension definida en σ(A). En algunas ocasiones, es inclusomas sencillo partir de una coleccion mas primaria de conjuntos.

Definicion 1.5. Una coleccion C de conjuntos es una semi-algebra si se satisfacen las si-guientes propiedades.

(i) Para todo par de conjuntos A,B ∈ C tenemos que A ∩B ∈ C.

(ii) Para todo conjunto A ∈ C, el complemento Ac se puede expresar como una union finitadisjunta de elementos de C.

Notemos que en la definicion anterior se podrıa omitir en la parte (ii) el requisito de que elcomplemento de un conjunto en C se exprese como una union disjunta. Por otra parte, notemosque si C esta formada por al menos dos conjuntos, entonces φ ∈ C.

Ejemplo. (i) En R consideremos la coleccion de conjuntos C de la forma (a, b], o (−∞, a] o(b,∞), con a, b reales. Esta coleccion de conjuntos es una semi-algebra.

(ii) Consideremos dos espacios de eventos (X,A) e (Y,B). Todo conjunto de la forma A×Bdonde A ∈ A y B ∈ B lo llamamos un rectangulo medible. La coleccion de rectangulosmedibles es una semi-algebra.

(iii) Sea X un conjunto. La coleccion C = X con un elemento es una semi-algebra. En efecto,(i) se satisface trivialmente. Por otra parte, como el conjunto vacıo se puede expresar comouna union de una coleccion vacıa de conjuntos de X, tambien se satisface (ii).

Lema 1.6. Sea C una semi-algebra. Luego la coleccion de conjuntos formados por las unionesfinitas disjuntas en C, es un algebra.

Llamamos al algebra del lema anterior, el algebra A(C) generada por la semi-algebraC.

Demostracion. Supongamos que A ∈ A(C). Si A = φ, tenemos que probar que X ∈ A(C).Pero si tomamos cualquier conjunto B ∈ C, por definicion su complemento esta en A(C). Porlo tanto X ∈ A(C). Ahora, si A 6= φ, sabemos que se puede expresar como una union finita deelementos disjuntos de C

A = qiAi.

Ademas Aci = qjAi,j . Luego Ac = ∩i qj Ai,j = qj ∩i Ai,j ∈ A(C). Finalmente notemos que siA,B ∈ A(C), por un argumento analogo tenemos que la interseccion A∩B esta en el algebra.

Page 9: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

1.3. MEDIDAS DE PROBABILIDAD 7

La siguiente nocion sera util.

Definicion 1.7. (Lımites superior e inferior de eventos). Consideremos un espacio deeventos (Ω,F). Sea An una sucesion de eventos. Definimos el lımite superior de esta suce-sion como

lım supAn = lımn→∞

∪∞m=nAm = ∩∞n=1 ∪∞m=n Am.

Definimos el lımite inferior como

lım inf An = lımn→∞

∩∞m=nAm = ∪∞n=1 ∩∞m=n Am.

Tamben escribiremos lım supAn = w : w ∈ An i.o. donde i.o. significa infinitamentefrecuente (del ingles “infinitely often”).

La razon por la que tales lımites reciben estos nombres proviene de la observacion

lım supn→∞

1An = 1lım supAn , lım infn→∞

1An = 1lım inf An . (1.1)

1.3. Medidas de probabilidad

Queremos asignarle a cada evento, un numero en el intervalo [0, 1] que represente la proba-bilidad de la ocurrencia del evento. Es natural ocupar entonces las herramientas de teorıa dela medida.

Definicion 1.8. (Medida de Probabilidad). Consideremos un espacio de eventos (Ω,F).Una medida de probabilidad es una medida P definida en (Ω,F) con la propiedad P (Ω) = 1.Es decir, una medida de probabilidad satisface las propiedades siguientes:

(i) Para todo evento A se tiene que 0 ≤ P (A) ≤ 1.

(ii) P (Ω) = 1.

(iii) Si Fi es una coleccion numerable de eventos disjuntos entonces

P (F ) =∑i

P (Fi),

donde F = ∪iFi.

Llamamos al triplete (Ω,F , P ) un espacio de probabilidad. En algunas ocasiones considera-remos un algebra de eventos A en Ω y hablaremos del espacio de probabilidad (Ω,A, P ) cuandoP satisfaga las propiedades anteriores en A. Si en vez de (iii) se satisface

(iii)’ Si Fi es una coleccion finita de eventos disjuntos entonces

P (F ) =∑i

P (Fi),

donde F = ∪iFi.

Page 10: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

8 CAPITULO 1. FUNDAMENTOS

diremos que P es una medida de probabilidad finitamente aditiva en (Ω,F).

Ejemplo. (Medida de probabilidad uniforme) Consideremos un conjunto A medible enRd y A la σ-algebra de conjunto medibles intersectados con A. La medida de probabilidaduniforme en A se define como la medida de Lebesgue m en A normalizada por m(A). Es decirpara B ∈ A definimos

µ(B) :=m(B)

m(A).

Como lo muestra el siguiente ejemplo, que en un espacio de eventos de la forma (Ω,P(Ω))siempre se puede definir al menos una medida de probabilidad.

Definicion 1.9. (Delta de Dirac y atomos) Dado un espacio de eventos (Ω,F), y unelemento x ∈ Ω, definimos la medida de probabilidad δx como aquella que satisface δx(A) = 1si x ∈ A, mientras que δx(A) = 0 si x /∈ A. Por otra parte, dado un espacio de probabilidad(Ω,F , P ), y un punto x ∈ Ω tal que x ∈ F , diremos que x es un atomo si

P (x) > 0.

Notemos que en la definicion anterior podrıamos haber elegido F = P(Ω). Sin embargo, engeneral no es posible definir una medida de probabilidad que sea invariante bajo la accion dealgun grupo de simetrıa fijo sobre Ω y definida en P(Ω). Por ejemplo, en (R,P(R)), no existeninguna medida de probabilidad invariante bajo el grupo de traslaciones. Similarmente no existeninguna medida de este tipo en (Z,P(Z)), o alguna invariante bajo el grupo de rotaciones en(S1,P(S1)), donde S1 es el cırculo. Si eliminamos la exigencia sobre la medida de probabilidadde que sea numerablemente aditiva, y la remplazamos por la exigencia de que sea finitamenteaditiva, entonces en algunos casos si es posible construır tales objetos. Esto se relaciona con elconcepto de grupos promediables.

Definicion 1.10. (Grupo promediable). Decimos que un grupo G es promediable si existeuna medida de probabilidad finitamente aditiva µ en (G,P(G)) que es invariante bajo la acciondel grupo G por la izquierda y tal que µ(G) = 1.

Es posible probar que el grupo de rotaciones sobre S1 y el de traslaciones sobre Z son prome-diables. Esto conlleva al siguiente resultado cuya demostracion omitiremos.

Teorema 1.11. (i) Existe una medida de probabilidad finitamente aditiva definida en (S1,P(S1))que es invariante bajo rotaciones.

(ii) Existe una medida de probabilidad finitamente aditiva definida en (Z,P(Z)) que es inva-riante bajo traslaciones.

Por otra parte, en dimensiones d ≥ 2, tenemos el siguiente resultado.

Teorema 1.12. Si d ≥ 2, no existe ninguna medida de probabilidad finitamente aditiva definidaen (Sd,P(Sd)) invariante bajo rotaciones.

Este resultado es equivalente a la paradoja de Banach-Tarski: existe una cantidad finitade subconjuntos disjuntos de la bola B(0, 1), de radio 1 en Rd, que al trasladarlos y rotarlosapropiadamente, forman una unuion disjunta de dos copias de tal bola.

Es importante recordar que la propiedad de σ-aditividad de una medida se puede relacionarcon la propiedad de que una medida de probabilidad aditiva sea continua.

Page 11: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

1.3. MEDIDAS DE PROBABILIDAD 9

Definicion 1.13. (Continuidad). Decimos que una medida de probabilidad aditiva P definidaen un algebra F es continua en un conjunto A ∈ F si cada vez que Ai ∈ F es una sucesionde eventos creciente (Aj ⊂ Aj+1) o decreciente (Aj+1 ⊂ Aj) y A = ∪Aj o A = ∩Aj entonceslımj→∞ P (Aj) existe y P (A) = lımj→∞ P (Aj).

Teorema 1.14. (i) Sea P una medida de probabilidad en (Ω,F) donde F es una σ-algebrade eventos. Luego P es continua en todo A ∈ F .

(ii) Sea P una medida de probabilidad aditiva en (Ω,F) donde F en un algebra que es continuaen φ. Luego P es una medida de probabilidad σ-aditiva.

La primera herramienta que introduciremos es el lema de Borel-Cantelli.

Lema 1.15. (Borel-Cantelli)-primera parte. Sea An una sucesion de eventos en unespacio de probabilidad (Ω,F , P ). Luego si

∑∞n=1 P (An) <∞, entonces P (An i.o.) = 0.

Demostracion. Notemos que para todo k ≥ 1,

P (An i.o.) ≤ P (∪∞j=kAj) ≤∞∑j=k

P (Aj).

Tomando el lımite cuando k →∞ obtenemos el resultado.

Ejemplo. Consideremos el experimento que consiste en tirar una moneda n veces. Supone-mos que la moneda se tira de modo que el resultado sea independiente de los anteriores, sinentrar por ahora en la definicion matematica de independencia. Lo modelaremos por el espacioΩ = 0, 1N , con la σ-algebra de los borelianos y la medida de probabilidad P que le asignaprobabilidad 1/2 a cada valor 0 o 1 independientemente de los otros resultados (una preguntano trivial que responderemos en la seccion siguiente, es probar la existencia de tal medida).Sea An el evento que en las primeras n veces que tiramos la moneda aparece k = (log n)2 vecesseguidas un 1. Probaremos que P (An i.o.) = 0. En efecto, la probablidad de que no aparezcaninguna fila de largo (log n)2 partiendo de un natural que sea un multiplo de (log n)2 es(

1−(

1

2

)(logn)2)n/(logn)2

.

Un calculo sencillo nos muestra que

P (An) ≤ C(log n)2 n

(log n)2n(log 2)(logn),

para alguna constante C > 0. Nuestra afirmacion es una consecuencia del lema de Borel-Cantelli.

Finalizamos esta seccion recordando como se puede construır una medida de probabilidadpartiendo de una funcion real definida en un semialgebra de conjuntos.

Definicion 1.16. (Medida de probabilidad externa inducida). Sea P una medida deprobabilidad finitamente aditiva definida en (Ω,F) donde F es un algebra. Para cada F ∈ Ωdefinimos

P ∗(F ) := ınfFi⊂F ;F⊂∪Fi

∞∑i=1

P (Fi).

Page 12: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

10 CAPITULO 1. FUNDAMENTOS

Llamamos a P ∗ la medida de probabilidad externa inducida por P . Decimos que unconjunto E ⊂ Ω es P ∗-medible si para todo A ∈ P(Ω) se tiene que

P ∗(A) = P ∗(A ∩ E) + P ∗(A ∩ Ec).

Llamamos a tal coleccion, la coleccion de conjuntos P ∗-medibles denotandola por MP ∗ .

Definicion 1.17. (σ-algebra de eventos completa). Consideremos un espacio de probabi-lidad (Ω,F , P ). Decimos que la σ-algebra de eventos F es completa respecto a P si cada vezque A ∈ F , B ⊂ A y P (A) = 0, entonces B ∈ F .

El teorema de extension de Caratheodory permite extender una medida de probabilidad enun algebra A a una definida en σ(A).

Teorema 1.18 (Extension de Caratheodory). Sea A un algebra de conjuntos y P unamedida de probabilidad en A. Sea P ? la medida de probabilidad externa inducida por P . Luegola restricion P de P ? a los conjuntos P ?-medibles es una medida de probabilidad que es una ex-tension de P y los conjuntos P ∗-medibles forman una σ-algebra completa respecto a P . Ademasσ(A) ⊂MP ? y P es la unica extension de P en A a σ(A).

Por otra parte, el siguiente teorema, permite extender una funcion definida en una semi-algebra a una medida aditiva en el algebra mas pequena que contiene la semi-algebra.

Teorema 1.19. Sea C una semi-algebra y P : C → [0, 1] una funcion tal que P (φ) = 0.Supongamos que las siguientes condiciones se satisfacen.

(i) Si C ∈ C es un conjunto que se puede expresar como una union disjunta finita qni=1Ci,con Ci ∈ C, entonces

P (C) =n∑i=1

P (Ci).

(ii) Si C ∈ C se puede expresar como una union numerable disjunta de miembros de C,C = q∞i=1Ci, entonces

P (C) ≤∞∑i=1

P (Ci).

Luego P tiene una extension unica como una medida de probabilidad al algebra A(C).

Demostracion. Sea A = qni=1Ai con Ai ∈ C. Definimos

P (A) :=

n∑i=1

P (Ai) (1.2)

Probemos que (1.2) esta bien definida. Si A = qmk=1Bk con Bk ∈ C, entonces como consecuenciade (i) tendremos que

P (A) =

n∑i=1

P (Ai) =

n∑i=1

m∑k=1

P (Ai ∩Bk) =

m∑k=1

n∑i=1

P (Bk ∩Ai) =

n∑i=1

P (Bi) = P (A)

Page 13: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

1.4. FUNCION DE DISTRIBUCION 11

de donde concluimos que la definicion de (1.2) es consistente. Ahora, consideremos conjuntosdisjuntos A y B en el algebra A. Claramente P (A ∪ B) = P (A) + P (B) y por un argumentoinductivo vemos que µ es finitamente aditiva. Ademas, si consideramos elementos C, D en Atales que C ⊂ D, entonces D = C ∪ (D ∩ Cc) y P (C) ≤ P (D). Finalmente, supongamos queA ∈ A es una union numerable y disjunta de conjuntos Ak ∈ A. Por definicion A = qnj=1Cjcon Cj ∈ C. Por lo tanto Cj = q∞k=1(Ak ∩ Cj). Ademas, para cada natural k, Ak = qpki=1Ck,icon Ck,i ∈ C. Luego,

Cj = q∞k=1 qpki=1 Ck,i ∩ Cj .

Por la propiedad (ii) vemos que

P (Cj) ≤∞∑k=1

pk∑i=1

P (Ck,i ∩ Cj).

Luego

P (A) ≤∑∞

k=1

∑pki=1

∑nj=1 P (Ck,i ∩ Cj) =

∑∞k=1

∑pki=1 P (Ck,i ∩A) =

∑∞k=1 P (Ak).

Por otra parteN∑k=1

P (Ak) = P (∪Nk=1Ak) ≤ P (A).

1.4. Funcion de distribucion

En esta seccion nos concentraremos en medidas de probabilidad definidas en los reales conlos borelianos introduciendo el concepto de funcion de distribucion.

Definicion 1.20. (Funcion de distribucion). Una funcion de distribucion es una funcionreal F : R→ R tal que

(i) F es monotona creciente,

(ii) F es continua por la derecha,

(iii) lımx→∞ F (x) = 1 y lımx→−∞ F (x) = 0.

Dada una funcion de distribucion F , si existe una funcion medible f tal que

F (x) =

∫ x

−∞f(u)du,

llamamos a f la funcion de densidad de F .

Notemos que toda funcion densidad es necesariamente positiva y satisface∫fdx = 1.

Lema 1.21. Sea P una medida de probabilidad en (R,B(R)). Luego

F (x) = P ((−∞, x])

es una funcion de distribucion. Ademas F es continua en x si y solo si x no es un atomo deP .

Page 14: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

12 CAPITULO 1. FUNDAMENTOS

Demostracion. Como (−∞, x] = ∩n(−∞, x+1/n], tenemos que P ((−∞, x]) = lımn→∞ P ((−∞, x+1/n]) y luego F (x) = lımn→∞ F (x+ 1/n) y por lo tanto F es continua por la derecha. Por otraparte,

P (x) = lımn→∞

P ((x− 1/n, x]) = F (x)− lımn→∞

F (x− 1/n).

Esto demuestra que F es continua en x si y solo si la masa de x es 0. Finalmente, como φ =∩(−∞, n], tenemos que lımn→∞ F (n) = 0. La monotonıa de F implica que lımx→∞ F (x) = 0.Similarmente podemos ver que lımx→∞ F (x) = 1.

Podemos ahora considerar la contraparte del lema anterior.

Lema 1.22. Sea F una funcion de distribucion. Luego existe una medida de probabilidad unicaP en (R,B(R)) tal que para todo par de reales a ≤ b se tiene

P ((a, b]) = F (b)− F (a).

Demostracion. Primero probaremos que si (a, b] ⊂ ∪∞i=1(ai, bi], entonces

F (b)− F (a) ≤∞∑i=1

F (bi)− F (ai). (1.3)

Consideraremos el caso en el que (a, b] es un intervalo acotado. Sea ε > 0. Elegimos δ > 0de modo que F (a + δ) < F (a) + ε y δi de modo que F (bi + δi) < F (bi) + ε2−i. Notemos quela coleccion de intervalos abiertos (ai, bi + δi), 1 ≤ i < ∞, forma un cubrimiento abierto delintervalo cerrado [a + δ, b]. Por lo tanto, existe una cantidad finita de tales intervalos que locubre. Claramente tenemos

F (b)− F (a+ δ) ≤n∑j=1

F (bij + δij )− F (aij ) ≤ ε+∞∑i=1

F (bi)− F (ai).

Tomando el lımite cuando ε→ 0 concluımos que la desigualdad (1.3) se satisface. El caso en elque (a, b] no es acotado se deja al lector. Ahora, por la proposicion 1.19, vemos que la funcionP definida en la semi-algebra de intervalos de la forma (a, b] o (a,∞) por P ((a, b]) = b−a tieneuna extension unica al algebra formada por las uniones finitas de intervalos de la forma anterior.Por el teorema de extension de Caratheodory, esta medida de probabilidad tiene una extensional algebra de conjuntos medibles que necesariamente contiene a los borelianos. Ademas, surestriccion a los borelianos y por lo tanto a los medibles, es unica.

Por el lema anterior podemos concluır que una funcion de distribucion F tiene una densidadsi y solo si la medida de probabilidad P que induce en los reales es absolutamente continuarespecto a la medida de Lebesgue. En ese caso diremos que F es absolutamente continua.

Definicion 1.23. Integral de Lebesgue-Stieltjes. Sea F una funcion de distribucion. Paracada funcion no-negativa φ medible definimos la integral de Lebesgue-Stieltjes de φ respecto aF por ∫

φdF :=

∫φdP,

donde P es la medida de probabilidad inducida por F en los reales.

Page 15: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

1.5. VARIABLES ALEATORIAS 13

1.5. Variables aleatorias

Aquı introduciremos la nocion de variable aleatoria y mostraremos como ellas inducen unamedida de probabilidad en los reales.

Definicion 1.24. (Variable aleatoria). Sea (Ω,M, P ) un espacio de probabilidad. Una va-riable aleatoria X es una funcion medible desde (Ω,M) hasta (R,B(R)). La funcion

FX(x) = P (X ≤ x),

se llama la funcion de distribucion de X, o simplemente la distribucion o ley de X.Una funcion medible X desde (Ω,M, P ) hasta (Rd,B(Rd)) se llama una variable aleatoriageneralizada o un vector aleatorio. Si X es una variable aleatoria generalizada con valoresen Rd, definimos su funcion de distribucion generalizada como la funcion

FX(x1, . . . , xd) = P (X1 ≤ x1, . . . , Xd ≤ xd),donde X1, . . . , Xd son las coordenadas de X, que son variables aleatorias. A veces denotaremosa esta distribucion generalizada, la distribucion conjunta, o simplemente la distribuciono ley, de las variables aleatorias X1, . . . , Xd, denotandola por FX1,...,Xd . Si existe una funcionmedible fX tal que para todo boreliano B ∈ B(Rd) se tiene que

P (X ∈ B) =

∫BfXdx,

decimos que la variable aleatoria X y su funcion de distribucion, tienen densidad f .

Ejemplo. Sea λ > 0 y consideremos un espacio de probabilidad (Ω,M, P ) y una variablealeatoria X definida en el tal que

P (X = n) = e−λλn/n!.

Tal variable aleatoria se denomina una variable aleatoria de Poisson de parametro λ einduce una funcion de distribucion llamada una funcion de distribucion de Poisson deparametro λ.

Este ejemplo nos motiva a efectuar la siguiente definicion.

Definicion 1.25. (Variable aleatoria discreta). Sea S un subconjunto numerable de losreales. Una variable aleatoria discreta en un espacio de probabilidad (Ω,M, P ) es unavariable aleatoria X tal que ∑

x∈SP (X = x) = 1.

Es decir, X es discreta si P es atomica. Si la cardinalidad de S es 1, decimos que X esdegenerada. Es decir, X es degenerada si P es una delta de Dirac.

Observacion. Existen variables aleatorias discretas que toman valores en un subconjuntodenso de los reales.

Ejemplo. Sea X una variable aleatoria con una funcion de distribucion con densidad f

f(x) =1√

2πσ2e−(x−a)2/2σ2

,

se denomina una variable aleatoria normal o gaussiana centrada en a de varianza σ.

Page 16: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

14 CAPITULO 1. FUNDAMENTOS

Aprovechamos el ejemplo anterior para introducir el concepto de vector Gaussiano.

Definicion 1.26. (Vector Gaussiano). Un vector normal o gaussiano es un vector alea-torio X = (X1, . . . , Xd) tal que toda combinacion lineal de sus componentes es una variablealeatoria gaussiana. Tambien decimos que X tiene una distribucion normal multivariada.

Notemos que si X e Y son distribuciones normales, no es necesariamente cierto que (X,Y )sea un vector normal. En efecto, elijamos X normal y definamos Y = X si |X| > 1, mientrasque Y = −X si |X| ≤ 1. Claramente Y es normal. Sin embargo X + Y no lo es. Finalmenteintroducimos el concepto de σ-algebra generada por una variable aleatoria.

Definicion 1.27. (Variable aleatoria uniforme) Decimos que una variable X tiene distri-bucion uniforme si para x ∈ [0, 1] se tiene que FX(x) = x.

Observacion. Supongamos que F (X) es una funcion de distribucion continua. Definamos

x∗ := G(u) := ınfx′ ∈ R : u ≤ F (x′).

Notemos que x∗ ≤ x si y solo si u ≤ F (x). Por otra parte, por la continuidad de F tenemosque F (x∗) = u. Luego, si U es una variable aleatoria uniforme, tenemos que

P (G(U) ≤ x) = P (U ≤ F (x)) = F (x).

Por lo tanto G(U) es una variable aleatoria con funcion de distribucion F .

Definicion 1.28. (σ-algebra generada por un vector o una variable aleatoria). Sea(Ω,M, P ) un espacio de probabilidad.

(i) Si X1, . . . , Xn son variables aleatorias en tal espacio, llamamos σ(X1, . . . , Xn)) a la σ-algebra de conjuntos de la forma

w ∈ Ω : (X1(w), . . . , Xn(w)) ∈ B,

donde B es un boreliano en Rn, denotandola por σ-algebra generada por X1, . . . , Xn.

(ii) Si X es un vector aleatorio, definimos la σ-algebra generada por X denotandola porσ(X), como σ(X1, . . . , Xd), donde X1, . . . , Xd son las componentes de X.

(iii) Si X1, X2, . . . es una sucesion de variables aleatorias, definimos la σ-algebra generadapor la sucesion como

σ(X1, X2, . . .) = σ(∪ni=1σ(X1, . . . , Xn)).

Es facil probar que σ(X) es una σ-algebra. Por otra parte, en general si X1, X2, . . . esuna sucesion de variables aleatorias, ∪∞n=1σ(X1, . . . , Xn) no es una σ-algebra, aunque si es unalgebra.

Ejemplo. Consideremos [0, 1] con los borelianos. Definimos X = 1 si x > 1/2 y X = 0 six ≤ 1/2. Luego σ(X) = [0, 1], [0, 1/2], (1/2, 1], φ.

Page 17: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

1.6. ESPERANZA 15

Supongamos que tenemos una sucesion Xn de variables aleatorias y una variable aleatoriaX definidas en un espacio de probabilidad (Ω,M, P ). En lo que sigue en estas notas ocuparemosla notacion estandard Xn → X c.s. (casi seguramente) cuando P (lımn→∞Xn = X) = 1.Ademas, diremos que la sucesion Xn converge a X en probabilidad si para todo ε > 0, se tieneque

lımn→∞

P (|Xn −X| ≥ ε) = 0.

Lema 1.29. Consideremos una sucesion Xn de variables aleatorias y una variable aleatoriaX. Luego las siguientes condiciones son equivalentes.

(i) Xn converge a X en probabilidad.

(ii) Toda subsucesion de Xn tiene una subsubsucesion Xnk que converge c.s. a X.

En lo que sigue, diremos que dos variables aleatorias X e Y estan identicamente distribuidassi tienen la misma ley.

1.6. Esperanza

En el proximo capıtulo veremos en la ley de los numeros grandes como un gran desorden, enterminos de aleatoriedad, produce orden en ciertas cantidades: el concepto de esperanza cobraimportancia, representando el valor promedio de una serie de observaciones independientes.

Definicion 1.30. (Esperanza). Sea X una variable aleatoria definida en un espacio de pro-babilidad (Ω,M, P ). Si X es positiva, definimos su esperanza E(X) por

E(X) =

∫ΩX(w)dP =

∫RxdFX .

En general, si maxE(X+), E(X−) <∞, donde X+ es la parte positiva y X− la parte negativade X, definimos la esperanza E(X) de X como

E(X) = E(X+)− E(X−).

Para cada k ≥ 1, si la esperanza de Xk existe, definimos el momento de orden k de X como

E(Xk).

Si X es una variable aleatoria con momento de orden 2, definimos su varianza como

V (X) = E(X2)− E(X)2.

La raız cuadrada de la varianza σX :=√V ar(X), se denomina desviacion estandard de X.

Si para algun λ real la esperanza de la variable aleatoria eλX existe,

E(eλX) <∞,

decimos que X tiene un momento exponencial de orden λ finito.

Page 18: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

16 CAPITULO 1. FUNDAMENTOS

Ejemplo. Sea X una variable aleatoria de Poisson de parametro λ. Luego

E(X) = e−λ∞∑n=0

nλn/n! = λ.

Muchos de los calculos que efectuaremos para estimar probabilidades, involucran el uso dedesigualdades con esperanzas y momentos de distintas variables aleatorias.

Teorema 1.31. (Desigualdad de Jensen). Considere un espacio de probabilidad (Ω,M, P ).Sea X una variable aleatoria integrable. Luego, para toda toda funcion convexa ϕ definida enel rango de X es cierto que

ϕ (E(X)) ≤ E(ϕ(X)).

Demostracion. Definimos c = E(X). Claramente a < c < b. Ademas, una funcion ϕ esconvexa en (a, b) si y solo si para todo real s, t, u tales que a < s < t < u < b se tiene que

ϕ(t)− ϕ(s)

t− s≤ ϕ(u)− ϕ(t)

u− t.

Luego, si definimos β ∈ R como el supremos sobre s del miembro izquierdo de esta desigualdad,vemos que para todo a < s ≤ c ≤ u < b se satisface

ϕ(c)− ϕ(s)

c− s≤ β ≤ ϕ(u)− ϕ(c)

u− c.

Por lo tanto para a < s < bϕ(s) ≥ ϕ(c) + β(s− c), (1.4)

y

ϕ(X)− ϕ(c)− β(X − c) ≥ 0,

para todo x ∈ X. Como ϕ es continua, sabemos que ϕ(X) es medible, y podemos integrar estadesigualdad para concluır la prueba.

Teorema 1.32. (Desigualdad de Techebychev). Sea X una variable aleatoria en un espaciode probabilidad (Ω,M, P ). Luego, para todo a > 0 y f ≥ 0 creciente se tiene que

P (X > a) ≤ E(f(X))

f(a).

Demostracion. Notemos que

P (X > a) =

∫x>a

dFX ≤∫x>a

f(x)

f(a)dFX ≤

E(f(x))

f(a).

Finalizamos con la siguiente identidad basica.

Lema 1.33. Sea X una variable aleatoria X ≥ 0 y p > 0. Luego

E[Xp] =

∫ ∞0

pxp−1P (X > x)dx.

Page 19: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

1.7. INDEPENDENCIA 17

Demostracion. Por el teorema de Fubini tenemos que∫ ∞0

pxp−1P (X > x)dx =

∫Ω

∫ ∞0

pxp−11(X > x)dxdP =

∫ΩXpdP.

1.7. Independencia

En esta seccion discutiremos la nocion de independencia entre eventos o variables aleatorias.Queremos definir un concepto que describa que la ocurrencia o no ocurrencia de un evento nocambia la probabilidad de que ocurra o no otro evento.

Supongamos que al calcular la probabilidad de que ocurra un evento A en un espacio deprobabilidad (Ω,M, P ), sabemos a priori que un evento B ocurrio. Intuitivamente, esto reduceel espacio de experimentos a B y el conjunto de eventos a MB, la σ-algebra formada porconjuntos de la forma B ∩ A con A ∈ M. Luego, la probabilidad de que A ocurra, sabiendoque B ocurrio, serıa P (A ∩B)/P (B).

Definicion 1.34. (Probabilidad condicional elemental). Sea (Ω,M, P ) un espacio deprobabilidad y B un evento tal que P (B) > 0. Para todo evento A, definimos la probabilidadcondicional de A dado B por

P (A|B) = P (A ∩B)/P (B).

Notemos que si la ocurrencia de B no afecta la probabilidad de que A ocurra, tendrıamosque tener que P (A) = P (A|B). Es decir, A y B tienen que ser independientes

P (A ∩B) = P (A)P (B).

Es facil constatar que con esta definicion, si A y B son independientes, entonces AC y Btamben lo son. Luego cualquier evento de σ(1A) es independiente de cualquier evento de σ(1B).Lo natural entonces es definir la independencia de eventos A1, . . . , An como la propiedad quepara cualquier eleccion de eventos B1 ∈ σ(1A1), . . . , Bn ∈ σ(1An) se tenga que

P (B1 ∩ · · · ∩Bn) =

n∏i=1

P (Bi).

Esta propiedad equivale a la primera parte de la siguiente definicion.

Definicion 1.35. (Independencia de eventos). Sea (Ω,M, P ) un espacio de probabilidad.

(i) Decimos que los eventos A1, . . . , An ∈ M son independientes si para toda subcoleccionAn1 , . . . , Ank , con 1 ≤ n1 < n2 < · · · < nk ≤ n tenemos que

P (An1 ∩ . . . ∩Ank) = P (An1) . . . P (Ank).

(ii) Si M1, . . . ,Mn son subcolecciones de eventos en M, decimos que son independientes sicada vez que elegimos eventos A1 ∈M1, . . . , An ∈Mn, estos son independientes.

Page 20: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

18 CAPITULO 1. FUNDAMENTOS

(ii) Si M1, . . . , es una sucesion de subcolecciones de eventos en M, decimos que son inde-pendientes si cada para todo n, si elegimos eventos A1 ∈ M1, . . . , An ∈ Mn, estos sonindependientes.

De aquı tenemos la definicion de independencia para variables aleatorias.

Definicion 1.36. (Independencia de variables aleatorias). Decimos que la coleccion nu-merable Xn : n ≥ 1 de variables aleatorias definidas en un espacio de probabilidad es unconjunto de variables aleatorias independientes o que simplemente es un conjunto inde-pendiente, si para todo natural n, las σ-algebras σ(X1), . . . , σ(Xn) son independientes.

El siguiente lema es simplemente una reformulacion de la definicion anterior.

Lema 1.37. Una coleccion numerable Xn : n ≥ 1 de variables aleatorias en un espacio deprobabilidad (Ω,M, P ) es independiente si y solo si para todo n y borelianos B1, . . . , Bn se tieneque

P (X1 ∈ B1, . . . , Xn ∈ Bn) = Πnj=1P (Xj ∈ Bj).

En lo que sigue usaremos la abreviacion i.i.d. par independientes e identicamentedistribuidas.

Veremos posteriormente como construır una coleccion numerable de variables aleatoriasindependientes ocupando el teorema de extension de Kolmogorov. Sin embargo, es util observarque siempre se puede definir una sucesion de v.a. i.i.d. en ([0, 1],B([0, 1]), λ), donde λ es lamedida de Lebesgue, definiendo

Y1 = 1(0,5,1],

Y2 = 1(0,25,0,5] + 1(0,75,1],

etc... Por lo demas, se tiene que para todo x ∈ [0, 1], λ-c.s.

x =∞∑n=1

Yn(x)

2n.

Para que los eventos An : n ≥ 1 sean independientes, no basta que sean independientesde a pares. Es decir que P (Ai∩Aj) = P (Ai)P (Aj) para todo i, j ≥ 1. En efecto, consideremosvariables aleatorias i.i.d. Xn : n ≥ 1 con P (X1 = 0) = P (X1 = 1) = 1/2. Luego, los eventosA1 = X2 = X3, X3 = X1 y A3 = X1 = X2, son independientes de a pares, pero noson independientes. En efecto, P (A1 ∩ A2 ∩ A3) = 1/4, pero P (A1)P (A2)P (A3) = 1/8. Esteejemplo tamben muestra que si A y B son independientes de C, no es necesariemante cierto queA ∩B sea independiente de C. Por otra parte, se puede ver que para que tres eventos A,B,Csean independientes, no basta que P (A ∩ B ∩ C) = P (A)P (B)P (C). En efecto, consideremosΩ = 1, 2, . . . , 6, con la P (n) = 1/6. Eligamos A = 1, 2, 3 y B = C = 3, 4, 5, 6. LuegoP (A ∩B ∩ C) = P (A)P (B)P (C) se satiface, pero P (A ∩B) 6= P (A)P (B).

Posteriormente, el siguiente resultado sera util.

Lema 1.38. Sea (Ω,M, P ) un espacio de probabilidad. Sean M1 y M2 dos σ-algebras ge-neradas por las colecciones de conjuntos A1 y A2 respectivamente que son algebras. Luego,si todo par de conjuntos A1 ∈ A1 y A2 ∈ A2, son independientes, entonces M1 y M2 sonindependientes.

Page 21: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

1.7. INDEPENDENCIA 19

Demostracion. Sea I2 la coleccion de conjuntos de M2 que son independientes de A1. Cla-ramente se trata de una clase monotona. Por el Teorema de la clase monotona tenemos queI2 =M2. Sea I1 la coleccion de conjuntos enM1 que son independientes de todos los conjuntosdeM2. Es obvio que A1 ⊂ I1. Por otra parte, por el Teorema de la clase monotona, I1 es unaσ-algebra. Luego I1 =M1 y M1 es independiente de M2.

Tenemos el siguiente corolario que es directo.

Corolario 1.39. Consideremos una sucesion de variables aleatorias independientes X1, X2, . . ..Si n1, n2, . . . y m1,m2, . . . son colecciones disjuntas de naturales, entonces σ(Xn1 , Xn2 , . . .) yσ(Xm1 , Xm2 , . . .) son independientes.

Queremos introducir ahora el concepto de σ-algebra de la cola.

Definicion 1.40. (σ-algebra de la cola). Sea X1, X2, . . . una sucesion de variables aleatoriasdefinidas en un espacio de probabilidad (Ω,M, P ). Definimos la σ-algebra de la cola de talsucesion como

T = ∩∞n=1σ(Xn, Xn+1, . . .).

Ejemplo. Dada una sucesion de variables aleatorias X1, X2, . . ., el evento

lımn→∞

Xn

existe, pertenece a la σ-algebra de la cola. En efecto, tal evento se puede escribir como

lımn→∞

supm≥n|Xn −Xm| = 0.

Y este a su vez se puede expresar como

∩j≥1 ∪l≥n ∩m≥l|Xl −Xm| < 1/j,

donde n ≥ 1 es arbitrario. Claramente este evento pertenece a σ(Xn, Xn+1, . . .) para todo n.

Teorema 1.41. (Ley 0-1 de Kolomogorov). Consideremos un espacio de probabilidad(Ω,M, P ) y una sucesion de variables aleatorias independientes Xn : n ≥ 1 en el. Luegosi A es un evento de la σ-algebra de la cola de tal sucesion, P (A) = 0 o P (A) = 1.

Demostracion. Mostraremos que si A ∈ T , entonces A es independiente de si mismo: P (A∩A) = P (A)2. Basta probar que A es independiente de todo evento en σ(Xn, . . .). Pero estaσ-algebra es generada por la union sobre k de las σ-algebras σ(Xn, . . . , Xn+k). Claramente Aes independiente de cada una de ellas. Por el Lemma 1.38, esto implica que A es independientede todo evento en σ(Xn, . . .).

Por lo tanto, tenemos la siguiente conclusion: si X1, X2, . . . es una sucesion de variablesaleatorias independientes, luego, la probabilidad del evento lımn→∞Xn existe es 0 o 1. Si-milarmente podemos concluır que la probabilidad de los eventos lımn→∞

∑nj=1Xj/n existe,

o lımn→∞∑n

j=1Xj/n = a con a real, es 0 o 1. Ademas tenemos la siguiente verson de la ley0-1 de Kolmogorov para variables aleatorias.

Corolario 1.42. Consideremos un espacio de probabilidad (Ω,M, P ) y una sucesion de varia-bles aleatorias independientes Xn : n ≥ 1 en el. Luego si Z es una variable aleatoria mediblerespecto a la σ-algebra de la cola, entonces Z es casi seguramente constante.

Page 22: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

20 CAPITULO 1. FUNDAMENTOS

Demostracion. Notemos que de la ley 0-1 de Kolmogorov podemos ver que si A y B sondos eventos de la cola, como deben tener probabilidad 0 o 1, entonces son independientes. Sesigue que si Z es una funcion simple, entonces Z es independiente de si misma. Luego, paracada N > 0, Z1Z≤N , se puede aproximar por funciones simples, y concluımos que Z1Z≤N esindependiente de si misma. Luego

E[(Z1Z≤N − E[Z1Z≤N ])2

]= 0,

de donde se concluye que c.s. Z1Z≤N es constante. Tomando el lımite cuando N → ∞ vemosque Z es c.s. constante.

Podemos entonces deducir que si el lımite lımn→∞∑n

j=1Xj/n existe con probabilidad 1,entonces es constante.

Lema 1.43. Sea X1, X2, . . . una sucesion de variables aleatorias independientes. Supongamosque c.s. el lımite

lımn→∞

1

n

n∑k=1

Xk

existe. Luego c.s. es constante.

Tenemos ademas el siguiente resultado.

Teorema 1.44. Sean X e Y dos variables aleatorias independientes. Luego, para todo par defunciones Borel-medibles f y g tales que f(X) y g(Y ) tienen esperanza

E(f(X)g(Y )) = E(f(X))E(g(Y )).

Un caso particular de la igualdad del teorema anterior es aquel en el que f y g son la funcionidentidad.

Definicion 1.45. (Covarianza). Sean X e Y dos variables aleatorias con esperanzas E(X) yE(Y ) respectivamente. Definimos las covarianza entre X e Y como

Cov(X,Y ) = E(XY )− E(X)E(Y ).

Si Cov(X,Y ) = 0, decimos que X e Y no estan correlacionadas, si Cov(X,Y ) > 0, decimosque X e Y estan positivamente correlacionadas, y si Cov(X,Y ) < 0, decimos que Xe Y estan negativamente correlacionadas. Si X = (X1, . . . , Xd) es un vector aleatorio,definimos la matriz de covarianza de X como la matriz C = ci,j,

ci,j = E(XiXj)− E(Xi)E(Xj).

Enunciamos el siguiente teorema, cuya demostracon se postergara para capıtulos posterio-res.

Teorema 1.46. Un vector aleatorio X = (X1, . . . , Xd) es normal si y solo si su funcion dedistribucion conjunta FX tiene densidad

fX(x) =1

(2π)d/2|A|1/2e−

12

(x−m)TA−1(x−m),

donde m = (E(X1), . . . , E(Xd)) y A es la matriz de covarianza de X.

Page 23: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

1.7. INDEPENDENCIA 21

Que dos variables aleatorias no estan correlacionadas no implica que sean independientes.

Ejemplo. Consideremos dos variables aleatorias X e Y . Supongamos que P (X = Y = 1) = 0,P (X = 1, Y = 0) = a, P (X = 1, Y = −1) = 0, P (X = 0, Y = 1) = b, P (X = 0, Y = 0) = c,P (X = 0, Y = −1) = b, P (X = −1, Y = 1) = 0, P (X = −1, Y = 0) = a y P (X = −1, Y =−1) = 0. Luego E(XY ) = 0 y E(X) = E(Y ) = 0. Aquı 2a + 2b + c = 1.Pero estas variablesaleatorias no son independientes. En efecto

P (X = Y = 1) = 0 < ab = P (X = 1)P (Y = 1).

Sin embargo, tenemos el siguiente corolario del Teorema 1.46.

Corolario 1.47. Si X es un vector aleatorio normal con coordenadas que no estan correlacio-nadas, entonces son independientes.

Sin embargo, es interesante notar que si X e Y son normales y no estan correlacionadas,no es necesariamente cierto que sean independientes. En efecto, consideremos una variablealeatoria normal X de esperanza 0, y una variable aleatoria J independiente de X que tomalos valores 1 y −1, ambos con probabilidad 1/2. Luego, Y = JX es normal. Sin embargo,Cov(X,Y ) = 0, aunque X e Y no son independientes.

A continuacion introducimos un concepto que ilustrara una de las razones de la importanciade la nocion de correlacion.

Definicion 1.48. (Coeficiente de correlacion). Sean X e Y variables aleatorias de varianzafinita. Definimos el coeficiente de correlacion entre X e Y , por

ρ(X,Y ) =Cov(X,Y )

σXσY.

Notemos por la desigualdad de Tchebychev que siempre se satisface que

−1 ≤ ρ(X,Y ) ≤ 1.

Lo interesante es lo que sucede cuando una de las deisgualdades anteriores es una igualdad.

Teorema 1.49. Sean X e Y variables aleatorias de varianza finita definidas en un espacio deprobabilidad (Ω,M, P ). Luego, las siguientes condiciones son equivalentes.

(i) ρ(X,Y ) = ±1.

(ii) Si m = ±σXσY

y c = E(Y ) +mE(X) entonces

P (mX + c = Y ) = 1.

Demostracion. Supongamos que ρ(X,Y ) = 1. Consideremos la variable aleatoria

L =X − E(X)

σX− Y − E(Y )

σY.

Un calculo sencillo nos muestra que E(L2) = 0. Luego, P − c.s. se tiene que L = 0. El casoρ(X,Y ) = −1 es analogo cambiando el segundo signo negativo en L por uno positivo.

Page 24: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

22 CAPITULO 1. FUNDAMENTOS

Este resultado nos muestra que en cierto modo, cuando dos variables aleatorias estan posi-tivamente correlacionadas, tiende a haber una relacion lineal entre ellas con pendiente positiva.Por lo tanto, al “aumentar” una de las variables aleatorias, tiende a “aumentar” la otra. Un con-cepto mas restrictivo, pero similar al concepto de correlacion positiva y negativa entre variablesaleatorias, es el siguiente.

Definicion 1.50. (Variables aleatorias asociadas). Decimos que dos variables aleatorias Xe Y estan positivamente asociadas, si para todo para de funciones f y g, continuas, acotadasy crecientes, se tiene que

Cov(f(X), g(Y )) ≥ 0.

Si en cambio

Cov(f(X), g(Y )) ≤ 0,

decimos que X e Y estan negativamente asociadas.

En los siguientes capıtulos veremos como se relaciona esta nocion con la version mas basicade un principio de grandes desvıos.

Ahora estudiaremos una contraparte del lema de Borel-Cantelli estudiado en las seccionesanteriores, que nos permitira obtener algunas conclusiones sobre las condiciones bajo las quese satisface una ley de los numeros grandes.

Teorema 1.51. (Lema de Borel-Cantelli, segunda parte). Sea An una sucesion deeventos independientes que satisface

∑∞n=1 P (An) =∞. Luego

P (An i.o.) = 1. (1.5)

Demostracion. Sean k > n naturales. Luego

P (∩kj=nAcj) = Πkj=n(1− P (Aj)) ≤ e−

∑kj=n P (Aj),

donde hemos ocupado la desigualdad 1− x ≤ e−x. Luego, para todo n P (∪∞j=nAj) = 1, lo queclaramente implica (1.5).

El siguiente teorema es un corolario interesante de la segunda parte del Lema de Borel-Canteli, y nos da un lımite para la validez de lo que posteriormente llamaremos la ley fuertede los numero grandes.

A continuacion deduciremos un resultado importante a partir de la segunda parte del lemmade Borel-Cantelli.

Teorema 1.52. Sea Xn una sucesion de variables aleatorias i.i.d. Supongamos que X1 noes integrable. Luego

P

(lımn→∞

1

n

n∑k=1

Xk existe

)= 0.

Page 25: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

1.8. EVENTOS INTERCAMBIABLES 23

Demostracion. Notemos que

E[|X1|] =

∫ ∞0

P (|X1| > x)dx ≤∞∑n=0

P (|X1| > n).

Luego, si E[|X1|] =∞, por la segunda parte del lemma de Borel-Cantelli conluımos que

P (|Xn| ≥ n i.o.) = 1.

Veremos que esto implica que lımn→∞1n

∑ni=1Xi no existe c.s. En efecto, notemos que

X1 + · · ·+Xn

n− X1 + · · ·+Xn+1

n+ 1=X1 + · · ·+Xn

n(n+ 1)− Xn+1

n+ 1.

Por otra parte, en el evento A :=

lımn→∞1n

∑ni=1Xi existe

tenemos que

lımn→∞

X1 + · · ·+Xn

n(n+ 1)= 0.

Luego en A ∩ |Xn| ≥ n i.o. se tiene que∣∣∣∣∣∑n

i=1Xi

n−∑n+1

i=1 Xi

n+ 1

∣∣∣∣∣ > 1

2i.o.

Como |Xn| ≥ n i.o., necesariamente P (A) = 0.

1.8. Eventos intercambiables

Aquı estudiaremos una generalizacion del la ley 0− 1 de Kolmogorov a lo que llamaremoseventos inercambiables.

Definicion 1.53. (Permutacion finita). Decimos que una funcion π : N → N es una per-mutacion finita, si es una biyeccion tal que π(i) 6= i solo para una cantidad finita de i ∈ N.

Definicion 1.54. (Evento permutable). Sea (S,M) un espacio medible. Si π es una per-mutacion finita de N, para ω ∈ Ω := SN, definimos π : Ω → Ω por (πω) := ωπi . Decimos queA ⊂ Ω es permutable si π−1A = A. Llamamos a la coleccion E de eventos enM permutablesde Ω la σ-algebra intercambiable.

Ejemplo. (i) Si Sn = X1 + · · ·+Xn es una suma de v.a. independientes, claramente el eventoSn ∈ A i.o. es permutable. Sin embargo notemos que no esta en la σ-algebra de la cola. (ii)la σ-algebra T de la cola de una sucesion de v.a. independientes esta contenida en E .

Teorema 1.55. (Ley 0 − 1 de Hewitt-Savage). Sea X1, X2, . . . una sucesion de v.a. i.i.d.y A ∈ E, donde E es la σ-algebra de eventos inercambiables de σ(X1, X2, . . .). Luego P (A) ∈0, 1.

Page 26: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

24 CAPITULO 1. FUNDAMENTOS

Demostracion. Mostraremos que A es independiente de si mismo. Notemos que como laσ-algebra σ(X1, X2, . . .) es generada por el algebra A := ∪∞n=1σ(X1, . . . , Xn), necesariamenteexiste una sucesion An ∈ σ(X1, . . . , Xn) tal que lımn→∞ P (A∆An) = 0. Consideremos ahorala permutacion

π(j) :=

j + n si 1 ≤ j ≤ nj − n si n+ 1 ≤ j ≤ 2n

j si 2n+ 1 ≤ j

Claramente se tiene que

P (A∆An) = P (π(A∆An)) = P (A ∩ πAn).

Ahora, A∆C ⊂ (A∆B) ∪ (B∆C). Luego

P (An∆πAn) ≤ P (An∆A) + P (A ∩ πAn).

Luego

lımn→∞

P (An∆πAn) = 0.

Por lo tanto

0 ≤ P (An)− P (An ∩ πAn) ≤ P (An ∪ πAn)− P (An ∩ πAn) = P (An∆πAn)→ 0.

Pero P (A) = P (A − An) + P (An) − P (An − A), lo que implica que lımn→∞ P (An) = P (A).Luego

lımn→∞

P (An ∩ πAn) = P (A).

Pero An y πAn son independientes por lo que se tiene en realidad que lımn→∞ P (An ∩ πAn) =P (A)2. Esto implica que P (A)2 = P (A).

1.9. Teorema de extension de Kolmogorov

Discutiremos en esta seccion como se construyen medidas de probabilidad en espacios queson productos cartesianos. Un caso particular importante de tales medidas son lo que lla-maremos medidas producto que correspondan a lo que pronto definiremos como eventosindependientes.

Comenzaremos discutiendo como contruır una medida aosciada a eventos independientes,en un espacio que es el producto cartesiano de dos factores. Consideremos dos espacios deprobabilidad (X,F , P ) e (Y,G, Q). Primero debemos definir un conjunto de eventos que corres-ponda en cierto modo a productos cartesianos de eventos de F con eventos de G. Lo natural esentonces definir F ×G como la σ-algebra mas pequena que contiene a los rectangulos medibles.Recordemos que los rectangulos medibles forman una semi-algebra R, y que la coleccion deuniones finitas de tales rectangulos forman un algebra. Definimos en R la funcion R por

R(A×B) = P (A)Q(B).

Page 27: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

1.9. TEOREMA DE EXTENSION DE KOLMOGOROV 25

Es facil constatar que R es finitamente aditiva en R (es decir, que satisface la part (i) delTeorema 1.19). Podemos ahora extender la definicion deR desdeR hasta el algebraA(R), lo quenos da una medida de probabilidad aditiva en esta algebra. Por la parte (ii) del Teorema 1.14,bastarıa probar que R es continua en A(R) para concluır que es σ-aditiva allı. Consideremosuna sucesion An ⊂ A(R). Definimos para cada y ∈ Y ,

An,y := x ∈ X : (x, y) ∈ An.

Notemos que P (An,y) es una funcion medible en (Y,G) y que

R(An) =

∫P (An,y)dQ(y).

Por otra parte, si An es una sucesion decreciente de conjuntos con interseccion vacıa, ne-cesariamente para cada y ∈ Y se tiene que An,y es una sucesion decreciente con interseccionvacıa. Luego, lımn→∞ P (An,y) = 0 y por el teorema de convergencia acotada concluımos quelımn→∞R(An) = 0. Esto demuestra que R es σ-aditiva en A(R). Ahora, por el teorema deextension de Caratheodory, concluımos que R se puede extender en forma unica a la sigmaalgebra σ(A(R).

La demostracion anterior no se puede generalizar a casos en los que la cantidad de factoresde un producto cartesiano es infinito. Es importante poder efectuar tal construccion para incluırejemplos tan basicos como el modelo de percolacion, donde tenemos una cantidad numerable devariables aleatorias independientes. El teorema de extension de Kolmogorov es una herramientautil que permite efectuar tal construccion. Primero necesitamos extender el concepto de σ-algebra producto a productos cartesianos con una cantidad arbitraria de factores.

Definicion 1.56. (σ-algebra producto) Consideremos un conjunto de indices I y espaciosde eventos (Xi,Fi) indexados por i ∈ I. Definimos la σ-algebra producto∏

i∈IFi

en el producto cartesiano∏i∈I Xi, como la σ-algebra mas pequena que contiene a los rectangu-

los medibles de∏i∈I Xi: es decir, los conjuntos de la forma

∏i Fi donde Fi = Xi salvo por una

cantidad finita de ındices i.

Sera necesario agregar estructura adicional a nuestros espacios. En lo que sigue, dado un espaciometrico X denotaremos por B(X) la σ-algebra de los borelianos de X. Ademas, a todo espaciometrico completo y separable, lo llamaremos un espacio polaco.

Definicion 1.57. (Medidas regulares) Sea X un espacio metrico y M una σ-algebra quecontiene los borelianos B. Sea P es una medida de probabilidad en (X,M). Si para todo E ∈M

P (E) = supP (C) : C ⊂ E,C cerrado,

decimos que P es regular interna. Si para todo E ∈M

P (E) = ınfP (G) : E ⊂ G,G abierto,

decimos que P es regular externa. Si P es regular externa e interna decimos que es regular.

Resulta que toda medida de probabilidad definida en los borelianos de un espacio metricoes regular.

Page 28: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

26 CAPITULO 1. FUNDAMENTOS

Lema 1.58. Sea X un espacio metrico. Consideremos el espacio de probabilidad (X,B(X), P ).Luego P es regular.

Demostracion. Notemos que si A es un conjunto cerrado, eligiendo F = A y para n ≥ 1 losabiertos Gn := An =

x : ρ(x,A) < 1

n

, donde ρ es la metrica del espacio, vemos que A se puede

aproximar internamente por cerrados y externamente por abiertos. Sea G la clase de conjuntosque poseen esta propiedad. Basta probar que G es una σ-algebra. Sea An una sucesion en Gy A = ∪nAn. Sea ε > 0. Elegimos Fn y Gn de modo que P (An−Fn) ≤ ε/2n+1 y P (Gn−An) ≤ε/2n. Luego si G = ∪Gn y F = ∪n≤n0Fn, donde n0 es tal que P (∪Fn−∪n≤n0Fn) < ε/2, vemosque P (A− F ) < ε y P (G−A) < ε/2.

Necesitamos introducir la nocion de tension que se ocupara junto con la de regularidad paraaproximar la probabilidad de los borelianos por compactos.

Definicion 1.59. (Tension) Sea X un espacio metrico. Sea P es una medida de probabilidaden (X,B(X)). Si para todo ε > 0 existe un compacto K tal que

P (K) ≥ 1− ε,

decimos que P es tensa.

Teorema 1.60. (Ulam). Sea X un espacio polaco. Luego, toda medida de probabilidad en(X,B) es tensa.

Demostracion. Ocupando la separabilidad de X, sabemos que para cada natural n podemoselegir una sucesion de bolas abiertas de radio 1/n, Ai,n : i ≥ 1 que cubren X. Dado ε > 0,para cada n elegimos in de modo que P (∪i≤inAi,n) ≥ 1− ε/2n. Ahora notemos que la clausuradel conjunto K := ∩n∪i≤inAi,n es completo y totalmente acotado. Luego es compacto. AdemasP (K) ≥ 1− ε.

Continuamos ahora con el concepto de familia consistente de medidas de probabilidad.

Definicion 1.61. (Familia consistente de medidas de probabilidad). Sea S un conjuntoarbitrario y (X,F) un espacio de eventos. Consideremos el espacio Ω := XS . Para cada J ⊂ Sfinito denotamos por πJ la proyeccion desde Ω en XJ . Ademas, supongamos que para cadasubconjunto finito J ⊂ S tenemos una medida de probabilidad PJ definida en XJ . Decimosque la familia de medidas de probabilidad PJ : J ⊂ S, J finito es consistente si cada vezque J ′ ⊂ J , tenemos que

PJ(πJ(π−1J ′ (A))) = PJ ′(A),

para todo subconjunto A ∈∏j∈J ′ F .

Si P es una medida de probabilidad en Ω y definimos para cada J ⊂ S finito PJ(A) =P (π−1

J (A)), la familia de medidas de probabilidad PJ : J ⊂ S, J finito es una familia consis-tente de medidas. Queremos entender el problema inverso: es decir, partiendo de una familiade medidas consistente, cuando es posible construir una medida de probabilidad en Ω com-patible con ellas. En lo que sigue, si X es un espacio metrico y S un conjunto de ındices, seentendera que

XS

Page 29: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

1.9. TEOREMA DE EXTENSION DE KOLMOGOROV 27

esta dotado de la topologıa producto. El siguiente lema sobre los borelianos en Ω, permiteclarificar la relacion que existe entre la σ-algebra producto y los borelianos.

Lema 1.62. Consideremos el espacio de eventos (Ω,B(Ω)) con Ω = XS y X un espacio polaco.Sea A la coleccion de conjuntos A en Ω que se pueden expresar en la forma

A = π−1J (B),

donde B ⊂ B(XJ), para algun J ⊂ S finito. Luego las siguientes afirmaciones son verdaderas.

(i) Si S es numerable

B(Ω) = σ(A) =∏i∈SB(X).

(ii) Si S no es numerable

σ(A) =∏i∈SB(X) ⊂ B(Ω)

y la inclusion es estricta.

Demostracion. Por definicion de la σ-algebra producto tenemos la identidad σ(A) =∏i∈S B(X).

Prueba de la primera identidad de la parte (i). Como cada proyeccion πJ es continua, es medible,y por lo tanto A ⊂ B(Ω). Por otra parte, la topologıa de Ω es generada por conjuntos de labase que son vecindades de un punto v ∈ Ω de la forma

NJ,ε(v) := w ∈ Ω : ρ(vi, wi) < ε, i ∈ J,

donde ρ es la metrica del espacio X. Claramente estos conjuntos estan en A. Como Ω esseparable, concluımos que todo abierto de Ω esta en σ(A). Esto prueba que B(Ω) ⊂ σ(A).Prueba de la inclusion estricta de la parte (ii). Como Ω es un espacio topologicop de Hausdorff,todo punto es cerrado, y por lo tanto pertenece a B(Ω). Sin embargo los puntos no puedenformar parte de

∏i∈S B(X). En efecto, todo conjunto de tal σ-algebra es de la forma

ω ∈ Ω : (ωi1 , ωi2 , . . .) ∈ A,

para algun n natural, ındices i1, i2, . . . ∈ S y un conjunto A ∈ B(Xi1,i2,...).

Teorema 1.63. (Extension de Kolmogorov). Sea S un conjunto , X un espacio polaco yΩ = XS. Sea PJ : J ⊂ S, J finito una familia consistente de medidas de probabilidad. Luegoexiste una unica medida de probabilidad P en (Ω,

∏i∈S B(X)) tal que para todo J ⊂ S finito y

A ∈ B(XJ)

P (π−1J (A)) = PJ(A).

Demostracion. Consideremos en Ω la coleccion de conjuntos A de la forma

A = π−1J (B),

donde J ⊂ S es finito y B ⊂ B(XJ). Por el lema anterior, A es un algebra que genera laσ-algebra producto

∏i∈S B(X). Definimos en A una medida de probabilidad aditiva P ,

Page 30: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

28 CAPITULO 1. FUNDAMENTOS

P (A) = PJ(B),

donde B ∈ B(XJ) es tal que A = π−1J (B). Primero tenemos que demostrar que esta definicion es

consistente. Es decir, supongamos que existe otro conjunto B′ ∈ B(XJ ′) tal que A = π−1J ′ (B′).

Hay que mostrar que

PJ(B) = PJ ′(B′).

Sea I = J ∪ J ′ y C = πI(π−1J (B)) = πI(A). Por consistencia, PI(C) = PJ(B). Similarmente

podemos ver que PI(C) = PJ ′(B′). Es facil verificar que P es aditiva en A. Probaremos que P

es σ-aditiva allı. Por el teorema de continuidad, basta demostrar que si An es una sucesionde conjuntos decreciente en A tales que para algun δ se tiene que

lımn→∞

P (An) ≥ δ,

entonces

∩An 6= φ.

Supongamos que An = π−1Jn

(Bn), con Bn ∈ B(XJn). Sin perdida de generalidad, podemossuponer que Jn es una sucesion de conjuntos creciente en S. Por otra parte, por regularidady tension de las medidas PJ , con J ⊂ S finito, existen compactos Kn tales que Kn ⊂ Bn y

P (An −Dn) ≤ δ/2n+1,

donde Dn = π−1(Kn). Ahora definimos Cn = ∩ni=1Di. Luego, Cn es una sucesion decrecientede conjuntos. Ademas,

P (An − Cn) ≤n∑i=1

P (An −Di) ≤n∑i=1

P (Ai −Di) ≤ δ/2.

Por lo tanto, P (Cn) ≥ δ/2 y concluimos que cada Cn es no-vacıo. Para cada n elegimos un wn ∈Cn con la propiedad de que para j /∈ ∪m≥1Jm, la sucesion ωn(j) es constante. Por el hecho queπJ1C1 es compacto, sabemos que wn tiene una subsucesion tal que sus coordenandas wn(j) :

j ∈ J1 en J1 convergen. Llamemos w(1)n a tal subsucesion. Por el mismo argumento podemos

extraer una subsucesion de w(2)n de w

(1)n , cuyas coordenadas en J2 convergen. Recursivamente

podemos definir w(j)n . Claramente, la sucesion w(n)

n : n ≥ 1 tiene la propiedad que para cadaJi, sus coordenadas en tal conjunto convergen. Es obvio que el lımite definido de esta maneraesta en ∩Cn y por lo tanto en ∩An.

Concluımos esta seccion aplicando el teorema de extension de Kolmogorov para construırcolecciones numerables de variables aleatorias independientes. En efecto, consideremos algunespacio polaco Y con una medida de probabilidad µ definida en sus borelianos y una variablealeatoria X definida en tal espacio. En Ω = Y N con sus borelianos, definimos para cada n lavariable aleatoria Xn(w) = wn, donde w ∈ Ω y wn es la n-esima coordenada de w. Ademas,para cada J finito en N definimos la medida de probabilidad PJ en XJ por PJ(A) = Πj∈Jµ(Aj)para cada boreliano de la forma A = Πj∈JAj con Aj boreliano en Y . Es facil constatar que lacoleccion de medidas de probabilidad PJ : J finito es consistente. Por el teorema de exten-sion de Kolmogorov, existe una medida de probabilidad P en Ω consistente con tal coleccion.Ademas, es obvio que la sucesion de variables aleatorias X1, X2, . . . es independiente.

Page 31: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

1.9. TEOREMA DE EXTENSION DE KOLMOGOROV 29

Ejercicios.

1. Pruebe que la union de una cantidad finita y disjunta de conjuntos de densidad, es unconjunto de densidad. Demuestre que sin embargo, los conjuntos de densidad no formanun algebra.

2. Demuestre las identidades (1.1).

3. Complete la prueba del Lemma 1.62.

4. Considere el espacio Ω := R[0,∞) con la σ-algebra producto. Para t ≥ 0, x, y ∈ R, defina

p(t, x, y) :=1√2πt

e−(x−y)2

2t .

Para J = t1, . . . , tn con t1 < t2 < · · · < tn y A1, . . . , An ∈ B(R), considere el conjunto

Bt1,...,tn := π−1J (A1 × · · ·An),

y defina la medida de PJ en (RJ ,B(RJ)) por

PJ(A1×· · ·An) :=

∫An

∫An−1

· · ·∫A1

p(t1, 0, x1)p(t2−t1, x1, x2) · · · p(tn−tn−1, xn−1, xn)dx1 · · · dxn.

Demuestre que existe una unica medida de probabilidad P definida en la σ-algebra pro-ducto de Ω tal que

P (Bt1,...,tn) = PJ(A1 × · · ·An).

Si usted logra resolver este ejercicio, habra efectuado la construccion mas elemental quese puede hacer del movimiento browniano.

5. El teorema de Hahn-Banach permite definir el llamado lımite de Banach para todasucesion de numeros reales acotada: si xn : n ≥ 0 es una sucesion real acotada, el lımitede Banach de esta sucesion, denotado por

LIMxn

es un numero real, y define una operacion lineal sobre el conjunto de sucesiones acota-das, que coincide con el concepto de lımite tradicional para las sucesiones convergentes,invariante bajo la accion de la transformacion lineal Axn = xn+1 y tal que

lım infn→∞

xn ≤ LIMxn ≤ lım supn→∞

xn.

Aceptando la existencia del lımite de Banach, construya una medida de probabilidadfinitamente aditiva sobre (N,P(N)) que es invariante bajo la accion de A.

6. Demuestre el Teorema 1.14.

7. Considere dos variables aleatorias X e Y definidas en el mismo espacio de probabilidad.Demuestre que Y = f(X) para alguna funcion Borel medible si y solo si σ(Y ) ⊂ σ(X).

Page 32: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

30 CAPITULO 1. FUNDAMENTOS

8. Demuestre que la matriz de covarianza de un vector aleatorio siempre es positiva definida.Pruebe ademas que dada una matriz definida positiva, siempre existe un vector aleatorioque tiene tal matriz como matriz de covarianza.

9. Considere variables aleatorias X1, . . . , Xn. Sea A una matriz y defina las variables alea-torias Yi := AXi para 1 ≤ i ≤ n. Encuentre la matriz de covarianza CY de las variablesaleatorias Y1, . . . , Yn como funcion de la matriz de covarianza CX de X1, . . . , Xn. ¿Comohay que elegir A para que CY sea diagonal?

Page 33: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

Capıtulo 2

Ley de los numeros grandes

Los juegos de azar, basan su sistema de ganancias, fundamentalmente en la estabilidad alargo plazo garantizada por las leyes de la probabilidad. Consideremos el juego de la ruletaamericana. Esta consiste en una rueda en posicion horizontal, por donde puede circular unapequena bola. La rueda esta subdividida en 38 zonas enumeradas, cada una de las cualessubtiende un angulo de la misma magnitud. Al estabilizarse el movimiento de la bola, estapermanece quieta en una de las zona. En un juego tıpico, el jugador paga 1 dolar por apostarla salida de uno de los 38 numeros. En caso de ganar, se le devuelve el dolar mas 35 dolaresadicionales. En caso de perder, pierde un dolar. Suponiendo que la probabilidad de salida delos numeros es uniforme, el valor esperado de la ganancia X del jugador serıa

E(X) = −1× 37

38+ 35× 1

38= −0,05263

Podrıamos preguntarnos que importancia tiene este calculo. La ley de los numeros grandes,descubierta por Jacob Bernoulli en el siglo 18 nos da la respuesta.

2.1. La ley debil de los numeros grandes

Teorema 2.1. (Ley debil de los numeros grandes: version con momentos de orden 2).Consideremos una sucesion Xn : n ≥ 1 de variables aleatorias i.i.d. de cuadrado integrable.Luego, para todo ε > 0 se tiene

lımn→∞

P

(∣∣∣∣∑nk=1Xk

n− E(X)

∣∣∣∣ ≥ ε) = 0.

El adjetivo debil ha sido introducido para distinguir este resultado de la llamada ley fuertede los numeros grandes, que establece que en realidad la convergencia del promedio empıricoa la esperanza es casi segura. En terminos del juego de la ruleta americana, la ley de los numerosgrandes nos indica que el valor promedio de la ganancia de la casa de apuestas por jugador tiendea −E(X) = 0,05263, y por lo tanto es positivo. Es decir, aunque de vez en cuando apareceranjugadores afortunados que ganaran 35 dolares, la ley de los numeros grandes establece siempreexistira una cantidad suficientemente grande de apuestas a partir de las cuales el balance parala casa es favorable.

La demostracion de la ley debil de los numeros grandes es sencilla, y se basa en la siguienteobservacion.

31

Page 34: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

32 CAPITULO 2. LEY DE LOS NUMEROS GRANDES

Lema 2.2. Sean X1, . . . , Xn variables aleatorias centradas no correlacionadas de a pares. Luego

V ar(X1 + · · ·+Xn) = V ar(X1) + · · ·+ V ar(Xn).

Demostracion. (Prueba de la ley debil de los numeros grandes). Sea ε > 0. Por ladesigualdad de Tchebytschev y el lema anterior

P (|X1 + · · ·+ Xn|/n > ε) ≤ 1

ε2V ar(X1)

n.

Claramente el miembro izquierdo tiende a 0 cuando n tiende a ∞.

La ley debil de los numeros grandes sigue siendo valida si suponemos solo que la sucesionde variables aleatorias es integrable. Veremos este resultado como un caso particular de la leyfuerte de los numeros grandes. Por otra parte, una variacion del Lemma 2.2, demostrada porBengt von Bahr y Carl-Gustav Esseen, permite facilmente generalizar el Teorema 2.6.

Lema 2.3. (Desigualdad de von Bahr-Esseen). Sea Xn : n ≥ 1 una sucesion de variablesaleatorias independientes y centradas. Luego para todo 1 ≤ r ≤ 2 se tiene que

E

∣∣∣∣∣n∑k=1

Xk

∣∣∣∣∣r

≤ 4n∑k=1

E(|Xk|r). (2.1)

Observacion. Este resultado fue publicado en 1965 en The Annals of Statistics. El 4 queaparece en el lado derecho de (2.1) se puede mejorar por un 2.

El primer paso para probar la desigualdad de von Bahr-Esseen, es el siguiente resultado deClarkson de 1936, introducido para el estudio de espacios uniformemente convexos.

Lema 2.4. (Desigualdad de Clarkson). Si 1 ≤ r ≤ 2, entonces para todo par de reales x ey se tiene que

|x+ y|r + |x− y|r ≤ 2(|x|r + |y|r).

Demostracion. La desigualdad es trivialmente cierta para y = 0 o para r = 1. Luego, comoambos miembros de la desigualdad son funciones pares, basta suponer que x ≥ y > 0 y r > 1.Definimos t = y/x. Luego tenemos que probar que

(1 + t)r + (1− t)r ≤ 2(1 + tr).

Si f(r) = (1 + t)r + (1− t)r y g(r) = 2(1 + tr), notemos que

g′(r) = 2tr ln t ≤ 0.

Ademas

f ′(r) = (1 + t)r ln(1 + t) + (1− t)r ln(1− t).

Como f(2) = g(2), es suficiente demostrar que f ′(r) ≥ 0. Ahora notemos que

f ′′(r) = (1 + t)r(ln(1 + t))2 + (1− t)r(ln(1− t))2 ≥ 0.

Luego, basta probar que f ′(1) ≥ 0. Pero

Page 35: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

2.1. LA LEY DEBIL DE LOS NUMEROS GRANDES 33

f ′(1) = (1 + t) ln(1 + t) + (1− t) ln(1− t) ≥ 0.

En efecto, basta notar la segunda derivada de la funcion g(x) = x lnx, es positiva, y por lotanto es una funcion convexa. Luego f ′(r) ≥ 0.

Necesitamos un lema antes de probar la desigualdad de von Bahr-Esseen. En lo que sigue,dada una variable aleatoria X, designaremos por X ′ a una variable aleatoria independiente deX pero con la misma distribucion.

Lema 2.5. Sean X e Y variables aleatorias centradas e independientes. Supongamos que paraalgun r ≥ 1 se tiene que E|X|r <∞ y E|Y |r <∞. Luego

E|X|r ≤ E|X + Y |r.

Demostracion. Por la desigualdad de Jensen para esperanza condicional

E|X|r = E(|E(X + Y |X)|r) ≤ E(E(|X + Y |r|X)) = E|X + Y |r.

Demostracion. (Prueba de la desigualdad de von Bahr-Esseen). Si X e Y son variablesaleatorias arbitrarias, la desigualdad de Clarkson implica que

E|X + Y |r + E|X − Y |r ≤ 2(E|X|r + E|Y |r). (2.2)

Luego

E|X −X ′|r ≤ 4E|X|r. (2.3)

Supongamos ahora que la distribucion de Y condicionada a X es simetrica. Luego E|X+Y |r =E|X − Y |r, y de (2.2) tenemos que

E|X − Y |r ≤ E|X|r + E|Y |r. (2.4)

Demostraremos la desigualdad de von Bahr-Esseen ocupando un argumento de induccion. Cla-ramente la desigualdad se satisface para n = 1. Supongamos ahora que es cierta para n ≤ m.Luego

E|Sm+1|r = E|Sm +Xm+1|r ≤ E|Sm +Xm+1 −X ′m+1|r

≤ E|Sm|r + E|Xm+1 −X ′m+1|r ≤ E|Sm|r + 4E|Xm+1|r,

donde en la primera desigualdad hemos ocupado el Lemma 2.5, en la segunda la desigualdad(2.4) y en la tercera la desigualdad (2.3). Por lo tanto es cierta para n = m+ 1, lo que terminala demostracion.

Teorema 2.6. (Ley debil de los numeros grandes: version con momentos de ordenr > 1). Consideremos una sucesion Xn : n ≥ 1 de variables aleatorias i.i.d. con momentosde orden r finitos, y r > 1. Luego, para todo ε > 0 se tiene

lımn→∞

P

(∣∣∣∣∑nk=1Xk

n− E(X)

∣∣∣∣ ≥ ε) = 0.

Page 36: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

34 CAPITULO 2. LEY DE LOS NUMEROS GRANDES

Proseguimos con una generalizaciones de la ley debil. La primera debilita la condicion deintegrabilidad.

Teorema 2.7. (Ley debil de los numeros grandes generalizada). Sea Xn : n ≥ 1una sucesion de variables aleatorias i.i.d. en un espacio de probabilidad (Ω,M, P ). Luego lassiguientes condiciones son equivalentes.

(i) Existe una sucesion an : n ≥ 1 tal que para todo ε > 0,

lımn→∞

P

(∣∣∣∣∑nk=1Xk

n− an

∣∣∣∣ ≥ ε) = 0.

(ii) lımn→∞ nP (|X| ≥ n) = 0.

Ademas, si (i) se satisface, necesariamente

an = E(X1|X|≤n).

Demostracion. Primero probamos que (ii) implica (i). Definimos X ′n = Xn1|Xn|≤n. Por ladesigualdad de Tchebychev, para cada ε > 0

P

(∣∣∣∣∑nk=1Xk

n− E(X ′n)

∣∣∣∣ ≥ ε) ≤ 1

ε2nE((X ′n)2) + nP (|X1| ≥ n). (2.5)

Pero

E((X ′n)2) =∫ n−n x

2dFX1(x) = n2(FX1(n)− FX1(−n))− 2∫ n−n xFX1(x)dx

= −n2(FX1(−n)− FX1(n)) + 2∫ n

0 x(FX1(−x)− FX1(x))dx

= −n2(FX1(−n) + 1− FX1(n)) + 2∫ n

0 x(FX1(−x) + 1− FX1(x))dx

= −n2P (|X1| ≥ n) + 2∫ n

0 xP (|X1| ≥ x)dx. (2.6)

Esto prueba que el primer termino del lado derecho de la desigualdad (2.5) tiende a 0 cuandon tiende a ∞.

Corolario 2.8. Sea Xn : n ≥ 1 una sucesion de variables aleatorias i.i.d. simetricas en unespacio de probabilidad (Ω,M, P ). Luego las siguientes condiciones son equivalentes.

(i) Para todo ε > 0,

lımn→∞

P

(∣∣∣∣∑nk=1Xk

n

∣∣∣∣ ≥ ε) = 0.

(ii) lımn→∞ nP (|X| ≥ n) = 0.

Ejemplo. El teorema anterior muestra que la ley debil de los numeros grandes se puedesatisfacer aunque la distribucion comun de la sucesion no sea integrable. Por ejemplo, tomemosFX definida por

1− FX(x) =1

x lnx.

Page 37: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

2.1. LA LEY DEBIL DE LOS NUMEROS GRANDES 35

La siguiente generalizacion de la ley debil de los numeros grandes, muestra que incluso lahipotesis de independencia no es necesaria.

Definicion 2.9. (Arreglo triangular). Un arreglo triangular de variables aleatorias es unconjunto Xn,k de variables aleatorias indexadas por n ≥ 1 y 1 ≤ k ≤ n.

Teorema 2.10. Consideremos un arreglo triangular Xn,k de variables aleatorias integrablesen un espacio de probabilidad (Ω,M, P ). Luego, las siguientes condiciones son equivalentes.

(i) Para todo ε > 0,

lımn→∞

P

(∣∣∣∣∣ 1nn∑k=1

Xn,k −1

n

n∑k=1

E(Xn,k)

∣∣∣∣∣ > ε

)= 0.

(ii)

lımn→∞

E

((∑n

k=1(Xn,k − E(Xn,k)))2

n2 + (∑n

k=1(Xn,k − E(Xn,k)))2

)= 0.

Demostracion. Para probar que (ii) implica (i) basta ocupar la desigualdad de Tchebychevcon la funcion x2/(n2 + x2). Ahora notemos que si Y es una variable aleatoria arbitraria, setiene que para tod ε > 0,

P (|Y | ≥ ε) ≥∫

x2

1 + x2dFY (x)− ε2.

Eligiendo Y =(∑nk=1(Xn,k−E(Xn,k)))

2

n2+(∑nk=1(Xn,k−E(Xn,k)))

2 , vemos que esto implica que

E

(Y 2

1 + Y 2

)≤ ε2 + P (|Y | ≥ ε).

Como ε > 0 es arbitrario, esto muestra que (i) implica (ii).

Tenemos el siguiente corolario con una condicion mas explıcita.

Corolario 2.11. Sea Xn,k un arreglo triangular de variables aleatorias de cuadrado inte-grable en un espacio de probabilidad (Ω,M, P ). Supongamos que las siguientes condiciones sesatisfacen:

(i)∑n

k=1 V ar(Xn,k) = o(n2).

(ii) lımn→∞ supk,j:|k−j|≥nCov(Xn,k, Xn,j) = 0,

Luego, para todo ε > 0 se tiene que

lımn→∞

P

(∣∣∣∣∣ 1nn∑k=1

Xn,k −1

n

n∑k=1

E(Xn,k)

∣∣∣∣∣ > ε

)= 0.

Pero la condicion (ii) implica que los dos terminos del lado derecho convergen a 0 cuando ntiende a ∞.

Page 38: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

36 CAPITULO 2. LEY DE LOS NUMEROS GRANDES

Demostracion. Por el Teorema 2.10, vemos que basta probar que

lımn→∞

1

n2E

( n∑k=1

(Xn,k − E(Xn,k))

)2 = 0.

La esperanza en esta expresion se puede escribir como

n∑k=1

V ar(Xn,k) +∑

1≤k,j≤nCov(Xn,k, Xn,j).

Por la hipotesis (i), basta probar que

lımn→∞

1

n2

∑1≤k,j≤n

Cov(Xn,k, Xn,j) = 0.

Ahora, Cov(Xn,k, Xn,j) ≤√V ar(Xn,k)V ar(Xn,j) ≤ V ar(Xn,k) +V ar(Xn,j). Luego, solo tene-

mos que probar que para todo δ > 0 existe un m tal que

lım supn→∞

1

n2

∑1≤k,j≤n:|k−j|≥m

Cov(Xn,k, Xn,j) ≤ δ.

Pero esto es evidentemente cierto porque el termino del lado izquierdo de esta exresion es menoro igual a supk,j:|k−j|≥mCov(Xn,k, Xn,j) que tiende a 0 por la condicion (ii).

Una aplicacion interesante de la ley de los numeros grandes para demostrar una version delteorema de aproximaciıon de Weierstrass.

Teorema 2.12. (Teorema de Bernstein). Consideremos una funcion continua f en el in-tervalo [0, 1]. Luego, los polinomios de Bernstein

Bn(x) =n∑k=0

f(k/n)(nk

)xk(1− x)n−k,

aproximan uniformemente a f en [0, 1].

2.2. Una version elemental de la ley fuerte de los numeros gran-des

La convergencia en probabilidad, en la ley debil de los numeros grandes, se puede facilmentetransformar en convergencia casi segura, si le exigimos mas a la sucesion de variables aleatoriasi.i.d.

Teorema 2.13. (Version elemental de la ley fuerte de los numeros grandes). Con-sideremos una sucesion Xn : n ≥ 1 de variables aleatorias i.i.d. con momentos de orden 4finitos. Luego

P

(lımn→∞

∑nk=1Xk

n= E(X1)

)= 1.

Page 39: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

2.3. LA LEY FUERTE DE LOS NUMEROS GRANDES: PRUEBA DE ETEMADI 37

Demostracion. Basta probar que para todo ε > 0,

lım supn→∞

∣∣∣∣∑nk=1Xk

n− E(X1)

∣∣∣∣ ≤ ε P − c.s.

Es decir que

P

(∣∣∣∣∑nk=1Xk

n− E(X1)

∣∣∣∣ > ε i.o.

)= 0. (2.7)

Ahora, si Yk = Xk − E(Xk), vemos que

P

(∣∣∣∣∑nk=1Xk

n− E(X1)

∣∣∣∣ > ε

)≤ 1

ε4n4E

(n∑k=1

Yk

)4

. (2.8)

Pero

E

(n∑k=1

Yk

)4

=∑i,j,k,l

E(YiYjYkYl) = nE(Y 41 ) +

n(n− 1)

2E(Y 2

1 )2.

Ocupando el hecho que E(Y )2 ≤ E(Y 2), vemos entonces que la probabilidad en la ecuacion(2.8) esta acotada por

2

ε41

n2E(Y 4).

Como esto define una serie sumable, el lema de Borel-Cantelli implica (2.7).

Teorema 2.14. (Condicion necesaria para la ley fuerte). Sea Xn : n ≥ 1 una sucesionde variables aleatorias i.i.d. en un espacio de probabilidad (Ω,M, P ). Supongamos que X1 noes integrable. Luego, si an es una sucesion de numeros reales,

lım supn→∞

∣∣∣∣∑nk=1Xk

n− an

∣∣∣∣ =∞, P − c.s.

2.3. La ley fuerte de los numeros grandes: prueba de Etemadi

Aquı presentaremos una demostracion elemental de la ley fuerte de los numeros grandes,siguiendo el metodo de Nasrollah Etemadi publicado en 1980 en Z. Wahrscheinlichkeitstheorie.

Teorema 2.15. (Ley fuerte de los numeros grandes). Sea Xn : n ≥ 1 una sucesion devariables aleatorias i.i.d. centradas e integrables. Luego

lımn→∞

∑nk=1Xk

n= 0.

Demostracion. Notemos que para cada n, Xn = (Xn)+−(Xn)−, por lo que podemos suponerque la sucesion esta compuesta por variables aleatorias no-negativas. Para cada i definimosYi := Xi1(Xi ≤ i) y

Tn :=n∑i=1

Yi.

Page 40: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

38 CAPITULO 2. LEY DE LOS NUMEROS GRANDES

Sea ademas kn := αn para algun α > 1. Ahora,

P(∣∣∣Tkn−E(Tkn )

kn

∣∣∣ ≥ ε) ≤ 1ε2∑∞

n=11k2n

∑kni=1 V ar(Yi)

≤ 1ε2∑∞

i=11i2E(Y 2

i ) = 1ε2∑∞

i=11i2

∫ i0 x

2dF = 1ε2∑∞

i=11i2∑i−1

k=0

∫ k+1k x2dF

= 1ε2∑∞

k=01

(k+1)

∫ k+1k x2dF ≤ 1

ε2∑∞

k=0

∫ k+1k xdF = E(X1) <∞.

Pero

E(X1) = lımn→∞

E(Yn) = lımn→∞

E(Tkn)

kn.

Luego, por el desarrollo anterior y la primera parte del lema de Borel-Cantelli, vemos que c.s.

lımn→∞

Tknkn

= E(X1). (2.9)

Por otra parte,

∞∑n=1

P (Xn 6= Yn) =∞∑n=1

P (Xn ≥ n) ≤ E(X1) <∞,

ocupando nuevamente la primera parte del lema de Borel-Cantelli concluımos que c.s. Xn 6= Ynsolo una cantidad finita de veces. Luego, de (2.9) vemos que

lımn→∞

Sknkn

= E(X1),

con Sm := X1 + · · ·+Xm. Finalmente, usando la suposicion de que las variables aleatorias Xi

no son negativas, lo que implica que la suma Sn es creciente en n, vemos que

1

αE(X1) ≤ lım inf

Snn≤ lım sup

Snn≤ αE(X1).

En las siguientes secciones desarrollaremos herramientas clasicas que tambien permiten probarla ley fuerte de los numeros grandes, pero que ademas tienen caracter fundamental y aplica-ciones a diversos problemas.

2.4. La desigualdad de Kolmogorov

Aquı probaremos la deisgualdad de Kolmogorov y veremos como se puede aplicar para elestudio de series aleatorias, para probar los teoremas de una, dos y tres series de Kolmogorov.Posteriormente veremos como estos resultados permiten obtener una segunda prueba de la leyfuerte de los numeros grandes bajo la hipotesis de integrabilidad de los terminos de la sucesionde variables aleatorias. En el resto de este capıtulo, dadas variables aleatorias X1, . . . , Xn

definimos

Sn = X1 + · · ·+Xn.

Page 41: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

2.4. LA DESIGUALDAD DE KOLMOGOROV 39

Lema 2.16. (Desigualdad de Kolmogorov). Sean X1, . . . , Xn variables aleatorias indepen-dientes tales que E(Xi) = 0 y V ar(Xi) = σ2

i < ∞ para 1 ≤ i ≤ n. Luego para todo ε > 0 setiene que

P ( sup1≤m≤n

|Sm| ≥ ε) ≤∑n

k=1 σ2k

ε2.

Demostracion. Para k ∈ 1, . . . , n consideremos los eventos Fk = |S1| < ε, . . . , |Sk−1| <ε, |Sk| ≥ ε. Luego

P (Fk) ≤ 1ε2

∫FkS2kdP ≤

1ε2

∫Fk

(S2k + (Sn − Sk)2)dP

=∫Fk

(S2k + 2Sk(Sn − Sk) + (Sn − Sk)2)dP

= 1ε2

∫FkS2ndP. (2.10)

Ocupando el hecho de que Sn ≥ ε = ∪nm=1Fm, donde la union es disjunta, y sumando kvariando entre 1 y n en la desigualdad (2.10), terminamos la demostracion.

Tenemos la primera aplicacion de la desigualdad de Kolmogorov.

Teorema 2.17. (Teorema de una serie de Kolmogorov). Sea Xn : n ≥ 1 una sucesionde variables aleatorias independientes centradas tales que

∑∞n=1 V ar(Xn) <∞. Luego, la serie

∞∑n=1

Xn,

converge c.s.

Demostracion. Basta probar que c.s. lım supn→∞ Sn − lım infn→∞ Sn = 0. Ahora, notemosque para todo m natural se tiene que

lım supn→∞

Sn − lım infn→∞

Sn ≤ lım supn→∞

(Sn − Sm)− lım infn→∞

(Sn − Sm) ≤ 2 supN≥m+1

∣∣∣∣∣N∑

k=m+1

Xk

∣∣∣∣∣ .Por lo anterior y por la desigualdad de Kolmogorov se tiene que

P (lım supn→∞

Sn − lım infn→∞

Sn ≥ ε) ≤ P

(2 supN≥m+1

∣∣∣∣∣N∑

k=m+1

Xk

∣∣∣∣∣ ≥ ε)≤ 1

4ε2

∞∑k=m+1

V ar(Xk).

Tomando el lımite cuando n tiende a infinito concluımos la prueba.

El teorema de una serie de Kolmogorov nos permite concluır de inmediato que la serie

∞∑n=1

cnsin(2πnt)

n,

donde cn son variables aleatorias normales centradas de varianza 1, es c.s. convergente. Enrealidad, el lımite es lo que se conoce como movimiento browniano.

Page 42: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

40 CAPITULO 2. LEY DE LOS NUMEROS GRANDES

Teorema 2.18. (Teorema de las dos series de Kolmogorov). Sea Xn : n ≥ 1 unasucesion de variables aleatorias independientes de cuadrado integrable. Sea mn = E(Xn) yσ2n = V ar(Xn). Luego, si las series

∑nmn y

∑n σ

2n son convergentes, entonces la serie

∑nXn

converge casi seguramente.

Demostracion. Basta aplicar el teorema anterior a la sucesion definida por X ′n = Xn −mn.

Lema 2.19. Sea Xn una sucesion de variables aleatorias independientes, centradas y acota-das por una constante K > 0. Luego, si la serie

∑nXn es c.s. convergente, entonces la serie∑

n V ar(Xn) es convergente.

Demostracion. Consideremos el evento En = |S1| ≤ C, . . . , |Sn| ≤ C. Necesariamente,existe un C > 0 y un δ > 0 tal que P (En) ≥ δ para todo n. Por otra parte∫

En−1

S2ndP =

∫En−1

(S2n−1 +X2

n)dP ≥∫En−1

S2n−1dP + δV ar(Xn).

Ademas ∫En−1

S2ndP ≤

∫En

S2ndP + P (En−1 ∩ Ecn)(C +K)2.

De aquı deducimos que

δV ar(Xn) ≤∫En

S2ndP −

∫En−1

S2n−1dP + P (En−1 ∩ Ecn)(C +K)2.

Luego

∞∑n=1

V ar(Xn) ≤ 1

δ(C2 + (C2 +K)2).

Teorema 2.20. (Teorema de las tres series de Kolmogorov). Sea Xn : n ≥ 1 unasucesion de variables aleatorias independientes. Luego las siguientes afirmaciones son equiva-lentes.

1. La serie∑

nXn converge casi seguramente.

2. Existe una constante K > 0 tal que la siguientes tres series convergen,

∑n

P (|Xn| > K),

∑n

E(Xn1|Xn|≤K),

y

∑n

V ar(Xn1|Xn|≤K).

Page 43: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

2.5. LEY FUERTE DE LOS NUMEROS GRANDES 41

Demostracion. Supongamos que la serie∑

nXn converge casi seguramente. Por la segundaparte del lema de Borel-Cantelli se tiene que necesariamente la primera serie es convergente.Ademas, casi seguramente existe un N tal que |Xn| ≤ K para n ≥ N . Luego se tiene que

∑n Yn

converge c.s. donde Yn = Xn1|Xn|≤K . Consideremos ahora para cada n, variables aleatoriasindependientes Y ′n con la misma ley que Yn. Claramente, la serie

∑n(Yn − Y ′n) converge c.s.

Por el lema anterior, la serie∑

n V ar(Yn − Y ′n) converge. Pero V ar(Yn − Y ′n) = 2V ar(Yn).Luego, la serie

∑n V ar(Yn) es convergente. Por el teorema de una serie de Kolmogorov, la serie∑

n(Yn − E(Yn)) es c.s. convergente. Por lo tanto∑

nE(Yn) es convergente.Ahora supongamos que las tres series convergen. Por el teorema de una serie de Kolmo-

gorov, la convergencia de la tercera serie implica que∑

n(Yn − E(Yn)) es convergente c.s. Laconvergencia de la segunda serie implica entonces que

∑n Yn es c.s. convergente. Finalmente,

la primera parte del lema de Borel-Cantelli y la convergencia de la primera serie implica que∑nXn es convergente.

2.5. Ley fuerte de los numeros grandes

Tenemos ahora todas las herramientas para demostrar la ley fuerte de los numeros grandes.Comenzaremos con un primer lema sobre sucesiones reales que se puede probar ocupando sumapor partes.

Lema 2.21. Consideremos una sucesion real xn : n ≥ 1 tal que

∞∑n=1

xnn

converge. Luego

lımn→∞

1

n

n∑k=1

xk = 0. (2.11)

Demostracion. Por la formula de suma por partes tenemos que para todo n ≥ 1 y par desucesiones ak : k ≥ 1 y bk : k ≥ 1 se satisface

n∑k=1

ak(bk+1 − bk) = an+1bn+1 − a1b1 −n∑k=1

(ak+1 − ak)bk+1.

Eligiendo an = n, b1 = 0 y bn =∑n−1

k=1 xk/ak llegamos a la identidad

1

n

n∑k=1

xk =n+ 1

nbn+1 −

1

n

n∑k=1

bk+1. (2.12)

Como lımk→∞ bk existe, es obvio de la identidad (2.12) que se satisface (2.11).

Podemos ahora presentar una segunda prueba del Teorema ??. Para cada n consideremosla variable aleatoria Yn = Xn1|Xn|≤n. Notemos que

∑∞n=1 V ar((Yn/n)2) ≤

∑∞n=1E((Yn/n)2)

=∑∞

n=1

∫|x|≤n

x2

n2dFX1 =∫x2∑

n≥|x|1n2dFX1 ≤ KE|X|.

Page 44: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

42 CAPITULO 2. LEY DE LOS NUMEROS GRANDES

Por el teorema de una serie de Kolmogorov, esto implica que

∞∑n=1

Yn − E(Yn)

n

converge c.s. Ahora,

∞∑n=1

P (Xn 6= Yn) =∞∑n=1

P (|Xn| > n) <∞.

Luego, por el lema de Borel-Cantelli, la serie

∞∑n=1

Xn − E(Yn)

n

converge c.s. Por el lema anterior esto implica que

lımn→∞

1

n

n∑k=1

(Xk − E(Yk))

tiende a 0 c.s. Pero lımn→∞E(Yn) = 0, lo que demuestra el teorema.

Terminamos esta seccion con una aplicacion. Dada una sucesion de variables aleatorias i.i.d.Xn definimos la funcion de distribucion empırica de los primeros n terminos por

Fn(x) :=1

n

n∑k=1

1(−∞,x](Xk).

Teorema 2.22. (Teorema de Glivenko-Cantelli). Sea Xn una sucesion de variablesaleatorias i.i.d. Luego la funcion de distribucion empırica de los primeros n terminos convergec.s. a la funcion de distribucion de X1.

Demostracion. Por la ley fuerte de los numeros grandes es obvio que para cada x tenemosque c.s.

lımn→∞

|Fn(x)− FX1(x)| = 0.

Luego, podemos elegir una coleccion finita de puntos x1, . . . , xN tales que F (x1) ≤ ε, F (xN ) ≥1− ε, F (xj+1)− F (xj) ≤ ε y c.s.

lımn→∞

sup1≤j≤N

|Fn(xj)− FX1(xj)| = 0.

Es facil ver ocupando la monotonıa de FX1 y Fn que esto implica el teorema.

Page 45: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

Capıtulo 3

Teorema del lımite central

3.1. Convergencia debil

Necesitamos precisar la idea de convergencia de una sucesion de medidas de probabilidad aotra medida de probabilidad. Para ello, es natural tratar de definir una metrica en el conjuntode medidas de probabilidad en un experimento. Una posible definicion es la siguiente.

Definicion 3.1. (Distancia de variacion total) Consideremos dos medidas de probabilidadP y Q en un espacio medible (Ω,M). Definimos la distancia de variacion total entre P y Qcomo

||P −Q||V T := supE∈M

|P (E)−Q(E)|.

Este concepto es sin embargo indecuado para una serie de situaciones. Consideremos lasucesion de medidas de probabilidad mn definidas en el intervalo [0, 1] con densidad

1− sen(2πx).

Por el lema de Riemann-Lebesgue sabemos que para toda funcion f integrable se tiene que

lımn→∞

∫fdmn =

∫fdm. (3.1)

Ahora, notemos que

lım infn→∞

||m−mn||V T > 0.

Es decir, la distancia de la variacion total entre medidas, no permite describir la convergenciadel despliegue (3.1). Como un segundo ejemplo, consideremos la sucesion de medidas νn queson delta de Dirac en el punto xn, donde xn es una sucesion que converge a 0. Esperarıamospoder definir una nocion de convergencia de medidas donde νn converge a ν, donde ν es ladelta de Dirac en 0. Notemos que nuevamente se tiene que

lım infn→∞

||ν − νn||V T > 0.

En el contexto de espacios metricos, una nocion natural de convergencia que captura la con-vergencia de los ejemplos anteriores es la siguiente.

43

Page 46: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

44 CAPITULO 3. TEOREMA DEL LIMITE CENTRAL

Definicion 3.2. (Convergencia debil) Sea Ω un espacio metrico. Decimos que una suce-sion de medidas de probabilidad Pn en (Ω,B(Ω)) converge debilmente a una medida deprobabilidad P en (Ω,B(Ω)) si para toda funcion continua y acotada f se tiene que

lımn→∞

∫fdPn =

∫fdP.

Cuando Ω es un espacio metrico compacto, esta definicion coincide con la nocion de conver-gencia debil-* en el espacio dual de C(Ω) que se puede identificar con el conjunto de medidascon signo en C(Ω). Para que esta definicion sea util, lo mınimo que necesitamos es que unasucesion de medidas de probabilidad pueda tener a lo mas un solo lımite.

Definicion 3.3. (Clase separable de funciones). Sea Ω un espacio metrico. Decimos queun subconjunto C del espacio de funciones reales Borel-medibles en Ω separa las medidas deprobabilidad si cada vez que P y Q son dos medidas de probabilidad en (Ω,B(Ω)) tales que∫

fdP =

∫fdQ,

para toda funcion f ∈ C entonces P = Q.

Teorema 3.4. Si Ω es un espacio metrico, el conjunto de funciones continuas y acotadas enΩ separa las medidas de probabilidad.

En realidad, tenemos un resultado mas fuerte. Para enunciarlo necesitamos definir aproxi-maciones de conjuntos cerrados por funciones uniformemente continuas. Consideremos ademasuna funcion φ continua tal que φ(s) = 1 si s ≤ 0, φ(s) = 1− s si 0 ≤ s ≤ 1 y φ(s) = 0 si s ≥ 1.Para cada cerrado F en un espacio metrico Ω, y ε > 0, definimos la funcion

fε,F (x) = φ

(1

ερ(x, F )

). (3.2)

Notemos que para ε > 0 fijo, estas funciones son uniformemente continuas.

Teorema 3.5. Si Ω es un espacio metrico, el conjunto de funciones uniformemente continuasy acotadas en Ω separa las medidas de probabilidad.

Demostracion. Notemos que como F es cerrado, necesariamente

lımε→0

fε(x) = 1F (x).

Ademas |fε(x)| ≤ 1. Pero por el teorema de convergencia dominada P (F ) = Q(F ). Como P yQ son medidas regulares, esto implica que coinciden.

Finalmente, con condiciones mas restrictivas, tenemos el siguiente resultado. Recordemosque en un espacio metrico, el conjunto de funciones continuas que tiende a 0 en infinitoes el conjunto de funciones continuas f tales que para todo ε > 0 existe un compacto K talque |f(x)| < ε si x /∈ K.

Teorema 3.6. Si Ω es un espacio polaco, localmente compacto, el conjunto de funciones con-tinuas que tiende a 0 en infinito en Ω separa las medidas de probabilidad.

Page 47: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

3.1. CONVERGENCIA DEBIL 45

Definicion 3.7. (Conjuntos de P -continuidad). Dado un espacio metrico Ω y un espaciode probabilidad (Ω,M, P ), decimos que un conjunto A ∈M es de P -continuidad si P (δA) = 0,donde δA es la frontera de A.

Seguimos con el siguiente resultado que caracteriza de varias maneras la convergencia debil.

Teorema 3.8. (Teorema de Portmanteau). Sea Ω un espacio metrico. Consideremos unamedida de probabilidad P y una sucesion Pn en (Ω,B(Ω)). Luego las siguientes condicionesson equivalentes.

(i) La sucesion Pn converge debilmente a P .

(ii) Si f es uniformemente continua y acotada, se tiene que

lımn→∞

∫fdPn =

∫dP.

(iii) Si F es cerrado,

lım supn→∞

Pn(F ) ≤ P (F ).

(iv) Si G es abierto,

lım infn→∞

Pn(G) ≥ P (G).

(v) Si A es un conjunto de P -continuidad,

lımn→∞

Pn(A) = P (A).

Demostracion. Es obvio que (i) implica (ii). Ahora probamos que (ii) implica (iii). Sea Fun conjunto cerrado. Para cada ε > 0 consideramos la funcion fε,F definida en (3.2) que esuniformemente continua, fε,F (x) = 1 si x ∈ F , 0 ≤ fε,F ≤ 1, y lımε→0 fε,F = 1F . Ademas, comosuponemos que (ii) se satiface, tenemos que lımn→∞

∫fε,FdPn =

∫fε,FdP . Por otra parte

lım supn→∞

Pn(F ) ≤ lımn→∞

∫fε,FdPn =

∫fε,FdP.

Tomando el lımite cuando ε tiende a 0 y el teorema de convergencia acotada, terminamos lademostracion.

Es obvio que (iii) es equivalente a (iv). Probamos ahora que (iii) y (iv) implican (i).Sin perdida de generalidad, tomamos una funcion f continua y acotada tal que 0 < f < 1.Demostraremos que

lım supn→∞

∫fdPn ≤

∫fdP.

Consideremos las sucesiones de funciones simples

φm(x) =

m∑j=1

j − 1

m1 j−1m≤f(x)< j

m(x)

Page 48: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

46 CAPITULO 3. TEOREMA DEL LIMITE CENTRAL

y

ψm(x) =

m∑j=1

j

m1 j−1m≤f(x)< j

m(x).

Tenemos que ∫φmdP ≤

∫fdP ≤

∫ψmdP.

Si definimos los conjuntos cerrados Fj = x : f(x) ≥ j/m, vemos que la integral de la derechase puede expresar como

1

m+

1

m

m∑j=1

P (Fj).

Haciendo una transformacion analoga para la integral de la izquierda, vemos que

1

m

m∑j=1

P (Fj) ≤∫fdP ≤ 1

m+

1

m

m∑j=1

P (Fj). (3.3)

Analogamente podemos ver que para todo n

1

m

m∑j=1

Pn(Fj) ≤∫fdPn ≤

1

m+

1

m

m∑j=1

Pn(Fj). (3.4)

Ocupando (iii) y las desigualdades (3.3) y (3.4) concluımos que

lım supn→∞

∫fdPn ≤

1

m+

1

m

m∑j=1

lım supn→∞

Pn(Fj) ≤1

m+

1

m

m∑j=1

P (Fj) ≤1

m+

∫fdP.

Tomando el lımite cuando m tiende a infinito, obtenemos la desigualdad

lım supn→∞

∫fdPn ≤

∫fdP.

Haciendo el analisis anterior para −f vemos que

lım infn→∞

∫fdPn ≥

∫fdP,

de donde deducimos que (i) se satisface.

Proseguimos con (iii) y (iv) implican (v). En efecto, notemos que

P (A) ≥ lım supn→∞

Pn(A) ≥ lım infn→∞

Pn(Ao) ≥ P (Ao).

Finalmente probamos que (v) implica (iii). Sea F un conjunto cerrado. Para ε > 0 considera-mos Fε := x : ρ(x, F ) < ε. Notemos que como F es cerrado se tiene que Fε ⊂ x : ρ(x, F ) ≤ ε.Luego, ∂Fε = Fε∩F cε ⊂ x : ρ(x, F ) = ε. Por otra parte, hay a lo mas una cantidad numerablede valores de ε para los cuales ∂Fε tiene P -medida positiva. Podemos entonces elegir una suce-sion εk que tiende a 0 y tal que P (∂Fεk) = 0 para todo k. Es decir, para cada k, el conjunto

Page 49: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

3.2. CONVERGENCIA EN DISTRIBUCION 47

Fεk es de P -continuidad. Luego lım supn→∞ Pn(F ) ≤ lımn→∞ Pn(Fεk) = P (Fεk). Tomando ellımite cuando k tiende a infinito terminamos la prueba.

Queremos ahora examinar la convergencia debil en el contexto de espacios topologicos.

Definicion 3.9. (Topologıa de la convergencia debil). Sea Ω un espacio metrico. Sea M1

el conjunto de medidas de probabilidad definidas en (Ω,B(Ω)). Consideremos los conjuntos dela forma

P ∈M1 :

∣∣∣∣∫ fjdP′ −∫fjdP

∣∣∣∣ < ε, 1 ≤ j ≤ n,

donde f1, . . . , fn son funciones continuas y acotadas en Ω y ε > 0. Definimos la topologıa dela convergencia debil en M1 como aquella que tiene como base esta coleccion de conjuntos.

Lema 3.10. Una sucesion de medidas de probabilidad Pn converge a P si y solo si Pn convergea P en la topologıa debil.

3.2. Convergencia en distribucion

Ocuparemos el concepto de convergencia debil de medidas de probabilidad para definir elconcepto correspondiente de convergencia de sucesiones de medidas de probabilidad.

Definicion 3.11. (Convergencia en distribucion). Sea X una variable aleatoria y Xnuna sucesion de variables aleatorias. Decimos que la sucesion Xn converge en distribuciona X si

lımn→∞

FXn(x) = FX(x),

para todo punto x que es de continuidad de F .

En los que sigue, dada una variable aleatoria Y , denotamos por PY la medida de probabi-lidad definida por su distribucion FY .

Lema 3.12. Una sucesion de variables aleatorias Xn converge en distribucion a una variablealeatoria X si y solo si PXn converge debilmente a PX .

Demostracion. Supongamos que PXn converge debilmente a PX . Ocupando el teorema dePortmanteau, y el hecho que cunado x es un punto de continuidad de F se tiene que el conjunto(−∞, x] es un conjunto de continuidad para PX , vemos que FXn converge a FX en distribucion.Supongamos ahora que FXn converge a FX en distribucion. Sea G un subconjunto abierto delos reales. Sabemos que G se puede expresar como la union de intervalos disjuntos Ij = (aj , bj).Para cada uno de estos intervalos, elegimos εj de modo que aj + εj y bj − εj sean puntos decontinuidad de FX , y de modo que

P (Ij − Ij,εj ) ≤ε

2j,

donde Ij,εj := (a+ εj , b− εj). Por hipotesis, sabemos que

lımn→∞

PXn(Ij,εj ) = PX(Ij,εj ).

Page 50: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

48 CAPITULO 3. TEOREMA DEL LIMITE CENTRAL

Luego,

lım infn→∞

PXn(Ij) ≥ PX(Ij)−ε

2j.

Ahora, elegimos N de modo que P (∪Nj=1Ij) ≥ PX(G)− ε. Luego,

lım infn→∞

PXn(∪Nj=1Ij) ≥ PX(G)−N∑j=1

ε

2j− ε.

Por lo tanto

lım infn→∞

PXn(G) ≥ PX(G)− 2ε.

Como ε es arbitrario, podemos tomar el lımite cuando ε tiende a 0.

Es facil demostrar el siguiente resultado.

Teorema 3.13. Sea Xn una sucesion de variables aleatorias que converge en probabilidad aX. Luego Xn converge a X en distribucion.

Por otra parte, el siguiente teorema sera util mas adelante.

Teorema 3.14. Sean Xn e Yn sucesiones de variables aleatorias. Si Xn converge a X endistribucion y Xn − Yn a 0 en probabilidad, entonces Yn converge a X en distribucion.

Demostracion. Sea F un conjunto cerrado y ε > 0. Luego

P (Yn ∈ F ) ≤ P (|Xn − Yn| ≥ ε) + P (Xn ∈ Fε).

Tomando el lımite superior cuando n tiende a infinito y luego cuando ε tiende a 0 concluimosla prueba.

3.3. Funcion caracterıstica

La funcion caracterıstica, es la transformada de Fourier de una variable aleatoria. Este con-cepto nos permitira eficazmente comprobar cuando existe convergencia debil o en distribucion,dandonos una demostracion sencilla del teorema del lımite central.

Definicion 3.15. (Funcion Caracterıstica). Sea X una variable aleatoria. Para cada u realdefinimos

φX(u) = E(eiXu),

llamada la funcion caracterıstica de X.

Notemos que el conjunto de funciones en R que son combinaciones lineales de productos defunciones de la forma f(x) = eiux para algun u, es un algebra de funciones que separa puntosy que es autoadjunta. Luego, por el teorema de Stone-Weierstrass, y el hecho de que R eslocalmente compacto, sabemos que esta algebra es densa en el conjunto de funciones continuasdefinida en R que tiende a 0 en infinito. Por otra parte, esta coleccion de funciones es una claseseparable de funciones en R. Concluımos que la funcion caracterıstica de una variable aleatoriadetermina a la funcion de distribucion de la variable aleatoria.

Page 51: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

3.3. FUNCION CARACTERISTICA 49

La siguiente proposicion resume algunas propiedades que se pueden probar en forma inme-diata de la funcion caracterıstica.

Proposicion 3.16. Consideremos las funciones caracterısticas φ(t) y ψ(t) de las variablesaleatorias X e Y respectivamente. Luego, las siguientes propiedades se satisfacen.

(i) φ(0) = 1 y |φ(t)| ≤ 1 para todo t real.

(ii) φ es la funcion caracterıstica de −X.

(iii) Para a, b reales, eibtφ(at) es la funcion caracterıstica de aX + b.

(iv) Si X e Y son independientes entonces la funcion caracterıstica de X + Y es φψ.

Calculamos a continuacion algunas funciones caracterısticas importantes.

(i) Distribucion de Poisson. Si X es una distribucion de Poisson de parametro a

φX(u) = expa(eiu − 1)

.

(ii) Distribucion normal. Sea X una distribucion normal de esperanza 0 y varianza σ2. Eneste caso tenemos que

φX(u) = e−u2σ2/2.

Sin perdida de generalidad, probaremos esta formula en el caso σ = 1. Por la formula deCauchy ∫

γeiaze−z

2σ2/2dz = 0,

para todo lazo γ de variacion acotada. Si elegimos γ = γ1 + γ2 + γ3 + γ4, donde γ1

es el segmento en el eje real entre −R y R, γ2 el segmento x + ia : −R ≤ x ≤ R,γ2 = R + iy : 0 ≤ y ≤ a y γ3 = −R + iy : 0 ≤ y ≤ a, tomando el lımite cuandoR→∞ vemos que

φ(a)− ea2/2e−a2 = 0.

Teorema 3.17. Sea X una variable aleatoria. Luego, la funcion de distribucion φX es unifor-memente continua. Ademas, si z1, . . . , zn son numeros complejos y u1, . . . , un numeros reales,tenemos que

n∑i,j=1

φ(ui − uj)zizj ≥ 0.

Demostracion. Notemos que

n∑i,j=1

φ(ui − uj)zizj =

∫ ∣∣∣∣∣n∑i=1

zieiuix

∣∣∣∣∣2

dFX ≥ 0.

Page 52: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

50 CAPITULO 3. TEOREMA DEL LIMITE CENTRAL

Esto prueba la segunda afirmacion. Por otra parte

|φ(u)− φ(v)| ≤∫ ∣∣∣ei(u−v)x − 1

∣∣∣ dFX .

Ahora formularemos un resultado que nos permitira reconstruır la funcion de distribuciona partir de la funcion caracterıstica. Para entenderlo, podemos primero suponer que X es unavariable aleatoria cuya funcion de distribucion tiene una densidad f . En ese caso, por la formulade inversion de la transformada de Fourier tendrıamos que

f(x) =1

∫ ∞−∞

e−itxφX(t)dt.

Integrando esta expresion obtenemos formalmente, al menos cuando u y v son puntos de con-tinuidad de FX que

FX(v)− FX(u) =1

∫ ∞−∞

e−itu − e−itv

itφX(t)dt.

Teorema 3.18. (Formula de inversion). Sea X una variable aleatoria. Luego, para todo uy v reales tenemos que

lımT→∞

1

∫ T

−T

e−itu − e−itv

itφX(t)dt = PX((u, v)) +

1

2(PX(u) + PX(v)) .

Demostracion. Notemos que

∫ T−T

e−itu−e−itvit φX(t)dt =

∫ T−T∫e−itu−e−itv

it eitxdPXdt

=∫ ∫ T−T

e−itu−e−itvit eitxdtdPX ,

donde en la ultima igualdad hemos ocupado el hecho que el integrando es una funcion acotaday teorema de Fubini. Pero

∫ ∫ T

−T

e−itu − e−itv

iteitxdtdPX =

∫ (∫ T

−T

sen(t(x− u))

tdt−

∫ T

−T

sen(t(x− v))

tdt

)dPX .

Ahora, ∫ T

−T

sen(t(x− u))

tdt = 2sgn(x− u)

∫ T |x−u|

0

sen(t)

tdt, (3.5)

donde sgn(y) = 0 si y = 0, −1 si y < 0 y 1 si y > 0. Luego

lımT→∞

∫ T

−T

sen(t(x− u))

tdt = π sgn(x− u).

Pero por la identidad (3.5), vemos que

Page 53: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

3.3. FUNCION CARACTERISTICA 51

supT>0

∣∣∣∣∫ T

−T

sen(tα)

tdt

∣∣∣∣ ≤ A,donde A es una constante que no depende de α ∈ R. Luego, por el teorema de convergenciaacotada tenemos que

lımT→∞1

∫ T−T

e−itu−e−itvit φX(t)dt = 1

2

∫(sgn(x− u)− sgn(x− v)) dPX

= 12

∫ (1(u,∞)] − 1(−∞,u) − 1(v,∞)] + 1(−∞,v)

)dPX = 1

2 (PX((u, v]) + PX([u, v))

lo que termina la demostracion del teorema.

Por medio de la formula de inversion podemos deducir la siguiente expresion explıcita de lafuncion de distribucion en terminos de la funcion caracterıstica:

FX(y) = lımv→y+

lımu→−∞

lımT→∞

1

∫ T

−T

e−itu − e−itv

itφX(t)dt.

Ademas, tenemos la siguiente aplicacion: si X es una variable aleatoria con funcion caracterısti-ca real, entonces −X tiene la misma distribucion que X.

Queremos ahora expresar la convergencia debil de una sucesion de medidas en terminos dela convergencia de las funciones caracterısticas asociadas. Esto nos permitira posteriormenteprobar el teorema del lımite central. Notemos que si Xn : n ≥ 1 es una sucesion de variablesaleatorias que converge en distribucion a X, necesariamente se tiene que para u real

φX(u) = lımn→∞

φXn(u).

¿Es valida una afirmacion conversa en algun sentido? El siguiente teorema nos da una respuesta.

Teorema 3.19. (Teorema de continuidad). Sea Xn una sucesion de variables aleatorias.Supongamos que

φ(u) := lımn→∞

φXn(u),

existe para toda u real, y que φ(u) es continua en u = 0. Entonces φ(u) es la funcion carac-terıstica de alguna variable aleatoria X y Xn converge en distribucion a X.

Demostracion. Seguiremos la presentacion de Varadhan. Para cada n denotamos por Fn lafuncion de distribucion de Xn.Paso 1: identificacion y monotonıa de la funcion de distribucion lımite. Consideremos unaenumeracion ri : i ≥ 1 de los racionales. Por un proceso de diagonalizacion podemos extraeruna subsucesion Gk := Fnk : k ≥ 1 de Fn tal que

lımk→∞

Gk(r) = F (r)

existe para todo racional r. Notemos que si r1 ≤ r2 necesariamente F (r1) ≤ F (r2). Ahora,definimos para x real

G(x) := ınfr>x

F (r).

Page 54: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

52 CAPITULO 3. TEOREMA DEL LIMITE CENTRAL

Claramente G es monotona creciente.

Paso 2: continuidad por la derecha de G. Si xn es una sucesion decreciente de reales queconverge a x, cada vez que r > x necesariamente tenemos que r > xn si n es suficientementegrande. Claramente

G(x) = ınfr>x

F (r) = ınfn

ınfr>xn

F (r) = ınfnG(xn).

Paso 3: convergencia en distribucion en los puntos de continuidad de G. Supongamos que x esun punto de continuidad de G. Sea r > x un numero racional. Luego Gn(x) ≤ Gn(r), lo queimplica que

lım supn→∞

Gn(x) ≤ F (r).

Tomando el ınfimo sobre los racionales r > x tenemos que

lım supn→∞

Gn(x) ≤ G(x).

Ahora, si y < x, podemos encontrar un racional r tal que y < r < x. Luego

lım infn→∞

Gn(x) ≥ lım infn→∞

Gn(r) = F (r) ≥ G(y).

En conclusion

lım infn→∞

Gn(x) ≥ supy<x

G(y) = G(x).

Paso 4: G es la funcion de distribucion de alguna variable aleatoria. Probamos que G esefectivamente la funcion de distribucion de alguna variable aleatoria. Notemos que si ψ esla funcion caracterıstica de una medida de probabilidad µ, se tiene que

12T

∫ T−T ψ(t)dt =

∫1

2T

∫ T−T e

itxdtdµ

=∫ sen(Tx)

Tx dµ ≤∫ ∣∣∣ sen(Tx)

Tx

∣∣∣ dµ=∫|x|<L

∣∣∣ sen(Tx)Tx

∣∣∣ dµ+∫|x|≥L

∣∣∣ sen(Tx)Tx

∣∣∣ dµ ≤ µ(|x| ≤ L) + 1TLµ(|x| ≥ L).

De aquı deducimos que

1− 1

2T

∫ T

−Tψ(t)dt =

(1− 1

TL

)µ(|x| ≥ L) ≥

(1− 1

TL

)(1− F (L) + F (−L)) .

Eligiendo L = 2T en el despliegue anterior, vemos que

1− F(

2

T

)+ F

(− 2

T

)≤ 2

(1− 1

2T

∫ T

−Tψ(t)dt

).

Aplicando esta desigualdad a la sucesion Gk, vemos que

1−Gk(

2

T

)+Gk

(− 2

T

)≤ 2

(1− 1

2T

∫ T

−Tφnk(t)dt

).

Page 55: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

3.4. TEOREMA DEL LIMITE CENTRAL 53

Eligiendo T de modo que 2T y − 2

T sean puntos de continuidad de G y tomando el lımite cuandok tiende a infinito, obtenemos la desigualdad

1−G(

2

T

)+G

(− 2

T

)≤ 2

(1− 1

2T

∫ T

−Tφ(t)dt

).

Tomando ahora el lımite cuando T tiende a 0 por una sucesion de puntos de continuidad de Gconcluımos que

1− lımx→∞

G(x) + lımx→−∞

G(x) = 0.

Paso 5: convergencia en distribucion a G de la sucesion original. Finalmente, que si una suce-sion de funciones de distribucion tiene la propiedad de que toda subsucesion tiene a su vez otrasubsucesion que converge en distribucion a una funcion de distribucion F , entonces la sucesionde funciones de distribucion converge en distribucion a F . Por otra parte, por los pasos 1,2,3 y4 de esta prueba, sabemos que toda subsucesion de Fn tiene alguna subsucesion que convergea una funcion de distribucion H cuya funcion caracterıstica es φ. Pero como φ determina lafuncion de distribucion, necesariamente H = G.

3.4. Teorema del lımite central

Consideremos el experimento en el que una moneda se tira n veces. La probabilidad deobtener r veces cara es

p =n!

(n− r)!r!1

2n.

Si elegimos r = n2 +√nx2 para x real, vemos por la formula de Stirling que

p ∼ 1√2π

1

2√ne−

x2

2 .

Notemos que la expresion del lado derecho tiene un factor que es la fucncion caracterıstica deuna variable aleatoria normal centrada de varianza 1.

Teorema 3.20. (teorema del lımite central) Consideremos una sucesion Xn : n ≥ 0 devariables aleatorias i.i.d. con E[X1] = 0 y V ar(X1) = σ2. Luego

1√nSn =

1√n

n∑i=1

Xi

converge en distribucion a una variable aleatoria X con distribucion normal centrada de va-rianza σ2.

Demostracion. Por el teorema de continuidad, basta probar que la funcion caraterıstica de1√nSn converge a la funcion caracterıstica de X. Notemos que tenemos la expansion para todo

x real

Page 56: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

54 CAPITULO 3. TEOREMA DEL LIMITE CENTRAL

eix = 1 + ix−∫ x

0

∫ u

0eivdvdu.

Luego,

ei t√

nX1 = 1 + i

X1t√n− 1

2nX1t

2 −∫ X1t√

n

0

∫ u

0(eiv − 1)dvdu. (3.6)

Definamos Yn := n∫ X1t√

n

0

∫ u0 (eiv − 1)dvdu. De |eiv − 1| ≤ 2, vemos que |Yn| ≤ t2X2

1 . Por otraparte, de |eiv − 1| ≤ v, vemos que |Yn| ≤ 1

n1/2 t3X3

1 . Luego, lımn→∞ Yn = 0, y por el teorema deconvergencia dominada se tiene que

lımn→∞

E[Yn] = 0.

Concluımos que el ultimo termino de (3.6) es o(1/n) y que

E[ei t√

nX1]

= 1− 1

2nt2σ2 + o

(1

n

).

Luego,

E[eit Sn√

n

]= E

[ei t√

nX1]n

=

(1− σ2

2

t2

n+ o

(1

n

))n.

De aquı deducimos que

lımn→∞

E[eit Sn√

n

]= e−

σ2

2t2 .

Lema 3.21. Consideremos una variable aleatoria X tal que su momento de orden n existe.Luego su funcion caracterıstica es de clase Cn y sus derivadas estan dadas por

φ(k)X (t) = ikE

[XkeitX

].

Demostracion. Supongamos que el momento de orden 1 de X existe. Notemos que

φX(t+ h)− φ(t)

h= E

[eitX

(eihX − 1

h

)].

Luego como |eix − 1| ≤ |x| y X es integrable, vemos que∣∣∣∣eihX − 1

h

∣∣∣∣ ≤ |h|||X|.Luego, por el teorema de convergencia dominada podemos concluır que

φ′X(t) = iE[eitXX].

Por un argumento recursivo en el que se repite el razonamiento anterior, concluımos la demos-tracion del lema.

Page 57: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

3.5. TEOREMA DE BOCHNER 55

3.5. Teorema de Bochner

Decimos que una funcion φ : R→ C es positiva definida si para todo conjunto t1, . . . , tnde numeros reales se tiene que la matriz

φ(ti − tj) : 1 ≤ i, j ≤ n

es positiva definida. Es facil constatar que si φ es una funcion caracterıstica necesariamente espositiva definida.

Teorema 3.22. Una funcion φ : R→ C es una funcion caracterıstica si y solo si satisface lassiguientes tres condiciones:

(i) φ(0) = 1.

(ii) φ es continua en t = 0.

(iii) φ es una funcion positiva definida.

3.6. Movimiento Browniano

Page 58: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

56 CAPITULO 3. TEOREMA DEL LIMITE CENTRAL

Page 59: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

Capıtulo 4

Martingalas

4.1. Probabilidad condicional

El concepto de independencia corresponde al caso particular de variables aleatorias que noestan correlacionadas. Los conceptos de probabilidad y esperanza condicional son herramientasimportantes para estudiar los casos de variables aleatorias correlacionadas.

El principal problema del concepto de probabilidad condicional elemental, es que requiereque la probabilidad del evento respecto al cual se condiciona sea positiva. Este requisito exclu-ye la posibilidad de modelar el calculo de probabilidades de eventos conociendo informacionparcial, que son muy naturales. Por ejemplo, consideremos dos variables aleatorias X e Y .Podrıamos preguntarnos, cual es la probabilidad de que X ≤ x dado que Y = y. Si la probabi-lidad de que Y = y es cero, no podemos ocupar la probabilidad condicional elemental. Notemosque si X e Y son independientes, intuitivamente esperarıamos que tal probabilidad coincidieracon la probabilidad de que X ≤ x. En 1933, Kolmogorov ideo un metodo para resolver esteproblema. Consideremos un evento B en un espacio de probabilidad (Ω,M, P ). Sabiendo si Bocurrio o no queremos calcular la probabilidad de un evento A. Claramente, la respuesta es

f(w) =

P (A|B) si w ∈ B,P (A|Bc) si w ∈ Bc.

(4.1)

En general, si Bi : i ≥ 1 es una particion de conjuntos medibles de Ω, podemos definir Gcomo la σ-algebra de eventos generada por esta particion (cuyos miembros son uniones de losconjuntos de la particion). Luego, analogamente a (4.1) tenemos la funcion

P (A|G)(w) =

∞∑i=1

P (A|Bi)1Bi(w). (4.2)

A esta funcion la llamamos la probabilidad condicional de A dado G. A veces omitiremossu argumento denotandola por P (A|G). En esta definicion, falta especificar el valor de P (A|G)cuando w ∈ Bi y P (Bi) = 0. Especificamos que en tales conjuntos, la probabilidad condicionales constante. Y llamamos a cualquier eleccion de estas constantes, una version de la proba-bilidad condicional. Por lo tanto, dos versiones de una probabilidad condicional dada G, soniguales salvo en un conjunto de medida 0.

Ejemplo. Consideremos una variable aleatoria de Poisson X de parametro λ. Sea A = X ≥ 2y Bi = 2i ≤ X ≤ 2i+ 2. Luego P (A|B0) = 0 y P (A|Bi) = 1 si i ≥ 1. Luego, la probabilidadcondicional P (A|G) = 0 si w ∈ B0, mientras que P (A|G) = 1 si w /∈ B0.

57

Page 60: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

58 CAPITULO 4. MARTINGALAS

Notemos de la definicion (4.2) que al integrar sobre algun B ∈ G tenemos

P (A ∩B) =

∫BP (A|G)(w)dP.

Esto nos sugiere que para pasar a σ-algebras generales, habrıa que ocupar el Teorema deRadon-Nikodym, cuyo enunciado recordamos en la siguiente version.

Teorema 4.1. (Teorema de Radon-Nikodym). Sea (Ω,M) un espacio de medida. Seanλ y µ dos medidas finitas en tal espacio. Luego, si λ es absolutamente continua respecto a µ,existe una funcion h que es integrable respecto a µ y tal que

λ(E) =

∫Ehdµ, (4.3)

para todo E ∈M. Ademas, si h y h′ satisfacen (4.3), entonces existe un conjunto N ∈M, talque h = h′ en N y µ(N c) = 0.

Tenemos entonces la definicion formal de probabilidad condicional.

Definicion 4.2. (Probabilidad condicional). Sea (Ω,M, P ) un espacio de probabilidad y Guna sub-σ-algebra de M. Para cada evento A ∈ M, definimos la probabilidad condicionalde A dado G, como la clase de equivalencia de derivadas de Radon-Nikodym de la medidaQ respecto a P en (Ω,G), donde Q se define para todo E ∈ G como Q(E) = P (A ∩ E). Ladenotamos por P (A|G). Una version de la probabilidad condicional P (A|G), es un miembrode la clase de equivalencia que es G medible.

Primero observemos que dos probabilidades condicionales de un conjunto A respecto a G,coinciden salvo por un conjunto de probabilidad 0 que pertenece a G. Ademas, toda version deuna probabilidad condicional P (A|G) satisface las siguientes tres propiedades:

1. P (A|G) es G-medible e integrable.

2. Para todo conjunto G ∈ G,

P (A ∩G) =

∫GP (A|G)dP.

3. Si A ∈ G,

P (A|G) = 1A(w),

salvo por un conjunto G-medible de P medida 0.

Podemos ver que hay un juego entre la exigencia de medibilidad 1. y la exigencia 2. Ambasimplican unicidad salvo por un conjunto de G- medida 0.

Ejemplo. Consideremos dos variables aleatorias X e Y con densidad conjunta fX,Y (x, y).Luego ∫

AfX,Y (x, y)dx,

es una version de la probabilidad condicional PX,Y (Y ∈ A|σ(X)). Notemos que aunque enprincipio tal version es una funcion de x e y, en realidad no depende de y.

Page 61: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

4.1. PROBABILIDAD CONDICIONAL 59

Es facil ver que si G es generada por una particion numerable de Ω, la definicion informalhecha anteriormente coincide con la definicion (4.2). La demostracion de los siguientes lemases directa.

Lema 4.3. Sea (Ω,M, P ) un espacio de probabilidad.

(i) Si G =M y A ∈M, entonces P (A|G) = 1A, P − c.s..

(ii) Si G = φ,Ω, entonces P (A|G) = P (A) para todo w ∈ Ω y A ∈M.

Lema 4.4. Sea (Ω,M, P ) un espacio de probabilidad, G una σ-algebra en M y A ∈M. LuegoA es independiente de G si y solo si P (A|G) = P (A), P − c.s..

Tenemos ademas el siguiente teorema.

Teorema 4.5. Sea (Ω,M, P ) un espacio de probabilidad y G una σ-algebra en M. P − c.s.ocurre que P (φ|G) = 0, P (Ω|G) = 1 y para todo A ∈M, 0 ≤ P (A|G) ≤ 1. Ademas, si A1, A2, . . .es una coleccion numerable de conjuntos disjuntos de M, se tiene que

P (∪nAn|G) =∑n

P (An|G), (4.4)

salvo por un conjunto G-medible de P medida 0.

Demostracion. Solo demostraremos (4.4). Por el teorema de Fubini tenemos que para todoG ∈ G, ∫

G

∑n

P (An|G)dP =∑n

∫GP (An|G)dP =

∑n

P (An ∩G) = P ((∪nAn) ∩G).

Por lo tanto∫G

∑n P (An|G)dP =

∫G P ((∪nAn)|G)dP . Esto implica que salvo por un conjunto

G-medible de P medida 0 es cierto que∑

n P (An|G) = P ((∪nAn)|G).

El teorema anterior, muestra que las versiones de las probabilidades condicionales satisfacenuna propiedad similar a la σ-aditividad de las medidas de probabilidad. Sin embargo, es posibleque dada una probabilidad condicional, no exista ninguna version de ella que sea una medidade probabilidad. En efecto, es importante observar que el conjunto de medida 0 tal que larelacion (4.4) se satisface en su complemento, depende de la eleccion de la sucesion de conjuntosAn : n ≥ 1. Pero, en general, existe una cantidad no numerable de tales sucesiones y sepuede dar el caso que la union de los conjuntos de medida nula correspondientes produzcan unconjunto de medida positiva.

Definicion 4.6. (Probabilidad condicional regular). Sea (Ω,M, P ) un espacio de pro-babilidad y G una σ-algebra en M. Decimos que una funcion ν : Ω × M → [0, 1] es unaprobabilidad condicional regular dada G si

(i) Para cada A ∈M, ν(ω,A) es una version de la probabilidad condicional P (A|G).

(ii) Salvo por un conjunto G medible de P -medida 0, ν(ω, ·) es una medida de probabilidaden (Ω,M).

(iii) Salvo por un conjunto G medible de P -medida 0, se tiene que ν(ω,G) = 1G(ω) para todoG ∈ G.

Page 62: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

60 CAPITULO 4. MARTINGALAS

Si X es una variable aleatoria definida en (Ω,M, P ) y G es una σ-algebra en M, llamamosprobabilidad condicional regular de X dado G a una funcion µ : Ω × B → [0, 1], quesatisface las siguientes propiedades

(i) Para todo B ∈ B, µ(w,B) es una version de la probabilidad condicional P (X−1(B)|G).

(ii) Salvo por un conjunto G medible de P medida 0, µ(ω, ·) es una medida de probabilidaden (R,B).

(iii) Salvo por un conjunto G medible de P medida 0, para todo B ∈ B tal que X−1(B) ∈ G,se tiene que µ(ω,B) = 1X−1(B)(ω).

El siguiente resultado muestra que al menos en situaciones que incluyen la distribucion deuna variable aleatoria, existen probabilidades condicionales regulares.

Teorema 4.7. Sea Ω un espacio polaco. Consideremos un espacio de probabilidad (Ω,B(Ω), P )y una σ-algebra G de los borelianos B(Ω). Luego, existe una funcion µ(ω, ·) : Ω×M→ [0, 1] quesatisface (i) y (ii) de la definicion 4.6. Ademas, si G es generada por un algebra de borelianosque es numerable, tenemos que P − c.s. para todo G ∈ G

µ(G,w) = 1G(w),

y por lo tanto µ(ω, ·) es una probablidad condicional regular.

Demostracion. Como ya se ha comentado, el problema que debemos resolver, es como evitaruna cantidad no-numerable de sucesiones de conjuntos que estarıan involucrados en la demos-tracion de la σ-aditividad de la familia de medidas de probabilidad. La estrategia sera reducirel problema a una cantidad numerable de ecuaciones para luego definir la familia de medidas enun algebra y posteriormente aplicar el teorema de extension de Caratheodory. Primero notemosque como Ω es separable, su σ-algebra de Borel es generada por la coleccion U de bolas abiertasde radio racional, centradas en puntos de algun subconjunto denso y numerable Ω. Sea A elalgebra generada por U . La numerabilidad de U implica la de A. Por el teorema de Ulam ypor el Teorema 4.5, a cada A ∈ A, le podemos asignar una sucesion creciente de compactosKn : n ≥ 1, tal que Kn ⊂ A y salvo por un conjunto FA de P -medida 0 se tiene que

lımn→∞

P (Kn|G) = P (A|G). (4.5)

Llamemos C al algebra de conjuntos generada por la union de A y las sucesiones de compactosasignadas a cada A ∈ A. Claramente C es numerable. Para cada C ∈ C, elegimos una versionµ(w,C) de la probabilidad condicional P (C|G). Ahora, por el Teorema 4.5, sabemos que dadoun natural n y conjuntos C1, . . . , Cn en C, existe un conjunto EC1,...,Cn ∈ G de medida 0 talque para w /∈ EC1,...,Cn

µ(w,∪ni=1Ci) =

n∑i=1

µ(w,Ci). (4.6)

Definimos E = ∪EC1,...,Cn ∈ G, donde la union es sobre todas las colecciones finitas de conjuntosen C. Como tal union es numerable, la medida de E es 0. Vemos que para todo w /∈ E, lasecuaciones (4.6) se satisfacen. Sea F = ∪AFA. Afirmamos que esto implica que para cadaw /∈ E ∪ F , µ(w, ·) es una medida de probabilidad (numerablemente aditiva) en A. En efecto,supongamos lo contrario. Luego para algun δ > 0, existe una sucesion decreciente An : n ≥ 1

Page 63: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

4.1. PROBABILIDAD CONDICIONAL 61

de conjuntos en A, cuya interseccion es vacıa, y tal que µ(w,An) ≥ δ. Por (4.5), para cada Anexiste un compacto Kn ∈ C, con Kn ⊂ An y µ(w,An/Kn) ≤ δ/2n. Luego, si Kn := K1∩· · ·∩Kn,vemos por (4.6) que

µ(w,An/Kn) ≥ δ/2.

Luego, tenemos una sucesion decreciente Kn de compactos que son no-vacıos, lo que implicaque su interseccion tampoco es vacıa. Esto es una contradiccion. Por el teorema de extensionde Caratheodory, µ(w, ·) definida en A, tiene una extension unica a los borelianos. Hemosentonces definido para cada w /∈ E ∪ F , una medida de probabilidad µ(w, ·) en los borelianos.Para w ∈ E ∪F , definimos µ(w, ·) = Q(·), donde Q es una medida de probabilidad arbitraria yfija en (Ω,B(Ω)). Es obvio que entonces para cada boreliano B, la funcion µ(w,B) es G-medible.Tambien es facil constatar que ademas para ω /∈ E ∩ F ,

0 ≤ µ(ω,B) ≤ 1.

Queremos probar ahora, que para cada boreliano B, µ(w,B) es una version de la probabilidadcondicional regular P (B|G). Sea I la coleccion de borelianos para los cuales ello es cierto. Esdecir, si B ∈ I, entonces para todo G ∈ G∫

Gµ(w,B)dP = P (G ∩B).

Por el teorema de convergencia monotona (por ejemplo), es obvio que I es una clase monotona.Por el teorema de la clase monotona, concluimos que I coincide con los borelianos.

Finalmente, notemos que para todo G ∈ G, salvo por un conjunto HG que es G-medible deP -medida cero, se tiene que

µ(ω,G) = 1G(ω).

Sea D el algebra numerable que genera a G. Luego existe un H que es G medible de P medidacero tal que para ω /∈ H se tiene que para todo D ∈ D

µ(ω,D) = 1D(ω).

Por el teorema de clase monotona, esto implica que para ω /∈ H, se tiene que µ(ω,D) = 1D(ω).

Como lo hemos indicado, tenemos entonces el siguiente corolario.

Corolario 4.8. Sea X una variable aleatoria definida en un espacio de probabilidad (Ω,M, P ).Sea G una σ-algebra en σ(X). Luego, existe una probabilidad condicional regular de X dado G.

Finalizamos esta seccion con la siguiente observacion que muestra que la hipotesis de lasegunda parte del Teorema 4.7, no es vacua. En efecto, es posible que M sea una σ-algebranumerablemente generada teniendo una sub-σ-algebra G que no es numerablemente generada.Consideremos los borelianos B de los reales. Definimos G como la coleccion de conjuntos que sepueden expresar como uniones numerables de reales, o complementos de tales conjuntos. Estacoleccion es una σ-algebra y esta contenida en los borelianos. Los borelianos se pueden generarpor la coleccion de intervalos de radios racionales centrados en los racionales, que es numerable.Sin embargo, G no es numerablemente generada.

Page 64: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

62 CAPITULO 4. MARTINGALAS

4.2. Esperanza condicional

Habiendo planteado y resuelto algunos de los problemas que aparecen al introducir la no-cion de probabilidad condicional. Aquı discutiremos la nocion de esperanza condicional quegeneraliza la anterior. Posteriormente veremos la importancia de este concepto al introducir elconcepto de martingala.

Definicion 4.9. (Esperanza condicional). Sea X una variable aleatoria de esperanza finitaen un espacio de probabilidad (Ω,M, P ). Sea G una σ-algebra en M. Si X ≥ 0, definimos laesperanza condicional de X dado G, denotandola por E(X|G), como la derivada de Radon-Nikodym de la medida Q respecto a P en (Ω,G), donde para cada G ∈ G, Q(G) =

∫GXdP .

Si X no es necesariamente positiva, definimos la esperanza condicional de Xdado G comoE(X|G) := E(X+|G)− E(X−|G). Cada miembro de la clase de equivalencia de una esperanzacondicional, se llama una version.

Notemos que dos versiones de una esperanza condicional coinciden salvo por un conjuntoG-medible de P medida 0. La esperanza condicional de X dado G satisface las siguientes dospropiedades:

1. E(X|G) es G-medible e integrable.

2. Para todo G ∈ G se tiene que ∫GE(X|G)dP =

∫GXdP.

Podemos interpretar este concepto como la esperanza de X dado que sabemos para cada G ∈ Gsi w ∈ G o no. Notemos que en el caso en el que G es una σ-algebra generada por una particionnumerable

E(X|G) =∑i

1Bi(w)1

P (Bi)

∫Bi

XdP.

Ademas, si A es medible,

E(1A|G) = 1A,

donde la igualdad se satisface salvo por un conjunto G-medible, de medida 0.Enunciamos a continuacion las propiedades mas elementales de la esperanza condicional.

Omitimos la prueba de este teorema.

Teorema 4.10. Sea X e Y variables aleatorias integrable en un espacio de probabilidad (Ω,M, P ).Sea G una σ-algebra enM. Luego son ciertas las siguientes afirmaciones, salvo por un conjuntoG-medible de medida 0.

(i) Si P − c.s. se tiene X = x, entonces E(X|G) = x.

(ii) Para todo α, β reales, E(αX + βY |G) = αE(X|G) + βE(Y |G).

(iii) Si P − c.s. se tiene X ≥ 0, entonces E(X|G) ≥ 0.

(iv) |E(X|G)| ≤ E(|X||G).

Page 65: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

4.2. ESPERANZA CONDICIONAL 63

Teorema 4.11. Sea X una variable aleatoria integrable en un espacio de probabilidad (Ω,M, P ).Sea G1 y G2, σ-algebras en M tales que G1 ⊂ G2. Luego,

E(E(X|G2)|G1) = E(X|G1), (4.7)

salvo por un conjunto G medible de medida 0.

Demostracion. Notemos que ambos lados de (4.7) son G1-medibles. Luego, basta probar quepara todo G ∈ G1 se tiene que

∫GE(E(X|G2)|G1)dP =

∫GXdP . Pero esto es inmediato una

vez que notamos que G1 ⊂ G2.

Proseguimos con otras propiedades de la esperanza condicional. En lo que sigue, todaslas igualdades o desigualdades que involucren esperanzas condicionales, se entenderan comovalidas salvo por conjuntos de medida 0, medibles respecto a las σ-algebras correspondientes.Basicamente, todos los reusltados que se satisfacen para la esperanza, siguen siendo validospara la esperanza condicional. Partimos con el teorema de convergencia monotona, cuya pruebaomitimos.

Teorema 4.12. (Convergencia monotona para esperanza condicional). Sea Xn unasucesion de variables aleatorias positivas tales que Xn+1 ≥ Xn y que convergen a una variablealeatoria integrable X en un espacio de probabilidad (Ω,M, P ). Sea G una σ-algebra en M.Luego lımn→∞E(Xn|G) = E(X|G), salvo por un conjunto G-medible de P -medida 0.

Seguimos con el teorema de convergencia dominada.

Teorema 4.13. (Convergencia dominada para esperanza condicional). Sea (Ω,M, P )un espacio de probabilidad, Xn : n ≥ 1, X e Y variables aleatorias en tal espacio y G unaσ-algebra en M. Luego, si Y es integrable, X = lımn→∞Xn, P − c.s. y |Xn| ≤ Y , entonces

lımn→∞

E(Xn|G) = E(X|G),

salvo por un conjunto G-medible de medida 0.

Demostracion. Sea Zn := supm≥n |Xn−X|. Por hipotesis, lımn→∞ Zn = 0, P−c.s.. Ademas,por el teorema anterior

|E(Xn|G)− E(X|G)| ≤ E(Zn|G).

Ahora, la sucesion E(Zn|G) es decreciente, y por lo tanto Z = lımn→∞E(Zn|G) existe P − c.s.Claramente 0 ≤ Zn ≤ 2Y . Luego, E(Z) =

∫E(Z|G)dP ≤

∫E(Zn|G)dP = E(Zn), y por el

toerema de convergencia dominada de Lebesgue E(Z) = 0.

Teorema 4.14. Sean X e Y variables aleatorias en un espacio de probabilidad (Ω,M, P ) y Guna σ-algebra en M. Si X es G-medible y Y y XY integrables, entonces, salvo por un conjuntoG-medible de medida 0,

E(XY |G) = XE(Y |G).

Demostracion. Consideremos primero el caso X = 1F , donde F es G-medible. Es obvio que1FE(Y |G) es G-medible. Pero, si G es G-medible∫

G1FE(Y |G)dP =

∫G∩F

E(Y |G)dP =

∫G

1FY dP.

Page 66: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

64 CAPITULO 4. MARTINGALAS

Ahora, si X es una variable aleatoria arbitraria, existe una sucesion de funciones simples Xnque converge a X y tal que |Xn| ≤ |X|. Luego, como XY es integrable, por el Teorema 4.13vemos que

lımn→∞

E(XnY |G) = E(XY |G).

Pero E(XnY |G) = E(XY |G) = XnE(Y |G). Tomando el lımite cuando n tiende a infinito enesta igualdad, concluımos la demostracion.

Teorema 4.15. (Desigualdad de Jensen para esperanza condicional). Sea X una va-riable aleatoria integrable en un espacio de probabilidad (Ω,M, P ) y φ una funcion real convexadefinida en el rango de X. Supongamos que X y φ(X) son integrables. Sea G una sub σ-algebrade M. Luego

φ(E(X|G)) ≤ E(φ(X)|G),

salvo por un conjunto G medible de medida 0.

Demostracion. Para cada y real, consideremos la recta φ(y) +m(y)(x− y) donde m(y) es laderivada por la derecha en y de φ. Claramente φ(y) +m(y)(x− y) ≤ φ(x). Luego

φ(E(X|G)) +m(E(X|G))(X − E(X|G)) ≤ φ(X).

Para el caso en el que E(X|G) es acotado, esta desigualdad demuestra el teorema. Para el casogeneral, aproximamos la esperanza condicional de X por 1GnE(X|G), donde Gn = 1|E(X|G)|≤n.

Teorema 4.16. Sea X una variable aleatoria integrable en un espacio de probabilidad (Ω,M, P )y G una σ-algebra enM. Sea LG el subconjunto de funciones G medibles en L2(Ω,M, P ). Luego,el operador

PGX = E(X|G),

es un proyector ortogonal en LG.

4.3. Martingalas

Consideremos un juego en el que la ganancia en la n-esima etapa es Xn. La gananciaacumulada serıa Sn = X1 + . . .+Xn. Si el juego es justo, cada vez que se repite, en promediono debiera ni aumentar ni disminuır la ganancia. Es decir,

E[Sn+1|S1, . . . , Sn] = Sn.

Esto es lo que llamaremos una martingala Sn : n ≥ 1 respecto a la filtracion F = σ(S1, . . . , Sn) :n ≥ 1. El concepto formal de martingala fue introducido por Paul Levy en 1934.

Definicion 4.17. (filtracion) Decimos que una cadena de σ-algebra F1, . . . ,Fn es una fil-tracion si para cada 1 ≤ i ≤ n − 1 se tiene que Fi ⊂ Fi+1. Similarmente, decimos que unasucesion Fi : i ≥ 1 es una filtracion si para cada n, F1, . . . ,Fn es una filtracion.

Page 67: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

4.4. DESIGUALDADES DE MARTINGALAS 65

Definicion 4.18. (martingalas, submartingalas y supermartingalas) Sea n natural.Consideremos una cadena X1, . . . , Xn de variables aleatorias y una filtracion F := F1, . . . ,Fn.Supongamos que para cada 1 ≤ i ≤ n, Xi es integrable y medible respecto a Fi. Luego, si

E[Xi+1|Fi] = Xi

decimos que Xi : 1 ≤ i ≤ n es una martingala respecto a la filtracion F . Similarmentesi,

E[Xi+1|Fi] ≥ Xi

decimos que Xi : 1 ≤ i ≤ n es una submartingala respecto a la filtracion F y si

E[Xi+1|Fi] ≥ Xi

que Xi : 1 ≤ i ≤ n es una supermartingala respecto a la filtracion F . Por otra parte,decimos que una sucesion Xn : n ≥ 1 es una (sub,super) martingala respecto a una filtracionF = Fn : n ≥ 1 si para cada n, X1, . . . , Xn es una (sub,super) martingala respecto aF1, . . . ,Fn.

4.4. Desigualdades de martingalas

En esta seccion derivaremos varias desigualdades fundamentales que involucran martingalas.En particular, la desigualda de Azuma, que en cierto modo indica que las fluctuaciones de unamartingala son del orden de la raız cuadrada del tiempo.

Lema 4.19. Consideremos una sucesion Xn de variables aleatorias y una filtracion F . Lassiguientes afirmaciones son verdaderas.

(i) Si Xn es una submartingala respecto a F y φ es una funcion convexa tal que para cadan, φ(Xn) es integrable, entonce φ(Xn) es una submartingala respecto a F .

(ii) Si Xn es una supermartingala respecto a F y φ una funcion concava tal que para cadan, φ(Xn) es integrable, entonces φ(Xn) es una supermartingala respecto a F .

Demostracion. Se sigue de la desigualdad de Jensen para esperanza condicional.

En lo que sigue, dada una funcion f : R→ R definimos su parte positiva por

f+ := (f)+,

donde

(x)+ :=

0 si x ≤ 0

x si x > 0.(4.8)

Page 68: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

66 CAPITULO 4. MARTINGALAS

Lema 4.20. (Desigualdad de Doob) Consideremos una submartingala X1, . . . , Xn res-pecto a una filtracion F . Sea X∗ := supXi : 1 ≤ i ≤ n. Luego,

P (X∗ ≥ u) ≤ 1

u

∫X∗≥u

(Xn)+dP. (4.9)

Demostracion. Notemos que

X∗ ≥ u = ∪ni=1Ei,

donde

Ei := X1 < u, . . . ,Xi−1 < u,Xi ≥ u.

Luego por el lema 4.19, ocupando el hecho que la funcion (·)+ [cf. (4.8)] es convexa, tenemosque para cada 1 ≤ i ≤ n,

P (Ei) ≤1

up

∫Ei

(Xi)+dP ≤1

up

∫Ei

(Xn)+dP.

Sumando sobre i obtenemos (4.9).

Ocupando el hecho que si Xn es una submartingala y p ≥ 1 entonces Yn = |Xn|ptambien es una submartingala, por el lema anterior obtenemos el siguiente corolario.

Corolario 4.21. (Desigualdad de Doob) Consideremos una submartingala X1, . . . , Xnrespecto a una filtracion F . Sea X∗ := supXi : 1 ≤ i ≤ n. Luego, para cada p ≥ 1 y u > 0tenemos que

P (X∗ ≥ u) ≤ 1

up

∫X∗≥u

|Xn|pdP.

La desigualdad de Azuma, que enunciamos y probamos a continuacion, nos indica que lasfluctuaciones de una martingala, en cierto sentido se parecen a las de una suma de variablesaleatorias independientes.

Lema 4.22. (Desigualdad de Azuma) Consideremos una martingala Xn respecto a al-guna filtracion F . Supongamos que existe una sucesion de constantes cn positivas tales que|Xn −Xn−1| ≤ cn. Luego, para todo λ > 0 se tiene que

P (|Xn −X0| ≥ λ) ≤ exp

− λ2

2∑n

i=1 c2i

.

Demostracion. Notemos primero que si Y es una variable aleatoria que toma valores en[−1, 1] y tal que E[Y ] = 0, necesariamente se tiene que

E[etY ] ≤ et2/2.

En efecto, si x ∈ [−1, 1], por la desigualdad de Jensen aplicada a la funcion et, se tiene queetx ≤ 1

2(1 + x)et + 12(1− x)e−t. Luego

Page 69: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

4.4. DESIGUALDADES DE MARTINGALAS 67

E[etY ] ≤ 1

2et +

1

2e−t =

∞∑n=0

t2n

(2n)!≤∞∑n=0

t2n

2nn!= et

2/2.

Ahora,

P (Xn −X0 ≥ λ) ≤ e−λtE[et(Xn−X0)].

Pero, por la propiedad de martingala tenemos que

E[et(Xn−X0)] ≤ et2c2n/2E[et(Xn−1−X0)],

por lo que

P (Xn −X0 ≥ λ) ≤ e−λtet2c2n/2E[et(Xn−1−X0)].

Ocupando recursion en n vemos que para todo t real

P (Xn −X0 ≥ λ) ≤ e−λtet2∑ni=1 c

2i /2.

Optimizando el lado derecho respecto a t terminamos la prueba.

Finalizamos esta seccion con la desigualdad maximal de Doob.

Lema 4.23. (Desigualdad maximal de Doob) Consideremos una martingala Xn. Luego,para p > 1 se tiene que

E

[sup

0≤m≤n|Xm|p

]≤(

p

p− 1

)pE[|Xn|p].

Demostracion. Para n ≥ 0 definimos

Xn := max0≤m≤n

|Xm|.

Luego

E[Xpn] =

∫∞0 pxp−1P (Xn ≥ x)dx ≤

∫∞0 pxp−1

(1x

∫|Xn|1(Xn ≥ x)dP

)dx

=∫|Xn|

∫ Xn0 pxp−2dxdP = p

p−1

∫|Xn|(Xn)p−1dP ≤ p

p−1(E[|Xn|p]1/pE[Xpn]1/q.

De aquı concluımos que

E[Xpn] ≤

(p

p− 1

)pE[|Xn|p].

Page 70: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

68 CAPITULO 4. MARTINGALAS

4.5. Tiempos de parada

En distintas instancias sera importante ocupar variables aleatorias que representan tiem-pos aleatorios. Para efectos de ilustrar estos conceptos introducimos la siguiente definicion.Ocuparemos la notacion U := e ∈ Zd : |e|1 = 1.

Definicion 4.24. (Marcha aleatoria simple) Sea p ∈ [0, 1] y d ≥ 1. Decimos que unasucesion Sn : n ≥ 0 es una marcha aleatoria partiendo de x ∈ Zd si

S0 := x

y

Sn := X1 + · · ·+Xn,

donde Xn : n ≥ 1 son variables aleatorias i.i.d. tales que X1 = e con probabilidad pe paracada e ∈ U . Si pe = 1/(2d) decimos que la marcha aleatoria es simetrica.

Consideremos una marcha aleatoria simple Sn en dimension d = 1 partiendo de 0, conp > 0,5. Definamos los tiempos aleatorios

T := ınfn ≥ 1 : Sn = 10y

S := supn ≥ 1 : Sn = 10.Notemos que si n esta fijo, dada la informacion de la σ-algebra Fn, podemos determinar siT ≤ n o no. Es decir, si T ocurrio o no antes del instante n. En efecto, basta observar el valorde S1, . . . , Sn. Sin embargo, en el caso de S, la informacion dada por Fn no permite determinarsi S ocurrio o no antes del instante n. La nocion de tiempo de parada captura la diferenciadescrita entre estos dos tiempos aleatorios.

Definicion 4.25. (Tiempo de parada) Consideremos un espacio de probabilidad (Ω,F , P ) yuna filtracion Fn : n ≥ 1. Decimos que una variable aleatoria T con valores en 0, 1, . . .∪∞es un tiempo de parada si para cada n ≥ 0 el conjunto T ≤ n ∈ Fn.

Notemos que las siguientes propiedades basicas:

Para cualquier n natural, T = n es un tiempo de parada.

Si T1 y T2 son tiempos de parada entonces mınT1, T2 y maxT1, T2 son tiempos deparada.

Sera importante ademas definir el concepto de la informacion disponible hasta un tiempo deparada.

Definicion 4.26. (σ-algebra de un tiempo de parada) Consideremos un tiempo de paradaT definido definido en un espacio de probabilidad (Ω,F , P ), respecto a una filtracion Fn.Definimos la σ-algebra del tiempo de parada T como la coleccion de conjuntos A ∈ F tales quepara todo n ≥ 0 se tiene que

A ∩ τ ≤ n ∈ Fn.

Page 71: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

4.6. TEOREMA DEL TIEMPO DE PARADA OPCIONAL 69

Lema 4.27. Sean T1 ≤ T2 dos tiempos de parada respecto a la misma filtracion. Luego

FT1 ⊂ FT2 .

Demostracion. Sea A ∈ F1. Luego para todo par de naturales k ≤ n se tiene que

A ∩ T1 = k ∈ Fn.

Por otra parte

A ∩ T2 ≤ n = ∪nk=1 A ∩ T1 = k ∩ T2 ≤ n ∈ Fn,

lo que prueba el lema.

4.6. Teorema del tiempo de parada opcional

Notemos primero que una martingala “parada” en un tiempo de parada sigue siendo unamartingala.

Lema 4.28. Consideremos una martingala Xn y un tiempo de parada T respecto a unafiltracion Fn. Luego,

Xn∧T : n ≥ 0

es una martingala respecto a la filtracion Fn.

Demostracion. Primero notemos que para cada n ≥ 0 se tiene que

E[|Xn∧T |] ≤n∑k=0

E[|Xk|] <∞,

por lo que Xn∧T es integrable. Por otra parte

Xn∧T =

n−1∑k=0

Xk1T=k +Xn1T≥n.

Como T es un tiempo de parada, esto muestra que claramente Xn∧T es Fn medible. Por ultimo,notemos que

E[X(n+1)∧T |Fn] =n∑k=0

E[Xk1T=k|Fn] + E[Xn+11T>n|Fn]. (4.10)

Como T es un tiempo de parada, tenemos que para cada 0 ≤ k ≤ n, 1T=k ∈ Fk y ademas1T>n ∈ Fn. Luego E[Xk1T=k|Fn] = Xk1T=k = Xn∧T 1T=k y

E[Xn+11T>n|Fn] = 1T>nE[Xn+1|Fn] = 1T>nXn∧T .

Reemplazando en (4.10) vemos que

E[X(n+1)∧T |Fn] = Xn∧T .

Page 72: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

70 CAPITULO 4. MARTINGALAS

En realidad el resultado anterior es un caso particular del siguiente teorema.

Teorema 4.29. (Teorema del tiempo de parada opcional) Consideremos una submar-tingala Xn respecto a una filtracion F = Fn. Sean T1 ≤ T2 dos tiempos de parada respectoa F que son acotados. Luego

E[XT2 |FT1 ] ≥ XT1 .

Demostracion. Sea k ≥ T2 ≥ T1. Notemos que basta probar que

E[Xk|FT1 ] = XT1 y E[Xk|FT2 ] = XT2 .

En efecto, si estas identidades se satisfacen, tenemos que

E[XT2 |FT1 ] = E[E[Xk|FT2 ]|FT1 ] = E[Xk|XT1 ] = XT1 .

Ahora, si A ∈ FT1 vemos que∫AXkdP =

k∑j=0

∫A∩T1=j

XjdP =

k∑j=0

∫A∩T1=j

XT1dP =

∫AXT1dP,

de donde se concluye la demostracion.

No es posible eliminar en el teorema anterior la hipotesis de que los tiempos de paradasean acotados. En efecto, consideremos una sucesion de variables aleatorias i.i.d. Xn condistribucion Bernoulli de parametro 0,5 y

Sn := X1 + · · ·+Xn.

Definimos

T := mınn ≥ 0 : Sn = 1.

Notemos que T es un tiempo de parada respecto a la filtracion Fn := σ(X1, . . . , Xn). En efecto,

T = n = ∪xi≤0,1≤i≤n−1,xn=1S1 = x1, . . . , Sn = xn.

Sin embargo,

1 = E[ST ] 6= E[S1] =1

2.

4.7. El teorema de convergencia de martingala

El resultado principal de esta seccion sera el siguiente teorema.

Teorema 4.30. (Teorema de convergencia de martingalas). Consideremos una submar-tingala Xn : n ≥ 0 tal que supn≥0 ||(Xn)+||1 <∞. Luego

lımn→∞

Xn

existe c.s.

Page 73: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

4.7. EL TEOREMA DE CONVERGENCIA DE MARTINGALA 71

Para su demostracion ocuparemos el siguiente lema.

Lema 4.31. (Lema de Doob) Consideremos una submartingala Xn : n ≥ 0 y un intervalo(a, b). Luego, si Un(a, b) es igual al numero de veces que la submartingala X1, . . . , Xn cruza elintervalo (a, b) desde la derecha hacia la izquierda, se satisfacen las siguientes desigualdades.

E[Un(a, b)] ≤ 1

b− aE[(Xn − a)+] ≤ 1

b− a(|a|+ E[(Xn)+]) .

Demostracion. Notemos que como la funcion f(x) = (x−a)+ es convexa, la sucesion Yn :=(Xn − a)+ es una submartingala. Por otra parte, la cantidad de veces que la submartingalaXn cruza desde la derecha hacia la izquierda el intervalo (a, b) es igual a la cantidad de vecesque la submartingala Yn cruza el intervalo (0, b − a) desde la derecha hacia la izquierda.Luego, sin perdida de generalidad, basta probar que si Xn es una submartingala tal queXn ≥ 0 para todo n ≥ 0, entonces

E[Un(0, b)] ≤ 1

bE[Xn].

Consideremos la siguiente sucesion de tiempos de parada definidos en forma recursiva. Sean ≥ 0. Definimos

T1 := n ∧mınk ≥ 0 : Xj ≤ a, S1 := n ∧mınk ≥ T1 : Xj ≥ b

y para m ≥ 1 definimos

Tm := n ∧mınk ≥ Sm−1 : Xj ≤ a, Sm := n ∧mınk ≥ Tm : Xj ≥ b.

Notemos que como TN+m = SN+m = N para todo m ≥ 0. Ahora definimos

D := (XS1 −XT1) + (XS2 −XT2) + · · ·+ (XSN −XTN ).

Pero, cada vez que Sj < N , tenemos que XSj −XTj ≥ b. Ademas, siempre, para todo j ≥ 0 setiene que XSj −XTj ≥ 0. Luego,

bUn(a, b) ≤ D.

Por otra parte, como Xn es una submartingala, por el teorema del tiempo de parada opcionaltenemos que E[XTj+1 ] ≥ E[XSj ] para j ≥ 0. Por lo tanto,

bE[Un(a, b)] ≤ −E[XT1 ] + (E[XS1 ]− E[XT2 ]) + · · ·+ (E[XSN−1]− E[XTN ]) + E[XSN ]

≤ E[XSN ]− E[XT1 ] ≤ E[XSN ] = E[XN ].

Ahora estamos en condiciones de demostrar el teorema de convergencia de martingalas,Teorema 4.30. Por la desigualdad de Doob notemos que para todo u > 0,

P (supn≥0

Xn ≥ u) ≤ 1

usupn≥0

E[(Xn)+].

Page 74: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

72 CAPITULO 4. MARTINGALAS

Luego, c.s. se tiene que

supn≥0

Xn <∞.

Por otra parte, por el Lema de Doob, sabemos que para cualquier intervalo con extremosracionales, la cantidad de cruces hacia arriba es finita. Se concluye que necesariamente c.s.

lımn→∞

Xn

es convergente.

El teorema de convergencia de martingalas puede ser una herramienta poderosa para es-tudiar el comportamiento de ciertos procesos estocasticos. Consideremos una marcha aleatoriasimple simetrica Sn : n ≥ en dimension d. Definimos

T0 := mınn ≥ 1 : Sn = 0.

Definicion 4.32. (Transiencia y recurrencia) Decimos que una marcha aleatoria simpleSn es recurrente si P (T0 < ∞) = 1. Por otra parte, decimos que es transiente si P (T0 <∞) < 1.

Consideremos la solucion f de la ecuacion

d∑i=1

f(x+ ei) + f(x− ei)− 2f(x) = 10(x). (4.11)

Es facil constatar que

Mn := f(Sn) (4.12)

es una submartingala. Por otra parte, en dimensiones d ≥ 3, se puede probar que la funcion fes acotada. Luego, por el teorema de convergencia de martingala concluımos que

lımn→∞

Mn

es convergente c.s. Concluımos entonces el siguiente resultado en dimension d ≥ 3.

Corolario 4.33. Una marcha aleatoria simple simetrica en dimension d ≥ 3 es necesariamentetransiente.

Por otra parte, en dimension d = 2, es posible encontrar una solucion f de la ecuacion (4.11)tal que

f(x) = C log |x|+ o(|x|),

para alguna constante C > 0. Esto implica que si definimos ahora

Nn := f(Sn∧T0),

Page 75: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

4.8. OTROS RESULTADOS DE CONVERGENCIA DE MARTINGALAS 73

podemos ver que Nn es una martingala que satisface supnE[(Mn)] < ∞. Luego, por elteorema de convergencia de martingala vemos que

lımn→∞

Nn

tambien existe. Se concluye entonces el siguiente corolario.

Corolario 4.34. Toda marcha aleatoria simple simetrica en dimension d = 2 es recurrente.

4.8. Otros resultados de convergencia de martingalas

Teorema 4.35. Sea p ≥ 1 y X una variable aleatoria tal que X ∈ Lp. Sea Fn : n ≥ 1 unafiltracion y F∞ la σ-algebra mas pequena que contiene a ∪nFn. Luego si

Xn := E[X|F ],

entonces

lımn→∞

||Xn −X||p = 0.

Demostracion. Seguimos la argumentacion presentada por Varadhan. Supongamos primeroque X es acotada. Luego supn,ω |Xn| < ∞ y por lo tanto supnE[X2

n] < ∞. Ahora, notemosque para m ≥ n,

E[(Xm −Xn)2] =

n∑j=m+1

E[(Xj −Xj−1)2]

y

E[X2n] = E[X2

0 ] +

n∑j=1

E[(Xj −Xj−1)2].

Podemos concluır que Xn es una sucesion de Cauchy en L2 y que por lo tanto existe Y ∈ L2

tal que

lımn→∞

E[(Xn − Y )2] = 0.

Si fijamos m, se sigue que para todo A ∈ Fm se tiene que∫AY dP = lım

n→∞

∫AXndP =

∫XdP.

Por el teorema de la clase montona concluımos que esta identidad se satisface para todo A ∈ F .Como X e Y son F medibles entonces X = Y c.s. Claramente, se puede deducir que laconvergencia de Xn a X es en Lp para todo p ≥ 1.

Supongamos ahora que X ∈ Lp para algun p ≥ 1. Dado algun ε > 0, elegimos X ′ acotadatal que ||X ′ −X||p < ε. Facilmente, se ve que ademas supn ||X ′n −Xn||p ≤ ε. Por lo tanto

lım supn→∞

||Xn −X||p ≤ 2ε.

Page 76: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

74 CAPITULO 4. MARTINGALAS

Tenemos el siguiente teorema que se deriva del Teorema 4.35.

Teorema 4.36. Sea p > 1 y Xn una martingala respecto a una filtracion Fn : n ≥ 1, talque supn≥0 ||Xn||p <∞. Luego, existe una variable aleatoria X ∈ Lp tal que

Xn := E[X|F ].

En particular se tiene que

lımn→∞

||Xn −X||p = 0.

Demostracion. Por la condicion supn≥0 ||Xn||p < ∞ se tiene que supn≥0 ||(Xn)+||1 < ∞.Luego por el teorema de convergencia de martingalas tenemos que existe una variable aleatoriaX tal que c.s.

lımn→∞

Xn = X

Ahora, por la desigualdad maximal se tiene que

E

[sup

0≤m≤n|Xm|p

]≤(

p

1− p

)pE[|Xn|p].

Luego, por el teorema de convergencia monotona concluımos que supn≥0 |Xn| esta en Lp. Porotra parte tenemos que

|Xn −X|p ≤ 2 supn≥0|Xn|p.

Luego, por el teorema de convergencia dominada vemos que lımn→∞E[|Xn −X|p]] = 0.

4.9. Teorema del lımite central para martingalas

Aquı demostraremos una version de McLeash del teorema del lımite central para martin-galas.

Teorema 4.37. Sea Xn,k : 1 ≤ k ≤ mn un arreglo triangular de diferencias de martingalarespecto a un arreglo triangular de filtraciones Fn,k : 1 ≤ k ≤ mn. Sea Sn :=

∑mni=1Xn,i.

Supongamos que las siguientes condiciones se satisfacen:

(i) lımn→∞E[max1≤j≤mn |Xn,j |] = 0.

(ii) lımn→∞∑mn

j=1X2n,j = σ2 donde la convergencia es en probabilidad.

Luego

lımn→∞

Sn,mn = N(0, σ2)

en distribucion.

Page 77: aramirez/pcap3.pdf · Cap tulo 1 Fundamentos La modelaci on de fen omenos en las ciencias naturales y sociales que presentan fuertes ele-mentos de inhomogeneidad y desorden hace que

4.9. TEOREMA DEL LIMITE CENTRAL PARA MARTINGALAS 75

Corolario 4.38. Considere un arreglo triangular de variables aleatorias centradas e indepen-dientes Xn,k : 1 ≤ k ≤ mn. Supongamos que para todo ε > 0 la siguiente condicion sesatisface:

lımn→∞

mn∑j=1

E[|Xn,j |21(|Xn,j | ≥ snε)] = 0,

donde s2n :=

∑mnj=1E[X2

n,j ]. Luego

lımn→∞

Sn,mnsn

= N(0, 1).

Demostracion. Basta notar que

max1≤j≤mn

Xn,k ≤ δ +

mn∑i=1

Xn,i1(|Xn,i| ≥ δ).

Ejercicios.

1. Demuestre el teorema de convergencia monotona para la esperanza condicional.

2. Dada una probabilidad condicional regular y una variable aleatoria, relacione la esperanzacondicional de tal variable aleatoria con la probabilidad condicional regular.