84
Notas de Aula - Estat´ ıstica I Professor: Caio Almeida Monitor: Ana Luiza Perdig˜ao 2º trimestre, 2015

Notas de Aula 2015

Embed Size (px)

DESCRIPTION

economia

Citation preview

Page 1: Notas de Aula 2015

Notas de Aula - Estatıstica I

Professor: Caio AlmeidaMonitor: Ana Luiza Perdigao

2º trimestre, 2015

Page 2: Notas de Aula 2015

1

Sumario

1 Probabilidade 21.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Variaveis Aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3 Esperanca Matematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.3.1 Esperanca de variaveis aleatorias simples nao negativas . . . . . . 131.3.2 Espaco das variaveis aleatorias com 2o momento finito . . . . . . . 27

1.4 Esperanca Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291.4.1 Esperanca condicional a uma σ-algebra . . . . . . . . . . . . . . . 291.4.2 Esperanca condicional a uma decomposicao . . . . . . . . . . . . . 32

1.5 Modos de Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351.5.1 Implicacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

1.6 Funcoes Caracterısticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2 Estatıstica 532.1 Propriedades de uma Amostra Aleatoria . . . . . . . . . . . . . . . . . . . 532.2 Funcoes de Variaveis Aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 552.3 Metodo do Jacobiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572.4 Distribuicao Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 592.5 Amostragem de uma Distribuicao Normal . . . . . . . . . . . . . . . . . . 602.6 Estimacao Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

2.6.1 Metodo dos momentos . . . . . . . . . . . . . . . . . . . . . . . . . 642.6.2 Estimadores de maxima verossimilhanca . . . . . . . . . . . . . . . 652.6.3 Metodos para avaliacao de estimadores . . . . . . . . . . . . . . . . 702.6.4 Estatısticas suficientes . . . . . . . . . . . . . . . . . . . . . . . . . 71

2.7 Desigualdade de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . . 732.8 Testes de Hipotese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

2.8.1 Teste de Razao de Verossimilhanca . . . . . . . . . . . . . . . . . . 762.8.2 Metodos de avaliacao de testes de hipotese . . . . . . . . . . . . . 79

Page 3: Notas de Aula 2015

2

1 Probabilidade

1.1 Introducao

Imagine o seguinte experimento: jogar para o alto uma moeda nao-viesada e observar

a face voltada para cima. Seus possıveis resultados sao observarmos cara(CA) ou co-

roa(CO). Pela simetria do problema, dado que estamos considerando uma moeda justa,

sabemos que P (CA) = P (CO) = 1/2.

De forma geral, podemos pensar nos eventos que podem advir deste experimento:

CA, CO, CA ∪ CO e ∅.

Temos entao que P (CA ∪ CO) = 1 e P (∅) = 0;

O caso apresentado acima fica mais interessante quando os experimentos envol-

vem um numero infinito de resultados. Por exemplo, poderıamos modificar o experi-

mento para considerar infinitas jogadas da moeda. Os possıveis resultados seriam entao

sequencias infinitas de caras e/ou coroas. A probabilidade de cada resultado seria, neste

caso, P (ω) = 0, ∀ω.

Este resultado deixa claro que, em experimentos envolvendo um numero infinito

de resultados, nos interessamos por um conjunto de sequencias (ou eventos) ao inves de

uma sequencia especıfica. Neste caso, subconjuntos do espaco amostral (i.e., do conjunto

de possıveis resultados) terao importancia fundamental. Iremos, portanto, propor uma

teoria axiomatica de probabilidades.

Definicao 1.1.1 Seja Ω um conjunto de pontos ω. Um sistema A de subconjuntos de

Ω e denominado uma algebra quando satisfaz as seguintes condicoes:

1. Ω ∈ A

2. A ∈ A ⇒ A ∈ A

3. A,B ∈ A ⇒ A ∪B ∈ A

Definicao 1.1.2 Seja Ω um conjunto de pontos ω. Um sistema F de subconjuntos de

Ω e denominado uma σ-algebra quando satisfaz as seguintes condicoes:

1. Ω ∈ F

2. A ∈ F ⇒ A ∈ F

Page 4: Notas de Aula 2015

3

3. An ∈ F , n ∈ N ⇒⋃∞i=1An ∈ F

Definicao 1.1.3 O espaco Ω junto com a σ-algebra de seus subconjuntos e um espaco

mensuravel.

Exemplo Espaco mensuravel de Borel em R.

Seja Ω = R e F = B(R) = σ-algebra de Borel. Como obtemos F nesse exemplo?

Seja A a algebra formada por unioes finitas de conjuntos disjuntos da forma (a, b]. Assim

sendo, temos que A ∈ A se A =⋃ni=1(ai, bi], ai, bi ∈ R∀i

Note que A e algebra, mas nao e σ-algebra. De fato,

∞⋃i=1

(0, 1− 1/i] = (0, 1) /∈ A.

Assim sendo, definimos B(R) como a menor σ-algebra que contem A. Note que todo

tipo de intervalo aparece em B(R) — (a, b), [a, b], a, [a, b). Por exemplo,

[a, b] =

∞⋂i=1

(a− 1/i, b]

Definicao 1.1.4 Uma funcao P : F → [0, 1] e denominada uma medida de probabilidade

quando:

1. P (Ω) = 1

2. P (A) ≥ 0 ∀ A ∈ F

3. P (⋃∞i=1Ai) =

∑∞i=1 P (Ai) se, ∀i 6= j, tivermos que Ai ∩Aj = ∅

Algumas propriedades de uma medida de probabilidade P sao:

• P (∅) = 0

• A,B ∈ F ⇒ P (A ∪B) = P (A) + P (B)− P (A ∩B)

• A ⊆ B ⇒ P (A) ≤ P (B)

• An ∈ F ,∀n ∈ N⇒ P (⋃∞n=1An) ≤

∑∞n=1 P (An)

Demonstracao 1. Note que Ω ∪ ∅ = Ω e Ω ∩ ∅ = ∅.

Page 5: Notas de Aula 2015

4

P (Ω) = P (Ω ∪ ∅)

= P (Ω) + P (∅)

=⇒ P (∅) = 0

2. Note que A = (A ∩ B) ∪ (A ∩ Bc) e B = (B ∩ A) ∪ (B ∩ Ac). Ao separarmos

em conjuntos disjuntos temos que P (A) = P (A ∩ B) + P (A ∩ Bc) e P (B) =

P (B ∩A) + P (B ∩Ac). Agora:

P (A ∪B) = P (((A ∩B) ∪ (A ∩Bc)) ∪ (B ∩A) ∪ (B ∩Ac))

= P ((A ∩B) ∪ (A ∩Bc) ∪ (Ac ∩B))

= P (A ∩B) + P (A ∩Bc) + P (Ac ∩B)

= P (A) + P (B)− P (A ∩B)

3. Dessa vez, A = (A ∩B). E, por (A ∩B) ⊆ B:

P (A) = P (A ∩B)

≤ P (B)

4. Construa a seguinte sequencia de conjuntos Bn = An ∩ (∪n−1i=1 Ai)

c. Note que sao

disjuntos dois a dois, Bn ∩ Bn+1 = An ∩ An+1 ∩ (∪i=ni=1Ai)c ∩ (∪n−1

i=1 Ai)c = ∅ e

∪n∈NBn = ∪n∈NAn. Assim,

P (∪n∈NAn) = P (∪n∈NBn)

=∑n∈N

P (Bn)

≤∑n∈N

P (An), pois An = Bn ∪ (An ∩ (∪i=n−1i=1 Ai))∀n ∈ N

Page 6: Notas de Aula 2015

5

Teorema 1.1.1 Seja P uma medida de probabilidade. Entao:

1. P e contınua por baixo, i.e., ∀ conjunto An ∈ F com An ⊆ An+1,

limn→∞

P (An) = P (∞⋃n=1

An)

2. P e contınua por cima, i.e., ∀ conjunto An ∈ F com An ⊇ An+1,

limn→∞

P (An) = P (∞⋂n=1

An)

Demonstracao 1. Defina a seguinte sequencia de conjuntos Bn = An ∩ Acn−1. Por

construcao serao disjuntos,∑n∈N

Bn = ∪n∈NAn, en∑k=1

Bk = An. Agora,

P (An) =

n∑k=1

P (Bk) ∀ n ∈ N , tomando o limite

limn→∞

P (An) =∑k∈N

P (Bk) = P (∪k∈NBk) = P (∪n∈NAn)

2. Agora podemos usar o resultado anterior para os complementares pois Acn ∈ F ∀ n,

pois e σ-algebra e Acn ⊂ Acn+1. Assim, P (∪n∈NAcn) = limn→∞

P (Acn). Por De Morgan

e propriedades da medida temos:

1− P (∪n∈NAcn) = P ((∪n∈NAcn)c) = P (∩n∈NAn)

= limn→∞

1− P (Acn) = limn→∞

P (An)

Definicao 1.1.5 Uma tripla ordenada (Ω,F , P ), onde

• Ω e um conjunto de pontos ω

• F e uma σ-algebra de subconjuntos de Ω

• P e uma medida de probabilidade em F

e chamada de modelo probabilıstico ou espaco de probabilidade.

Page 7: Notas de Aula 2015

6

1.2 Variaveis Aleatorias

Seja (Ω,F) um espaco mensuravel e (R,B(R)) o espaco mensuravel de Borel.

Definicao 1.2.1 Uma funcao ξ = ξ(ω) definida em (Ω,F) e uma funcao F-mensuravel,

ou uma variavel aleatoria, quando

ξ−1(B) ≡ ω : ξ(ω) ∈ B ∈ F ,∀B ∈ B(R),

ou, de forma equivalente, quando ξ−1(B) (a imagem inversa de B) e um conjunto men-

suravel em Ω.

A variavel aleatoria mais simples possıvel e a funcao indicadora de um conjunto

A ∈ F , IA(ω), ω ∈ Ω. Por que?

Uma variavel aleatoria com representacao ξ(ω) =∑∞

i=1 aiIAi(ω), com∑

iAi = Ω

e Ai ∈ F , ∀i, e denominada discreta. Quando esta soma e finita, a variavel aleatoria

e denominada simples. Note que esta representacao de uma variavel aleatoria simples

nao e necessariamente unica. Como um exemplo, tome a funcao f : Ω → R dada por

f(ω) = 1,∀ω (esta funcao e F-mensuravel?). Duas possıveis representacoes de f sao:

f = 1.IΩ

e

f = 1.IA + 1.IA, A ∈ F

Qual a importancia da mensurabilidade com respeito a F? Normalmente, variaveis

aleatorias sao interpretadas como uma propriedade numerica de um experimento aleatorio.

Assim sendo, perguntas sobre possıveis resultados de uma variavel aleatoria somente es-

tarao bem definidas se pudermos buscar respostas em eventos da σ-algebra F . Em

particular, se uma medida de probabilidade P esta definida em (Ω,F), so faz sentido

falar da probabilidade do evento ω : ξ(ω) ∈ B se ξ e F-mensuravel.

Definicao 1.2.2 Uma probabilidade Pξ em (R,B(R)) com

Pξ(B) = P (ω : ξ(ω) ∈ B), B ∈ B(R)

e chamada de distribuicao de probabilidades de ξ em (R,B(R)).

Page 8: Notas de Aula 2015

7

Definicao 1.2.3 Fξ(x) = P (ω : ξ(ω) ≤ x) = Pξ((−∞, x]), x ∈ R e chamada de funcao

de distribuicao de ξ.

Temos que:

• Uma variavel aleatoria discreta apresenta funcao de distribuicao em degraus.

– exemplos: Bernoulli, Binomial, Poisson.

• Uma variavel aleatoria contınua apresenta funcao de distribuicao contınua.

• Uma variavel aleatoria absolutamente contınua e tal que ∃fξ(x) com

Fξ(x) =

∫ x

−∞fξ(y)dy, x ∈ R

Um exemplo de uma variavel aleatoria absolutamente contınua (N(µ, σ2)):

fξ(x) =1√2πσ

e−(x−µ)2

2σ2

Um exemplo de uma variavel aleatoria singular (contınua mas nao absolutamente

contınua) pode ser construıdo utilizando-se como funcao de distribuicao a Funcao de

Cantor (ver Barry James, 1996).

Em geral, nao e simples estabelecer que uma funcao ξ = ξ(ω) e uma variavel aleatoria,

pois e necessario mostrar que a imagem inversa de qualquer boreliano pertence a F . O

lema abaixo simplifica tal tarefa:

Lema 1.2.1 Seja E um sistema de conjuntos tal que σ(E) = B(R). Uma condicao

necessaria e suficiente para que ξ = ξ(ω) seja F-mensuravel e que ω : ξ(ω) ∈ E ∈

F , ∀E ∈ E.

Demonstracao (⇒) Seja E ∈ E . Temos que E ∈ B(R). Como ξ e variavel aleatoria,

ξ−1(E) ∈ F .

(⇐) Defina o conjunto D = B ∈ B(R); ξ−1(B) ∈ F. Entao, E ⊆ D ⊆ B(R) =⇒

σ(E) ⊆ σ(D) ⊆ B(R). Por hipotese, σ(E) = B(R), assim σ(D) = B(R). Note

que se mostrarmos que D e σ-algebra, teremos o resultado desejado pois entao

D = σ(D) = B(R). Para ver que D e σ-algebra:

Page 9: Notas de Aula 2015

8

1. ξ−1(R) = Ω ∈ F =⇒ R ∈ D

2. Seja d ∈ D =⇒ ξ−1(d) ∈ F . E, por ξ−1(dc) = ξ−1(d)c, temos que

ξ−1(d)c ∈ F e, por consequencia, dc ∈ D.

3. Seja di ∈ D ∀ i ∈ N. Entao, ξ−1(di) ∈ F ∀ i ∈ N. Como ξ−1(∪i∈Ndi) =

∪i∈Nξ−1(di), teremos que ∪i∈Ndi ∈ D.

Dessa forma, D = B(R). Portanto ξ e F-mensuravel.

Corolario 1.2.2 Uma condicao necessaria e suficiente para que ξ = ξ(ω) seja uma

variavel aleatoria e:

ω : ξ(ω) < x ∈ F , ∀x ∈ R

ou

ω : ξ(ω) ≤ x ∈ F ,∀x ∈ R

Demonstracao Considere as seguintes sistemas de conjuntos:

N = (−∞, x);x ∈ R

Q = (−∞, x];x ∈ R

Usando que σ(N ) = σ(Q) = B(R) podemos aplicar o lema anterior e concluir que ξ

sera variavel aleatoria.

Agora, estamos interessados em construir novas variaveis aleatorias a partir de outras

variaveis aleatorias. O lema abaixo nos mostra uma forma:

Lema 1.2.3 Seja ϕ = ϕ(x) uma funcao de borel (i.e., uma funcao B(R)-mensuravel) e

ξ = ξ(ω) uma variavel aleatoria. A funcao composta η = ϕ ξ e uma variavel aleatoria.

Demonstracao Tome B ∈ B(R). Note que η−1(B) = ξ−1(ϕ−1(B)). Como ϕ e funcao

de Borel teremos que ϕ−1(B) ∈ B(R). Agora, por ξ ser variavel aleatoria, ξ−1(ϕ−1(B)) ∈

F .

Page 10: Notas de Aula 2015

9

Alguns exemplos de variaveis aleatorias sao:

ξn, ξ+ ≡ max(ξ, 0), ξ− ≡ −min(ξ, 0), |ξ| .

Por que estas funcoes sao variaveis aleatorias?

A partir de uma certa colecao de variaveis aleatorias ξn podemos construir novas

funcoes. Por exemplo,

∞∑k=1

|ξk| , ¯limξn, lim−ξn.

Note que estas funcoes podem atingir valores no intervalo [−∞,+∞]. Assim sendo,

e recomendavel estender a classe de variaveis aleatorias para que possam assumir valores

+∞ e −∞ (na reta estendida).

Definicao 1.2.4 A funcao ξ = ξ(ω) definida em (Ω,F), com valores em R = [−∞,+∞]

sera denominada uma variavel aleatoria estendida se ξ−1(B) ∈ F , ∀B ∈ B(R).

Teorema 1.2.4 1. Para qualquer variavel aleatoria ξ (incluindo as estendidas), ∃

uma sequencia de variaveis aleatorias simples ξnn∈N tal que

limn→∞

ξn(ω) = ξ(ω), ∀ω ∈ Ω.

2. Se ξ(ω) ≥ 0, entao ∃ uma sequencia de variaveis aleatorias simples que cresce para

ξ, i.e., ∃ ξnn∈N tal que ξn(ω) ↑ ξ(ω), com ξn variavel aleatoria simples ∀ n.

Demonstracao Comecaremos a demonstracao pela parte 2. Para todo n ∈ N, faca:

ξn(ω) =

n2n∑k=1

(k − 1)

2nIk,n(ω) + nIξ(ω)≥n(ω),

onde Ik,n(ω) = 1 quando k−12n ≤ ξ(ω) ≤ k

2n .

Note que esta sequencia e tal que ξn(ω) ↑ ξ(ω), ∀ ω ∈ Ω. No mais, ξn e variavel

aleatoria simples ∀ n.

Para demonstrar a parte 1, note que ξ = ξ+ − ξ−, para qualquer variavel aleatoria

ξ. No mais, temos que ξ+ e ξ− sao variaveis aleatorias positivas, o que, usando a

Page 11: Notas de Aula 2015

10

parte 2, implica que existem sequencias ξ+n n∈N e ξ−n n∈N tais que ξ+

n (ω) ↑ ξ+(ω) e

ξ−n (ω) ↑ ξ−(ω), com ξ+n , ξ

−n variaveis aleatorias simples ∀ n.

Alem disso, temos que ξ+n − ξ−n e uma variavel simples ∀ n e

limn→∞

ξ+n − ξ−n = lim

n→∞ξ+n − lim

n→∞ξ−n = ξ+ − ξ− = ξ

Em seguida, apresentaremos um teorema que garante que a classe de variaveis

aleatorias estendidas e fechada com relacao a convergencia ponto a ponto. Isso por-

que, se ξnn∈N e uma sequencia de variaveis aleatorias estendidas, entao

supξn, infξn, ¯limξne lim−ξn

tambem serao variaveis aleatorias (possivelmente estendidas). Esse fato se segue de:

ω : supξn > x =⋃n

ω : ξn(ω) > x ∈ F

ω : infξn < x =⋃n

ω : ξn(ω) < x ∈ F

¯limξn = infn(supm≥n(ξm))

lim−ξn = supn(infm≥n(ξm))

Teorema 1.2.5 Seja ξnn∈N uma sequencia de variaveis aleatorias estendidas e seja

ξ(ω) = limn→∞

ξn(ω)

Entao ξ(ω) tambem e uma variavel aleatoria estendida.

Demonstracao Utilizando do corolario 1.2.2, seja x ∈ R, note que:

ω ∈ Ω; ξ(ω) < x = ω ∈ Ω;−

lim ξn(ω) = lim−ξn(ω) ∩ ω ∈ Ω;

−lim ξn(ω) < x

Como as funcoes−

lim ξn e lim−ξn sao mensuraveis, temos que ξ−1((−∞, x)) ∈ F . E,

por x ser arbitrario, aplicamos o corolario 1 e temos que ξ e F mensuravel.

A partir disso, temos que, se ξ e η sao variaveis aleatorias estendidas, entao ξ+η, ξ−

η, ξ.η e ξ/η tambem o sao. Podemos demonstrar este resultado utilizando os Teoremas

Page 12: Notas de Aula 2015

11

1.1.1 e 1.2.4.

Suponha agora que ξ seja uma variavel aleatoria e vamos considerar conjuntos A ∈ F

tais que ∃B ∈ B(R), com A = ξ−1(B) = ω : ξ(ω) ∈ B. E interessante notar que esta

colecao de conjuntos forma uma σ-algebra denominada σ-algebra gerada por ξ e denotada

Fξ. Ja sabemos que, se ϕ e uma funcao de Borel, entao ϕ(ξ) e variavel aleatoria. Alem

disso, nao e difıcil mostrar que ϕ(ξ) e Fξ-mensuravel (o curioso e que a recıproca tambem

vale, conforme veremos no Teorema 1.2.6).

Algumas perguntas:

• Qual e a maior σ-algebra, F ou Fξ?

• Fξ pode ser menor que F?

Teorema 1.2.6 Se η e uma variavel aleatoria Fξ-mensuravel, entao existe uma funcao

de Borel ϕ tal que η = ϕ ξ ∀ ω ∈ Ω.

Demonstracao Caso 1: η funcao indicadora

Seja η = IA, IA : Ω → 0, 1 Como η e Fξ-mensuravel, sabemos que A ∈ Fξ.

Entao ∃ B ∈ B(R) tal que A = ξ−1(B). Considere entao a funcao indicadora de Borel

χB : R→ 0, 1, definida por:

χB(x) =

1 se x ∈ B

0 se x /∈ B

Temos entao que IA(ω) = χB(ξ(ω)),∀ ω ∈ Ω.

Caso 2: η funcao simples

Seja η(ω) =∑n

i=1 aiIAi(ω), ∀ ω ∈ Ω. E facil ver que η pode ser representada por

g(ξ), onde g e a funcao de Borel dada por:

g(x) =

n∑i=1

aiχBi(x), ∀ x ∈ R,

onde Bi e tal que Ai = ξ−1(Bi) ∀ i.

Caso 3: η mensuravel

Seja η uma funcao Fξ-mensuravel arbitraria. Pelo Teorema 1.2.4, existe uma sequencia

de funcoes simples ηnn∈N que converge para η. Para todo n, podemos encontrar uma

Page 13: Notas de Aula 2015

12

funcao de Borel ϕn tal que ηn(ω) = ϕn(ξ(ω)), ∀ ω ∈ Ω. Logo, ϕn(ξ(ω))→ η(ω), ∀ ω ∈

Ω.

Seja C = ξ(Ω) e B = x ∈ R : lim supn ϕn(x) = lim infn ϕn(x). Entao C ⊆ B (por

que?) e B ∈ B(R), pois lim supn ϕn − lim infn ϕn e funcao de Borel e 0 ∈ B(R).

Defina entao:

ϕ(x) =

limn→∞ ϕn(x) se x ∈ B

0 se x /∈ B

Logo, para todo ω ∈ Ω, η(ω) = ϕ(ξ(ω)). Como ϕ e funcao de Borel, temos o

resultado.

Considere um espaco mensuravel (Ω,F) e uma decomposicao do espaco Ω infinita

e enumeravel D = D1, D2, . . . , Di ∈ F ,∑

iDi = Ω. Agora, considere a σ-algebra

gerada por D, σ(D), que claramente satisfaz σ(D) ⊆ F .

Lema 1.2.7 Seja ξ = ξ(ω) uma variavel aleatoria σ(D)-mensuravel. Entao ξ pode ser

representada por

ξ(ω) =∞∑k=1

xkIDk(ω), xk ∈ R.

Em outras palavras, ξ e constante nos atomos Dk da decomposicao.

Demonstracao Seja Dk ∈ D. Podemos definir xk = supc ∈ R;Dk ∩ ω ∈ Ω ; ξ(ω) <

c = ∅. Por construcao Dk ∩ ω ∈ Ω ; ξ(ω) < xk = ∅.

Supondo c > xk, usaremos que o conjunto ω ∈ Ω ; ξ(ω) < c pode ser escrito como

uma uniao enumeravel de elementos em D para termos as seguintes relacoes:

Dk ∩ ω ∈ Ω ; ξ(ω) < c = Dk

∀c>xk=⇒ Dk ∩ ω ∈ Ω ; ξ(ω) ≥ c = ∅

Page 14: Notas de Aula 2015

13

Entao:

Dk ∩ ω ∈ Ω ; ξ(ω) > xk = ∅

=⇒ Dk ∩ ω ∈ Ω ; ξ(ω) 6= xk = ∅

=⇒ Dk ⊆ ω ∈ Ω ; ξ(ω) = xk

Com isso vemos que ξ e constante nos termos da decomposicao D

1.3 Esperanca Matematica

1.3.1 Esperanca de variaveis aleatorias simples nao negativas

Seja (Ω,F , P ) um espaco de probabilidade e φ : Ω→ R uma funcao simples, dada por:

φ(ω) =

N∑i=1

aiIAi(ω)

Definicao 1.3.1 Define-se a esperanca matematica de φ por:

E[φ] ≡N∑i=1

aiP (Ai)

Conforme vimos anteriormente, a representacao de uma funcao simples nao e neces-

sariamente unica. Desta forma, a definicao acima faz parecer que a esperanca de uma

variavel aleatoria simples nao negativa depende da como a representamos. O item 4 do

teorema abaixo garante que isso nao acontece.

Teorema 1.3.1 Sejam φ, ξ : Ω→ R variaveis aleatorias simples e c ∈ R. Entao

1. E[cξ] = cE[ξ]

2. E[φ+ ξ] = E[φ] + E[ξ]

3. φ ≥ ξ ⇒ E[φ] ≥ E[ξ]

4. φ = ξ ⇒ E[φ] = E[ξ]

5. |E[ξ]| ≤ E[|ξ|]

Demonstracao 1. Seja φ funcao simples. Dessa forma, φ(ω) =n∑i=1

aiIAi . Tomando

c ∈ R, teremos que cφ ainda e uma funcao simples. Logo,

Page 15: Notas de Aula 2015

14

E(cφ) =

n∑i=1

caiP (Ai)

= c

n∑i=1

aiP (Ai)

= cE(φ)

2. Sejam φ e ξ funcoes simples. Entao:

φ(ω) =

n∑i=1

aiIAi(ω) =

n,m∑i,j=1

aiIAi∩Bj (ω)

ξ(ω) =m∑j=1

bjIBj (ω) =

n,m∑i,j=1

bjIAi∩Bj (ω)

⇒ (φ+ ξ)(ω) =

n,m∑i,j=1

(ai + bj)IAi∩Bj (ω)

Assim sendo, temos:

E[φ+ ξ] =

n,m∑i,j=1

(ai + bj)P (Ai ∩Bj)

=

n,m∑i,j=1

(ai)P (Ai ∩Bj) +

n,m∑i,j=1

bjP (Ai ∩Bj)

=n∑i=1

(ai)P (Ai) +m∑j=1

bjP (Bj)

= E[φ] + E[ξ]

3. Suponha φ ≥ ξ. Logo:

n∑i=1

aiIAi(ω) ≥m∑j=1

bjIBj (ω), ∀ ω ∈ Ω

Assim, dado i, j, se Ai ∩Bj 6= ∅, entao ai ≥ bj . Logo:

(ai − bj)P (Ai ∩Bj) ≥ 0,∀ i, j

Page 16: Notas de Aula 2015

15

Somando em j, obtemos:

m∑j=1

(ai − bj)P (Ai ∩Bj) ≥ 0, ∀ i

⇒m∑j=1

aiP (Ai ∩Bj) ≥m∑j=1

bjP (Ai ∩Bj), ∀ i

⇒ aiP (Ai) ≥m∑j=1

bjP (Ai ∩Bj), ∀ i

Somando em i:

E[φ] =n∑i=1

aiP (Ai) ≥n,m∑i,j=1

bjP (Ai ∩Bj)

⇒ E[φ] ≥m∑j=1

bjP (Bj)

⇒ E[φ] ≥ E[ξ]

4. Basta notar que se φ = ξ =⇒ φ ≤ ξ e φ ≥ ξ. Aplicando o item anterior teremos

que E(φ) = E(ξ).

5. Para ξ funcao simples,

|E(ξ)| = |n∑i=1

aiP (Ai)|

≤n∑i=1

|aiP (Ai)| =n∑i=1

|ai|P (Ai)

= E(|ξ|)

Esperanca de variaveis aleatorias nao negativas

Seja (Ω,F , P ) um espaco de probabilidade e ξ : Ω → R+ uma variavel aleatoria nao

negativa.

Definicao 1.3.2 Senja Sξ = φ : φ e v.a. simples e φ ≤ ξ. Define-se a esperanca

Page 17: Notas de Aula 2015

16

matematica de ξ por:

E[ξ] = supE[φ] : φ ∈ Sξ

Uma outra definicao equivalente e:

E[ξ] = limn∈N

E[ξn], onde ξn ↑ ξ e ξn e v.a. simples

Esta segunda representacao para a esperanca de v.a. nao negativa esta bem definida

a princıpio pois E[ξn] ≤ E[ξn+1] ja que sao funcoes simples e a sequencia e monotona.

Com isso, ∃ limn→∞

E[ξn] mesmo que este seja +∞. Alem disso, temos que sera unico de

fato, independente de qual sequencia de v.a. simples que tivermos trabalhando. Isto se

deve ao seguinte lema:

Lema 1.3.2 Sejam η e ξnn∈N v.a. simples nao negativas tais que ξn ↑ ξ e ξ ≥ η.

Entao limn∈N

E[ξn] ≥ E[η]

Demonstracao Tome ε > 0 e defina An = ω; ξn ≥ η − ε. Por hipotese sabe-se que

An Ω. Logo limn→∞

= 1. Reescrevendo ξ abaixo:

ξn = ξnIAn + ξnIAcn

≥ ξnIAn

≥ (η − ε)IAn

Logo, ao tomar esperanca:

E[ξn] ≥ E[ηIAn ]− εP (An)

= E[η]− E[ηIAcn ]− εP (An)

v.a.simples≥ E[η]− max

ω∈Acnη(ω)P (An

c)− εP (An)∀n ∈ N

Agora tomando limite, temos: limn→∞

E[ξn] ≥ E[η] − ε. E, por ε arbitrario, temos o

resultado desejado.

Assim, de uso desse lema e considerando duas sequencias convergentes, que se apro-

ximam por baixo para ξ, ξn e ηm teremos a igualdade de seus limites. Isto ocorre

Page 18: Notas de Aula 2015

17

pois:

E[ξ]def.= lim

n→∞E[ξn]

L1.3.2≥ E[ηm]∀m ∈ N.

Por procedimento analogo obtemos a outra desigualdade desejada para concluir igual-

dade dos limites.

Tendo que a segunda definicao esta sempre satisfeita para as v.a. nao negativas,

resta proceder a fim de mostrar a equivalencia entre elas, ou seja:

E[ξ] = supE[φ] : φ ∈ Sξ

= limn∈N

E[ξn], onde ξn ↑ ξ e ξn e v.a. simples

Demonstracao (≥) Esta e obtida ao notar que ξn sao funcoes simples e que ξn ≤ ξ∀

n ∈ N.

(≤) Sejam ξn sequencia de v.a. simples; ξn ↑ ξ e considere φ ∈ Sξ. Assim, temos:

E[ξ]def.= lim

n→∞E[ξn]

L1.3.2≥ E[φ]

Como a funcao φ escolhida e arbitraria vale que: limn→∞

E[ξn] ≥ supE[φ], onde φ ∈ Sξ

Esperanca de variaveis aleatorias (Integral de Lebesgue)

Seja (Ω,F , P ) um espaco de probabilidade e ξ : Ω → R uma variavel aleatoria. Vimos

anteriormente que ξ+ e ξ− tambem sao variaveis aleatorias. Alem disso, como ξ+ e ξ−

assumem valores nao negativos, suas esperancas estao bem definidas.

Definicao 1.3.3 Se minE[ξ+],E[ξ−] <∞, definimos a esperanca de ξ como

E[ξ] = E[ξ+]− E[ξ−]

Outra notacao e:

∫ΩξdP = E[ξ]

Page 19: Notas de Aula 2015

18

O objeto acima tambem e chamado integral de Lebesgue de ξ com relacao a

medida P .

Definicao 1.3.4 Dizemos que ξ e integravel se

−∞ < E[ξ] < +∞

ou, de forma equivalente

E[|ξ|] <∞.

Definicao 1.3.5 Dado A ∈ F , definimos:

∫AξdP =

∫ΩIAξdP

Definicao 1.3.6 Dado um espaco de probabilidade (Ω,F , P ), definimos:

L1(Ω,F , P ) = ξ : Ω→ R; ξ e integravel

Para provar varias propriedades da esperanca matematica, frequentemente provamos

o resultado para funcoes simples e depois o estendemos para funcoes mensuraveis nao

negativas usando a definicao dada de esperanca para variaveis aleatorias e o fato de que,

para toda funcao mensuravel nao negativa f existe uma sequencia de funcoes simples

nao negativas que converge pontualmente para f .

Teorema 1.3.3 Sejam f, g : Ω→ R+ funcoes mensuraveis e c ≥ 0 . Entao

1. E[cf ] = cE[f ]

2. E[f + g] = E[f ] + E[g]

3. f ≥ g ⇒ E[f ] ≥ E[g]

4. f = g ⇒ E[f ] = E[g]

Demonstracao Como f, g ≥ 0, sabemos que ∃ fn, gn, fn, gn funcoes simples ∀ n,

tais que fn ↑ f e gn ↑ g (Teorema 1.2.4). Logo:

Page 20: Notas de Aula 2015

19

1. Note que por c ≥ 0, cf ≥ 0, de forma que cfn ↑ cf . Assim,

E(cf)def.= lim

n→∞E(cfn)

fnsimples= lim

n→∞cE(fn)

def.= cE(f)

2.

E[f + g]def.= limE[fn + gn]

fn,gnsimples= limE[fn] + limE[gn]

def.= E[f ] + E[g]

3. Usaremos que Sf ⊃ Sg, por hipotese, onde Sg = φ : φ e v.a. simples e φ ≤ g e Sf

o analogo para f. Assim,vale que:

supfn∈Sf

E[fn] ≥ supgn∈Sg

E[gn],ou seja,

E[f ] ≥ E[g]

4. Note que f = g =⇒ f ≤ g e f ≥ g. Aplicando o item anterior nas duas

desigualdades, teremos E[f ] = E[g]

Teorema 1.3.4 (Teorema da Convergencia Monotona) Seja Xnn∈N uma sequencia

crescente de variaveis aleatorias Xn ≥ 0 tal que Xn converge pontualmente para X.

Entao:

E[X] = limn→∞

E[Xn]

Ou seja, pode-se inverter a ordem entre limite e esperanca.

Demonstracao Como E[Xn] ≤ E[Xn+1] , existe α ∈ [0,∞] (note que nao excluımos

a possibilidade de α =∞) tal que:

E[Xn]→ α

Page 21: Notas de Aula 2015

20

Como Xn ≤ X ∀ n, segue que E[Xn] ≤ E[X] ∀ n. Logo:

α ≤ E[X]

Seja S variavel aleatoria simples tal que 0 ≤ S ≤ X, e seja c constante ∈ (0, 1).

Defina An = ω ∈ Ω : Xn(ω) ≥ cS(ω), ∀ n ∈ N.

Note que An ⊆ An+1 ∀ n e Ω = ∪∞n=1An. Para verificar esta igualdade, tome ω ∈ Ω.

Se X(ω) = 0, entao ω ∈ A1 e, se X(ω) > 0, entao cS(ω) < X(ω), pois c < 1. Entao

ω ∈ An para algum n.

Alem disso:

E[Xn] ≥ E[XnIAn ] ≥ cE[SIAn ],∀ n ∈ N

Fazendo n→∞, temos:

α ≥ cE[S]

Como esta desigualdade e satisfeita para todo c < 1, vale que:

α ≥ E[S],

para toda variavel aleatoria simples mensuravel S satisfazendo 0 ≤ S ≤ X. Logo, da

definicao de esperanca de uma variavel aleatoria nao negativa, segue que:

α ≥ E[X]

⇒ limn→∞

E[Xn] = E[X] = α

Lema 1.3.5 (Lema de Fatou - a) Seja fnn∈N uma sequencia de variaveis aleatorias

nao negativas. Entao:

E[lim infn

fn] ≤ lim infn

E[fn]

Demonstracao Defina ξn = infk≥n

fk temos que ξn ≤ ξn+1,∀ n ∈ N. Com isso, temos

uma sequencia de v.a. monotonas, e, entao:

Page 22: Notas de Aula 2015

21

E[lim infn

fn] = E[ limn→∞

ξn]TCM

= limn→∞

E[ξn]

Como por construcao ξn ≤ fn∀n ∈ N, do Teorema 6 obtemos E[ξn] ≤ E[fn]∀n ∈ N.

A hipotese de que fn e cotada por baixo (por zero) garante que ξn = infk≥n

fk ≥ 0 o

que permite o uso do TCM.

Notando-se que como a sequencia E[ξn]n e monotona crescente, seu limite existe,

possivelmente sendo ∞.

Com isso,

limn→∞

E[ξn] = lim infn

E[ξn] ≤ lim inf E[fn]

Desta forma, juntando a equacao anterior com a primeira temos o resultado desejado.

Lema 1.3.6 (Lema de Fatou - b) Seja fnn∈N uma sequencia de variaveis aleatorias

negativas. Entao:

lim supn

E[fn] ≤ E[lim supn

fn]

Demonstracao Agora note que fn e cotada superiormente por 0. Para esta demons-

tracao sera usado a seguinte igualdade: lim inf(−fn) = − lim sup fn.

Com isso podemos usar o resultado anterior pois −fn e uma variavel aleatoria nao

negativa. Entao vale que E[lim infn(−fn)] ≤ lim infn(−E[fn]).

Entao, reescrevendo a equacao anterior usando a igualdade inicial temos o resultado.

Teorema 1.3.7 (Teorema da Convergencia Dominada) Seja ξnn∈N uma sequencia

de funcoes F-mensuraveis e φ uma funcao F-mensuravel com E[φ] < ∞. Suponha que

ξn → ξ e |ξn| ≤ φ ∀ n. Entao:

E[ξ] = limn→∞

E[ξn]

Demonstracao Note que por hipotese temos as desigualdades ∀ n ∈ N:

0 ≤ ξn + φ e 0 ≥ ξn − φ

Page 23: Notas de Aula 2015

22

Dessa forma temos sequencias de v.a. nas quais podemos aplicar o Lema de Fatou.

Entao,

E[lim infn

(ξn + φ)] ≤ lim infn

E[(ξn + φ)]

lim supn

E[(ξn − φ)] ≤ E[lim supn

(ξn − φ)]

Como a v.a. φ nao varia em n, e por haver convergencia, ou seja, lim infn

ξn =

lim supn

ξn, obtemos:

lim supn

E[ξn] ≤ E[ξ] ≤ lim infn

E[ξn]

Utilizando que por definicao, lim supn

E[ξn] ≥ lim infn

E[ξn] conlcuimos que existe limite

para a esperanca de ξn e este sera E[ξ]

Teorema 1.3.8 Seja Xnn∈N uma sequencia de variaveis aleatorias Xn ≥ 0. Entao:

E[∞∑n=1

Xn] =∞∑n=1

E[Xn]

Demonstracao Defina Yn =n∑i=1

Xi. Por Xi ≥ 0 ∀ i, Yn ≤ Yn+1 ∀ n ∈ N. E,

limn→∞

=∑i∈N

Xi.

Aplicando o TCM, E(∑i∈N

Xi

)= lim

n→∞E(

n∑i=1

Xi

).

Agora note que E(

n∑i=1

Xi

)= supE

(n∑i=1

X(j)i

), onde X(j)

i j∈N e v.a. simples tal

que X(j)i ↑ Xi pois Xi ≥ 0. Assim,

Page 24: Notas de Aula 2015

23

E

(n∑i=1

Xi

)= lim

j→∞E

(n∑i=1

X(j)i

)v.a.simples

= limj→∞

n∑i=1

E(X(j)i )

=

n∑i=1

E(Xi)

Retomando,

E

(∑i∈N

Xi

)= lim

n→∞E

(n∑i=1

Xi

)

= limn→∞

n∑i=1

E(Xi)

=∑i∈N

E(Xi)

Teorema 1.3.9 Seja (Ω,F , P ) um espaco de probabilidade e f, g ∈ L1 (Ω,F , P ), e c ∈

R. Entao:

1. cf e (f + g) ∈ L1 (Ω,F , P )

2. E[cf ] = cE[f ]

3. E[f + g] = E[f ] + E[g]

Demonstracao 1. Por serem integraveis, ∃M ∈ R;E[|f |],E[|g|] < M . De posse disso,

temos as seguintes inequacoes:

(f + g)+ ≤ |f + g| ≤ |f |+ |g|

(f + g)− ≤ |f + g| ≤ |f |+ |g|

Tomando esperanca e por serem todas v.a. nao negativas:

E[(f + g)+] ≤ E[|f |] + E[|g|] ≤ 2M < +∞

E[(f + g)−] ≤ E[|f |] + E[|g|] ≤ 2M < +∞

Page 25: Notas de Aula 2015

24

Entao, temos o resultado pois: E[(f + g)] = E[(f + g)+] − E[(f + g)−] < +∞,

trata-se da diferenca de valores finitos.

Com relacao a cf , considerando inicialmente c ∈ R+ note que (cf)+ = cf+ e

(cf)− = cf−. Temos as desigualdades:

0 < cf+ ≤ |cf | = c|f |

0 < cf− ≤ |cf | = c|f |

Por f integravel, c ∈ R+ e tomando a esperanca:

cE[f+] ≤ cE[|f |] ≤ cM <∞

cE[f−] ≤ cE[|f |] ≤ cM <∞

Usando a definicao de esperanca temos o resultado pois, E[cf ] = cE[f+]−cE[f−] <

∞. Para o caso onde c ∈ R−, o raciocınio e analogo considerando que (cf)+ =

−cf− e (cf)− = −cf+

2. Dado que f e integravel e c ∈ R+ temos que:

E[cf ] = E[cf+]− E[cf−]

T1.3.3= cE[f+]− cE[f−]

= c(E[f+]− E[f−])def= cE[f ]

Para o caso onde c ∈ R− usamos que (cf)+ = −cf− e (cf)− = −cf+.

3. Utilizaremos o fato de que ja demonstramos este resultado para variaveis aleatorias

nao negativas (Teorema 1.3.3). Temos que:

f + g = (f + g)+ − (f + g)− = f+ − f− + g+ − g−

⇒ (f + g)+ + f− + g− = f+ + g+ + (f + g)−

⇒ E[(f + g)+ + f− + g−] = E[f+ + g+ + (f + g)−]

⇒ E[(f + g)+]− E[(f + g)−] = E[f+]− E[f−] + E[g+]− E[g−]

⇒ E[f + g] = E[f ] + E[g]

Page 26: Notas de Aula 2015

25

Teorema 1.3.10 Seja (Ω,F , P ) um espaco de probabilidade e f, g ∈ L1 (Ω,F , P ), e

c ∈ R. Entao:

1. Se f = 0 quase certamente, entao E[f ] = 0

2. Se f = g quase certamente, entao E[f ] = E[g]

3. Se f ≥ 0 e E[f ] = 0, entao f = 0 quase certamente.

4. Se E[fIA] ≤ E[gIA] ∀A ∈ F , entao f ≤ g quase certamente.

Demonstracao 1. Faremos esta demonstracao em 3 partes.

1.1 f v.a. simples Podemos escrever f =n∑i=1

aiIAi . Considere o conjunto N= ω ∈

Ω : f(ω) 6= 0. Por hipotese, P (N) = 0 e considere sem perda de generalidade que

a1 = 0.

Assim, ∀i 6= 1, temos Ai ⊆ N. Logo P (Ai) = 0 e, tomando esperanca:

E[f ] = a1P (A1) +∑Ai⊂N

aiP (Ai)

= 0 + 0 = 0

1.2 f v.a. nao negativa Seja uma v.a. fnn∈N tal que fn ≥ 0 e fn ↑ f . Alem

disso, por hipotese, fn ≤ f = 0 (q.c.). Entao, fn = 0 (q.c.) ∀n ∈ N. Como fn e

v.a. simples, aplica-se o que foi provado no item anterior, ou seja, E[fn] = 0∀n.

Aplicando definicao da esperanca de v.a. nao negativa:

E[f ] = limn→∞

E[fn], ondefn ↑ f

fn=0q.c.= 0

1.3 f v.a. qualquer Temos f = f+ − f−. Alem disso, por hipotese, P (B) = 0, onde

B= ω; f(ω) 6= 0.

Com isso, seus subconjuntos B+ = ω; f+(ω) > 0 e B− = ω; f(ω) < 0 terao

medida nula. Dessa forma temos que f+, f− = 0 q.c. E, pelo provado acima,

E[f+] = E[f−] = 0.

Page 27: Notas de Aula 2015

26

Concluindo, E[f ] = E[f+]− E[f−] = 0

2. Temos que f − g = 0 q.c.. Pelo item anterior, E(f − g) = 0. Usando que f, g ∈ L1:

E(f − g) = E(f)− E(g) = 0

=⇒ E(f) = E(g)

3. Definimos os conjuntos B = ω ∈ Ω; f(ω) > 0 e Bn = ω ∈ Ω; f(ω) > 1/n. Com

isso temos a seguinte desigualdade: f ≥ fIB ≥ fIBn ≥ (1/n)IBn . Tomando a

esperanca nos termos das pontas, teremos que P (Bn) = 0 ∀ n ∈ N.

Por B =∞⋃n=1

Bn e Bn ⊂ Bn+1 =⇒ P (B) = limn→∞

P (Bn) = 0.

Com isso teremos que f = 0 quase certamente

4. Seja B = ω : f(ω) > g(ω) ∈ F . Logo:

(f − g)IB ≥ 0

⇒ E[(f − g)IB] ≥ 0

⇒ E[fIB] ≥ E[gIB]

Alem disso, como E[fIA] ≤ E[gIA] ∀A ∈ F , temos:

E[fIB] ≤ E[gIB]

⇒ E[fIB] = E[gIB]

⇒ E[(f − g)IB] = 0

A partir disso, podemos mostrar que P (B) = 0. De fato, faca Bn = ω ∈ B :

f(ω)− g(ω) ≥ 1n, ∀ n ∈ N. Temos entao que:

Page 28: Notas de Aula 2015

27

0 ≤ (f − g)IBn ≤ (f − g)IB

⇒ 0 ≤ E[(f − g)IBn ] ≤ E[(f − g)IB] = 0

⇒ E[(f − g)IBn ] = 0

Alem disso, como f(ω)− g(ω) ≥ 1n ∀ ω ∈ Bn, segue que:

(f − g)IBn ≥1

nIBn

⇒ 0 = E[(f − g)IBn ] ≥ 1

nP (Bn)

⇒ P (Bn) = 0, ∀ n ∈ N

E facil ver que B = ∪n∈NBn. Temos entao que:

P (B) ≤∑n∈N

P (Bn) = 0

⇒ P (B) = 0

1.3.2 Espaco das variaveis aleatorias com 2o momento finito

Lema 1.3.11 No espaco L2 (Ω,F , P ), a funcao < , >: L2 × L2 7→ R, onde < ξ, η >=

E[ξη] sera um produto interno.

Demonstracao Seja f , g ∈ L2. Este produto interno estara bem definido devido a

desigualdade de Cauchy Schwarz pois E[fg]2 ≤ E[f2]E[g2] <∞.

Nos procedimentos seguintes usaremos que se f ∈ L2 =⇒ f ∈ L1 para aplicar o

teorema 1.3.9.

Para ser produto interno deve atender as seguintes condicoes:

(i) (linearidade) < , y >: L2 7→ R e funcional linear ∀ y ∈ L2.

Page 29: Notas de Aula 2015

28

Seja ξ, η, ψ ∈ L2 e a, b ∈ R.

< aξ + bη, ψ > = E[(aξ + bη)ψ]

= E[aξψ + bηψ]linear

= E[aξψ] + E[bηψ]

= aE[ξψ] + bE[ηψ]

= a < ξ, ψ > +b < η, ψ >

(ii) (simetria) < x, y >=< y, x > ∀ x, y ∈ L2.

Seja x, y ∈ L2.

< x, y > = E[xy] = E[yx]

=< y, x >

(iii) (positividade) < x, x >> 0∀ x 6= 0.

Seja f 6= 0 ∈ L2.

< f, f > = E[f2]

> 0 pois f2 > 0

Alem disso, como o espaco L2 e completo com respeito a norma induzida pelo produto

interno, ||ξ|| =< ξ, ξ >1/2, este e um exemplo de espaco de Hilbert. Algumas de suas

principais caracterısticas sao:

1. Duas variaveis f e g ∈ L2 sao ortogonais (f⊥g) se < f, g >= E[fg] = 0.

2. O conjunto M ⊆ L2 e dito um sistema de variaveis ortogonais se f⊥g ∀ f, g ∈

M (f 6= g). Se em adicao ||f || = 1∀ f ∈M =⇒ M e sistema ortonormal.

3. Seja M = η1, ..., ηn um sistema ortonormal e ξ ∈ L2. O melhor estimador linear

no sentido quadratico para ξ em termos de M sera:

ξ =n∑i=1

< ξ, ηi > ηi

Page 30: Notas de Aula 2015

29

1.4 Esperanca Condicional

1.4.1 Esperanca condicional a uma σ-algebra

Seja (Ω,F , P ) um espaco de probabilidade, X : Ω → R variavel aleatoria e G uma

σ-algebra contida em F .

Definicao 1.4.1 A esperanca de X condicional a G, e uma variavel aleatoria E[X|G] :

Ω→ R que satisfaz:

1. E[X|G] e G-mensuravel.

2.∫G

E[X|G]dP =∫G

XdP ∀G ∈ G.

A prova da existencia de uma variavel aleatoria que satisfaca as propriedades da

esperanca condicional se da pelo Teorema de Radon-Nikodyn e nao sera vista no curso.

A unicidade e dada pelo proximo teorema.

Teorema 1.4.1 Sejam (Ω,F , P ) um espaco de probabilidade, X : Ω→ R uma variavel

aleatoria e G uma σ-algebra contida em F . Se φ, ξ : Ω→ R sao variaveis aleatorias que

satisfazem as condicoes (1-2) da definicao de esperanca condicional e N = ω ∈ Ω :

φ(ω) 6= ξ(ω), entao P (N) = 0. Em outras palavras, φ, ξ sao iguais a menos de um

conjunto de probabilidade nula.

Demonstracao Sejam φ, ξ variaveis aleatorias que satisfazem as condicoes (1-2) da

definicao de esperanca condicional. Entao:

∫G

φdP =

∫G

ξdP,∀ G ∈ G

⇒ E[φIG] = E[ξIG],∀ G ∈ G

Logo, utilizando o resultado 4 do Teorema 1.3.10, temos que φ ≤ ξ quase certamente

e ξ ≤ φ quase certamente. Entao φ = ξ a menos de um conjunto de medida nula.

Teorema 1.4.2 Sejam (Ω,F , P ) um espaco de probabilidade, X,Y : Ω → R variaveis

aleatorias e G uma σ-algebra contida em F . Se X e G-mensuravel, entao:

E[XY |G] = XE[Y |G]

Page 31: Notas de Aula 2015

30

Demonstracao Queremos mostrar que∫G

XE[Y |G]dP =∫G

XY dP ∀G ∈ G.

Caso 1: X funcao simples

Seja X(ω) =∑n

i=1 aiIAi(ω). Entao:

∫G

XE[Y |G]dP =

∫G

n∑i=1

aiIAiE[Y |G]dP

=n∑i=1

ai

∫G

IAiE[Y |G]dP

=n∑i=1

ai

∫G∩Ai

E[Y |G]dP

=

n∑i=1

ai

∫G∩Ai

Y dP

=

n∑i=1

ai

∫G

IAiY dP

=

∫G

n∑i=1

aiIAiY dP

=

∫G

XY dP

Caso 2: X nao negativa

Seja X : Ω → R+ G-mensuravel. Entao existe Xnn∈N tal que Xn ↑ X, Xn funcao

Page 32: Notas de Aula 2015

31

simples ∀ n. Temos que:

∫G

XE[Y |G]dP =

∫G

XE[Y |G]+ − E[Y |G]−dP

=

∫G

limn→∞

XnE[Y |G]+dP −∫G

limn→∞

XnE[Y |G]−dP

Como XnE[Y |G]+ ↑ XE[Y |G]+ e XnE[Y |G]− ↑ XE[Y G]−,

TCM= lim

n→∞

∫GXnE[Y |G]+dP − lim

n→∞

∫G

XnE[Y |G]−dP

= limn→∞

∫GXnE[Y |G]dP

caso1= lim

n→∞

∫GXnY dP

= limn→∞

∫G

XnY+dP − lim

n→∞

∫G

XnY−dP

Como XnY+ ↑ XY + e XnY

− ↑ XY −,

TCM=

∫G

XY +dP −∫G

XY −dP

=

∫G

XY dP

Caso 3: X mensuravel

Seja X : Ω→ R G-mensuravel. Entao X = X+ −X− e podemos escrever:

∫G

XE[Y |G]dP =

∫G

(X+ −X−)E[Y |G]dP

=

∫G

X+E[Y |G]dP −∫G

X−E[Y |G]dP

=

∫G

X+Y dP −∫G

X−Y dP

=

∫G

(X+ −X−)Y dP

=

∫G

XY dP

Teorema 1.4.3 Seja (Ω,F , P ) um espaco de probabilidade, X : Ω → R uma variavel

aleatoria e G1 ⊂ G2 σ-algebras contidas em F . Entao:

1. E[E[X|G1]|G2] = E[X|G1]

Page 33: Notas de Aula 2015

32

2. E[E[X|G2]|G1] = E[X|G1]

Demonstracao 1. Basta observar que, como E[X|G1] e G1-mensuravel e G1 ⊂ G2,

entao E[X|G1] e tambem G2-mensuravel. Assim sendo, basta aplicar o Teorema 13

com Y = 1 para obter o resultado.

2. Note que E[X|G1] e G1-mensuravel e, tomando G ∈ G1 arbitrario,

∫G

E[E[X|G2]|G1]dP =

∫G

E[X|G2]dP

=

∫G

XdP

=

∫G

E[X|G1]dP

1.4.2 Esperanca condicional a uma decomposicao

Seja (Ω,F , P ) um espaco probabilıstico, X : Ω → R uma variavel aleatoria e D =

D1, . . . , Dk uma decomposicao de Ω.

Definicao 1.4.2 Definimos a esperanca condicional de X com respeito a D por

E[X|D] =k∑i=1

E[X|Di]IDi(ω)

com E[X|Di] =E[XIDi ]

P (Di).

Note que E[X|D] e uma variavel aleatoria D-mensuravel (constante nos atomos Dis).

Em particular, ela assume no atomo Di a media de X restrita a Di (E[XIDi ]

P (Di)).

Teorema 1.4.4 Seja (Ω,F , P ) um espaco probabilıstico, X,Y : Ω → R variaveis

aleatorias, a, b ∈ R e D = D1, . . . , Dk uma decomposicao de Ω.

1. E[aX + bY |D] = aE[X|D] + bE[Y |D]

2. E[X|Ω] = E[X]

3. E[c|D] = c

4. E[E[X|D]] = E[X]

5. Se X e D-mensuravel, entao E[XY |D] = XE[Y |D]

Page 34: Notas de Aula 2015

33

Demonstracao 1. Por definicao: E(aX + bY |D) =k∑i=1

E(aX + bY |Di)IDi onde

E(aX + bY |Di) =E(aXIDi)

P (Di)+

E(bY IDi)

P (Di)

= aE(XIDi)

P (Di)+ b

E(Y IDi)

P (Di)

= aE(X|Di) + bE(Y |Di)

Entao,

E(aX + bY |D) =k∑i=1

aE(X|Di) + bE(Y |Di)

def.= aE(X|D) + bE(Y |D)

2.

E(X|Ω) = E(X|Ω)IΩP (Ω)=1

= E(XIΩ) = E(X)

3.

E(c|D) =k∑i=1

E(c|Di)IDi

=

k∑i=1

E(cIDi)

P (Di)IDi

= c

Page 35: Notas de Aula 2015

34

4.

E(E(X|D)) =

k∑i=1

E(X|Di)P (Di)

=

k∑i=1

E(XIDi)

linear= E

(X

k∑i=1

IDi

)

= E(XIΩ) = E(X)

5.

E(XY |D) =k∑i=1

E(XY |Di)IDi

=k∑i=1

E(XY IDi)

P (Di)IDi

=

k∑i=1

E(Y xi)

P (Di)IDi , pois X e D −mensuravel

=k∑i=1

xiE(Y IDi)

P (Di)IDi

=k∑i=1

xiIDiE(Y |Di) = XE(Y |D)

Teorema 1.4.5 Seja (Ω,F , P ) um espaco probabilıstico, X : Ω → R uma variavel

aleatoria e D1,D2 decomposicoes de Ω. Se D1 D2,

1. E[E[X|D1]|D2] = E[X|D1]

2. E[E[X|D2]|D1] = E[X|D1]

Demonstracao 1.

Page 36: Notas de Aula 2015

35

2.

E[E[X|D2]|D1] =

m∑j=1

E[E[X|D2]ID1j ]ID1j

P (D1j)

=m∑j=1

E[∑n

i=1 E[X|D2i]ID2iID1j ]ID1j

P (D1j)

=m∑j=1

E[∑

D2i⊆D1jE[X|D2i]ID2iID1j ]ID1j

P (D1j)

=

m∑j=1

∑D2i⊆D1j

E[X|D2i]E[

ID2i︷ ︸︸ ︷ID2iID1j ]ID1j

P (D1j)

=m∑j=1

∑D2i⊆D1j

E[XID2i ]P (D2i)

P (D2i)

ID1j

P (D1j)

=m∑j=1

∑D2i⊆D1j

E[XID2i ]ID1j

P (D1j)

=m∑j=1

E[X

ID1j︷ ︸︸ ︷∑D2i⊆D1j

ID2i ]ID1j

P (D1j)

=

m∑j=1

E[XID1j ]ID1j

P (D1j)

= E[X|D1]

1.5 Modos de Convergencia

Seja (Ω,F , P ) um espaco probabilıstico, ξ : Ω → R uma variavel aleatoria e ξnn∈N

uma sequencia de variaveis aleatorias.

Definicao 1.5.1 (Convergencia em probabilidade)

ξnp→ ξ ⇔ lim

n→∞P (|ξn − ξ| > ε) = 0,∀ ε.

Definicao 1.5.2 (Convergencia quase certa)

ξnq.c.→ ξ ⇔ ∃ B ∈ F tal que P (B) = 0, com lim

n→∞ξn(ω) = ξ(ω), ∀ω ∈ Ω\B.

Page 37: Notas de Aula 2015

36

Definicao 1.5.3 (Convergencia na norma Lp (0 < p <∞))

ξnLp→ ξ ⇔ lim

n→∞E[|ξn − ξ|p] = 0.

Definicao 1.5.4 (Convergencia em distribuicao)

ξnd→ ξ ⇔ lim

n→∞E[f(ξn)] = E[f(ξ)]

para toda funcao f contınua e limitada. De modo equivalente:

ξnd→ ξ ⇔ lim

n→∞Fξn = Fξ

para todo ponto de continuidade da funcao de distribuicao acumulada de ξ, Fξ, sendo

Fξn a funcao de distribuicao acumulada de ξn.

1.5.1 Implicacoes

Teorema 1.5.1 Existe a seguinte cadeia de implicacoes em modos de convergencia:

1. ξnLp→ ξ ⇒ ξn

p→ ξ

2. ξnq.c.→ ξ ⇒ ξn

p→ ξ

3. ξnp→ ξ ⇒ ξn

d→ ξ

Demonstracao 1. Trata-se de uma prova bem simples por meio da desigualdade de

Chebychev,

E(|ξn − ξ|p) = E(|ξn − ξ|pI|ξn−ξ|≤ε) + E(|ξn − ξ|pI|ξn−ξ|>ε)

≥ εpP (|ξn − ξ| > ε) ≥ 0

Como por hipotese o lado esquedo vai a zero, teremos a convergencia em probabi-

lidade.

2. Usaremos a seguinte equivalencia:

Xnq.c.→ X ⇐⇒ ∀ε > 0, P (|Xn −X| < ε ∀n ≥ m)

m→ 1.

Page 38: Notas de Aula 2015

37

Definindo os seguintes conjuntos:

Am = ω ∈ Ω; |Xn −X| < ε ∀ n ≥ m

Cm = ω ∈ Ω; |Xm −X| ≥ ε

Note que Cm ⊂ Acm. Logo:

P (Cm) ≤ 1− P (Am) ∀ m ∈ N

=⇒ limm→∞

P (|Xn −X| ≥ ε) ≤ 1− limm→∞

P (Am) = 0

3. Sabe-se que:

ξnp→ ξ ⇒ P (|ξn − ξ| > ε) →

n→∞0,∀ ε > 0

⇒ lim supn

P (|ξn − ξ| > ε) = lim infn

P (|ξn − ξ| > ε) = 0, ∀ε > 0

Note que:

Fξn(x) = P (ξn ≤ x) = P (ξn ≤ x e ξ ≤ x+ ε) + P (ξn ≤ x e ξ > x+ ε)

Alem disso, temos que ξn ≤ x e ξ > x + ε ⇒ |ξn − ξ| > ε. Isso implica que

P (ξn ≤ x eξ > x+ ε) ≤ P (|ξn − ξ| > ε).

No mais, como P (ξn ≤ x e ξ ≤ x+ ε) ≤ P (ξ ≤ x+ ε) = Fξ(x+ ε), temos que:

Fξn(x) ≤ P (|ξn − ξ| > ε) + Fξ(x+ ε)

⇒ lim supn

Fξn(x) ≤ lim supn

P (|ξn − ξ| > ε) + lim supn

Fξ(x+ ε)

⇒ lim supn

Fξn(x) ≤ Fξ(x+ ε)

Por outro lado:

Page 39: Notas de Aula 2015

38

Fξ(x− ε) = P (ξ ≤ x− ε)

⇒ Fξ(x− ε) = P (ξ ≤ x− ε e ξn > x) + P (ξ ≤ x− ε e ξn ≤ x)

Em seguida, note que ξn > x e ξ ≤ x − ε ⇒ |ξn − ξ| > ε. Isso implica que

P (ξn > x e ξ ≤ x− ε) ≤ P (|ξn − ξ| > ε).

No mais, como P (ξn ≤ x e ξ ≤ x− ε) ≤ P (ξn ≤ x) = Fξn(x), temos que:

Fξ(x− ε) ≤ P (|ξn − ξ| > ε) + Fξn(x)

⇒ lim infn

Fξ(x− ε) ≤ lim infn

P (|ξn − ξ| > ε) + lim infn

Fξn(x)

⇒ lim infn

Fξn(x) ≥ Fξ(x− ε)

Logo:

Fξ(x− ε) ≤ lim infn

Fξn(x) ≤ lim supn

Fξn(x) ≤ Fξ(x+ ε),∀ ε > 0

Fazendo ε→ 0 e usando a hipotese de que Fξ e contınua em x:

Fξ(x) ≤ lim infn

Fξn(x) ≤ lim supn

Fξn(x) ≤ Fξ(x)

Logo, Fξn(x)→ Fξ(x) para todo ponto de continuidade de Fξ.

⇒ ξnd→ ξ

O item 3 deste teorema nos informa que: ξnp→ ξ ⇒ ξn

d→ ξ. De fato, sabe-se

que a recıproca nao e verdadeira (veja exemplo 3 abaixo). Entretanto, no caso parti-

cular em que ξ = c, c constante, convergencia em distribuicao implica convergencia em

probabilidade.

De fato, sendo:

Page 40: Notas de Aula 2015

39

Fξ(x) =

0 se x < c

1 se x ≥ c

Como ξnd→ ξ, vale que Fξn(x)→ Fξ(x), x 6= c

Temos entao que:

P (|ξn − c| ≤ ε) = P (c− ε ≤ ξn ≤ c+ ε)

⇒ P (|ξn − c| ≤ ε) ≥ Fξn(c+ ε)− Fξn(c− ε)→ 1

⇒ ξnp→ c

Deixaremos para o leitor, completar a prova da parte 2 do teorema acima, fazendo

uso do seguinte teorema:

Teorema 1.5.2

ξnq.c.→ ξ ⇔ lim

n→∞P (supk≥n|ξk − ξ| > ε) = 0,∀ ε.

Demonstracao Seja Aεn = ω : |ξn(ω)− ξ(ω)| > ε e Aε = lim supAεn ≡⋂∞n=1 ∪k≥nAεk.

Entao, se ω ∈ Aε para algum ε, ξn(ω) 6→ ξ(ω).

⇒ ∪εAε ⊆ ξn(ω) 6→ ξ(ω)

Por outro lado, se ξn(ω) 6→ ξ(ω), ∃ ε > 0 tal que , ∀ n ∈ N, ∃ k ≥ n tal que

|ξk(ω)− ξ(ω)| > ε. Entao ω ∈ lim supAεn = Aε.

⇒ ∪εAε ⊇ ξn(ω) 6→ ξ(ω)

⇒ ∪εAε = ξn(ω) 6→ ξ(ω)

Em seguida, vamos mostrar que ∪εAε = ∪∞n=1A1/n. De fato, note que Aε ⊆ Aε

∀ ε′ < ε. Tome entao ω ∈ ∪εAε. Sabemos que ∃ ε tal que ω ∈ Aε. Entao ∃ m ∈ N

tal que 1/m < ε, o que implica que ω ∈ A1/m.

Page 41: Notas de Aula 2015

40

⇒ ∪εAε ⊆ ∪∞n=1A1/n

No mais, se ω ∈ ∪∞n=1A1/n, ∃ m tal que ω ∈ A1/m. Entao ∃ ε tal que ε < 1/m, o

que implica que ω ∈ Aε.

⇒ ∪εAε ⊇ ∪∞n=1A1/n

⇒ ∪εAε = ∪∞n=1A1/n

Temos entao que:

ξnq.c.→ ξ ⇔ P (ω : ξn(ω) 6→ ξ(ω)) = 0

⇔ P (∪εAε) = 0

⇔ P (∪∞n=1A1/n) = 0

⇔ P (A1/n) = 0, ∀ n ∈ N

⇔ P (Aε) = 0,∀ ε > 0

⇔ P (∞⋂n=1

∪k≥nAεk) = 0, ∀ ε > 0

P cont. por cima⇔ limn→∞

P (∪k≥nAεk) = 0,∀ ε > 0

⇔ limn→∞

P (supk≥n|ξk − ξ| > ε) = 0,∀ ε > 0

Corolario 1.5.3∞∑k=1

P (|ξk − ξ| > ε) <∞⇒ ξnq.c.→ ξ.

Demonstracao Basta notar que vale a seguinte desigualdade:

limn→∞

P (sup|ξk − ξ| > ε) ≤ limn→∞

∑n≥k

P (|ξk − ξ| > ε)

Note que nao existe implicacao entre convergencia quase certa e convergencia na

norma Lp. Os exemplos a seguir ilustram esse fato.

Page 42: Notas de Aula 2015

41

Exemplo 1 ξnLp→ ξ 6⇒ ξn

q.c.→ ξ e ξnp→ ξ 6⇒ ξn

q.c.→ ξ

Seja Ω = [0, 1],F = B([0, 1]) e P = λ(.) (Medida de Lebesgue). Considere a sequencia

de variaveis aleatorias definida por:

ξ1 = I[0,1/2], ξ2 = I[1/2,1]

ξ3 = I[0,1/4], ξ4 = I[1/4,2/4], ξ5 = I[2/4,3/4], ξ6 = I[3/4,1]

. . .

Note que esta sequencia converge na norma Lp para 0. De fato:

Temos que ξn ≥ 0∀n ⇒ E[|ξn|p] = E[ξpn]. No mais, se ξn esta na m-esima linha,

entao E[ξpn] = 2−m. Se n→∞, entao m→∞, ja que m e o numero da linha na qual a

n-esima variavel da sequencia se encontra.

⇒ limn→∞

E[ξpn] = 0

⇒ ξnLp→ ξ

Por outro lado, suponha por contradicao que ξn(ω)→ 0para algum ω. Entao existe

n ∈ N tal que ξn(ω) = 0, ∀ n ≥ n. Porem, ∀ linha m, existe n(m) tal que ξn(m)(ω) = 1.

⇒ contradicao

⇒ Logo ξn(ω)q.c.

6→ 0 para nenhum ω ∈ Ω

Exemplo 2 ξnq.c.→ ξ 6⇒ ξn

Lp→ ξ e ξnp→ ξ 6⇒ ξn

Lp→ ξ

Seja Ω = [0, 1],F = B([0, 1]) e P = λ(.) (Medida de Lebesgue). Considere a sequencia

de variaveis aleatorias definida por:

ξn(ω) =

en 0 ≤ ω ≤ 1/n

0 ω > 1/n

para todo n.

Note que, para qualquer ω 6= 0, existe n(ω) tal que ξk(ω) = 0, ∀k > n(ω). De fato,

basta tomar n(ω) > 1/w. Assim sendo, ξn(ω)→ 0∀ ω ∈ (0, 1].

Mas E[|ξn|p] = enp.P (ξn = en) = enp. 1n →∞

Page 43: Notas de Aula 2015

42

⇒ ξnLp

6→ 0

Exemplo 3 Xnd→ X 6⇒ Xn

p→ X

Seja Xnn e X independentes com distribuicao N(0, 12). Assim, Xn

d→ X pois

as ditribuicoes acumuladas FXn ,∀n e FX sao todas iguais. No entanto, como Xn − X

e variavel aleatoria com distribuicao N(0, 1), calculando-se P (|Xn − X| ≥ ε) obtemos

P (|Xn−X| ≥ ε) = 2−2Φ(ε). NOte que tal probabilidade e diferente de zero e independe

de n garantindo que ⇒ Xn

p

6→ X .

Teorema 1.5.4 (Lei Fraca dos Grandes Numeros) Seja ξnn∈N uma sequencia de

variaveis aleatorias i.i.d. com E[ξn] = µ ∀ n e variancia finita. Seja Sn =∑n

i=1 ξi.

Entao Snn

P→ µ.

Demonstracao Dado ε > 0, usaremos a desigualdade de Chebychev:

P (|Sn/n− µ| > ε) ≤ E(Sn/n−µ)2

ε2

Note que o termo da direita vai a zero para n →∞:

E(Sn/n− µ)2 =

E(n∑i=1

(ξi − µ))2

n2

=

∑i=j

E(ξi − µ)2 +∑i 6=j

E(ξi − µ)(ξj − µ)

n2

=σ2

n+µ2

n

n→∞→ 0

Em seguida, considere uma sequencia de eventos Ann∈N, com An ∈ F∀ n, e denote

por ¯limAn o conjunto⋂∞n=1 ∪k≥nAk, que significa uma ocorrencia de um numero infinito

de A′ns. Por que?

Tome ω ∈ ¯limAn. Se ∀ n ≥ 1, ω ∈ ∪k≥nAk, entao ∀ n ≥ 1,∃ kn ≥ n tal que

ω ∈ Akn implica que existe uma sequencia knn∈N crescente, com kn → ∞, tal que

ω ∈ Akn∀ n.

Lema 1.5.5 (Lema de Borel Cantelli) Seja Ann∈N uma sequencia de eventos, com

An ∈ F ∀ n.

Page 44: Notas de Aula 2015

43

1. Se∑

n P (An) <∞, entao P ( ¯limAn) = 0.

2. Se∑

n P (An) =∞ e os eventos Ann∈N sao independentes, entao P ( ¯limAn) = 1.

Demonstracao 1. Defina Bn = ∪k≥nAk. E facil ver que Bn+1 ⊆ Bn ∀ n. Assim

sendo,

P (lim supAn) = P (∩∞n=1Bn)P cont. por cima

= limn→∞

P (Bn) = limn→∞

P (∪k≥nAk)

Note que, se∑

n P (An) <∞, entao ∃ c ∈ R tal que∑∞

n=1 P (An) = c. Logo,

∑k<n

P (Ak) +∑k≥n

P (Ak) = c

Sabemos que:

limn→∞

∑k<n

P (Ak) =∞∑n=1

P (An) = c

⇒ limn→∞

∑k≥n

P (Ak) = c− c = 0

Portanto:

P (∪k≥nAk) ≤∑k≥n

P (Ak)

⇒ limn→∞

P (∪k≥nAk) ≤ limn→∞

∑k≥n

P (Ak) = 0

⇒ limn→∞

P (∪k≥nAk) = 0

⇒ P (lim supAn) = 0

Page 45: Notas de Aula 2015

44

2. Temos usando De Morgan e as propriedades de medida:

1− P (lim supAn) = P (⋃n∈N∩k≥nAck)

≤∑n∈N

P (∩k≥nAck)

=∏k≥n

P (Ack) pois sao independentes

Neste caso e valida a desigualdade de Bernoulli, 1− x ≤ e−x se x ≥ 0. Assim:

N∏k≥n

1− P (Ak) ≤N∏k≥n

e−P (Ak) = e−

N∑k≥n

P (Ak)

∀ N > k

=⇒ limN→∞

N∏k≥n

1− P (Ak) ≤ limN→∞

e−

N∑k≥n

P (Ak)

= 0

Entao, pela desigualdade inicial temos P (lim supAn) = 1 .

Corolario 1.5.6 Seja εnn∈N uma sequencia de numeros positivos tal que ε 0

quando n∞. Se∑∞

n=1 P (|ξn − ξ| ≥ εn) <∞, entao ξnq.c.→ ξ.

Demonstracao Seja An = ω ∈ Ω; |ξn − ξ| ≥ εn. Pelo lema de Borel-Cantelli,

P ( ¯limAn) = 0. Dessa forma teremos o resultado ao notar:

ω ∈ Ω; ξn 9 ξ ⊂⋂n∈N

(∪k≥nAk) = ¯limAn

1.6 Funcoes Caracterısticas

Vamos comecar definindo uma funcao geradora de momentos.

Definicao 1.6.1 Seja (Ω,F , P ) um espaco de probabilidade e seja X : Ω → R F-

mensuravel. Definimos a funcao geradora de momentos de X por:

MX(t) ≡ E[etX ], t ∈ R

Exemplo 1 Funcao geradora de momentos de uma normal.

Seja X ∼ N(µ, σ2). Primeiramente, vamos calcular a funcao geradora de momentos

de uma normal padrao Z. Note que:

Page 46: Notas de Aula 2015

45

MZ(t) = E[etZ ] =

∫ ∞−∞

etx1√2πe−

x2

2 dx = et2

2

Sabemos que, se X = µ+ σZ, entao X ∼ N(µ, σ2). Logo:

MX = E[e(µ+σZ)t] = eµtMZ(σt) = eµt+σ2t2

2

A funcao geradora de momentos e importante pois caracteriza os momentos de uma

variavel aleatoria. De fato, temos que, se existe MX , E[Xn] = ∂nMX∂tn (0). Para verificar

isto, basta considerar a expansao de Taylor de etX em torno de zero.

Porem, a funcao geradora de momentos nao garante coincidencia da funcao de dis-

tribuicao quando duas variaveis aleatorias tem a mesma f.g.m., mas a distribuicao nao

tem suporte compacto (ver exemplo no Casella).

Vamos trabalhar com uma funcao semelhante, a funcao caracterıstica.

Definicao 1.6.2 Seja (Ω,F , P ) um espaco de probabilidade e seja X : Ω → R F-

mensuravel. Definimos a funcao caracterıstica de X por:

ϕX(t) ≡ E[eitX ], t ∈ R

Note que ϕX(t) = MiX(t) = MX(it). A grande vantagem desta funcao sobre a

f.g.m. e que ela caracteriza completamente a funcao de distribuicao de uma variavel

aleatoria, conforme veremos adiante. Esta vantagem advem em parte do fato que a

variavel aleatoria complexa eitX = cos(tX) + isen(tX), definida em Ω → C, possui

esperanca finita para qualquer t, pois sen(.) e cos(.) sao funcoes limitadas.

Algumas propriedades de funcoes caracterısticas sao:

P.1 - |ϕX(t)| ≤ 1, ∀ t ∈ R

P.2 - ϕX(0) = 1

P.3 - ¯ϕX(t) = ϕX(−t)

P.4 - ϕX e uniformemente contınua

P.5 - SeX e Y sao variaveis aleatorias independentes, entao ϕX+Y (t) = ϕX(t).ϕY (t),∀ t ∈

R

Page 47: Notas de Aula 2015

46

P.6 - A funcao caracterıstica de uma variavel aleatoria X determina a funcao de dis-

tribuicao de X, FX

P.7 - Se Y = aX + b, entao ϕY (t) = eitb.ϕX(at)

P.8 - Se E|X|n <∞ entao ϕX possui n derivadas contınuas

Demonstracao P.1

|ϕX(t)| = |E[eitX ]| =√

[E(cos(tX))]2 + [E(sen(tX))]2Jensen≤

√[E(cos2(tX)) + E(sen2(tX))] = 1

P.2

E[eiX.0] = E[1] = 1

P.3

¯ϕX(t) = E[cos(tX)]− iE[sen(tX)]

= E[cos(tX)− isen(tX)]

= E[cos(−tX) + isen(−tX)]

= ϕX(−t)

P.4

|ϕX(t)− ϕX(s)|Jensen≤ E|eisX(ei(t−s)X − 1)| ≤ E|ei(t−s)X − 1| s→t→ 0

pelo Teorema da Convergencia Dominada (7) e o fato de que |eisX | = 1

P.5

ϕX+Y (t) = E[eitXeitY ]

indep.= E[eitX ]E[eitY ]

= ϕX(t)ϕY (t)

P.6 - Deriva do fato de que a funcao caracterıstica e a Transformada de Fourier da funcao

de densidade de probabilidade de uma V.A. Como Transformada de Fourier admite

Page 48: Notas de Aula 2015

47

uma inversao quando a funcao original f e absolutamente integravel e contınua e

a transformada e absolutamente integravel, pode-se obter a densidade original

utilizando-se a Transformada inversa de Fourier.

De fato, dada uma V.A. X com funcao de distribuicao acumulada FX e funcao

caracterıstica ϕX temos:

FX(z) = limy↓zlimx→−∞limu→∞1

∫ u

−u

e−itx − e−ity

itϕX(t)dt (1)

P.7

ϕY (t) = ϕaX+b(t) = E[eit(aX+b)]

= eitbE[eitaX ]

= eitbϕX(at)

P.8 - Primeiramente precisamos verificar que podemos trocar a ordem da derivada com

a integral. Para tanto usaremos o TCD. Seja h 6= 0:

ϕ(t+ h)− ϕ(t)

h=

∫ei(t+h)X − eitX

hdF (x)

=

∫eitX

eihX − 1

hdF (x)

= E[eitX

eihX − 1

h

]

Agora note que ∀ x ∈ R:

|eitx eihx − 1

h| ≤ |

∫ixeisxds

h| = |x||

∫eisxds

h|

≤ |x|

Page 49: Notas de Aula 2015

48

Entao, como por hipotese X e integravel, podemos aplicar o TCD.

ϕ′(t) = limh→0

ϕ(t+ h)− ϕ(t)

h

= limh→0

E[eitX

eihX − 1

h

]TCD= E[iXeitX ]

E sera contınua pelo fato de podermos passar o limite para dentro da integral pois

|ixeisx| = |x| e pois o termo de dentro da esperanca e contınuo em t. Para terminar

a prova basta prosseguir por inducao.

Exemplo 2 Funcao caracterıstica de uma normal padrao.

ϕX(t) = E[eitX ] =

∫ ∞−∞

eitx1√2πe−

x2

2 dx

⇒ ϕX(t) =

∫ ∞−∞

1√2πe−

(x−it)22 e−

t2

2 dx

⇒ ϕX(t) = e−t2

2

∫ ∞−∞

1√2πe−

(x−it)22 dx = e−

t2

2

Em seguida, vamos obter um resultado bastante pratico para provar que uma sequencia

de variaveis aleatorias converge em distribuicao para outra variavel aleatoria. Considere

entao a sequencia ξnn∈N, com funcoes de distribuicao Fξnn∈N. Note que, se ξnd→ ξ,

vale que E[f(ξn)]→ E[f(ξ)] para toda funcao f contınua e limitada (por definicao). Em

particular, se tomarmos f(x) = eitx, t ∈ R, temos que vale o resultado acima e, por-

tanto, ϕξn(t) → ϕξ(t). Como tomamos t arbitrario, temos que, se ξnd→ ξ, a sequencia

de funcoes caracterısticas ϕξnn∈N converge pontualmente para ϕξ(t).

Acontece que a recıproca tambem e verdadeira, como veremos pelo resultado abaixo:

Teorema 1.6.1 (Teorema da Continuidade de Paul Levy) Seja Fnn∈N uma sequencia

de funcoes de distribuicao cujas funcoes caracterısticas sao dadas por ϕnn∈N. Se

ϕn(t)→ ϕ(t) ∀ t ∈ R e se ϕ e contınua em zero, entao

1. Existe uma funcao de distribuicao F tal que Fn → F fracamente

2. ϕ e a funcao caracterıstica de F .

Page 50: Notas de Aula 2015

49

Logo, temos que ξnd→ ξ ⇔ ϕn → ϕ pontualmente.

Munidos da ferramenta de funcoes caracterısticas, tambem somos capazes de de-

monstrar os seguintes importantes resultados:

Teorema 1.6.2 (Teorema Central do Limite para variaveis aleatorias i.i.d.) Seja

ξnn∈N uma sequencia de variaveis aleatorias i.i.d. com media µ e variancia σ2,

0 < σ2 <∞, e seja Sn =∑n

i=1 ξi. Entao

Snn − E[Snn ]√V ar(Sn)

n

d→ N(0, 1)

i.e.,√n (Xn−µ)

σd→ N(0, 1).

Demonstracao Suponha, sem perda de generalidade, µ = 0. Note que√nXnσ = Sn

σ√n

.

Entao:

ϕ Snσ√n

(t) = ϕSn(t

σ√n

) =

n∏k=1

ϕξk(t

σ√n

) = (ϕξ1(t

σ√n

))n

Fazendo uma expansao de taylor de segunda ordem de ϕξ1 em torno de zero, obtemos:

ϕξ1 = ϕ(0) + ϕ′(0)t+ ϕ′′(θ(t))t2

2, com |θ(t)| ≤ |t|

= 1 +

ϕ′′(0)︷ ︸︸ ︷i2E[ξ2

1 ]t2

2+t2

2

≡ρ(t)︷ ︸︸ ︷[ϕ′′(θ(t))− ϕ′′(0)]

Note que ρ(t)→ 0 quando t→ 0. Logo:

⇒ (ϕξ1(t

σ√n

))n = (1− σ2( tσ√n

)2

2+

t2

2σ2nρ(

t

σ√n

))n

= (1− t2

2n(1− 1

σ2ρ(

t

σ√n

))n

→ e−t2

2

usando o fato de que (1 + cnn )n → ec quando cn → c.

Teorema 1.6.3 (Teorema do Mapa Contınuo) Seja ξnn∈N sequencia de variaveis

aleatorias e g : R→ R uma funcao contınua. Entao

Page 51: Notas de Aula 2015

50

1. ξnq.c.→ ξ ⇒ g(ξn)

q.c.→ g(ξ)

2. ξnp→ ξ ⇒ g(ξn)

p→ g(ξ)

3. ξnd→ ξ ⇒ g(ξn)

d→ g(ξ)

Demonstracao 1. Seja B = ω : ξn(ω) 6→ ξ(ω). Como ξnq.c.→ ξ, sabemos que P (B) =

0.

Tome ω ∈ Bc arbitrario. Entao ξn(ω) → ξ(ω). Logo, como g e contınua,

g(ξn(ω))→ g(ξ(ω)).

⇒ g(ξn)q.c.→ g(ξ)

2. Dado ε > 0, por ξ v.a., ∃ m tal que P (|ξ| < m/2) > 1− ε.

Por g(.) uniformemente contınua em [-m, m], ∃δ < m/2 tal que se |x|, |y| ≤ m e

|x− y| < δ =⇒ |g(x)− g(y)| < ε. Disto segue a seguinte cadeia de relacoes:

|ξ| ≤ m/2 ∩ |ξn − ξ| < δ ⊂ |ξ| ≤ m ∩ |ξn| ≤ m ∩ |ξn − ξ| ≤ δ

⊂ |g(ξn)− g(ξ)| < ε

Assim,

P (|g(ξn)− g(ξ)| < ε) ≥ P (|ξ| ≤ m/2 ∩ |ξn − ξ| < δ)

≥ P (|ξ| ≤ m/2)

> 1− ε

Como para 0 < γ < ε, vale:

P (|g(ξn)− g(ξ)| < ε) ≥ P (|g(ξn)− g(ξ)| < γ) > 1− γ

Tomando n→∞ e γ → 0 =⇒ g(ξn)p→ g(ξ)

3. Vamos mostrar que ϕg(ξn) → ϕg(ξ) pontualmente. De fato:

ϕg(ξn)(t) = E[eitg(ξn)] = E[cos(tg(ξn))] + iE[sen(tg(ξn))]

Page 52: Notas de Aula 2015

51

Temos que sen(.) e cos(.) sao funcoes contınuas e limitadas e g e contınua, o que

implica em sen(tg(.)) e cos(tg(.)) contınuas e limitadas. Logo, usando que ξnd→ ξ:

limn→∞

ϕg(ξn)(t) = E[cos(tg(ξ))] + iE[sen(tg(ξ))] = ϕg(ξ)(t)

Logo, pelo Teorema da continuidade de Levy, g(ξn)d→ g(ξ).

Teorema 1.6.4 (Teorema de Slutsky) Sejam Xnn∈N e Ynn∈N sequencia de variaveis

aleatorias tais que Xnd→ X e Yn

p→ c, onde c ∈ R. Entao,

1. Xn + Ynd→ X + c

2. YnXnd→ c X

Demonstracao 1. Utilizaremos a convergencia de funcoes caracterısticas nesta prova.

ϕXn+Yn(t) = E[eit(Xn+Yn)]

= E[eitXn(eitYn − eitc)] + E[eit(Xn+c)]

Por mapa contınuo, g(yn) = |eityn − eitc| p→ 0

E, como |eityn − eitc| ≤ 2 =⇒ E[|eityn − eitc|]→ 0

Dessa forma teremos a seguinte relacao:

|E[eitXn(eitYn − eitc)]| ≤ E[|eitXn(eitYn − eitc)|]

≤ E[|eitYn − eitc|]

n→∞→ 0

Logo, temos que ϕXn+Yn → ϕX+c

2. Inicialmente c=0. Seja ε, δ > 0 e x < 0 < y pontos de continuidade de FX tal que

FX(y)− FX(x) = P (x < X < y) > 1− δ.

Page 53: Notas de Aula 2015

52

Por hipotese, para n suficientemente grande:

P (x < Xn ≤ y) = FXn(y)− FXn(x) > 1− δ

P (|Yn| < ε/M) > 1− δ, onde M = maxy,−x

Entao,

P (|XnYn| < ε) ≥ P (x < Xn ≤ y ∩ |Yn| < ε/M)

> 1− 2δ

Assim, XnYnp→ 0 =⇒ XnYn

d→ 0.

Agora generalizando para qualquer c. Note que XnYn = cXn + (Yn − c)Xn.

ϕcXn(t) = ϕXn(ct)→ ϕX(ct) = ϕcX(t)∀t ∈ R

Ja para o segundo termo usamos o caso c=0 e temos (Yn − c)Xnp→ 0.

Agora, aplicando o resultado obtido no item 1 temos o resultado.

Page 54: Notas de Aula 2015

53

2 Estatıstica

2.1 Propriedades de uma Amostra Aleatoria

Definicao 2.1.1 As variaveis aleatorias Xini=1 sao chamadas de amostra aleatoria de

tamanho n de uma populacao f(x) se sao i.i.d. e sua funcao densidade de probabilidade

e f .

Sua densidade conjunta e entao dada por f(x1, . . . , xn) =∏ni=1 f(xi).

Definicao 2.1.2 Considere a amostra aleatoria Xini=1 de uma certa populacao e seja

T : Rn → Rk (em particular, podemos ter k = 1). Temos que Y = T (X1, . . . , Xn) e

denominado uma estatıstica e sua funcao de distribuicao e chamada distribuicao amostral

de Y .

Definicao 2.1.3 Podemos definir as seguintes estatısticas:

• Media amostral:

X =

∑ni=1Xi

n

• Variancia amostral:

S2 =

∑ni=1(Xi − X)2

n− 1

• Desvio padrao amostral

S =√S2

Teorema 2.1.1 Seja Xini=1 uma amostra aleatoria de uma populacao com media µ e

variancia σ2, σ2 <∞. Entao:

1. E[X] = µ

2. V ar(X) = σ2

n

3. E[S2] = σ2

Page 55: Notas de Aula 2015

54

Demonstracao 1.

E[X] = E

n∑i=1

Xi

n

=

E[n∑i=1

Xi]

n

linear=

n∑i=1

E[Xi]

n

a.a.=

n∑i=1

µ

n= µ

2.

V ar(X) = V ar

n∑i=1

Xi

n

=

V ar(n∑i=1

Xi)

n2

indep.=

n∑i=1

V ar(Xi)

n2

=

n∑i=1

σ2

n2=σ2

n

3.

E[S2] = E

n∑i=1

(Xi − X)2

n− 1

=

n∑i=1

E[(Xi − X)2]

n− 1=

n∑i=1

E[X2i ] + E[X2]− 2E[XiX]

n− 1

=

n∑i=1

σ2(n−1)n

n− 1

Isso se deve a:

• E[X2i ] = V ar[Xi] + E[Xi]

2 = σ2 + µ2

• E[X] = V ar[X] + E[X]2 = σ2/n+ µ2

• E[XiX] =

∑j 6=i

E[XjXi]

n +E[X2

i ]n

indep.=

∑j 6=i

µ2

n + σ2+µ2

n = (n−1)µ2

n + σ2+µ2

n

Page 56: Notas de Aula 2015

55

Em muitos casos, temos interesse em obter a distribuicao de X. Uma possıvel forma

de fazer isso e utilizando a funcao geradora de momentos.

Teorema 2.1.2 Seja Xini=1 uma amostra aleatoria de uma populacao com funcao

geradora de momentos MX(.). ENtao a funcao geradora de momentos de X e dada por:

MX(t) = (MX(t/n))n

Demonstracao

MX(t) = M n∑Xi

(t/n)indep.

=n∏MXi(t/n) = MX(t/n))n

Essa tecnica nao funciona quando a f.g.m. da populacao nao existe ou quando a

f.g.m. resultante para X e irreconhecıvel. Para um exemplo, ver pagina 216 do Casella

& Berger.

2.2 Funcoes de Variaveis Aleatorias

Em diversos momentos, estaremos interessados em funcoes de variaveis aleatorias. Seja

entao X uma variavel aleatoria e tome uma funcao g : R :→ R. Sera que g(X) e uma

variavel aleatoria?

Para que isso valha, basta que g−1(B) ∈ B(R),∀ B ∈ B(R). Note entao que, se g e

funcao de Borel, g(X) e uma variavel aleatoria. O proximo passo e determinar a funcao

distribuicao acumulada de Y = g(X).

Quando X e uma variavel aleatoria discreta, este passo e simples. Basta obtermos:

P (Y = y) = P (g(X) = y) = P (X = g−1(y)) =∑

ω∈Ω:X(ω)∈ g−1(y)

P (ω)

No caso em que X e contınua, estamos interessados em calcular

FY (y) = P (Y ≤ y) = P (g(X) ≤ y)

Devemos lembrar que:

• Se g e monotona crescente:

Page 57: Notas de Aula 2015

56

FY (y) = P (g(X) ≤ y) = P (X ≤ g−1(y)) = FX(g−1(y)

⇒ fY (y) =∂

∂yP (Y ≤ y) = fX(g−1(y)).

dg−1(y)

dy

• Se g e monotona decrescente:

FY (y) = P (g(X) ≤ y) = P (X ≥ g−1(y)) = 1− FX(g−1(y)

⇒ fY (y) =∂

∂yP (Y ≤ y) = −fX(g−1(y)).

dg−1(y)

dy

Exemplo 1 Suponha X ∼ U [0, 1]. Qual e a distribuicao de Y = −log(X)?

Sabemos que

Fx(x) =

x se 0 ≤ x ≤ 1

0 c.c.

No mais, temos que g = −log, que e uma funcao monotona decrescente. Logo:

P (Y ≤ y) = P (−log(X) ≤ y) = P (log(X) ≥ −y) = P (X ≥ e−y) = 1− P (X ≤ e−y)

⇒ fY (y) =

e−y se y ∈ [0,∞)

0 c.c.

Portanto, Y ∼ exp(1).

Exemplo 2 Suponha agora X ∼ N(0, 1). Qual e a distribuicao de Y = X2?

Note que g e decrescente, se x ≤ 0, e crescente, se x ≥ 0. Faca entao:

g1(x) =

x2 se x ≤ 0

0 c.c.

Page 58: Notas de Aula 2015

57

g2(x) =

x2 se x ≥ 0

0 c.c.

⇒ FY (y) = P (Y ≤ y) = P (g1(X) ≤ y) + P (g2(X) ≤ y)

= P (X ≥ −√y) + P (X ≤ √y) = P (−√y ≤ X ≤ √y)

= FX(√y)− FX(−√y)

⇒ fY (y) = fX(√y).

1

2√y− fX(−√y).

−1

2√y

⇒ fY (y) =

1√2πe−

y2

12√y + 1√

2πe−

y2

12√y se y ∈ [0,∞)

0 c.c.

⇒ fY (y) =

1√2πe−

y2

1√y se y ∈ [0,∞)

0 c.c.

Logo, Y ∼ Gamma(12 , 2)⇒ Y ∼ χ2

1

(Veremos mais sobre a distribuicao Gama um pouco adiante.)

Definicao 2.2.1 Um vetor X = (X1, . . . , Xn) cujas componentes sao variaveis aleatorias

e chamado vetor aleatorio.

2.3 Metodo do Jacobiano

Sejam G0 ⊂ Rn e G ⊂ Rn regioes abertas e seja g : G0 → G uma funcao bijetora onde

g(x1, . . . , xn) = (g1(x1, . . . , xn), . . . , gn(x1, . . . , xn)) = (y1, . . . , yn)

Entao g e inversıvel e

x1 = (g−1(y1, . . . , yn))1, . . . , xn = (g−1(y1, . . . , yn))n

Definicao 2.3.1 Definimos o Jacobiano J(x, y) como o determinante:

Page 59: Notas de Aula 2015

58

J(x, y) =

∣∣∣∣∣∣∣∣∣∣∂x1∂y1

. . . ∂x1∂yn

. . . . . . . . . . . . . .

∂xn∂y1

. . . ∂xn∂yn

∣∣∣∣∣∣∣∣∣∣Teorema 2.3.1 Seja f a f.d.p. conjunta das variaveis aleatorias X1, . . . , Xn e sejam

Y1, . . . , Yn as variaveis transformadas por g. Entao:

⇒ fY (y1, . . . , yn) =

f((g−1(y1, . . . , yn))1, . . . , (g

−1(y1, . . . , yn))n).|J(x, y)| se y ∈ G

0 se y /∈ G

Exemplo 1 Sejam X e Y variaveis aleatorias independentes, X,Y ∼ exp(1). Mos-

tre que Z = X + Y e W = X/Y tambem sao independentes e encontre sua distribuicao

conjunta.

Temos que:

Z = X + Y ⇒ Y = Z −X

W = X/Y ⇒ X = YW

⇒ Y = Z − YW ⇒ Y =Z

W + 1

⇒ X =ZW

W + 1

Logo:

J((X,Y ), (Z,W )) =

∣∣∣∣∣∣∣∂X∂Z

∂X∂W

∂Y∂Z

∂Y∂W

∣∣∣∣∣∣∣ =

∣∣∣∣∣∣∣WW+1

Z(W+1)2

1W+1

−Z(W+1)2

∣∣∣∣∣∣∣

⇒ J((X,Y ), (Z,W )) =W

W + 1(−Z

(W + 1)2)− 1

W + 1

Z

(W + 1)2

⇒ J((X,Y ), (Z,W )) =−ZW

(W + 1)3− Z

(W + 1)3=

−Z(W + 1)2

Page 60: Notas de Aula 2015

59

⇒ fZ,W (z, w) = fX,Y (zw

w + 1,

z

w + 1).| −Z

(W + 1)2|

⇒ fZ,W (z, w) = e−wzw+1 .e

−zw+1 .

z

(w + 1)2=

z.e−z

(w + 1)2

Assim sendo:

fZ,W (z, w) = (z.e−z).(1

(w + 1)2) = fZ(z).fW (w)

Entao Z e W sao independentes.

2.4 Distribuicao Gama

Uma variavel aleatoria tem distribuicao Gamma(α, β) quando sua densidade satisfaz

f(x|α, β) =1

Γ(α)βαxα−1e

−xβ , 0 < x <∞, α > 0, β > 0,

onde Γ(α) =∫∞

0 tα−1e−tdt.

Suponha entao X ∼ Gamma(α, β). Temos que:

E[X] =

∫ ∞0

x1

Γ(α)βαxα−1e−x/βdx =

Γ(α+ 1)

Γ(α)β

Alem disso,

Γ(α+ 1) =

∫ ∞0

tαe−tdt = [−tαe−t]∞0 −∫ ∞

0αtα−1(−e−t)dt = αΓ(α)

Logo, temos que E[X] = αβ. De forma semelhante, podemos mostrar que V ar(X) =

αβ2.

Em seguida, vamos calcular a funcao geradora de momentos dessa distribuicao.

MX(t) = E[etX ] =

∫ ∞0

xα−1ext

Γ(α)βαe−x/βdx

⇒MX(t) =( β

1−βt)α

βα

∫ ∞0

xα−1e−x/( β

1−βt )

Γ(α)( β1−βt)

αdx =

1

(1− βt)α, t < 1/β

Em particular, temos que:

Page 61: Notas de Aula 2015

60

X ∼ Gamma(p/2, 2), p ∈ Z ⇒ X ∼ χ2p

Y ∼ Gamma(1, 1/λ)⇒ Y ∼ exp(λ)

2.5 Amostragem de uma Distribuicao Normal

Lema 2.5.1 1. Se Z ∼ N(0, 1), entao Z2 ∼ χ21

2. Se X1, . . . , Xn sao variaveis aleatorias independentes e Xi ∼ χ2pi, entao

n∑i=1

Xi ∼

χ2n∑i=1

pi

.

Demonstracao 1. Defina a variavel Y = Z2. Construiremos sua funcao acumulada

em funcao da v.a. Z:

FY (y) = P (Z2 ≤ y) = P (−√y ≤ Z ≤ √y) = FZ(√y)− FZ(−√y), se y ≥ 0

= 0 caso contrario

Entao sua f.d.p. sera dada por:

fY (y) =fZ(√y)y−1/2

2+fZ(−√y)y−1/2

2

=e−y/2y−1/2

2√

2π+e−y/2y−1/2

2√

=e−y/2y−1/2

√2π

=e−y/2

Γ(1/2)21/2y−1/2

=⇒ Y ∼ Gamma(1/2, 2) ∼ χ21

2. Usaremos que χ2pi ∼ Gamma(pi/2, 2). Assim a funcao geradora de momentos da

variavel Xi sera:

MXi(t) = 1(1−2t)pi/2

Page 62: Notas de Aula 2015

61

Agora, por serem independentes:

M n∑Xi

(t) =

n∏i=1

MXi(t)

=1

(1− 2t)(n∑pi)/2

∼ Gamma

n∑pi

2, 2

=⇒

n∑Xi ∼ χ2

n∑pi

Teorema 2.5.2 Seja Xini=1 uma amostra aleatoria de uma distribuicao N(µ, σ2).

Seja X a media amostral e S2 a variancia amostral, conforme definidos anteriormente.

Entao:

1. X e S2 sao variaveis aleatorias independentes

2. X tem distribuicao N(µ, σ2/n)

3. (n−1)σ2 S2 tem distribuicao χ2

n−1.

Demonstracao 1. Utilizaremos o resultado que afirma que, se duas variaveis aleatorias

U e V sao funcoes de vetores aleatorios independentes Z e W , respectivamentes,

entao U e V tambem sao independentes.

Note que:

S2 =1

n− 1

n∑i=1

(Xi − X)2

=1

n− 1[(X1 − X)2 +

n∑i=2

(Xi − X)2]

=1

n− 1[(−

n∑i=2

(Xi − X))2 +n∑i=2

(Xi − X)2]

Logo, S2 e funcao do vetor aleatorio (X2 − X, . . . , Xn − X). Vamos mostrar que

esse vetor e independente de X.

Assumindo, sem perda de generalidade, µ = 0 e σ2 = 1, temos que a funcao

densidade conjunta da amostra e dada por:

fX(x1, . . . , xn) =1

(2π)n/2e−

12

∑ni=1 x

2i ,−∞ < xi <∞

Page 63: Notas de Aula 2015

62

Considere a funcao g : Rn → Rn definida por:

y1 = g1(x1, . . . , xn) = x, y2 = g2(x1, . . . , xn) = x2−x, . . . , yn = gn(x1, . . . , xn) = xn−x

⇒ J(y, x) =

∣∣∣∣∣∣∣∣∣∣∂y1

∂x1. . . ∂y1

∂xn

. . . . . . . . . . . . . .

∂yn∂x1

. . . ∂yn∂xn

∣∣∣∣∣∣∣∣∣∣=

∣∣∣∣∣∣∣∣∣∣∣∣∣

1n . . . . . 1

n

− 1n

n−1n − 1

n

. . . . . . . . . . . . . . . . .

− 1n . . . . . n−1

n

∣∣∣∣∣∣∣∣∣∣∣∣∣=

1

n

Logo, J(x, y) = 1J(y,x) = n. Assim sendo:

fY (y1, . . . , yn) = fX(y1 −n∑i=2

yi, y2 + y1, . . . , yn + y1).n

=n

(2π)n/2e−

12

(y1−∑ni=2 yi)

2e−

12

(∑ni=2(yi+y1)2),−∞ < yi <∞,

pois y1 −∑n

i=2 yi = x−∑n

i=2(xi − x) = x− [∑n

i=2 xi − (n− 1)x] = x1 e yi + y1 =

xi − x+ x = xi ∀ i ≥ 2.

Como podemos fatorar fY (y1, . . . , yn) em:

fY (y1, . . . , yn) = (n

2π)1/2e−n

y212

n1/2

(2π)n−1

2

e−12

[∑ni=2 y

2i+(

∑ni=2 yi)

2],

temos que X e independente de (X2 − X, . . . , Xn − X). Entao X e S2 sao inde-

pendentes.

2. Note que podemos escrever Xi em funcao da normal padrao Z; Xi = µ+σZ. Dessa

forma sua funcao caracterıstica sera:

ϕXi(t) = eitµϕZ(σt)

Entao:

Page 64: Notas de Aula 2015

63

ϕX(t) = ϕ n∑Xi

(t/n)indep.

=

n∏ϕXi(t/n) = (e

itµn ϕZ(σt/n))n

= eitµ(e−

σ2t2

2n2

)n= eitµϕZ(σt/

√n)

=⇒ X ∼ N(µ;σ2/n)

3. Note que vale a seguinte relacao:

(n− 1)S2n = (n− 2)S2

n−1 +n− 1

n(Xn − Xn−1)2, (*)

onde S2k e Xk denotam a variancia e a media amostrais de uma amostra de tamanho

k. Para n = 2, temos S22 = 1

2(X2−X1)2 = 12(X2−X1)2. Como X2−X1 ∼ N(0, 2),

X2−X1√2∼ N(0, 1) e (X2−X1)2

2 ∼ χ21, pela parte 1 do Lema 7.

Vamos agora utilizar um argumento de inducao e supor que, para n=k, (k−1)S2k ∼

χ2k−1. Entao, utilizando n = k + 1 em (∗):

(k)S2k+1 = (k − 1)S2

k︸ ︷︷ ︸∼χ2

k−1

+k

k + 1( Xk+1︸ ︷︷ ︸∼N(0,1)

− Xk︸︷︷︸∼N(0,1/k)

)2

Pela parte 1 do teorema, S2k e Xk sao independentes. Isso implica que S2

k e Xk+1−

Xk tambem sao independentes. Finalmente, Xk+1 − Xk ∼ N(0, k+1k ). Logo:

Xk+1 − Xk√k+1k

∼ N(0, 1)⇒ (Xk+1 − Xk)2

k+1k

∼ χ21

Utilizando o item 2 do Lema 2.5.1, temos que:

kS2k+1 = (k − 1)S2

k +k

k + 1(Xk+1 − Xk)

2 ∼ χ2k

2.6 Estimacao Pontual

Definicao 2.6.1 Um estimador pontual e qualquer funcao W (X1, . . . , Xn) de uma amos-

tra. Isto e, qualquer estatıstica e um estimador pontual.

Page 65: Notas de Aula 2015

64

A seguir, veremos alguns metodos de estimacao.

2.6.1 Metodo dos momentos

Seja Xini=1 uma amostra com densidade f(x|θ1, . . . , θK). Estimadores baseados nos

metodos dos momentos sao encontrados igualando os K primeiros momentos amostrais

aos correspondentes K momentos populacionais. Em seguida, resolvemos o sistema de

equacoes, obtendo estimadores para os parametros θjj≤K .

De forma mais explıcita, suponha que µ′i = E[Xi], i = 1, 2, . . . ,K sejam os K primei-

ros momentos populacionais mi = 1n

∑nj=1(Xj)

i, i = 1, 2, . . . ,K os K primeiros momen-

tos amostrais. Pelo metodo dos momentos, temos:

m1 = µ′1(θ1, . . . , θK), . . . ,mK = µ′K(θ1, . . . , θK)

Os entimadores (θ1, . . . , θK) sao obtidos resolvendo o sistema.

Exemplo 1 Estimador de momentos para uma normal.

Seja Xini=1 uma amostra com Xi ∼ N(θ, σ2). Como desejamos estimar dois

parametros, θ e σ2, utilizamos os dois primeiros momentos. Portanto, temos:

X︸︷︷︸Media amostral

=

∑ni=1Xi

n= θ︸︷︷︸

Media populacional

e

∑ni=1(Xi)

2

n︸ ︷︷ ︸Segundo momento amostral

= σ2 + θ2︸ ︷︷ ︸Segundo momento populacional

⇒ θ = X e σ2 =1

n

n∑i=1

(Xi − X)2

Exemplo 2 Metodo dos momentos para uma binomial.

Seja Xini=1 uma amostra com Xi ∼ Bin(k, p). Logo,

P (Xi = x|k, p) = Cxkpx(1− p)k−x, x = 0, 1, . . . , k

Page 66: Notas de Aula 2015

65

Neste caso, gostarıamos de estimar k e p, dois parametros. Portanto, iremos utilizar

novamente os dois primeiros momentos.

X =

∑ni=1Xi

n= E[X] =

k∑x=0

xCxkpx(1− p)k−x =

k∑x=1

xCxkpx(1− p)k−x

⇒ X =k∑x=0

pk(k − 1)!

(k − 1− (x− 1))!(x− 1)!px−1(1− p)(k−1−(x−1)) = kp (1)

∑ni=1(Xi)

2

n= E[X2

i ] =k∑x=0

x2 k!

(k − x)!x!.px.(1− p)k−x

⇒∑n

i=1(Xi)2

n=

k∑x=2

x(x− 1)k!

(k − x)!x!P x(1− p)k−x + E[Xi] = k2p2 + kp(1− p) (2)

Usando (1) e (2), obtemos:

p = X + 1−∑n

i=1X2i

nXk =

X

p

Note que, apesar do metodo dos momentos oferecer estimadores faceis de se obter

mesmo em casos nos quais os parametros nao sao intuitivos (no sentido de que nao

representam momentos diretamente), este metodo pode nao produzir os melhores esti-

madores, como e o caso da distribuicao binomial. Neste caso, p pode assumir valores

negativos, apesar de p ser uma probabilidade.

2.6.2 Estimadores de maxima verossimilhanca

Seja Xini=1 uma amostra com densidade f(x|θ1, . . . , θK). A funcao de verossimi-

lhancada amostra e dada por:

L(θ|x) = L(θ1, . . . , θk|x1, . . . , xn) =

n∏i=1

f(xi|θ1, . . . , θk)

Definicao 2.6.2 Para cada vetor amostral x = (x1, . . . , xn)T , seja θ(x) o valor para

o vetor parametrico para o qual a funcao de verossimilhanca atinge seu maximo. O

estimador de maxima verossimilhanca do parametro θ baseado em uma amostra X e

Page 67: Notas de Aula 2015

66

θ(X).

Uma motivacao para o uso do estimador de maxima verossimilhanca e que ele encon-

tra a estimativa para o parametro que maximiza a verossimilhanca da amostra observada

ter ocorrido. Existem, porem, alguns problemas associados ao uso destes estimadores.

(i) Em alguns casos, encontrar o maximo global de uma funcao e um problema desafi-

ador.

(ii) Podemos acabar com sensibilidade numerica a pequenas alteracoes nos valores da

amostra. Neste caso, o estimador nao sera muito confiavel se for muito instavel,

mesmo que o resultado analıtico seja simples. A sensibilidade pode aparecer por

tratar-se de um problema de maximizacao.

A seguir, vamos descrever o algoritmo para obtencao do estimador de maxima ve-

rossimilhanca. Assumindo que a funcao de verossimilhanca L(θ|x) e diferenciavel com

respeito a θ, devemos primeiramente obter os pontos crıticos da funcao (pontos com

derivada nula). Em seguida, devemos testar estes pontos e os extremos do espaco pa-

rametrico Θ para determinar o maximo global.

Exemplo 3 Estimador de maxima verossimilhanca para uma normal.

Seja Xini=1 uma amostra com Xi ∼ N(θ, 1). Entao

L(θ|x) =n∏i=1

e−12

(xi−θ)2

√2π

=e−

12

∑ni=1(xi−θ)2

(2π)n/2

Assim sendo,

d

dθL(θ|x) = L(θ|x)(−1

2)

n∑i=1

2(xi − θ)(−1) = 0

⇒n∑i=1

(xi − θ) = 0⇒ θ =n∑i=1

xin

= x

Entao X e uma candidato a estimador de maxima verossimilhanca.

Para provar que L(θ|x) de fato assume um maximo em x, vamos calcular a derivada

segunda:

Page 68: Notas de Aula 2015

67

d2

dθ2L(θ|x) = L(θ|x)

n∑i=1

(xi − θ)2 + L(θ|x)

n∑i=1

(−1) = L(θ|x)[(

n∑i=1

(xi − θ))2 − n]

No ponto θ = x, temos que:

d2

dθ2L(θ|x) = L(θ|x)[0− n] < 0

Logo, θ e de fato ponto de maximo. Como este e o unico ponto crıtico no intervalo

(−∞,+∞), devemos agora testar os extremos. Note que:

limθ→−∞

L(θ|x) = limθ→+∞

L(θ|x) = 0

Assim sendo, como L(θ|x) > 0 ∀ θ ∈ R, temos que θ e ponto de maximo global.

Visto este exemplo, vale ressaltar que um ponto importante deste algoritmo e iden-

tificar o espaco parametrico para se verificar os extremos. Por exemplo, no caso do esti-

mador de maxima verossimilhanca de uma populacao com distribuicao de Bernoulli(p),

sabemos que 0 ≤ p ≤ 1 ou 0 < p < 1. No segundo caso, nao ha necessidade de testar os

extremos.

Exemplo 4 Estimador de maxima verossimilhanca para uma Bernoulli(p), com

0 ≤ p ≤ 1.

Temos que

L(p|x) =

n∏i=1

pxi(1− p)1−xi = p∑ni=1 xi(1− p)n−

∑ni=1 xi ,

pois quando Xi ∼ Bernoulli(p), P (Xi = 1) = p e P (Xi = 0) = 1− p. Sua densidade

pode entao ser representada por pxi(1− p)1−xi , xi = 0, 1.

Neste caso, e bem mais simples analisarmos a log-verossimilhanca:

logL(p|x) = ylog(p) + (n− y)log(1− p),

onde y =∑n

i=1 xi.

E importante notar que o valor de y afeta a estrutura da funcao logL(p|x). Em

particular, essa estrutura e diferente quando y assume valores extremos (y = 0 ou y = n).

Page 69: Notas de Aula 2015

68

Assim sendo, vamos separar nossa analise em duas partes. Primeiramente, assumindo

0 < y < n, temos:

d

dplogL(p|x) = 0⇒ y

p+n− y1− p

(−1) = 0

⇒ y − py = np− py ⇒ p =y

n= x

Temos entao que X e um candidato a estimador de maxima verossimilhanca. A

seguir, devemos mostrar que x e de fato um maximo.

d2

dp2logL(p|x) = − y

p2− (n− y)

(1− p)2=−y(1− 2p+ p2)− p2(n− y)

p2(1− p)2

⇒ d2

dp2logL(p|x) =

−y(1− 2p)− np2

p2(1− p)2≡ f(p)

h(p)

Note que h(p) > 0∀ p. Logo, o sinal da derivada segunda depende de f . Temos que:

f(x) = −y +2y2

n− ny2

n2= y(

y

n− 1) = y(x − 1) < 0(Por que?)

Logo, x e ponto de maximo.

Por outro lado, quando y = 0 temos logL(p|x) = nlog(1− p) e, quando y = n, temos

logL(p|x) = nlog(p). Assim sendo:

d

dplogL(p|x) =

−n1−p se y = 0(monotona decrescente)

np se y = n(monotona crescente)

Logo, quando y = 0, p = 0 maximiza logL(p|x) e, quando y = n, p = 1 maximiza

logL(p|x). Em ambos os casos, temos p = x, provando entao que X e o estimador de

maxima variancia de p.

Exemplo 5 Estimador de maxima verossimilhanca restrito.

Seja Xini=1 uma amostra de uma N(θ, 1), onde sabemos que θ ≥ 0. Qual e o

estimador de maxima verossimilhanca nesse caso?

Obtivemos no exemplo 3 que θMV = X para o caso irrestrito. Vamos aproveitar esta

solucao e adapta-la para o caso restrito.

Page 70: Notas de Aula 2015

69

Se x ≥ 0, entao ˆθMVR = θMV . Porem, se x ≤ 0, devemos analisar a funcao de

verossimilhanca:

L(θ|x) =1

(2π)n/2e−

12

∑ni=1(xi−θ)2

⇒ d

dθL(θ|x) = L(θ|x)

n∑i=1

(xi − θ)

Sabemos que L(θ|x) ≥ 0. No mais, se x < 0:

n∑i=1

(xi − θ) =

n∑i=1

xi − nθ = n(x− θ) < 0(pois θ ≥ 0)

Portanto, temos que L(θ|x) e decrescente quando x < 0. Isso implica que o ponto

de maximo ocorre quando θ = 0 e, neste caso, deve valer ˆθMVR = 0. Logo, ˆθMVR =

max(X, 0).

Propriedade de invariancia dos estimadores de maxima verossimilhanca: Su-

ponha que uma certa distribuicao populacional seja indexada por um parametro θ, mas

que estejamos interessados em estimar uma certa funcao de θ, τ(θ), onde τ : R→ R. O

seguinte teorema nos permite estimar τ(θ) a partir do estimador de maxima verossimi-

lhanca para θ.

Teorema 2.6.1 Se θ e o estimador de maxima verossimilhanca de θ, entao, para toda

funcao τ : R→ R, o estimador de maxima verossimilhanca de τ(θ) e τ(θ).

Demonstracao Definindo η = τ(θ) e η o valor que maximiza sua verossimilhanca, note:

L∗(η|x) = supηsupθ;τ(theta)=ηL(θ|x)

= supθL(θ|x)

= L(θMV |x)

= supθ;τ(theta)=τ( ˆtheta)L(θ|x)

= L∗(τ( ˆtheta)|x)

Page 71: Notas de Aula 2015

70

2.6.3 Metodos para avaliacao de estimadores

Ate agora, discutimos metodos para estimar parametros. Neste ponto, estamos interes-

sados em comparar os diferentes estimadores. Para tanto, podemos utilizar o erro medio

quadratico.

Definicao 2.6.3 O erro medio quadratico de um estimador W de um parametro θ e

dado por g(θ) = E[(W − θ)2].

As principais vantagens desta medida sao:

• Tratabilidade

• Facil interpretacao:

E[(W−θ)2] = E[(W−E[W ]+E[W ]−θ)2] = V ar(W )+(E[W ]−θ)2 = V ar(W )+Vies(W )2

Assim sendo, o erro medio quadratico embute uma mistura de penalizacoes por vies

e por variabilidade. Para estimadores nao-viesados, o erro medio quadratico se reduz a

variancia do estimador.

Uma outra propriedade desejavel em um estimador e a sua consistencia com relacao

ao parametro estimado.

Definicao 2.6.4 Um estimador Wn de um parametro θ e dito consistente se Wnp→ θ.

Exemplo 6 Considere X1, ..., Xn a.a.s. de uma populacao N(θ, 1). Sabemos que

Xn =n∑i=1

Xin e um estimador nao viesado da media populacional.

Dessa forma, aplicando a Lei dos Grandes Numeros, Xnp→ θ, ou seja, este estimador

e consistente.

E possıvel obter uma condicao suficiente para que determinado estimador nao vie-

sado seja consistente. Considerando ainda o exemplo acima, tome ε > 0 e temos pela

desigualdade de Tchebychev:

P (|Xn − θ| > ε) ≤ E[(Xn − θ)2]

ε2

=V ar[Xn]

ε2

Logo, se limn→∞

V ar[Xn] = 0 temos que Xnp→ θ.

Page 72: Notas de Aula 2015

71

Consistencia sob Transformacao Contınua Se tivermos um estimador θ consis-

tente para θ, podemos ainda dizer que g(θ), onde g(.) e funcao contınua, e um estimador

consistente para g(θ) devido ao teorema do Mapa Contınuo.

2.6.4 Estatısticas suficientes

Definicao 2.6.5 Uma estatıstica T (X) e suficiente para θ se a distribuicao condicional

da amostra X dada T (X) nao depende de θ.

Para entender melhor esta definicao, considere t como um possıvel valor de T (X),

tal que Pθ(T (X) = t) > 0, e considere a probabilidade condicional Pθ(X = x|T (X) = t).

Note que, se x e um ponto amostral tal que T (X) 6= t, entao Pθ(X = x|T (X) =

t) = 0. Logo, estamos interessados em Pθ(X = x|T (X) = T (x)). Pela definicao, esta

distribuicao condicional nao pode depender de θ se T (X) e uma estatıstica suficiente.

A ideia por tras disso e que uma estatıstica suficiente captura roda a informacao sobre

o parametro θ. Observar X = x ou T (X) = T (x) revela a mesma informacao sobre θ,

apesar de, aparentemente, a segunda informacao ser menos precisa sobre a realizacao de

uma amostra.

Utilizando as regras de probabilidades condicionais, obtemos:

Pθ(X = x|T (X) = T (x)) =Pθ(X = x;T (X) = T (x))

Pθ(T (X) = T (x))

⇒ Pθ(X = x|T (X) = T (x))Pθ(X = x)

Pθ(T (X) = T (x))=

p(x|θ)q(T (x)|θ)

, (*)

onde p(x|θ) e a probabilidade conjunta da amostra e q(T (x|θ)) e a distribuicao de

probabilidade de T (x).

Logo, T (x) e uma estatıstica suficiente quando a razao de probabilidades em (∗) nao

depende de θ.

Exemplo 7 Seja Xini=1 uma amostra de uma Bernoulli(θ), 0 < θ < 1, e seja

T (X) =∑n

i=1Xi. Vamos mostrar que T (X) e suficiente.

Note que T (X) ∼ Bin(n, θ). Logo,

Page 73: Notas de Aula 2015

72

p(x|θ)q(T (x)|θ)

=

∏ni=1θxi (1−θ)1−xi

Ctnθt(1− θ)n−t

=1

Ctn,

onde t =∑n

i=1. Como 1Ctn

, T (X) e suficiente.

Exemplo 8 Seja Xini=1 uma amostra de uma N(µ, σ2), σ2 conhecido, e seja

T (X) = X. Vamos mostrar que T (X) e suficiente (para µ).

Sabemos que:

f(x|µ) =1

(2πσ2)n/2e−

∑ni=1(xi−µ)2

2σ2 =1

(2πσ2)n/2e−

∑ni=1(xi−x)2+n(x−µ)2

2σ2

Por outro lado, como X ∼ N(µ, σ2

n ):

q(x|µ) =1

(2π σ2

n )1/2e− (x−µ)2

2σ2n

⇒ p(x|θ)q(T (x)|θ)

=1

√n(2πσ2)

n−12

e−∑ni=1(xi−x)2

2σ2 ,

que nao depende de µ. Logo, X e suficiente.

De forma geral, utilizar a definicao de estatıstica suficiente exige intuicao para propor

uma estatıstica T adequada e exige tambem o calculo da distribuicao de T . O teorema

a seguir simplifica de forma consideravel a tarefa de se obter uma estatıstica suficiente.

Teorema 2.6.2 (Teorema da Fatoracao) Seja f(x|θ) a densidade conjunta da amos-

tra X. Uma estatıstica T (X) e suficiente para θ se, e somente se, existem funcoes g(.|θ)

e h(.) tais que, para todos os pontos do espaco amostral e para todos os parametros

θ ∈ Θ,

f(x|θ) = g(T (x)|θ)h(x)

Demonstracao Considerando distribuicoes discretas.

Page 74: Notas de Aula 2015

73

(⇒) Defina g(t|θ) = Pθ(T (X) = t) e h(x) = P (X = x|T (X) = T (x)). Assim:

f(x|θ) = Pθ(X = x)

= Pθ(X = x ∩ T (X) = T (x))

Bayes= Pθ(T (X) = T (x))P (X = x|T (X) = T (x))

= g(T (x)|θ)h(x)

(⇐) Seja q(t|θ) a funcao de probabilidade de T(X). Defina ainda

AT (x) = y;T (y) = T (x). Dessa forma:

f(x|θ)q(T (x|θ)

hip.=

g(T (x)|θ)h(x)

q(T (x|θ)

=g(T (x)|θ)h(x)∑

AT (x)

g(T (y)|θ)h(y)

const.=

g(T (x)|θ)h(x)

g(T (x)|θ)∑AT (x)

h(y)

=h(x)∑

AT (x)

h(y)

Como esta razao independe de θ temos que T (X) e uma estatıstica suficiente.

2.7 Desigualdade de Cramer-Rao

Suponha que, ao estimarmos um parametro θ, seja possıvel obter um limite inferior

para a variancia de qualquer estimador nao-viesado de θ. Entao, se formos capazes de

escontrar um estimador W ∗ tal que sua variancia seja igual a este limite inferior, teremos

encontrado o melhor estimador nao-viesado para θ.

O limitante de Cramer-Rao nos permite trabalhar justamente com a abordade des-

crita acima. No entanto, nem sempre as hipoteses do teorema que define este limitante

sao satisfeitas. Alem disso, mesmo quando o limitante existe, este nem sempre e atingido.

Teorema 2.7.1 (Desigualdade de Cramer-Rao) Seja Xini=1 uma amostra com funcao

densidade de probabilidade f(x|θ) e seja W um estimador satisfazendo

Page 75: Notas de Aula 2015

74

d

dθEθ[W (X)] =

∫χ

∂θ[W (x)f(x|θ)]dx

e

V arθ(W (X)) <∞

Entao, temos que:

V arθ(W (X)) ≥( ddθEθ[W (X)])2

Eθ[( ∂∂θ logf(X|θ))2]

Demonstracao Para quaisquer duas variaveis aleatorias X e Y ,

(Cov(X,Y ))2 ≤ V ar(X)V ar(Y )

⇒ V ar(X) ≥ (Cov(X,Y ))2

V ar(Y )

Escolha X = W (X) e Y = ∂∂θ logf(X|θ). Primeiramente, note que:

d

dθEθW (X) =

∫χW (x)[

∂θf(x|θ)]dx

=

∫χW (x)

∂∂θf(x|θ)f(x|θ)

f(x|θ)dx

= Eθ[W (X)∂∂θf(x|θ)f(x|θ)

]

= Eθ[W (X)∂

∂θlogf(x|θ)],

o que sugere a covariancia entre W (X) e ∂∂θ logf(X|θ).

Contudo, note que, fazendo W (X) = 1, temos:

Eθ[∂

∂θlogf(X|θ)] =

∫χ

∂θf(x|θ)dx

=d

dθEθ[1] = 0

Portanto:

Page 76: Notas de Aula 2015

75

Covθ(W (X),∂

∂θlogf(X|θ)) = Eθ[W (X)

∂θlogf(X|θ)]

=d

dθEθW (X)

Tambem, como Eθ[ ∂∂θ logf(x|θ)] = 0,

V arθ(∂

∂θlogf(X|θ)) = Eθ[(

∂θlogf(X|θ))2]

Logo, usando a desigualdade de Cauchy-Schwarz:

V arθ(W (X)) ≥( ddθEθ[W (X)])2

Eθ[( ∂∂θ logf(X|θ))2]

Corolario 2.7.2 Seja Xini=1 uma amostra i.i.d. com funcao densidade de probabili-

dade f(x|θ) e seja W um estimador satisfazendo

d

dθEθ[W (X)] =

∫χ

∂θ[W (x)f(x|θ)]dx

e

V arθ(W (X)) <∞

Entao, temos que:

V arθ(W (X)) ≥( ddθEθ[W (X)])2

nEθ[( ∂∂θ logf(X|θ))2]

Demonstracao Note que basta mostrar Eθ[( ∂∂θ logf(X|θ))2] = nEθ[( ∂∂θ logf(X|θ))2]

Page 77: Notas de Aula 2015

76

Eθ[(∂

∂θlogf(X|θ))2]

indep.= Eθ[(

∂θlog

n∏i=1

f(Xi|θ))2]

= Eθ[(∂

∂θ

n∑i=1

logf(Xi|θ))2]

=

n∑i=1

Eθ[(∂

∂θlogf(Xi|θ))2] +

∑i 6=j

Eθ[(∂

∂θlogf(Xi|θ))(

∂θlogf(Xj |θ))]

iid= nEθ[(

∂θlogf(Xi|θ))2] +

∑i 6=j

Eθ[∂

∂θlogf(Xi|θ)]Eθ[

∂θlogf(Xj |θ)]

= nEθ[(∂

∂θlogf(Xi|θ))2] +

∑i 6=j

∂θEθ[logf(Xi|θ)]

∂θEθ[logf(Xj |θ)]

= nEθ[(∂

∂θlogf(Xi|θ))2] +

∑i 6=j

∂θ1∂

∂θ1

= nEθ[(∂

∂θlogf(Xi|θ))2]

2.8 Testes de Hipotese

Definicao 2.8.1 Uma hipotese e uma afirmacao sobre um parametro populacional. As

duas hipoteses complementares em um problema de teste de hipoteses sao chamadas

hipotese nula (H0) e hipotese alternativa (H1).

Definicao 2.8.2 Um teste de hipoteses e uma regra que especifica para que valores da

amostra a hipotese nula e rejeitada. O subconjunto do espaco amostral para o qual H0

e rejeitada e chamado regiao de rejeicao ou regiao crıtica.

2.8.1 Teste de Razao de Verossimilhanca

Seja Xini=1 uma amostra aleatoria com funcao densidade de probabilidade f(x|θ),

sendo θ um vetor ou um escalar, e seja Θ o espaco parametrico. A estatıstica de teste

de razao de verossimilhanca para testar H0 : θ ∈ Θ0 contra H1 : θ /∈ Θ0 e:

λ(x) =supθ∈Θ0

L(θ|x)

supθ∈Θ L(θ|x),

onde L(θ|x) e a funcao de verossimilhanca.

Definicao 2.8.3 Um teste de razao de verossimilhanca e qualquer teste que tenha regiao

de rejeicao da forma x : λ(x) ≤ c, onde 0 ≤ c ≤ 1.

Page 78: Notas de Aula 2015

77

Note que λ(x) e <1 se ha pelo menos um ponto em Θc0 para o qual a amostra

observada tem mais “chance” de ter acontecido do que para qualquer ponto em Θ0.

Exemplo 1 Teste razao de verossimilhanca para uma normal.

Seja Xini=1 uma amostra com Xi ∼ N(θ, 1) e sejam H0 : θ = θ0 e H1 : θ 6= θ0.

Logo,

λ(x) =L(θ0|x)

supθ∈Θ L(θ|x)=L(θ0|x)

L(x|x)

⇒ λ(x) =(2π)−n/2e−

∑ni=1(xi−θ0)2

2

(2π)−n/2e−∑ni=1

(xi−x)2

2

= e−12

(∑ni=1(xi−θ0)2−

∑ni=1(xi−x)2)

Note que:

n∑i=1

(xi − θ0)2 =n∑i=1

(xi − x+ x− θ0)2 =n∑i=1

(xi − x)2 +n∑i=1

(x− θ0)2

⇒ λ(x) = e−12

∑ni=1(x−θ0)2

= e−n2

(x−θ0)2

Logo, a regiao de rejeicao e:

R = x : λ(x) ≤ c = x : e−n2

(x−θ0)2 ≤ c

⇒ R = x : −n2

(x− θ0)2 ≤ log(c) = x : (x− θ0)2 ≥ − 2

nlog(c)

⇒ R = x : |x− θ0| ≥ (− 2

nlog(c))1/2

Exemplo 2 Teste razao de verossimilhanca para uma exponencial.

Seja Xini=1 uma amostra de uma populacao com funcao densidade de probabilidade

dada por

f(x|θ) =

e−(x−θ) se x ≥ θ

0 se x < θ

sendo −∞ < θ <∞.

Page 79: Notas de Aula 2015

78

Logo,

L(θ|x) =

e−

∑ni xi+nθ se x(1) ≥ θ

0 se x(1) < θ

onde x(1) = mini xi.

Considere testar H0 : θ ≤ θ0 contra H1 : θ > θ0. Sabemos que

λ(x) =supθ∈Θ0

L(θ|x)

supθ∈Θ L(θ|x)

Note que, ∀ θ ∈ (−∞, x(1)], L(θ|x) e crescente. Logo, como L(θ|x) = 0∀ θ ∈

(x(1),∞), temos que supθ∈Θ L(θ|x) = L(x(1)|x).

Logo, se x(1) ≤ θ0, λ(x) = 1. Por outro lado, se x(1) > θ, dado que L(θ|x) e

crescente ∀ θ ∈ (−∞, x(1)], entao supθ∈Θ0L(θ|x) = L(θ0|x). Assim sendo:

λ(x) =

1 se x(1) ≤ θ0

e−∑ni=1 xi+nθ0

e−∑ni=1

xi+nx(1) se x(1) > θ0

⇒ λ(x) =

1 se x(1) ≤ θ0

en(θ0−x(1)) se x(1) > θ0

Desta forma, a regiao de rejeicao fica:

R = x : en(θ0−x(1)) ≤ c = x : n(θ0 − x(1)) ≤ log(c)

⇒ R = x : −x(1) ≤ log(c)

n− θ0 = R = x : x(1) ≥ θ0 −

log(c)

n

Note que, neste caso, a regiao de rejeicao depende da estatıstica suficiente x(1). O

teorema a seguir generaliza este resultado.

Teorema 2.8.1 Seja T (X) uma estatıstica suficiente para θ e sejam λ∗(t), λ(x) es-

tatısticas de teste de razao de verossimilhanca baseadas em T e X, respectivamente.

Entao λ∗(T (x)) = λ(x) para todo x no espaco amostral.

Page 80: Notas de Aula 2015

79

Demonstracao

λ(x) =supθ∈Θ0

L(θ|x)

supθ∈Θ L(θ|x)

=supθ∈Θ0

f(x|θ)supθ∈Θ f(x|θ)

=supθ∈Θ0

g(T (x)|θ)h(x)

supθ∈Θ g(T (x)|θ)h(x)

=supθ∈Θ0

L∗(θ|T (x))

supθ∈Θ L∗(θ|T (x))

= λ∗(T (x))

2.8.2 Metodos de avaliacao de testes de hipotese

Um teste de hipotese do tipo H0 : θ ∈ Θ0, H1 : θ ∈ Θc0 pode cometer dois tipos de erro:

(i) Rejeitar H0 quando θ ∈ Θ0 (erro do tipo I)

(ii) Nao rejeitar H0 quando θ ∈ Θc0 (erro do tipo II)

Denotando-se por R a regiao de rejeicao do teste, temos:

Pθ(erro do tipo I) = Pθ(X ∈ R|θ ∈ Θ0)

Pθ(erro do tipo II) = Pθ(X ∈ Rc|θ ∈ Θc0) = 1− Pθ(X ∈ R|θ ∈ Θc

0)

Entao

Pθ(X ∈ R) =

Probabilidade do erro tipo I se θ ∈ Θ0

1− Probabilidade do erro tipo II se θ ∈ Θc0

Definicao 2.8.4 A funcao potencia de um teste de hipoteses com regiao de rejeicao R

e dada por

β(θ) = Pθ(X ∈ R)

Logo, a funcao de potencia ideal deve atingir valores proximos de zero quando θ ∈ Θ0

e proximos de um quando θ ∈ Θc0

Exemplo 1 Funcao potencia de uma binomial.

Page 81: Notas de Aula 2015

80

Seja X ∼ Bin(5, θ) e considere testar H0 : θ ≤ 12 contra H1 : θ > 1

2 .

Primeiramente, considere o teste que rejeita H0 se, e somente se, observa-se sucesso

em todos os experimentos. Neste caso, R = (1, 1, 1, 1, 1). Logo:

β(θ) = Pθ(X = (1, 1, 1, 1, 1)) = Pθ(X = 5) = θ5

Sabemos que Pθ(erro tipo I) = β(θ) para θ ≤ 12 . Como a funcao e crescente:

Pθ(erro tipo I) ≤ β(1/2) =1

25= 0, 0312

Note entao que a probabilidade de cometermos o erro do tipo I e baixa. Por outro

lado, a probabilidade de cometermos um erro do tipo II e bastante alta, especialmente

para valores de θ entre 12 e 0, 75.

Assim sendo, talvez um pesquisador deva considerar um teste alternativo. Um exem-

plo e um teste que rejeite H0 se X = 3, 4 ou 5. Para este teste, a funcao potencia e dada

por:

β(θ) = Pθ (X = 3, 4ou 5) = C35θ

3(1− θ)2 + C45θ

4(1− θ) + θ5,

que oferece erros do tipo II bem menores do que o teste anterios, mas erros do tipo

I maiores.

Definicao 2.8.5 Um teste com funcao potencia β(θ) e um teste de tamanho α se

supθ∈Θ0β(θ) = α e e um teste de nıvel α se supθ∈Θ0

β(θ) ≤ α, 0 ≤ α ≤ 1.

Definicao 2.8.6 Um teste com funcao potencia β(θ) e nao-viesado se β(θ′) ≥ β(θ′′)

∀ θ′ ∈ Θc0 e θ′′ ∈ Θ0.

Definicao 2.8.7 Seja C uma classe de testes de H0 : θ ∈ Θ0 contra H1 : θ ∈ Θc0. Um

teste em C com funcao potencia β(θ) e uniformemente mais poderoso (UMP) para a

classe C se β(θ) ≥ β′(θ) ∀ θ ∈ Θc0 e ∀ β′(θ) funcao potencia de um teste em C.

Lema 2.8.2 (Lema de Neyman-Pearson) Considere testar H0 : θ = θ0 contra H1 :

θ = θ1, onde a funcao densidade de probabilidade correspondente a θi e f(x|θi), i = 1, 2,

usando um teste com regiao de rejeicao R satisfazendo:

Page 82: Notas de Aula 2015

81

x ∈ R se f(x|θ1) > kf(x|θ0) (1)

e

x ∈ Rc se f(x|θ1) < kf(x|θ0), (2)

para algum k ≥ 0, e

α = Pθ0(X ∈ R). (3)

Entao:

1. (Suficiencia) Qualquer teste satisfazendo (1), (2) e (3) e UMP para a classe de

testes de nıvel α.

2. (Necessidade) Se existe um teste satisfazendo (1), (2) e (3) com k > 0, entao todo

teste UMP para a classe de testes de nıvel α e um teste de tamanho α e todo teste

UMP para a classe de testes de nıvel α satisfaz (1) e (2), a menos de um conjunto

A satisfazendo Pθ0(X ∈ A) = Pθ1(X ∈ A) = 0.

Demonstracao Vamos demonstrar o lema para o caso em que f(x|θ0) e f(x|θ1) sao

funcoes densidade de probabilidade de variaveis aleatorias contınuas. A prova para o

caso discreto pode ser obtida substituindo integrais por somatorios.

Primeiramente, note que qualquer teste satisfazendo (3) e um teste de tamanho α e,

portanto, um teste de nıvel α, pois supθ∈Θ Pθ(X ∈ R) = Pθ0(X ∈ R) = α, ja que Θ0

tem apenas um ponto.

Seja φ = IR, onde R e a regiao de rejeicao de um teste satisfazendo (1), (2) e (3) (teste

1) e seja φ′ = IR′ , onde R′ e a regiao de rejeicao de um teste de nıvel α arbitrario (teste

2). Sejam β(θ) e β′(θ) as funcoes potencia correspondentes testes 1 e 2, respectivamente.

Como 0 ≤ φ′(x) ≤ 1 ∀ x, as equacoes (1) e (2) implicam em (φ(x) − φ′(x))(f(x|θ1) −

kf(x|θ0)) ≥ 0 ∀ x. Logo:

0 ≤∫

[φ(x)− φ′(x)][f(x|θ1)− kf(x|θ0)]dx

= β(θ1)− β′(θ1)− k(β(θ0)− β′(θ0))

Page 83: Notas de Aula 2015

82

Para demonstrar a parte 1, note que, como o teste 2 e um teste de nıvel α e o teste

1 e um teste de tamanho α, β(θ0)− β′(θ0) = α− β′(θ0) ≥ 0. Logo, como k ≥ 0:

0 ≤ β(θ1)− β′(θ1)− k(β(θ0)− β′(θ0)) ≤ β(θ1)− β′(θ1),

o que implica que β(θ1) ≥ β′(θ1). Como o teste 2 e um teste de nıvel α arbitrario e

Θc0 = θ1, o teste 1 e UMP para a classe de testes de nıvel α.

Para demonstrar a parte 2, considere agora φ = IR, onde R e a regiao de rejeicao de

um teste satisfazendo (1), (2) e (3) com k > 0 (teste 1) e φ′ = IR′ , onde R′ e a regiao de

rejeicao de um teste UMP para a classe de testes de nıvel α (teste 2). Note que o teste

1 existe por hipotese.

Pela parte 1, o teste 1 e tambem UMP para a classe de testes de nıvel α e, portanto,

β(θ1) = β′(θ1). Logo, como k > 0:

α− β′(θ0) = β(θ0)− β′(θ0) ≤ 0

Como o teste 2 e um teste de nıvel α, β′(θ0) ≤ α. Logo, β′(θ0) = α, i.e., o teste 2 e

um teste de tamanho α. Isso implica que:

β(θ1)− β′(θ1)− k(β(θ0)− β′(θ0)) = 0

Mas∫

(φ(x) − φ′(x))(f(x|θ1) − kf(x|θ0))dx = 0 somente se o teste 2 satisfaz (1) e

(2), a menos de um conjunto A com∫A f(x|θi)dx = 0. Isso implica que vale a ultima

assertiva da parte 2.

Corolario 2.8.3 Considere testar H0 : θ = θ0 contra H1 : θ = θ1. Suponha que T (X)

e uma estatıstica suficiente para θ e g(t|θi) e a funcao densidade de probabilidade de T

correspondente a θi, i = 0, 1. Entao qualquer teste baseado em T com regiao de rejeicao

S e UMP para a classe de testes de nıvel α se satisfaz:

t ∈ S se g(t|θ1) > kg(t|θ0) (4)

e

t ∈ Sc se g(t|θ1) < kg(t|θ0), (5)

Page 84: Notas de Aula 2015

83

para algum k ≥ 0, onde

α = Pθ0(T ∈ S). (6)

Demonstracao O teste baseado em T tem regiao de rejeicao da forma R = x;T (x) ∈

S. De acordo com o teorema da fatoracao podemos escrever f(x|θi) = g(T (x)|θi)h(x)

para i = 0, 1. Dessa forma podemos reescrever as desigualdades do corolario:

x ∈ R sef(x|θ1) = g(T (x)|θ1)h(x) > kg(T (x)|θ0)h(x) = kf(x|θ0)

e

x ∈ Rc sef(x|θ1) = g(T (x)|θ1)h(x) < kg(T (x)|θ0)h(x) = kf(x|θ0)

para algum k ≥ 0, onde

α = Pθ0(X ∈ R) = Pθ0(T (X) ∈ R)

Assim, pela a condicao suficiende do lema de Neyman-Pearson, teremos que o teste

baseado em T e um teste UMP de nıvel α.

Exemplo 2 Teste UMP normal.

Seja X1, . . . , Xn uma amostra aleatoria de uma populacao N(θ, σ2), com σ2 conhe-

cido. Vimos que a media amostrar X e uma estatıstica suficiente para θ. Considere

testar H0 : θ = θ0 contra H1 : θ = θ1, onde θ0 > θ1. A desigualdade (4) e equivalente a:

x <(2σ2logk)/n− θ2

0 + θ21

2(θ1 − θ0)

para obter a desigualdade acima, usamos que θ0 > θ1. Note que o lado direito

aumenta de −∞ a ∞ a medida que k aumenta de 0 a ∞. Logo pelo corolario acima,

o teste com regiao de rejeicao x < c e UMP para a classe de testes de nıvel α, onde

α = Pθ0(X < c). Se fixarmos um α especıfico, o teste UMP rejeita H0 se x < c =

−σzα/√n+ θ0. A escolha de c garante que vale (6).