Download pptx - 02 Variveisaleatriascontnuasi 140411150910 Phpapp02

Estatística II

UNIVERSIDADE FEDERAL DO PARÁINSTITUTO DE CIÊNCIAS SOCIAIS APLICADAS

FACULDADE DE ECONOMIA

Prof. Dr. Ricardo Bruno Nascimento dos Santos

VARIÁVEIS ALEATÓRIAS CONTÍNUAS

I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS

I.2.1 - IntroduçãoDefinição: Uma função X definida pelo espaço amostral e

assumindo valores num intervalo de ´números reais, é dita uma variável aleatória contínua.

A principal característica de uma v.a. contínua é que, sendo resultado de uma mensuração, o seu valor pode ser pensado como pertencendo a um intervalo ao redor do valor efetivamente observado (sempre nosso valor efetivamente observado será a média).

Podemos então destacar as diferenças da v.a. discreta e contínua como sendo:


I.2.1 - Introdução

Exemplos de v.a. contínuas: - Tempo de resposta de um sistema computacional- Tempo de vida de uma máquina- Resistência de um material- Oscilação diária em um índice na bolsa de valores

Além destas podemos também destacar:



De forma semelhante àquela desenvolvida para variáveis discretas, precisamos estabelecer para as contínuas a atribuição de probabilidades às suas diversas realizações que, neste caso, podem assumir um número infinito de valores diferentes. Abordamos esta questão através do próximo exemplo.

Exemplo: Estudos anteriores revelam a existência de um grande lençol de água no subsolo de uma grande região. No entanto, sua profundidade ainda não foi determinada, sabendo-se apenas que o lençol pode estar situado em qualquer ponto, entre 20 e 100 metros.

Vamos supor que escolhemos, ao acaso, um ponto nessa região e dispomos de uma sonda que, ao fazer a perfuração, detecta com precisão à profundidade do reservatório de água. Denotamos por X a variável aleatória representando a profundidade.

Notemos que, apesar de X poder ser qualquer número entre 20 e 100 metros, o instrumento, com que trabalhamos, pode não ser tão preciso como gostaríamos. Por exemplo, uma profundidade de 32,571 metros poderia ser medida por 32,6 metros.



Vamos assumir que temos um instrumento ideal que não faz aproximações. Nessas condições, podemos supor a sonda acoplada a um instrumento indicador da profundidade e um dispositivo que, quando a sonda encontrar água, provoque a imediata interrupção da perfuração.

Uma vez não que temos informações adicionais a respeito da profundidade do lençol, é razoável assumirmos que a sonda pode parar em qualquer ponto entre 20 e 100 metros, sem que tenhamos motivos para privilegiar essa ou aquela profundidade. Assim, consideraremos todos os pontos como igualmente prováveis. Se utilizarmos a mesma idéia de atribuir a cada possível ponto uma probabilidade, teremos uma dificuldade extra, pois eles pertencem a um intervalo de [20; 100], em que existem infinitos números reais.



Assim, se cada um deles tiver, individualmente, probabilidade maior que 0, a soma das probabilidades será igual a infinito e não 1, como requer a definição da função de probabilidades. Em geral, em situações como esta, não é interessante considerar um único valor para a variável aleatória, mas intervalos de valores na atribuição de probabilidades. Neste caso, sabemos que o espaço amostral corresponde ao intervalo [20; 100] e as profundidades são igualmente prováveis.

Suponha por um momento, que dividimos o espaço amostral em 8 intervalos de comprimento 10. Logo, é razoável atribuir aos intervalos a probabilidade 1/8, correspondendo à relação entre o comprimento de cada um deles e o comprimento do espaço amostral. Isto é, 10 para 80 ou 1/8.




I.2.1 - IntroduçãoAssim, como dividimos em 8 faixas de igual comprimento e sem intersecção entre elas, teremos os intervalos [20; 30), [30; 40), ..., [90; 100] todos com a mesma probabilidade de 1/8, pois todos tem o mesmo tamanho.

Para construirmos um histograma, podemos supor que 1/8 é a frequência relativa da ocorrência de cada um dos intervalos. As ordenadas do gráfico são as densidades, calculadas de modo que a área de cada retângulo seja a frequência relativa (probabilidade) do intervalo.



Note que, dada as características do problema, a divisão em 8 intervalos produziu o mesmo valor de densidade de 1/80 pra todos eles. Se dividirmos o intervalo [20; 100] em 16 faixas iguais, utilizando o mesmo argumento anterior, temos que os intervalos [20; 25), [25; 30), ..., [95; 100] terão todos a mesma probabilidade 1/16. O histograma correspondente será:



O histograma mostra que apesar de termos diferentes intervalos, a densidade permanece a mesma, igual a 1/80.

Podemos continuar esse procedimento aumentando cada vez mais a quantidade de faixas, com a consequente diminuição de suas amplitudes de tal forma que, em uma situação teórica com infinitos intervalos, temos o seguinte histograma:




I.2.1 - IntroduçãoEstamos agora em condições de caracterizar, completamente a atribuição de probabilidade para o caso contínuo. Ela será definida pela área abaixo de uma função positiva, denominada de função de densidade de probabilidade (fdp). Observe que a densidade em si não é uma probabilidade, mas uma função matemática que nos auxilia na atribuição de probabilidades. Assim, para a variável aleatória contínua X representando a profundidade do lençol de água, a fdp f é dada por:

.100200

;1002080/1)(

xouxparaxpara

xf


I.2.1 - IntroduçãoTendo em vista que, nesse exemplo a função de densidade é bastante simples, a probabilidade de que a profundidade do lençol esteja em um dado intervalo pode ser calculada com o uso de área de figuras planas. Assim, para obter a probabilidade de uma profundidade entre 25 e 29, calculamos a área do retângulo:

e, portanto, P(25 ≤ X < 29) = 804

8014

801)2529(

I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.2 – A função de densidade probabilidade (fdp)Dizemos que f(x) é uma função contínua de probabilidade ou

função de densidade de probabilidade para uma variável aleatória contínua X, se satisfaz duas condições:

i) , para todo ii) A área definida por f(x) é igual a 1.Com auxílio do cálculo diferencial e integral, podemos

caracterizar a condição ii) através de

Da mesma forma, para calcular probabilidades, temos que para , , a integral indica a área sob f(x) definida pelo intervalo [a; b].

.1)( dxxf

b

adxxfbXaP ;)()(

I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.2 – A função de densidade probabilidade (fdp)Note que, pela forma como a atribuímos as probabilidades no caso

contínuo, teremos área zero sob qualquer valor individual, isto é, P(X = k) = 0 para qualquer k. Portanto, em se tratando de variáveis aleatórias contínuas, a probabilidade de ocorrência de um valor isolado é sempre zero e, consequentemente, as probabilidades calculadas sobre os intervalos [a; b], [a; b), (a; b] e (a; b) são as mesmas, para qualquer valor de a e b.

Exemplo: Num teste intelectual com alunos de um colégio Y, o tempo para realização de uma bateria de questões de raciocínio lógico é medido e anotado para ser comparado com um modelo teórico. Este teste é utilizado para identificar o desenvolvimento da capacidade de raciocínio lógico e auxiliar a aplicação de medidas corretivas. O modelo teórico considera T, tempo de teste em minutos, como uma variável aleatória contínua com função de densidade de probabilidade dada por:

O gráfico da fdp é apresentado a seguir (construiremos ele no software R). Deve ser notado que, pela definição de f(x), ela se anula para t < 8 ou t >15.

Vamos verificar agora se a função f(t) satisfaz a definição de densidade. Para calcular P(9 < T 12), vamos obter a área sob f(t) no intervalo (9; 12]:

contráriocaso

tse

tset

tf

0

1510203

;108)4(401

)(

I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.2 – A função de densidade probabilidade (fdp)

http://youtu.be/d53aKg7nLhI

http://youtu.be/cule8Zc1n-E

Assim P(9< T 12) = 7/16 valor esse obtido pela soma do trapézio definido no intervalo (9, 10) com o retângulo determinado pelo intervalo [10,12] (veja a figura).

6 8 10 12 14 16 18

0.00

0.05

0.10

0.15

t

f(t)


Através do uso de integral, essa mesma probabilidade seria calculada da seguinte forma:

12 10 12

9 9 10

10 12210 12

9 10109

(9 12) ( ) ( ) ( )

1 3 1 3( 4) 440 20 40 2 20

11 6 7 0,437580 20 16

P T f t dt f t dt f t dt

tt dt dt t t


I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.3 – Valor Médio de uma Variável Aleatória ContínuaO valor esperado ou média da variável aleatória contínua X, com

fdp dada por , é dada pela expressão:

Já a sua variância é dada por:

Como no caso discreto, a variância é a medida de dispersão mais utilizada na prática. Aqui podemos, também, utilizar a expressão alternativa , com sendo calculada como:

.)()( dxxxfXE

.)()( 22 dxxfx

.)()( 22 dxxfxXE

O desvio padrão é a raiz quadrada da variância e, como já mencionado anteriormente, tem a mesma unidade de medida da variável original, o que facilita a interpretação dos seus valores.

Vamos a um exemplo:Investidores estudaram uma certa carteira de ações e

estabeleceram um modelo teórico para a variável R, rendimento das ações (em mil R$). Suponha que R é uma variável aleatória contínua com a seguinte função de densidade:

Vamos aplicar no Software R

1 1 , 0 20( ) 40 10

0,

r se rf r

caso contrário

I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.3 – Valor Médio de uma Variável Aleatória Contínua

http://youtu.be/Qmk6wgQwwdI

I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.3 – Medidas de Posição para Variáveis Aleatórias Contínuas

Vamos determinar a média e a variância de R. Temos,

Para variância, calculamos primeiro E(R2):

Assim:

Portanto o desvio padrão será: Qual seria a probabilidade de conseguirem um rendimento entre 8

e 10 mil? Vamos fazer no R

20 203 220

00 0

1 1 1 20 351 5 $ .40 10 400 3 40 2 3 3

r r rr dr R mil

20 204 3202 2

00 0

1 1 1 200 500( ) 1 100 $ .40 10 400 4 40 3 3 3

r r rE R r dc R mil

22 2 2 2500 35 275( ) $30,56 mil

3 3 9E R R

30,56 $5,53 milR R

http://youtu.be/PCwg7kvxLtA

I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.4 – O modelo de distribuição Normal

A distribuição normal é uma das mais essenciais e importantes distribuições da estatística, conhecida também como Distribuição de Gauss ou Gaussiana. Foi primeiramente introduzida pelo matemático Abraham de Moivre.

Além de descrever uma série de fenômenos físicos e financeiros, possui grande uso na estatística inferencial. É inteiramente descrita por seus parâmetros de média e desvio padrão, ou seja, conhecendo-se estes consegue-se determinar qualquer probabilidade em uma distribuição Normal.

Um interessante uso da Distribuição Normal é que ela serve de aproximação para o cálculo de outras distribuições quando o número de observações fica grande. Essa importante propriedade provém do Teorema do Limite Central que diz que "toda soma de variáveis aleatórias independentes de média finita e variância limitada é aproximadamente Normal, desde que o número de termos da soma seja suficientemente grande" (Ou seja, que a amostra seja maior que 30 observações).


Diz-se que X tem Distribuição Normal com média e variância 2 se sua função de densidade de probabilidade (fdp) é:

E(X) = Var(X) = 2

Pode-se ainda verificar que os parâmetros e 2 representam, respectivamente, a média e a variância da distribuição. A demonstração requer algumas manipulações de integral. O que não vai ser demonstrado aqui. Assim quando indicarmos que X ~ N (; 2), segue imediatamente que E(X) = e Var(X) = 2.

xexf

x

iX 2

2

2)(

21)(


Graficamente a curva normal comporta-se da seguinte maneira:

30000 40000 50000 60000 70000 80000 90000

0e+0

01e

-05

2e-0

53e

-05

4e-0

5

Distribuição Nomal(60.000,8.300)

x

f(x)


Algumas propriedades da densidade da Normal podem ser, facilmente, observadas de seu gráfico:

fX(xi) é simétrica em relação à ;fX(xi) 0 quando x ;o valor máximo de fX(xi) se dá para x = e são pontos de inflexão

de f(xi)Quando temos e , temos uma distribuição padrão ou reduzida, ou

brevemente N(0,1). Para essa a função de densidade reduz-se a

2

21( ) ( )2

z

z if z z e x


Assim, o gráfico da normal padrão pode ser representado por:


Vamos partir de um exemplo prático:Vamos trabalhar com uma série dos fundos de investimentos da

Petrobrás gerenciado pelo Bando do Brasil. Observou-se que o comportamento dos fundos entre 02/01/2012 a 13/03/2012 tiveram um comportamento muito aproximado a uma curva normal como pode ser observado no gráfico abaixo:

A média ficou em torno de R$ 7,27 a cota do fundo e o desvio padrão foi de R$ 0,295.

Vamos construir a fdp desta variável aleatória no software R.Os limites de intervalo serão R$ 6 e R$ 8,25

http://youtu.be/Yeoqx6m39-o


No cálculo de probabilidades para variáveis contínuas, devemos resolver a integral da fdp no intervalo de interesse, isto é,

P(a X b) =

Entretanto, a integral acima só pode ser resolvida de modo aproximado e por métodos numéricos. Por essa razão, as probabilidades para o modelo Normal são calculadas com auxílio de software estatísticos ou por tabelas.

A partir do exemplo anterior, vamos visualizar algumas possibilidades e informações probabilísticas que podem ser tiradas a partir da curva da normal criada para o fundo de ações da Petrobrás.

2

2( )

212

xb

a

e


Cálculo da probabilidade de um modelo Normal usando o RLevando em consideração as informações do exemplo anterior,

pergunta-se:a) Qual a probabilidade de obtermos lucro se na época do resgaste o

valor da ação for de R$ 7,18.Para realizar tal tarefa vamos usar o comando pnormal que faz o cálculo da probabilidade. Além disso, vamos fazer também a representação gráfica na curva da normal.

b) Qual deveria ser o preço máximo (em R$) para que o investidor tenha uma probabilidade de lucro pequena, de cerca de 10%?Vamos verificar essa possibilidade com o auxílio do R.

http://youtu.be/3mH4kS_YU24

http://youtu.be/tdyRn0iRtXk


Aplicações da v.a. reduzida.A transformação da normal para a sua correspondente reduzida

z~N(0,1). Para determinar a probabilidade de X [a,b], procedemos com o seguinte cálculo:

P(a X b) = P(a - X - b - ) =

e, portanto, quaisquer que sejam os valores de e , utilizamos a Normal Padrão para obter probabilidades com a distribuição Normal.

bZaPbXaP


Os valores para P(0 Z z), z>0 são apresentados na seguinte tabela.

Com a simetria da densidade Normal podemos calcular valores de probabilidades em outros intervalos. Note que a simetria também implica que a probabilidade de estar acima (ou abaixo) de zero é 0,5. Como probabilidade é sempre um número entre 0 e 1, a tabela contém apenas a parte decimal.

Por exemplo, para X~N(2,9), teremos:

Agora como foi localizado o valor 0,3413 na tabela normal?

3413,0)10(925

92

922)52(

ZPXPXP

http://youtu.be/47ljNthBSEk

http://youtu.be/1kYmOQrnzTw


Para obter P(0 X 2), usamos a assimetria da Normal:

Podemos ainda calcular as probabilidades de intervalos com extremos negativos, utilizando os correspondentes intervalos na parte positiva. Um outro recurso importante no uso da tabela é a utilização do complementar. Por exemplo,

0 2 2 2 2 2(0 2) ( 0) (0 )3 39 9(0 0,6666) 0,2486

P X P Z P Z P Z

P Z

3707,01293,05,03105,03

13

23)3(

ZPZPZPXP

http://youtu.be/OPk-nwb6RVk

http://youtu.be/fqnTUOW7jSQ


A tabela também pode ser utilizada no sentido inverso, isto é, dado uma certa probabilidade, desejamos obter o valor que a originou. Por exemplo, quanto vale c tal que P(0 Z c) = 0,4? Procurando no corpo da tabela, a probabilidade que mais se aproxima de 0,4 é 0,3997; correspondendo a 1,28 que será o valor de c.

Suponha, agora, que queremos encontrar d tal que P(Z > d) = 0,8. Observamos que d precisa ser negativo, pois a probabilidade desejada é maior que ½, que é o valor de P(Z > 0). Assim, o intervalo (0; d) precisa ter probabilidade 0,3. Pela simetria da Normal, o intervalo (-d, 0) também tem probabilidade 0,3. Da tabela, segue que –d = 0,84 e portanto d = -0,84.


Vamos finalizar essa seção utilizando o exemplo anterior para o fundo de ações da Petrobrás/BB.a) Qual a probabilidade de obtermos lucro se na época do resgaste o

valor da ação for de R$ 7,18?

b) Qual deveria ser o preço máximo (em R$) para que o investidor tenha uma probabilidade de lucro pequena, de cerca de 10%?

Assim, precisamos obter um valor em R$ tal que: P(X < R$) = 0,1. Então,

7,27 7,18 7,27( 7,18) ( 0,31) 0,5 0,1179 0,38210, 295 0,295

XP X P P Z

7,27 $ 7,27 $ 7,27( ) 0,10,295 0,295 0,295

X R RP P Z

http://youtu.be/jDy5_CcQ4vs

http://youtu.be/4vk7Qbmzt-U

I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.5 – A distribuição t de student

A distribuição t de Student é importante no que se refere a inferências sobre médias populacionais.

Diz-se que uma variável aleatória contínua T tem distribuição t de Student se sua função de densidade é dada por:

Essa expressão, certamente, é assustadora! Mas eis uma boa notícia: não precisaremos dela para calcular probabilidades! No entanto, é interessante notar duas características básicas dessa expressão: o argumento t da função aparece elevado ao quadrado e fT depende apenas do número de graus de liberdade da qui-quadrado e, portanto, o parâmetro desta distribuição é, também, o número de graus de liberdade.


Em termos de média e variância a distribuição t de Student, (com v graus de liberdade) que será indicada por t(v), será:

Quanto maior o valor de v mais t aproxima-se de uma normal N~(0,1), isso pode ser verificado no gráfico abaixo:


Assim como no caso da normal, seria necessária uma tabela para cada valor de v. Os programas computacionais de estatística calculam probabilidades associadas a qualquer distribuição t. Mas nos livros didáticos é comum apresentar uma tabela da distribuição t que envolve os valores críticos, ou seja, valores que deixam determinada probabilidade acima deles. Mais precisamente, o valor crítico da t(v) associado à probabilidade α é o valor tv;α tal que

Para encontrar o valor tabelado basta pegarmos o grau de liberdade v e compararmos com a nossa probabilidade de cometer o erro tipo I (isso será visto mais adiante).

Suponha que tenhamos v=6 e queiramos um erro de 5% para uma distribuição uni caudal, então teríamos:

Tabela Bicaudal

I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.6 – A distribuição Qui-Quadrado

A distribuição qui-quadrado é um caso específico da distribuição Gama.

Como definição temos:Uma variável aleatória contínua Y tem distribuição qui-quadrado

com v graus de liberdade (denotada por ) se sua função densidade for dada por:

A média e variância para a qui-quadrado são:E(Y)=v Var(Y)=2v


Graficamente a distribuição qui-quadrado se comporta da seguinte forma:


Usando a tabela qui-quadrado para v=10, observe que P(Y>2,558)=0,99; ao passo que P(Y>18,307)=0,05.

I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.6 – A distribuição F de Snedecor

Sejam U e V duas v.a. independentes, cada uma com distribuição qui-quadrado, com v1 e v2 graus de liberdade, respectivamente. Então, a v.a.

Tem densidade dada por:

Diremos que W tem distribuição F de Snedecor, com e graus de liberdade, e usaremos a notação W~F(, . Podemos mostrar que:

1

2

U vWV v


O gráfico típico de uma distribuição F varia conforme seu grau de

liberdade como pode ser verificado abaixo:


Vamos considerar que nossa distribuição F tenha comportamento de média e variância com a seguinte característica W~F(5,7). Consultando a Tabela F teremos: P(F > 3,97) = 0,05, ou P (F 3,97) = 0,95.

Agora se quisermos encontrar:0,05 = P{F(5,7) < f0}=P{1/F(7,5) < f0}=P{F(7,5) > 1/ f0},Procurando na Tabela F, para F(7,5), obtemos 1/ f0=4,88 e,

portanto, f0=0,205.