Estatística II
UNIVERSIDADE FEDERAL DO PARÁINSTITUTO DE CIÊNCIAS SOCIAIS APLICADAS
FACULDADE DE ECONOMIA
Prof. Dr. Ricardo Bruno Nascimento dos Santos
VARIÁVEIS ALEATÓRIAS CONTÍNUAS
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS
I.2.1 - IntroduçãoDefinição: Uma função X definida pelo espaço amostral e
assumindo valores num intervalo de ´números reais, é dita uma variável aleatória contínua.
A principal característica de uma v.a. contínua é que, sendo resultado de uma mensuração, o seu valor pode ser pensado como pertencendo a um intervalo ao redor do valor efetivamente observado (sempre nosso valor efetivamente observado será a média).
Podemos então destacar as diferenças da v.a. discreta e contínua como sendo:
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS
I.2.1 - Introdução
Exemplos de v.a. contínuas: - Tempo de resposta de um sistema computacional- Tempo de vida de uma máquina- Resistência de um material- Oscilação diária em um índice na bolsa de valores
Além destas podemos também destacar:
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS
I.2.1 - Introdução
De forma semelhante àquela desenvolvida para variáveis discretas, precisamos estabelecer para as contínuas a atribuição de probabilidades às suas diversas realizações que, neste caso, podem assumir um número infinito de valores diferentes. Abordamos esta questão através do próximo exemplo.
Exemplo: Estudos anteriores revelam a existência de um grande lençol de água no subsolo de uma grande região. No entanto, sua profundidade ainda não foi determinada, sabendo-se apenas que o lençol pode estar situado em qualquer ponto, entre 20 e 100 metros.
Vamos supor que escolhemos, ao acaso, um ponto nessa região e dispomos de uma sonda que, ao fazer a perfuração, detecta com precisão à profundidade do reservatório de água. Denotamos por X a variável aleatória representando a profundidade.
Notemos que, apesar de X poder ser qualquer número entre 20 e 100 metros, o instrumento, com que trabalhamos, pode não ser tão preciso como gostaríamos. Por exemplo, uma profundidade de 32,571 metros poderia ser medida por 32,6 metros.
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS
I.2.1 - Introdução
Vamos assumir que temos um instrumento ideal que não faz aproximações. Nessas condições, podemos supor a sonda acoplada a um instrumento indicador da profundidade e um dispositivo que, quando a sonda encontrar água, provoque a imediata interrupção da perfuração.
Uma vez não que temos informações adicionais a respeito da profundidade do lençol, é razoável assumirmos que a sonda pode parar em qualquer ponto entre 20 e 100 metros, sem que tenhamos motivos para privilegiar essa ou aquela profundidade. Assim, consideraremos todos os pontos como igualmente prováveis. Se utilizarmos a mesma idéia de atribuir a cada possível ponto uma probabilidade, teremos uma dificuldade extra, pois eles pertencem a um intervalo de [20; 100], em que existem infinitos números reais.
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS
I.2.1 - Introdução
Assim, se cada um deles tiver, individualmente, probabilidade maior que 0, a soma das probabilidades será igual a infinito e não 1, como requer a definição da função de probabilidades. Em geral, em situações como esta, não é interessante considerar um único valor para a variável aleatória, mas intervalos de valores na atribuição de probabilidades. Neste caso, sabemos que o espaço amostral corresponde ao intervalo [20; 100] e as profundidades são igualmente prováveis.
Suponha por um momento, que dividimos o espaço amostral em 8 intervalos de comprimento 10. Logo, é razoável atribuir aos intervalos a probabilidade 1/8, correspondendo à relação entre o comprimento de cada um deles e o comprimento do espaço amostral. Isto é, 10 para 80 ou 1/8.
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS
I.2.1 - Introdução
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS
I.2.1 - IntroduçãoAssim, como dividimos em 8 faixas de igual comprimento e sem intersecção entre elas, teremos os intervalos [20; 30), [30; 40), ..., [90; 100] todos com a mesma probabilidade de 1/8, pois todos tem o mesmo tamanho.
Para construirmos um histograma, podemos supor que 1/8 é a frequência relativa da ocorrência de cada um dos intervalos. As ordenadas do gráfico são as densidades, calculadas de modo que a área de cada retângulo seja a frequência relativa (probabilidade) do intervalo.
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS
I.2.1 - Introdução
Note que, dada as características do problema, a divisão em 8 intervalos produziu o mesmo valor de densidade de 1/80 pra todos eles. Se dividirmos o intervalo [20; 100] em 16 faixas iguais, utilizando o mesmo argumento anterior, temos que os intervalos [20; 25), [25; 30), ..., [95; 100] terão todos a mesma probabilidade 1/16. O histograma correspondente será:
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS
I.2.1 - Introdução
O histograma mostra que apesar de termos diferentes intervalos, a densidade permanece a mesma, igual a 1/80.
Podemos continuar esse procedimento aumentando cada vez mais a quantidade de faixas, com a consequente diminuição de suas amplitudes de tal forma que, em uma situação teórica com infinitos intervalos, temos o seguinte histograma:
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS
I.2.1 - Introdução
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS
I.2.1 - IntroduçãoEstamos agora em condições de caracterizar, completamente a atribuição de probabilidade para o caso contínuo. Ela será definida pela área abaixo de uma função positiva, denominada de função de densidade de probabilidade (fdp). Observe que a densidade em si não é uma probabilidade, mas uma função matemática que nos auxilia na atribuição de probabilidades. Assim, para a variável aleatória contínua X representando a profundidade do lençol de água, a fdp f é dada por:
.100200
;1002080/1)(
xouxparaxpara
xf
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS
I.2.1 - IntroduçãoTendo em vista que, nesse exemplo a função de densidade é bastante simples, a probabilidade de que a profundidade do lençol esteja em um dado intervalo pode ser calculada com o uso de área de figuras planas. Assim, para obter a probabilidade de uma profundidade entre 25 e 29, calculamos a área do retângulo:
e, portanto, P(25 ≤ X < 29) = 804
8014
801)2529(
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.2 – A função de densidade probabilidade (fdp)Dizemos que f(x) é uma função contínua de probabilidade ou
função de densidade de probabilidade para uma variável aleatória contínua X, se satisfaz duas condições:
i) , para todo ii) A área definida por f(x) é igual a 1.Com auxílio do cálculo diferencial e integral, podemos
caracterizar a condição ii) através de
Da mesma forma, para calcular probabilidades, temos que para , , a integral indica a área sob f(x) definida pelo intervalo [a; b].
.1)( dxxf
b
adxxfbXaP ;)()(
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.2 – A função de densidade probabilidade (fdp)Note que, pela forma como a atribuímos as probabilidades no caso
contínuo, teremos área zero sob qualquer valor individual, isto é, P(X = k) = 0 para qualquer k. Portanto, em se tratando de variáveis aleatórias contínuas, a probabilidade de ocorrência de um valor isolado é sempre zero e, consequentemente, as probabilidades calculadas sobre os intervalos [a; b], [a; b), (a; b] e (a; b) são as mesmas, para qualquer valor de a e b.
Exemplo: Num teste intelectual com alunos de um colégio Y, o tempo para realização de uma bateria de questões de raciocínio lógico é medido e anotado para ser comparado com um modelo teórico. Este teste é utilizado para identificar o desenvolvimento da capacidade de raciocínio lógico e auxiliar a aplicação de medidas corretivas. O modelo teórico considera T, tempo de teste em minutos, como uma variável aleatória contínua com função de densidade de probabilidade dada por:
O gráfico da fdp é apresentado a seguir (construiremos ele no software R). Deve ser notado que, pela definição de f(x), ela se anula para t < 8 ou t >15.
Vamos verificar agora se a função f(t) satisfaz a definição de densidade. Para calcular P(9 < T 12), vamos obter a área sob f(t) no intervalo (9; 12]:
contráriocaso
tse
tset
tf
0
1510203
;108)4(401
)(
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.2 – A função de densidade probabilidade (fdp)
Assim P(9< T 12) = 7/16 valor esse obtido pela soma do trapézio definido no intervalo (9, 10) com o retângulo determinado pelo intervalo [10,12] (veja a figura).
6 8 10 12 14 16 18
0.00
0.05
0.10
0.15
t
f(t)
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.2 – A função de densidade probabilidade (fdp)
Através do uso de integral, essa mesma probabilidade seria calculada da seguinte forma:
12 10 12
9 9 10
10 12210 12
9 10109
(9 12) ( ) ( ) ( )
1 3 1 3( 4) 440 20 40 2 20
11 6 7 0,437580 20 16
P T f t dt f t dt f t dt
tt dt dt t t
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.2 – A função de densidade probabilidade (fdp)
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.3 – Valor Médio de uma Variável Aleatória ContínuaO valor esperado ou média da variável aleatória contínua X, com
fdp dada por , é dada pela expressão:
Já a sua variância é dada por:
Como no caso discreto, a variância é a medida de dispersão mais utilizada na prática. Aqui podemos, também, utilizar a expressão alternativa , com sendo calculada como:
.)()( dxxxfXE
.)()( 22 dxxfx
.)()( 22 dxxfxXE
O desvio padrão é a raiz quadrada da variância e, como já mencionado anteriormente, tem a mesma unidade de medida da variável original, o que facilita a interpretação dos seus valores.
Vamos a um exemplo:Investidores estudaram uma certa carteira de ações e
estabeleceram um modelo teórico para a variável R, rendimento das ações (em mil R$). Suponha que R é uma variável aleatória contínua com a seguinte função de densidade:
Vamos aplicar no Software R
1 1 , 0 20( ) 40 10
0,
r se rf r
caso contrário
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.3 – Valor Médio de uma Variável Aleatória Contínua
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.3 – Medidas de Posição para Variáveis Aleatórias Contínuas
Vamos determinar a média e a variância de R. Temos,
Para variância, calculamos primeiro E(R2):
Assim:
Portanto o desvio padrão será: Qual seria a probabilidade de conseguirem um rendimento entre 8
e 10 mil? Vamos fazer no R
20 203 220
00 0
1 1 1 20 351 5 $ .40 10 400 3 40 2 3 3
r r rr dr R mil
20 204 3202 2
00 0
1 1 1 200 500( ) 1 100 $ .40 10 400 4 40 3 3 3
r r rE R r dc R mil
22 2 2 2500 35 275( ) $30,56 mil
3 3 9E R R
30,56 $5,53 milR R
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.4 – O modelo de distribuição Normal
A distribuição normal é uma das mais essenciais e importantes distribuições da estatística, conhecida também como Distribuição de Gauss ou Gaussiana. Foi primeiramente introduzida pelo matemático Abraham de Moivre.
Além de descrever uma série de fenômenos físicos e financeiros, possui grande uso na estatística inferencial. É inteiramente descrita por seus parâmetros de média e desvio padrão, ou seja, conhecendo-se estes consegue-se determinar qualquer probabilidade em uma distribuição Normal.
Um interessante uso da Distribuição Normal é que ela serve de aproximação para o cálculo de outras distribuições quando o número de observações fica grande. Essa importante propriedade provém do Teorema do Limite Central que diz que "toda soma de variáveis aleatórias independentes de média finita e variância limitada é aproximadamente Normal, desde que o número de termos da soma seja suficientemente grande" (Ou seja, que a amostra seja maior que 30 observações).
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.4 – O modelo de distribuição Normal
Diz-se que X tem Distribuição Normal com média e variância 2 se sua função de densidade de probabilidade (fdp) é:
E(X) = Var(X) = 2
Pode-se ainda verificar que os parâmetros e 2 representam, respectivamente, a média e a variância da distribuição. A demonstração requer algumas manipulações de integral. O que não vai ser demonstrado aqui. Assim quando indicarmos que X ~ N (; 2), segue imediatamente que E(X) = e Var(X) = 2.
xexf
x
iX 2
2
2)(
21)(
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.4 – O modelo de distribuição Normal
Graficamente a curva normal comporta-se da seguinte maneira:
30000 40000 50000 60000 70000 80000 90000
0e+0
01e
-05
2e-0
53e
-05
4e-0
5
Distribuição Nomal(60.000,8.300)
x
f(x)
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.4 – O modelo de distribuição Normal
Algumas propriedades da densidade da Normal podem ser, facilmente, observadas de seu gráfico:
fX(xi) é simétrica em relação à ;fX(xi) 0 quando x ;o valor máximo de fX(xi) se dá para x = e são pontos de inflexão
de f(xi)Quando temos e , temos uma distribuição padrão ou reduzida, ou
brevemente N(0,1). Para essa a função de densidade reduz-se a
2
21( ) ( )2
z
z if z z e x
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.4 – O modelo de distribuição Normal
Assim, o gráfico da normal padrão pode ser representado por:
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.4 – O modelo de distribuição Normal
Vamos partir de um exemplo prático:Vamos trabalhar com uma série dos fundos de investimentos da
Petrobrás gerenciado pelo Bando do Brasil. Observou-se que o comportamento dos fundos entre 02/01/2012 a 13/03/2012 tiveram um comportamento muito aproximado a uma curva normal como pode ser observado no gráfico abaixo:
A média ficou em torno de R$ 7,27 a cota do fundo e o desvio padrão foi de R$ 0,295.
Vamos construir a fdp desta variável aleatória no software R.Os limites de intervalo serão R$ 6 e R$ 8,25
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.4 – O modelo de distribuição Normal
No cálculo de probabilidades para variáveis contínuas, devemos resolver a integral da fdp no intervalo de interesse, isto é,
P(a X b) =
Entretanto, a integral acima só pode ser resolvida de modo aproximado e por métodos numéricos. Por essa razão, as probabilidades para o modelo Normal são calculadas com auxílio de software estatísticos ou por tabelas.
A partir do exemplo anterior, vamos visualizar algumas possibilidades e informações probabilísticas que podem ser tiradas a partir da curva da normal criada para o fundo de ações da Petrobrás.
2
2( )
212
xb
a
e
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.4 – O modelo de distribuição Normal
Cálculo da probabilidade de um modelo Normal usando o RLevando em consideração as informações do exemplo anterior,
pergunta-se:a) Qual a probabilidade de obtermos lucro se na época do resgaste o
valor da ação for de R$ 7,18.Para realizar tal tarefa vamos usar o comando pnormal que faz o cálculo da probabilidade. Além disso, vamos fazer também a representação gráfica na curva da normal.
b) Qual deveria ser o preço máximo (em R$) para que o investidor tenha uma probabilidade de lucro pequena, de cerca de 10%?Vamos verificar essa possibilidade com o auxílio do R.
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.4 – O modelo de distribuição Normal
Aplicações da v.a. reduzida.A transformação da normal para a sua correspondente reduzida
z~N(0,1). Para determinar a probabilidade de X [a,b], procedemos com o seguinte cálculo:
P(a X b) = P(a - X - b - ) =
e, portanto, quaisquer que sejam os valores de e , utilizamos a Normal Padrão para obter probabilidades com a distribuição Normal.
bZaPbXaP
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.4 – O modelo de distribuição Normal
Os valores para P(0 Z z), z>0 são apresentados na seguinte tabela.
Com a simetria da densidade Normal podemos calcular valores de probabilidades em outros intervalos. Note que a simetria também implica que a probabilidade de estar acima (ou abaixo) de zero é 0,5. Como probabilidade é sempre um número entre 0 e 1, a tabela contém apenas a parte decimal.
Por exemplo, para X~N(2,9), teremos:
Agora como foi localizado o valor 0,3413 na tabela normal?
3413,0)10(925
92
922)52(
ZPXPXP
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.4 – O modelo de distribuição Normal
Para obter P(0 X 2), usamos a assimetria da Normal:
Podemos ainda calcular as probabilidades de intervalos com extremos negativos, utilizando os correspondentes intervalos na parte positiva. Um outro recurso importante no uso da tabela é a utilização do complementar. Por exemplo,
0 2 2 2 2 2(0 2) ( 0) (0 )3 39 9(0 0,6666) 0,2486
P X P Z P Z P Z
P Z
3707,01293,05,03105,03
13
23)3(
ZPZPZPXP
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.4 – O modelo de distribuição Normal
A tabela também pode ser utilizada no sentido inverso, isto é, dado uma certa probabilidade, desejamos obter o valor que a originou. Por exemplo, quanto vale c tal que P(0 Z c) = 0,4? Procurando no corpo da tabela, a probabilidade que mais se aproxima de 0,4 é 0,3997; correspondendo a 1,28 que será o valor de c.
Suponha, agora, que queremos encontrar d tal que P(Z > d) = 0,8. Observamos que d precisa ser negativo, pois a probabilidade desejada é maior que ½, que é o valor de P(Z > 0). Assim, o intervalo (0; d) precisa ter probabilidade 0,3. Pela simetria da Normal, o intervalo (-d, 0) também tem probabilidade 0,3. Da tabela, segue que –d = 0,84 e portanto d = -0,84.
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.4 – O modelo de distribuição Normal
Vamos finalizar essa seção utilizando o exemplo anterior para o fundo de ações da Petrobrás/BB.a) Qual a probabilidade de obtermos lucro se na época do resgaste o
valor da ação for de R$ 7,18?
b) Qual deveria ser o preço máximo (em R$) para que o investidor tenha uma probabilidade de lucro pequena, de cerca de 10%?
Assim, precisamos obter um valor em R$ tal que: P(X < R$) = 0,1. Então,
7,27 7,18 7,27( 7,18) ( 0,31) 0,5 0,1179 0,38210, 295 0,295
XP X P P Z
7,27 $ 7,27 $ 7,27( ) 0,10,295 0,295 0,295
X R RP P Z
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.5 – A distribuição t de student
A distribuição t de Student é importante no que se refere a inferências sobre médias populacionais.
Diz-se que uma variável aleatória contínua T tem distribuição t de Student se sua função de densidade é dada por:
Essa expressão, certamente, é assustadora! Mas eis uma boa notícia: não precisaremos dela para calcular probabilidades! No entanto, é interessante notar duas características básicas dessa expressão: o argumento t da função aparece elevado ao quadrado e fT depende apenas do número de graus de liberdade da qui-quadrado e, portanto, o parâmetro desta distribuição é, também, o número de graus de liberdade.
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.5 – A distribuição t de student
Em termos de média e variância a distribuição t de Student, (com v graus de liberdade) que será indicada por t(v), será:
Quanto maior o valor de v mais t aproxima-se de uma normal N~(0,1), isso pode ser verificado no gráfico abaixo:
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.5 – A distribuição t de student
Assim como no caso da normal, seria necessária uma tabela para cada valor de v. Os programas computacionais de estatística calculam probabilidades associadas a qualquer distribuição t. Mas nos livros didáticos é comum apresentar uma tabela da distribuição t que envolve os valores críticos, ou seja, valores que deixam determinada probabilidade acima deles. Mais precisamente, o valor crítico da t(v) associado à probabilidade α é o valor tv;α tal que
Para encontrar o valor tabelado basta pegarmos o grau de liberdade v e compararmos com a nossa probabilidade de cometer o erro tipo I (isso será visto mais adiante).
Suponha que tenhamos v=6 e queiramos um erro de 5% para uma distribuição uni caudal, então teríamos:
Tabela Bicaudal
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.6 – A distribuição Qui-Quadrado
A distribuição qui-quadrado é um caso específico da distribuição Gama.
Como definição temos:Uma variável aleatória contínua Y tem distribuição qui-quadrado
com v graus de liberdade (denotada por ) se sua função densidade for dada por:
A média e variância para a qui-quadrado são:E(Y)=v Var(Y)=2v
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.6 – A distribuição Qui-Quadrado
Graficamente a distribuição qui-quadrado se comporta da seguinte forma:
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.6 – A distribuição Qui-Quadrado
Usando a tabela qui-quadrado para v=10, observe que P(Y>2,558)=0,99; ao passo que P(Y>18,307)=0,05.
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.6 – A distribuição F de Snedecor
Sejam U e V duas v.a. independentes, cada uma com distribuição qui-quadrado, com v1 e v2 graus de liberdade, respectivamente. Então, a v.a.
Tem densidade dada por:
Diremos que W tem distribuição F de Snedecor, com e graus de liberdade, e usaremos a notação W~F(, . Podemos mostrar que:
1
2
U vWV v
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.6 – A distribuição F de Snedecor
O gráfico típico de uma distribuição F varia conforme seu grau de
liberdade como pode ser verificado abaixo:
I.2 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS I.2.6 – A distribuição F de Snedecor
Vamos considerar que nossa distribuição F tenha comportamento de média e variância com a seguinte característica W~F(5,7). Consultando a Tabela F teremos: P(F > 3,97) = 0,05, ou P (F 3,97) = 0,95.
Agora se quisermos encontrar:0,05 = P{F(5,7) < f0}=P{1/F(7,5) < f0}=P{F(7,5) > 1/ f0},Procurando na Tabela F, para F(7,5), obtemos 1/ f0=4,88 e,
portanto, f0=0,205.
Recommended