Upload
duongthuan
View
215
Download
0
Embed Size (px)
Citation preview
1
Técnicas Computacionais em Técnicas Computacionais em Probabilidade e Estatística IProbabilidade e Estatística I
Aula IIAula II
ChangChang ChiannChiannMAE 5704- IME/USP
1º Sem/2008
2
Alguns modelos de interesse prático:Alguns modelos de interesse prático:
a) Bernoulli; Binomial;
b) Poisson; Geométrica; Hipergeométrica;
c) Uniforme; Exponencial;
d) Normal; Gama; quiquadrado; t
Caso discreto: a função de probabilidade p(x)=P(X=x)
Caso contínuo: f(x) f.d.p.
3
Algumas DistribuiçõesAlgumas Distribuições
Densidade de uma Variável com Distribuição Normal
• Centralidade ⇒ E(Y)• Dispersão ⇒ E(Y-E(Y))2
• Simetria ⇒ E(Y-E(Y))3
• Curtose (caudas) ⇒ E(Y-E(Y))4
Média µ=E(Y)
σDesvio Padrão
( )( )
+∞<<∞−>
−−= +∞−∞ µσ
σ
µ
σπσµ ,0),(
2
1exp
2
1),|( ],[
2
2/1yI
yyfY
4
Distribuição Chi-Quadrado Distribuição Exponencial
Distribuição Normal
Forma das DistribuiçõesForma das Distribuições
Quais “parâmetros” da distribuição serão adotados parainvestigar o problema real?
E(Y) ? Var(Y) ? …
6
Distribuições Exatas
( ) [ ] );()()1(/
)( Bernoulli da a.a. é,...,,
,...,1,0
21
pnBinokIppk
nnkYP
pYYY
n
knk
n
⇒−
==⇒ −
( ) [ ] )()(!
)(/
)(Poisson da a.a. é,...,,
,...2,1,0
21
λλ
λλ
nPkIk
nenkYP
YYY
kn
n
⇒==⇒−
( ) );()()(
1
)( lExponencia da a.a. é,...,,
1
0
21
θθ
θ
θnndunenu
nyYP
YYY
unnn
y
n
Γ⇒Γ
=≤⇒ −−
∫
�
�
�
7
Distribuição Qui-Quadrado
)(2)2/(
1)(se~ ),0(
2/2/)2(2/
2uIeu
nufU
un
nn ∞−−
Γ=χ
( ) ( ) ( ) nUVarnnUEnUE 2)2(2 =+==
( )
( )
tesindependen v.a.são e
~)1()(
~)(
;,...,,
~1;0,...,,
2
212
2
12
2
2
12
22
21
2
1
221
sY
snYY
YNiidYYY
ZNiidZZZ
n
n
j
j
n
n
j
j
n
n
n
j
jn
⇒
−=
−⇒
−⇒
⇒
−=
=
=
∑
∑
∑
χσσ
χσ
µσµ
χ
�
�
�
8
Distribuição t de Student
n
n
tnU
ZT
UZUNZ
~/
:Então tes.independen v.a. e ; ~ e )1;0(~ Seja 2
=
χ�
� ( )
1
2221
~/
amostral variânciae média a e com ,; ,...,,
−
−⇒ n
n
tns
Y
sYNiidYYY
µ
σµ
( ))(1
)2/(
2/)1()(se~ ),(
2/)1(2
tIn
t
nn
ntftT
n
n ∞−∞
+−
+
Γ
+Γ=
π
( ) ( ) )2/(:2 Para 0:1 Para −=>=> nnTVarnTEn�
⇒ Justifique a estatística do teste “t”
9
Distribuição F de Snedecor
�
�
)(1)2/()2/(
2)( ),0(
)2
(
2
1)
2
2(
21
2/
2
12121
1
1
wIwn
nw
nn
n
nnn
wf
nnn
n
∞
+−−
+
ΓΓ
+Γ
=
( ) ( )2
22
21
2122
22 )4()2(
)2(2)2/(
−−
−+=−=
nnn
nnnWVarnnWE�
21
21
,22
11
212
22
1
~/
/
:Então tes.independen v.a. e U; ~ e ~ USeja
nn
nn
FnU
nUW
UU
=
χχ
nn FTt ,12 ~ então ~T Se
10
Formulação do Problema Formulação do Problema (Clássico)(Clássico)
População Dados
“Realização de um “Realização de um
Experimento Aleatório”Experimento Aleatório”
( Y1, Y2, ... , Yn )
ESTATÍSTICAS
Y: Variável Aleatória
Y = y P ( y ) , f ( y )
PARÂMETROS
Amostra
Aleatória
sY
p
==
=
σµ
π
ˆˆ
ˆ2σµ
π
⇒ Modelos estruturais: Y=f (X)
11
Estimadores e Estatísticas de Teste
� Função de Verossimilhança (Fisher, 1922)
( )
( ) ( )∏=
=n
j
jn
n
YfL
yfiidYYY
1
21
;
;,...,,
θθ
θ
( )
( )n
θLθ
θLθ
nn
n
θθθ ˆ|log0,ˆ
0log
=∂
∂=⇒
=∂
∂
� Método da Máxima verossimilhança
Soluções numéricas:
⇒Newton-Raphson
⇒Scoring
12
Estimadores e Estatísticas de Teste
Sob Condições de Regularidade
( ) ( ) ( )
∂
∂−≡
∂
∂=
−− θθ
θθ
θθ θθθθ ;log;log;;~ˆ2
2211
YfEYfEIInNn
� Estatística Razão de Verossimilhanças
( ) ( )[ ] 20
0
~lnˆln2 r
Hsob
n θLθLΛ χ−=
00: θθ =H
13
Propriedades de um Estimador
� Consistência: menor erro quadrático médio
� Não Viciado: E(T) = τ(θ)
� Suficiente: P(Y / T=t;θ) = P(Y / T=t)
� Variância Mínima (na classe dos não-viciados)
� Locação Invariante: t(y+k)=t(y)+k
� Escala invariante: t(ky) = kt(y)
� Robustez, Resistência …
[ ] ( ) [ ]22 )()()( TETVarTE θθ θτθτ −+=−
Úteis em análisesexploratórias!
14
Medidas de PosiçãoMedidas de Posição
Primeiro Primeiro quartilquartil: valor que deixa 25% das : valor que deixa 25% das
observações abaixo deleobservações abaixo dele
Segundo Segundo quartilquartil: mediana: mediana
Terceiro Terceiro quartilquartil: valor que deixa 75% das : valor que deixa 75% das
observações abaixo deleobservações abaixo dele
+
=)1(
4
11n
YQ
+
=)1(
4
22n
YQ
+
=)1(
4
33n
YQ
⇒⇒⇒⇒ Resumo de 5 números: MaxQQQMin 321
“aproximadas”
321 4
1
2
1
4
1QQQTrimédia ++=
15
Outras MédiasOutras MédiasMédia GeométricaMédia Geométrica
Média HarmônicaMédia Harmônica
nnG YYYY ...21=
nH YYYY
n 1...
11
21
+++=
16
Média GeométricaMédia Geométrican
nG YYYY ...21=
⇒ Média Proporcional, Média das Taxas, das Razões
Ex. Taxa Média de Lucro
2000 2001 2002
R$ 500 650 900
650 900
500 65034,1
650
900
500
650==GY
17
Média GeométricaMédia GeométricaEx. Epidemia de Gripe
1º Dia 2º Dia 3º Dia
# Casos 12 18 48
18 48
12 18
1º Dia → 2º Dia : # de casos de gripe foi multiplicado por 18/12
2º Dia → 3º Dia : # de casos de gripe foi multiplicado por 48/18
Calcule a Média geométrica destas duas taxas de crescimento?
Estime o número de casos para o 4º e 5º Dia, assumindo que o padrãode contaminação se mantém constante.
18
Média HarmônicaMédia Harmônica
nH YYYY
n 1...
11
21
+++=
Valoriza a regularidade (harmonia) ⇒ é a média das ações de vários indivíduos, desenvolvidas quando ocorre a colaboração de uma ação com as outras.
Ex. Velocidade Média
60km/h 40km/h
10km 10km
km/h4840
1
60
1
2
11=
+=
HYY = 50 km/h ??
YH ⇒ 20km em 25min
19
Harmônico GlobalHarmônico Global
nYYYH
1...
111
21
+++=
Harmonia e Matemática http://pessoal.sercomtel.com.br/matematica/outros/harmonia;htm
Ex. Uma pessoa demora 6h para construir um muro e outra leva 9h.Pondo-se as duas pessoas trabalhando juntas em quanto tempo o muro estará pronto?
H = 3,6 h = 3 h 36 min
20
Comparação entre as MédiasComparação entre as MédiasYYY GH ≤≤
2
YYY
H
G
+≅
quando os valores da variável não diferirem muito
Aluno P1 P2 P3 Y YG YH
A1 7 7 7 7 7 7
A2 6 8 7 7 6,95 6,90
A3 4 10 7 7 6,54 6,08
22
20
25
30
35
40
15/12 29/12 12/1 26/1 9/2 23/2 8/3
Dias
Va
lor
em
US
$
Gráficos de Linha – Séries Temporais
23
Médias Móveis SimplesMédias Móveis Simples
k
YYMM
k
YYY
Yk
MMMM
kTTT
kTTT
k
j
jTTkhT
−−
+−−
−
=−=
−+=
+++=
== ∑
1
11
1
0][
...
1
Média Móvel com amplitude k
Série temporal com n observações: Y1 Y2 ... Yn
24
0
10
20
30
40
50
60
0 5 10 15 20
Período
Ven
das (
Yt)
Período Vendas (Yt)
1 19
2 45
3 32
4 40
5 23
6 49
7 38
8 44
9 27
10 52
11 42
12 48
13 32
14 56
15 46
16 52
25
Alisamento da Série
0
20
40
60
0 5 10 15 20
Período
Ven
das
Período Vendas (Yt) MM(h=4)
1 19 -
2 45 -
3 32 -
4 40 34
5 23 35
6 49 36
7 38 37,5
8 44 38,5
9 27 39,5
10 52 40,25
11 42 41,25
12 48 42,25
13 32 43,5
14 56 44,5
15 46 45,5
16 52 46,5
26
Outras MédiasOutras MédiasMédia QuadráticaMédia Quadrática
Média AbsolutaMédia Absoluta
e ainda existem outras propostas ...e ainda existem outras propostas ...
( )YYDDn
Y jj
n
j
jQ −== ∑=1
21
( )YYDDn
Y jj
n
j
jQ −== ∑=1
1
27
Grupo 1: 3,4,5,6,7Grupo 1: 3,4,5,6,7 Grupo 2: 1, 3, 5, 7, 9Grupo 2: 1, 3, 5, 7, 9 Grupo 3: 5,5,5,5,5Grupo 3: 5,5,5,5,5
Exemplo Exemplo 22:: Considere as notas de um teste de 3 grupos de alunos
GG 11* * * * *
GG 22* * * * *
GG 33
*****
0 105
e md1= md2= md3 = 5Temos: x1 = x2 = x3 = 5_ _ __ __
28
Medidas de DispersãoMedidas de Dispersão
Finalidade:Finalidade: encontrar um valor que resuma a variabilidade de um conjunto de dados
••Amplitude (Amplitude (AA):):
Para os grupos anteriores, temos:Grupo 1, A = 4Grupo 2, A = 8Grupo 3, A = 0
A = máx - min
29
∑= −
−=
−
−++−+−=
n
i
in
n
xx
n
xxxxxxs
1
2222
212
1
)(
1
)(...)()(
VariânciaPadrãoDesvio == s
•• Variância Variância amostralamostral::
•• Desvio padrão:Desvio padrão:
∑=
−=
−++−+−=
n
i
in
n
xx
n
xxxxxxxVar
1
2222
21 )()(...)()(
)(
•• VariânciaVariância
30
G3: s2 = 0 ⇒⇒⇒⇒ s = 0
Cálculo para os grupos:
4GG11: s2 =(3-5)2+(4-5)2+ (5-5)2+ (6-5)2+ (7-5)2
GG22: s2 = 10 ⇒⇒⇒⇒ s = 3,16
⇒⇒⇒⇒ s = 1,58⇒⇒⇒⇒ s2 = 10/4= 2,5
31
FórmulaFórmula alternativaalternativa::
Em G1: ΣXi2 = 9 + 16 + 25 + 36 +49 = 135
1)(
n
1i
−
−
=∑=
n
XnX
S
i
22
2
4⇒⇒⇒⇒ S2 = 135 - 5×(5)2 = 2,5
32
- é uma medida de dispersão relativa- elimina o efeito da magnitude dos dados- exprime a variabilidade em relação à média
%100×=x
sCV
•• Coeficiente de Variação (Coeficiente de Variação (CVCV))
33
Altura 1,143m 0,063m 5,5%Peso 50 kg 6kg 12%
MédiaDesvioPadrão
Coef. de Variação
ConclusãoConclusão: Os alunos são, aproximadamente, duas vezes mais dispersos quanto ao peso do que quanto à altura.
Altura e peso de alunos
Exemplo Exemplo 3:3:
34
ConclusãoConclusão: Em relação às médias, as alturas dos adolescentes e dos recém-nascidos apresentam variabilidade quase iguais.
Desviopadrão
Coef. devariação
Média
Recém-nascidos 50 6 12%Adolescentes 160 16 10%
Altura (em cm) de uma amostra de recém-nascidos e de uma amostra de adolescentes
Exemplo Exemplo 4:4:
36
•• Desvio mediano absoluto (uma medida Desvio mediano absoluto (uma medida robusta em relação à mediana)robusta em relação à mediana)
)()(1
xmdxdma xmd ini−=
≤≤
••Variância aparada (SVariância aparada (S22((αα))))
37
DadosDados: 1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7
Q1 = 2,05 e Q3= 4,9
Q3 - Q1 = 4,9 - 2,05 = 2,85
••IntervaloIntervalo--InterquartilInterquartil::
É a diferença entre o terceiro quartil e o primeiro quartil, ou seja, QQ3 3 -- QQ11..
38
Para uma Para uma distdist. Normal:. Normal:
IQ = 1,349IQ = 1,349σσ
UmUm estimadorestimador do desvio padrão do desvio padrão populacionalpopulacional
S*=IQ/1,349S*=IQ/1,349
39
Medidas de VariabilidadeMedidas de VariabilidadeConsistênciaConsistência13 QQIQ −=
Assegurar consistência
{ }2QYMedianaMAD jj −=
( ) ( )
3490,1
3490,1)4/3(21;~
IQ
qnormIQENY j
⇒
=∗=⇒µ
( ) ( )
MAD
qnormMADENY j
4826,1
4826,1)4/3(
;~ 2
⇒
==⇒ σσ
σµ
Multiplicação por um fator de escala para assegurarconsistência
40
Medidas de VariabilidadeMedidas de Variabilidade
( )
{ }
%100
1
1
1
2
1
1
22
13
)1()(
×=
−=
−=
−−
=
−=
−=
∑
∑
=
=
Y
sCV
QYMedianadma
yYn
dm
yyn
s
QQIQ
YYAV
jj
n
j
j
n
i
i
n ⇒ Amplitude de Variação (“Range”)
⇒ Intervalo Inter-Quartil
⇒ Variância (u.m.² ) ⇒ s
⇒ Desvio Médio Absoluto
⇒ Desvio Mediano Absoluto
⇒ Coeficiente de Variação (adimensional)
41
Comparação entreComparação entre EstimadoresEstimadores de Escalade Escala
Ind. Yj Y(j) | Y(j) - Q2 | Ind. Yj Y(j) | Y(j) - Q2 |1 800 500 312 1 900 675 2252 974 700 112 2 803 751 1493 500 725 87 3 1145 765 1354 725 765 47 4 900 803 975 812 794 18 5 1225 825 756 794 800 12 6 751 850 507 765 812 0 7 825 900 08 900 826 14 8 1070 900 09 826 850 38 9 1128 1070 17010 700 850 38 10 1080 1080 18011 850 900 88 11 675 1128 22812 945 945 133 12 850 1145 24513 850 974 162 13 765 1225 325
AD=81.62 MAD=47 AD=144.54
Mediana=900IQ=277MAD=149
s=120.37 IQ=85Média=932.08s=176.58
Rural Urbano
Média=803.15 Mediana=812
Scores de desempenho escolar de estudantes da zona rural e urbana
• os valores de MAD indicam uma grande variabilidade entre os desempenhos dos estudantes da zona urbana. Entre os estudantes da zona rural há maishomogeneidade
42
EstimadoresEstimadores de Escalade EscalaMedidas de VariabilidadeMedidas de Variabilidade
Scores de desempenho escolar de estudantes da zona rural e urbana
s é influenciado
pelo valor 500
Medida Rural Urbano U/Rs 120.37 176.58 1.47AD 81.62 144.54 1.77MAD 47 149 3.17IQ 85 277 3.26s' 82.20 176.58 2.15
Super-estimam
⇒ IQ: aparar 50% das obs parece ser muito
⇒ Escolha apropriada do estimador de escala não é simples
43
Rural Urbana
Gráficos de Simetria para os dados do Score de Estudantes
⇒⇒⇒⇒ Transformações para garantir simetria: transformações potência
pYkY ⇒
(Y-Q2)r
(Q2-Y)r
180160140120100806040200
350
300
250
200
150
100
50
0
Scatterplot of (Q2-Y)r vs (Y-Q2)r
(Y-Q2)u
(Q2-Y)u
350300250200150100500
250
200
150
100
50
Scatterplot of (Q2-Y)u vs (Y-Q2)u
44
EstimadoresEstimadores de Escalade EscalaMedidas de VariabilidadeMedidas de Variabilidade
Calcule as medidas s e MAD para as amostras a seguir:
⇒ Note que na presença de obs atípicas (irregularidades locaisnos dados) a escolha do estimador de escala não é simples.
0
1
2
3
10
0
0
2
3
4
Amostra 1 Amostra 2
45
Comparação de Comparação de EstimadoresEstimadores de Escalade EscalaEstudos de Simulação (n=20)
Valor esperado do estimador (8000 “runs”)Grau crescente de
contaminação para
caudas pesadas
� s é mais sensível a caudas pesadas� MAD e IQ são mais resistentes� Compararar estimadores ⇒ comparar suas variâncias (precisão)
⇒ A variância de um estimador depende de seu valor esperado ⇒ Como comparar estimadores se há variação dentro e entre distribuições?
⇒ Adotar a variância do ln do estimador, V(ln T), que tem boas propriedades de invariância
Estimador 20 N(0;1) 19 N(0;1), 1 N(0;100) 20 N(0;1) / U(0;1)s 0.98 2.23 23.26MAD 0.64 0.68 1.51IQ 1.35 1.41 3.25
])ln([])(ln)(ln[])(ln[ TVarkTVarkTVar =+=
46
EstimadoresEstimadores de Escalade EscalaEstudos de Simulação (n=20)
Valor da Var [ ln (estimador) ] (8000 “runs”)
Limite de Cramer-Rao
Estimador 20 N(0;1) 19 N(0;1), 1 N(0;100) 20 N(0;1) / U(0;1)s 0.026 0.271 1.1AD 0.032 0.085 0.634MAD 0.074 0.071 0.105IQ 0.063 0.062 0.115Mínima Var 0.026 0.029 0.099
Simulação
Estimador 20 N(0;1) 19 N(0;1), 1 N(0;100) 20 N(0;1) / U(0;1) Trieficiências 100 11 9 9AD 81 34 16 16MAD 35 41 94 35IQ 41 47 86 41
Eficiência dos estimadores (razão entre variâncias)
IQ é um estimador robusto e teve a maior eficiência relativa (trieficiência)