Upload
matheus-galdino
View
177
Download
3
Embed Size (px)
Citation preview
2-Teoria Bayesiana de Decisão
CT 720 Tópicos em Aprendizagem de Máquina eClassificação de Padrões
ProfFernandoGomide DCA-FEEC-Unicamp
1. Introdução
2. Teoria Bayesiana de decisão: atributos contínuos
3. Classificação com taxa de erro mínima
4. Funções de discriminação e classificadores
5. Densidade normal
6. Funções de discriminação para densidade normal
7. Teoria Bayesiana de decisão: atributos discretos
8. Redes Bayesianas
9. Resumo
Conteúdo
DCA-FEEC-UnicampProfFernandoGomide
1-Introdução
� Teoria Bayesiana de decisão
– abordagem estatística para reconhecimento padrões
– assume problema de decisão formulado probabilisticamente
– todos valores relevantes de probabilidade conhecidos
– identificação de sequências DNA
� Este capítulo
– apresenta fundamentos da teoria
– teoria: formaliza procedimentos intuitivos
DCA-FEEC-UnicampProfFernandoGomide
DCA-FEEC-Unicamp
� Previsão próximo tipo peixe?
ω = estado : variável aleatória
ω = ω1 sea bass
ω = ω2 salmon
� Assumindo
P(ω1): probabilidade a priori próximo tipo ésea bass
P(ω1): probabilidade a priori próximo tipo ésalmon
P(ω1) + P(ω2) = 1
ProfFernandoGomide
� Decidir tipo próximo peixe
– classificação incorreta: mesmo custo
– informação disponíveis: somente P(ω1) e P(ω2)
� Regra de decisão
� decidir ω1 se P(ω1) > P(ω2) ; caso contrário decidir ω2
– regra: mesma decisão, mesmo sabendo que existem 2 tipos
– desempenho depende da escolha de P(ω1) e P(ω2)
ProfFernandoGomide DCA-FEEC-Unicamp
DCA-FEEC-UnicampProfFernandoGomide
� Na prática
– temos mais informação
– e.g. medida luminosidade (x)
– densidade probabilidade condicional de classe p(x/ω)
– função densidade de probabilidade de x dado estado ω– p(x/ω1) e p(x/ω2) descrevem diferenças de luminosidade
ProfFernandoGomide DCA-FEEC-Unicamp
DCA-FEEC-UnicampProfFernandoGomide
� Supor que conhecemos:
– P(ω1) e P(ω2)
– p(x|ω1) e p(x|ω2)
– medida de luminosidade x
� Como x influencia a escolha correta do tipo?
– estimativa correta do estado ?
– como decidir o tipo (classe)
DCA-FEEC-Unicamp
� Classificação usando luminosidade como atributo
ProfFernandoGomide
evidence
priorlikelyhoodposterior
efeitoP
causaPcausaefeitopefeitocausaP
ωPωxpxp
xp
ωPωxpxωP
ωPωxpxpxωPxωp
jjj
jjj
jjjj
×=
=
=
=
==
∑=
)()()/(
)/(
)()|()(
)(
)()|()|(
)()|()()|(),(
2
1
Bayes
DCA-FEEC-UnicampProfFernandoGomide
P(ω1) = 2/3P(ω2) = 1/3
Regra de decisão de Bayes
� decidir ω1 se P(ω1| x) > P(ω2| x) ; caso contrário decidir ω2 (*)
DCA-FEEC-Unicamp
� Regra de Bayes minimiza a probabilidade de erro
ProfFernandoGomide
=
12
21
decidimosse)|(
decidimosse)|()|(
ωxωP
ωxωPxerrorP
– para uma observação x minimiza-se a probabilidade de erro:
� decidindo ω1 se P(ω1| x) > P(ω2| x); ou ω2 caso contrário
– esta regra minimiza a probabilidade de erro para qualquer x, em média?
DCA-FEEC-UnicampProfFernandoGomide
dxxpxerrorPdxxerrorPerrorP )()|(),()( ∫∫∞
∞−
∞
∞−==
– logo a integral P(error) é mínima se P(error/x) é mínima, isto é, se
� decidir ω1 se P(ω1| x) > P(ω2| x); caso contrário decidir ω2
– P(error/x) = min [P(ω1| x) , P(ω2| x) ]
– em média a probabilidade do erro é
� Regra de decisão de Bayes (alternativa)
� decidir ω1 sep(x|ω1)P(ω1) > p(x|ω2) P(ω2); caso contrário decidir ω2
DCA-FEEC-UnicampProfFernandoGomide
2-Teoria Bayesiana de decisão: atributos contínuos
� Generalização
– uso de vários atributos
– mais de dois estados
– outras decisões e não só classificação
– critério mais geral que probabilidade de erro
DCA-FEEC-Unicamp
� Notação
x : atributo, x ∈ Rd
Rd : espaço (Euclideano) de atributos
{ ω1, ..., ωc}: conjunto (finito) de c estados (categorias)
{ α1, ..., αa}: conjunto (finito) de a decisões (ações)
λ(αi, ωj): loss function = custo decisão αi quando em ωj
� Regra de Bayes
ProfFernandoGomide
∑=
=
=
c
jjj
jjj
ωPωpp
p
ωPωpωP
1)()|()(
)(
)()|()|(
xx
x
xx
DCA-FEEC-UnicampProfFernandoGomide
– supor observação x e ação αi correspondente
– se estado verdadeiro é ωj, então custo associado é λ(αi, ωj)
– valor esperado do custo da ação αi será:
∑=
αλ=αc
ijjii ωPωR
1)|()|()|( xx
– dado x, que ação αi minimiza o risco condicional,∀x ?
– solução (ótima): regra de Bayes !
Risco condicional
DCA-FEEC-Unicamp
� Regra (estratégia) de decisão
– α(x): fornece a decisão para cada valor de x– para cada x, α(x) assume um dos a valores α1, ..., αa
– risco global: risco associado com uma estratégia de decisão
ProfFernandoGomide
xxxx dpRR )()|)((∫ α= Risco global
– se α(x) é tal que o valor deR(αi(x)) é o menor possível ∀x,
então risco global é minimizado; isto motiva o seguinte:
DCA-FEEC-UnicampProfFernandoGomide
aiωPωRc
ijjii ,,1,)|()|()|(
1K=αλ=α ∑
=xx
� Regra de Bayes
para minimizar risco global:
1 – calcular
2 – selecionar ação αi que minimiza R(αi|x)
R* = risco de Bayes
DCA-FEEC-Unicamp
� Exemplo com duas classes
– α1 : decide que estado verdadeiro éω1
– α2 : decide que estado verdadeiro éω2
– λij = λ(αi, ωj) custo quando decisão ⇒ ωi mas verdadeiro éωj
risco condicional
ProfFernandoGomide
)|()|()|(
)|()|()|(
2221212
2121111
xxx
xxx
ωPωPR
ωPωPR
λ+λ=αλ+λ=α
� decidir ω1 se R(α1|x) < R(α2|x)
DCA-FEEC-UnicampProfFernandoGomide
– alternativamente, em termos das probabilidades a posteriori
� decidir ω1 se (λ21 – λ11)P(ω1| x) > (λ12 – λ22) P(ω2| x)
– em geral λ21 > λ11 e λ12 > λ22
– utilizando Bayes, probabilidades a priori e densidades condicionais
)()(
)()(
)|()|(
1
2
1121
2212
2
1
ωP
ωP
ωP
ωP
λ−λλ−λ>
xx
Razão de verosimilhança
DCA-FEEC-UnicampProfFernandoGomide
3-Classificação com taxa de erro mínima
cjiji
jiω ji ,,1,
1
0)|( K=
≠=
=αλ
)|(1
)|(
)|()|()|(1
x
x
xx
i
jji
c
ijjii
ωP
ωP
ωPωR
−=
=
αλ=α
∑
∑
≠
=
DCA-FEEC-UnicampProfFernandoGomide
� Regra Bayes para taxa de erro mínima
– minimizar risco: selecionar ação que minimiza risco condicional
– minimizar taxa de erro de classificação:
� decidir ωi se P(ωi | x) > P(ωj | x) ∀ i, j (ver *)
DCA-FEEC-UnicampProfFernandoGomide
4-Funções discriminação e classificadores
� Função discriminação
gi(x), i = 1,..., c
� classificador atribui classe ωi a x se gi(x) > gi(x) ∀ j ≠ i
Exemplos:
gi(x) = –R(αi|x) risco condicional mínimo
gi(x) = P(ωi | x) erro classificação mínimo
DCA-FEEC-UnicampProfFernandoGomide
Estrutura funcional de classificadores estatísticos
� Propriedades
– funções discriminação não são únicas
– transformações: f(gi(x)), f monotônica crescente
– simplificação analítica e computacional
– exemplos de classificadores (erro classificação mínimo):
DCA-FEEC-UnicampProfFernandoGomide
)(ln)|(ln)(
)()|()(
)()|(
)()|()|()(
1
iii
iii
c
jjj
iiii
ωPωpg
ωPωpg
ωPωp
ωPωpωPg
+=
=
==∑=
xx
xx
x
xxx
DCA-FEEC-UnicampProfFernandoGomide
– formas funções diferentes, mas regras de decisão equivalentes
– efeito: dividir o espaço de atributos em c regiões distintas
� se gi(x) > gi(x) ∀ j ≠ i então x ∈ R i
– R i ∩ R j = ∅
– R 1 ,..., R c formam uma partição do espaço de atributos
– exemplo: duas categorias (classes)
� atribuir ω1 a x se g1(x) > g2(x) ∀ j ≠ i
g (x) = g1(x) – g2(x)
� atribuir ω1 a x se g(x) > 0
)()(
ln)|()|(
ln)(
)|()|()(
2
1
2
1
21
ωP
ωP
ωp
ωpg
ωPωPg
+=
−=
xx
x
xxx
(**)
(***)
DCA-FEEC-UnicampProfFernandoGomide
DCA-FEEC-UnicampProfFernandoGomide
5-Densidade normal
[ ] 0)],)([(,
)())((]))([(
][,)(][
)()(21
exp||)2(
1)( 1
2/12/
>µ−µ−=σσ=
−−=−−=
=µ==
−−−π
=
∫
∫
∞
∞−
∞
∞−
−
ΣΣ
xxµxµxµxµxΣ
xxxxµ
µxΣµxΣ
x
jjiiijij
tt
ii
td
xxE
dpE
xEdpE
p
DCA-FEEC-UnicampProfFernandoGomide
ctet =−− − )()( 1µxΣµx
DCA-FEEC-UnicampProfFernandoGomide
1)()( 1 =−− −µxΣµx t
1γ2γ
1λ
2λ
µ
DCA-FEEC-UnicampProfFernandoGomide
� Transformações lineares
– combinações lineares de variáveis aleatórias normais são normais
p(x) = N(µµµµ, ∑∑∑∑)
A (d × k)
y = A tx (k × 1)
p(y) = N(A tµµµµ, A t∑∑∑∑A)
– se A = a (d × 1), k = 1, ||a|| = 1 então
y = atx (escalar que representa projeção de x ao longo de a)
at ∑∑∑∑a variância da projeção de x ao longo de a
DCA-FEEC-UnicampProfFernandoGomide
DCA-FEEC-UnicampProfFernandoGomide
� Observações
)()( 12µxΣµx −−= −tr Distância de Mahalanobis
−ππ=
=
− imparddd
parddV
rVV
dd
d
d
dd
!/)!2/1(2
)!2//(
||
2/)1(
2/
2/1Σ Volume hiperelipsóide
Volume hiperesfera
6-Funções discriminação p/ densidade normal
)(ln||ln21
2ln2
)()(21
)(
),(~)|(
)(ln)|(ln)(
1ii
ti
iii
iii
ωPd
g
Nωp
ωPωpg
+−π−−−−=
+=
−ΣµxΣµxx
Σµx
xx
� Caso 1: ∑∑∑∑i = σ2I
)(ln2
)(2
2
ii
i ωPg +σ
−−=
µxx
)(ln]2[2
1)(
2 iiti
tti ωPg ++−
σ−= µµxµxxx
termo quadrático é o mesmo∀ i
)(ln2
1,
1
)(
2o2
o
iitiiii
itii
ωPw
wg
+σ−=
σ=
+=
µµµw
xwx Máquina linear
Limiar (bias) para i-ésima classe
)()()(
ln)(21
0)(
0)()(
2
2
o
o
jij
i
ji
ji
ji
t
ji
ωP
ωP
gg
µµ
µµ
µµx
µµw
xxw
xx
−−
σ−+=
−=
=−
=−
Hiperplano separa R i e R j
passa por xo e é ortogonalà reta que une as médias
)(21
)()( o jiji ωPωP µµx +=⇒=
P(ωi) ≠ P(ωj)
xo se afasta da média mais provável
P(ωi) = P(ωj), ∀i, j termo lnP(ωi) irrelevante
2)( iig µxx −= Classificador distância mínima
� Caso 2: ∑∑∑∑i = ∑∑∑∑
)(ln||ln21
2ln2
)()(21
)( 1ii
ti ωP
dg +−π−−−−= −
ΣµxΣµxx
independente de i
)(ln)()(21
)( 1i
ti ωPg +−−−= −
µxΣµxx
seP(ωi) = P(ωj), ∀i, j termo lnP(ωi) irrelevante, logo:
)()(21
)( 1µxΣµxx −−= −t
ig Classificador distância (Mahalanobis) mínima
)(ln||ln21
2ln2
)()(21
)( 1ii
ti ωP
dg +−π−−−−= −
ΣµxΣµxx
)(ln21
)(
1o
1
o
iitiiii
itii
ωPw
wg
+−==
+=
−−µΣµµΣw
xwx
eliminando xt∑∑∑∑–1x da expansão de (x – µµµµ)t ∑∑∑∑–1 (x – µµµµ) (independe de i)
Máquina linear
se R i eR j são contíguas, a superfície de decisão é um hiperplano
)()()(
)](/)(ln[)(
21
)(
0)(
1o
1
o
jiji
tji
jiji
ji
t
ωPωPµµ
µµµµµµx
µµΣw
xxw
−−Σ−
−+=
−=
=−
−
−
– hiperplano separa R i e R j não é ortogonal à reta que une as médias
– hiperplano intercepta esta reta em xo
– se P(ωi) = P(ωj), ∀i, j então está no meio das médias
– se P(ωi) ≠ P(ωj), então hiperplano se afasta da média mais provável
� Caso 3: ∑∑∑∑i = arbitrária
)(ln||ln2
12ln
2)()(
2
1)( 1
iit
i ωPd
g +−π−−−−= −ΣµxΣµxx
único termo independente de i
expandindo
o)( itii
ti wg ++= xwxWxx Classificador quadrático
)(ln||ln21
21
2
1
11o
11
iiiitii
iiiii
ωPw +−−=
=−=
−−
−−
ΣµΣµ
µΣwΣW
– caso com duas classes
– superfícies de decisão são hiperquadráticas
• hiperplanos
• hiperesferas
• hiperelipsóides
• hiperparabolóides
– regiões (decisão) não necessariamente conectadas
Quatro classes
� Exemplo: região de decisão, dados Gaussianos
2
2
4
4
6 8 10
6
8
10
-2
-2 x1
x2
µµµµ1
µµµµ2
=
=20
02/1
6
311 Σµ
=
−=
20
02
2
322 Σµ
5.0)()( 21 == ωPωP
01111 )( wg tt ++= xwxWxx
)()( 21 xx gg =
01111 )( wg tt ++= xwxWxx
2
2
4
4
6 8 10
6
8
10
-2
-2 x1
x2
µµµµ1
µµµµ2
2112 1875.0125.1514.3 xxx +−=
7-Teoria Bayesiana de decisão: atributos discretos
x ∈ { v1, ...., vm}
)(
)()|()|(
x
xx
P
ωPωPωP jj
j =
∑=
=c
jjj ωPωPP
1)()|()( xx
)|(minarg* xii
R α=α Regra de decisão mínimo risco
Regra de Bayes
Regra de Bayes para taxa de erro mínima
� decidir ωi se P(ωi | x) > P(ωj | x) ∀ i, j (ver *)
Funções de discriminação
)(ln)|(ln)(
)()|()(
)()|(
)()|()|()(
1
iii
iii
c
jjj
iiii
ωPωPg
ωPωPg
ωPωP
ωPωPωPg
+=
=
==∑=
xx
xx
x
xxx
� Exemplo: atributos binários independentes
– duas categorias (classes)
– cada componente é um valor binário
– componentes são independentes
}1,0{,),,( 1 ∈= it
d xxx Kx
)|1Pr[
)|1Pr[
2
1
ωxq
ωxp
ii
ii
==
==
ii xi
d
i
xi ppωP −
=−= ∏ 1
11 )1()|(x
ii xi
d
i
xi qqωP −
=−= ∏ 1
12 )1()|(x
– Razão de verosimilhança
∏=
−
−−
=
d
i
x
i
ix
i
iii
q
p
q
p
ωP
ωP
1
1
2
1
11
)|()|(
xx
)()(
ln)|()|(
ln)(2
1
2
1
ωP
ωP
ωP
ωPg +=
xx
x (**)
)()(
ln11
ln)1(ln)(2
1
1 ωP
ωP
q
px
q
pxg
d
i i
ii
i
ii +
−−−+=∑
=x Linear em xi
)()(
ln)1()1(
ln
,,1,)1()1(
ln
)(
2
1
10
01
ωP
ωP
p
qw
dipq
qpw
wxwg
i
id
i
ii
iii
d
iii
+−−=
=−−=
+=
∑
∑
=
=
K
x
lembrar: decidirω1 se g(x) > 0 e ω2 se g(x) ≥ 0 (***)
� Análise
– g(x) é uma combinação linear (ponderada) das componentes de x
– valor de wi é a relevância de uma resposta xi = 1 na classificação
– se pi = qi então valor de xi é irrelevante (wi = 0)
– se pi > qi então (1 –pi) < (1 –qi), wi > 0 e xi = 1 ⇒ wi votos para ω1
– se pi < qi então (1 –pi) > (1 –qi), wi < 0 e xi = 1 ⇒ |wi|votos para ω2
� Exemplo: dados binários 3-d
– duas categorias (classes)
– cada componente é um valor binário
– componentes são independentes
5.0)()( 21 == ωPωP
3,2,1,8.0,5.0 === iqp ii
)()(
ln)1()1(
ln
,,1,)1()1(
ln
2
1
10
ωP
ωP
p
qw
dipq
qpw
i
id
i
ii
iii
+−−=
=−−=
∑=
K
75.15.05.0
ln)5.01()8.01(
ln
3,,13863.1)8.01(5.0)5.01(8.0
ln
3
10 −=+
−−=
==−−=
∑=i
i
w
iw K
0 1
0
1
0
1
x1
x2
x3
0 1
0
1
0
1
x1
x2
x3
pi = 0.8 qi = 0.5i = 1,2,3
pi = 0.8 qi = 0.5, i = 1,2p3 = q3
8-Redes Bayesianas
� Conhecimento sobre distribuições
– parâmetros de distribuições
– dependência/independência estatística
– relações causais entre variáveis
� Redes Bayesianas
– explora informação estrutural no raciocínio com variáveis
– usa relações probabilísticas entre variáveis
– assume relações causais
A
D C
B
E
P(a) P(b)
P(c|b)
P(e|d)
P(d|a,c)
pai
filho
nóarco
estados de A {a1, a2,...} ≡ a
estados de B {b1, b2,...} ≡ b
Regra de Bayes + probabilidades condicionais
⇓
probabilidade conjunta de qualquer configuração de variáveis
0.70.3a4, b2
0.80.2a4, b1
0.90.1a3, b2
0.60.4a3, b1
0.20.8a2, b2
0.40.6a2, b1
0.30.7a1, b2
0.50.5a1, b1
P(x2|ai,bj)P(x1|ai,bj)
0.250.250.250.25
P(a4)P(a3)P(a2)P(a1)
0.40.6
P(b2)P(b1)
0.40.6x2
0.70.3x1
P(d2|xk)P(d1|xk)
0.50.30.2x2
0.20.20.6x1
P(c1|xk)P(c1|xk)P(c1|xk)
a1 = wintera2 = springa3 = summera4 = autumn
b1 = north Atlanticb2 = south Atlantic
Xfish
Aseason
Blocale
Clight
Dtick
d1 = wided2 = thin
c1 = lightc2 = mediumc3 = dark
x1 = salmonx2 = sea bass
P(d|x)P(c|x)
P(x|a,b)
P(a) P(b)
012.04.05.04.06.025.0)|()|(),|()()(),,,,( 22231321323213 =××××== xdPxcPbaxPbPaPdcxbaP
� Redes Bayesianas formalmente
– grafo acíclico
– nó: variável aleatória (atributo)
– arco: efeito, causa (A afeta B → B condicionado a A)
– cada nó condicionalmente independente dos não descendentes
– representa probabilidade conjunta das variáveis
x1x2
x3 xi
xj
xn
∏=
=n
iiin xPaiDexPxxP
11 ))(|(),,( K
P(xi|x1,x2)
A
P(a)
B
P(b|a)
C
P(c|b)
D
P(d|c)
∑∑∑
∑
∑
=
=
==
abc
cba
cba
aabbccd
cdbcaba
dcbad
cdbcabadcba
)()|()|()|(
)|()|()|()(
),,,()(
)|()|()|()(),,,(
,,
,,
PPPP
PPPP
PP
PPPPP
P(b)
P(c)
P(d)
� Exemplo
?),,|( 1121 cxabP
– em geral: dados os valores de algumas variáveis (evidência: e)
qual é o valor de uma configuração das outras variáveis (x) ?
),()(),(
)|( exeex
ex PP
PP α==
� Exemplo: salmon and sea bass
– probabilidade peixe veio do Atlântico Norte (b1)
– sabendo que é primavera (spring a2)
– peixe é salmão (salmon x1) claro (light c1)
� Em classificação (erro mínimo):salmon or sea bass ?
– sabe-se que
• peixe é claro (c1)
• origem é Atlântico Norte (b2)
– não se sabe:
• estação do ano
• espessura
– problema de classificação:
?),|( 211 bcxP
?),|( 212 bcxP
)]|()|([
)],|()(),|()(
),|()(),|()([
)|()(
)|(),|()()|()(
)|()|(),|()()(
),,,,(),(
),,(),|(
1211
24142313
22122111
112
121112
111,
212
,121
21
211211
xdPxdP
baxPaPbaxPaP
baxPaPbaxPaP
xcPbP
xPbxPPxcPbP
xPxcPbxPbPP
cbxPbcP
bcxPbcxP
+×++
+×α=
α=
α=
α==
∑∑
∑
∑
da
da
da
daa
daa
da
= 1
066.0),|(
114.0),|(
0.1)]3.0)(25.0()1.0)(25.0(
)8.0)(025()7.0)(25.0)[(6.0)(4.0(),|(
212
211
211
α=
α=++
+α=
bcxP
bcxP
bcxP
classificação: salmon !
� Naive Bayes
– relações de dependência entre atributos desconhecidas
– neste caso assume-se independência condicional
)|()|(),|( bxaxbax PPP =
9-Resumo
� Teoria Bayesiana de decisão é simples
� Regras de decisão– minimizar risco: ação que minimiza risco condicional
– minimizar Pr[erro]: estado que maximiza densidade a posteriori P(ωj |x)
� Superfícies decisão hiperquadráticas no caso Gaussiano
� Redes: relações dependência/independência entre variáveis
DCA-FEEC-Unicamp
Este material refere-se às notas de aula do curso CT 720 Tópicos Especiais em Aprendizagem de Máquina e Classificação de Padrões da Faculdade de Engenharia Elétrica e de Computação da Unicamp e do Centro Federal de Educação Tecnológica do Estado de Minas Gerais. Não substitui o livro texto, as referências recomendadas e nem as aulas expositivas. Este material não pode ser reproduzido sem autorização prévia dos autores. Quando autorizado, seu uso é exclusivo para atividades de ensino e pesquisa em instituições sem fins lucrativos.
Observação
ProfFernandoGomide