Teoria decisao bayes

2-Teoria Bayesiana de Decisão

CT 720 Tópicos em Aprendizagem de Máquina eClassificação de Padrões

ProfFernandoGomide DCA-FEEC-Unicamp

1. Introdução

2. Teoria Bayesiana de decisão: atributos contínuos

3. Classificação com taxa de erro mínima

4. Funções de discriminação e classificadores

5. Densidade normal

6. Funções de discriminação para densidade normal

7. Teoria Bayesiana de decisão: atributos discretos

8. Redes Bayesianas

9. Resumo

Conteúdo

DCA-FEEC-UnicampProfFernandoGomide

1-Introdução

� Teoria Bayesiana de decisão

– abordagem estatística para reconhecimento padrões

– assume problema de decisão formulado probabilisticamente

– todos valores relevantes de probabilidade conhecidos

– identificação de sequências DNA

� Este capítulo

– apresenta fundamentos da teoria

– teoria: formaliza procedimentos intuitivos


DCA-FEEC-Unicamp

� Previsão próximo tipo peixe?

ω = estado : variável aleatória

ω = ω1 sea bass

ω = ω2 salmon

� Assumindo

P(ω1): probabilidade a priori próximo tipo ésea bass

P(ω1): probabilidade a priori próximo tipo ésalmon

P(ω1) + P(ω2) = 1

ProfFernandoGomide

� Decidir tipo próximo peixe

– classificação incorreta: mesmo custo

– informação disponíveis: somente P(ω1) e P(ω2)

� Regra de decisão

� decidir ω1 se P(ω1) > P(ω2) ; caso contrário decidir ω2

– regra: mesma decisão, mesmo sabendo que existem 2 tipos

– desempenho depende da escolha de P(ω1) e P(ω2)



� Na prática

– temos mais informação

– e.g. medida luminosidade (x)

– densidade probabilidade condicional de classe p(x/ω)

– função densidade de probabilidade de x dado estado ω– p(x/ω1) e p(x/ω2) descrevem diferenças de luminosidade



� Supor que conhecemos:

– P(ω1) e P(ω2)

– p(x|ω1) e p(x|ω2)

– medida de luminosidade x

� Como x influencia a escolha correta do tipo?

– estimativa correta do estado ?

– como decidir o tipo (classe)

DCA-FEEC-Unicamp

� Classificação usando luminosidade como atributo

ProfFernandoGomide

evidence

priorlikelyhoodposterior

efeitoP

causaPcausaefeitopefeitocausaP

ωPωxpxp

xp

ωPωxpxωP

ωPωxpxpxωPxωp

jjj

jjj

jjjj

×=

=

=

=

==

∑=

)()()/(

)/(

)()|()(

)(

)()|()|(

)()|()()|(),(

2

1

Bayes


P(ω1) = 2/3P(ω2) = 1/3

Regra de decisão de Bayes

� decidir ω1 se P(ω1| x) > P(ω2| x) ; caso contrário decidir ω2 (*)

DCA-FEEC-Unicamp

� Regra de Bayes minimiza a probabilidade de erro

ProfFernandoGomide

=

12

21

decidimosse)|(

decidimosse)|()|(

ωxωP

ωxωPxerrorP

– para uma observação x minimiza-se a probabilidade de erro:

� decidindo ω1 se P(ω1| x) > P(ω2| x); ou ω2 caso contrário

– esta regra minimiza a probabilidade de erro para qualquer x, em média?


dxxpxerrorPdxxerrorPerrorP )()|(),()( ∫∫∞

∞−

∞

∞−==

– logo a integral P(error) é mínima se P(error/x) é mínima, isto é, se

� decidir ω1 se P(ω1| x) > P(ω2| x); caso contrário decidir ω2

– P(error/x) = min [P(ω1| x) , P(ω2| x) ]

– em média a probabilidade do erro é

� Regra de decisão de Bayes (alternativa)

� decidir ω1 sep(x|ω1)P(ω1) > p(x|ω2) P(ω2); caso contrário decidir ω2


2-Teoria Bayesiana de decisão: atributos contínuos

� Generalização

– uso de vários atributos

– mais de dois estados

– outras decisões e não só classificação

– critério mais geral que probabilidade de erro

DCA-FEEC-Unicamp

� Notação

x : atributo, x ∈ Rd

Rd : espaço (Euclideano) de atributos

{ ω1, ..., ωc}: conjunto (finito) de c estados (categorias)

{ α1, ..., αa}: conjunto (finito) de a decisões (ações)

λ(αi, ωj): loss function = custo decisão αi quando em ωj

� Regra de Bayes

ProfFernandoGomide

∑=

=

=

c

jjj

jjj

ωPωpp

p

ωPωpωP

1)()|()(

)(

)()|()|(

xx

x

xx


– supor observação x e ação αi correspondente

– se estado verdadeiro é ωj, então custo associado é λ(αi, ωj)

– valor esperado do custo da ação αi será:

∑=

αλ=αc

ijjii ωPωR

1)|()|()|( xx

– dado x, que ação αi minimiza o risco condicional,∀x ?

– solução (ótima): regra de Bayes !

Risco condicional

DCA-FEEC-Unicamp

� Regra (estratégia) de decisão

– α(x): fornece a decisão para cada valor de x– para cada x, α(x) assume um dos a valores α1, ..., αa

– risco global: risco associado com uma estratégia de decisão

ProfFernandoGomide

xxxx dpRR )()|)((∫ α= Risco global

– se α(x) é tal que o valor deR(αi(x)) é o menor possível ∀x,

então risco global é minimizado; isto motiva o seguinte:


aiωPωRc

ijjii ,,1,)|()|()|(

1K=αλ=α ∑

=xx

� Regra de Bayes

para minimizar risco global:

1 – calcular

2 – selecionar ação αi que minimiza R(αi|x)

R* = risco de Bayes

DCA-FEEC-Unicamp

� Exemplo com duas classes

– α1 : decide que estado verdadeiro éω1

– α2 : decide que estado verdadeiro éω2

– λij = λ(αi, ωj) custo quando decisão ⇒ ωi mas verdadeiro éωj

risco condicional

ProfFernandoGomide

)|()|()|(

)|()|()|(

2221212

2121111

xxx

xxx

ωPωPR

ωPωPR

λ+λ=αλ+λ=α

� decidir ω1 se R(α1|x) < R(α2|x)


– alternativamente, em termos das probabilidades a posteriori

� decidir ω1 se (λ21 – λ11)P(ω1| x) > (λ12 – λ22) P(ω2| x)

– em geral λ21 > λ11 e λ12 > λ22

– utilizando Bayes, probabilidades a priori e densidades condicionais

)()(

)()(

)|()|(

1

2

1121

2212

2

1

ωP

ωP

ωP

ωP

λ−λλ−λ>

xx

Razão de verosimilhança


3-Classificação com taxa de erro mínima

cjiji

jiω ji ,,1,

1

0)|( K=

≠=

=αλ

)|(1

)|(

)|()|()|(1

x

x

xx

i

jji

c

ijjii

ωP

ωP

ωPωR

−=

=

αλ=α

∑

∑

≠

=


� Regra Bayes para taxa de erro mínima

– minimizar risco: selecionar ação que minimiza risco condicional

– minimizar taxa de erro de classificação:

� decidir ωi se P(ωi | x) > P(ωj | x) ∀ i, j (ver *)


4-Funções discriminação e classificadores

� Função discriminação

gi(x), i = 1,..., c

� classificador atribui classe ωi a x se gi(x) > gi(x) ∀ j ≠ i

Exemplos:

gi(x) = –R(αi|x) risco condicional mínimo

gi(x) = P(ωi | x) erro classificação mínimo


Estrutura funcional de classificadores estatísticos

� Propriedades

– funções discriminação não são únicas

– transformações: f(gi(x)), f monotônica crescente

– simplificação analítica e computacional

– exemplos de classificadores (erro classificação mínimo):


)(ln)|(ln)(

)()|()(

)()|(

)()|()|()(

1

iii

iii

c

jjj

iiii

ωPωpg

ωPωpg

ωPωp

ωPωpωPg

+=

=

==∑=

xx

xx

x

xxx


– formas funções diferentes, mas regras de decisão equivalentes

– efeito: dividir o espaço de atributos em c regiões distintas

� se gi(x) > gi(x) ∀ j ≠ i então x ∈ R i

– R i ∩ R j = ∅

– R 1 ,..., R c formam uma partição do espaço de atributos

– exemplo: duas categorias (classes)

� atribuir ω1 a x se g1(x) > g2(x) ∀ j ≠ i

g (x) = g1(x) – g2(x)

� atribuir ω1 a x se g(x) > 0

)()(

ln)|()|(

ln)(

)|()|()(

2

1

2

1

21

ωP

ωP

ωp

ωpg

ωPωPg

+=

−=

xx

x

xxx

(**)

(***)



5-Densidade normal

[ ] 0)],)([(,

)())((]))([(

][,)(][

)()(21

exp||)2(

1)( 1

2/12/

>µ−µ−=σσ=

−−=−−=

=µ==

−−−π

=

∫

∫

∞

∞−

∞

∞−

−

ΣΣ

xxµxµxµxµxΣ

xxxxµ

µxΣµxΣ

x

jjiiijij

tt

ii

td

xxE

dpE

xEdpE

p


ctet =−− − )()( 1µxΣµx


1)()( 1 =−− −µxΣµx t

1γ2γ

1λ

2λ

µ


� Transformações lineares

– combinações lineares de variáveis aleatórias normais são normais

p(x) = N(µµµµ, ∑∑∑∑)

A (d × k)

y = A tx (k × 1)

p(y) = N(A tµµµµ, A t∑∑∑∑A)

– se A = a (d × 1), k = 1, ||a|| = 1 então

y = atx (escalar que representa projeção de x ao longo de a)

at ∑∑∑∑a variância da projeção de x ao longo de a



� Observações

)()( 12µxΣµx −−= −tr Distância de Mahalanobis

−ππ=

=

− imparddd

parddV

rVV

dd

d

d

dd

!/)!2/1(2

)!2//(

||

2/)1(

2/

2/1Σ Volume hiperelipsóide

Volume hiperesfera

6-Funções discriminação p/ densidade normal

)(ln||ln21

2ln2

)()(21

)(

),(~)|(

)(ln)|(ln)(

1ii

ti

iii

iii

ωPd

g

Nωp

ωPωpg

+−π−−−−=

+=

−ΣµxΣµxx

Σµx

xx

� Caso 1: ∑∑∑∑i = σ2I

)(ln2

)(2

2

ii

i ωPg +σ

−−=

µxx

)(ln]2[2

1)(

2 iiti

tti ωPg ++−

σ−= µµxµxxx

termo quadrático é o mesmo∀ i

)(ln2

1,

1

)(

2o2

o

iitiiii

itii

ωPw

wg

+σ−=

σ=

+=

µµµw

xwx Máquina linear

Limiar (bias) para i-ésima classe

)()()(

ln)(21

0)(

0)()(

2

2

o

o

jij

i

ji

ji

ji

t

ji

ωP

ωP

gg

µµ

µµ

µµx

µµw

xxw

xx

−−

σ−+=

−=

=−

=−

Hiperplano separa R i e R j

passa por xo e é ortogonalà reta que une as médias

)(21

)()( o jiji ωPωP µµx +=⇒=

P(ωi) ≠ P(ωj)

xo se afasta da média mais provável

P(ωi) = P(ωj), ∀i, j termo lnP(ωi) irrelevante

2)( iig µxx −= Classificador distância mínima

� Caso 2: ∑∑∑∑i = ∑∑∑∑

)(ln||ln21

2ln2

)()(21

)( 1ii

ti ωP

dg +−π−−−−= −

ΣµxΣµxx

independente de i

)(ln)()(21

)( 1i

ti ωPg +−−−= −

µxΣµxx

seP(ωi) = P(ωj), ∀i, j termo lnP(ωi) irrelevante, logo:

)()(21

)( 1µxΣµxx −−= −t

ig Classificador distância (Mahalanobis) mínima

)(ln||ln21

2ln2

)()(21

)( 1ii

ti ωP

dg +−π−−−−= −

ΣµxΣµxx

)(ln21

)(

1o

1

o

iitiiii

itii

ωPw

wg

+−==

+=

−−µΣµµΣw

xwx

eliminando xt∑∑∑∑–1x da expansão de (x – µµµµ)t ∑∑∑∑–1 (x – µµµµ) (independe de i)

Máquina linear

se R i eR j são contíguas, a superfície de decisão é um hiperplano

)()()(

)](/)(ln[)(

21

)(

0)(

1o

1

o

jiji

tji

jiji

ji

t

ωPωPµµ

µµµµµµx

µµΣw

xxw

−−Σ−

−+=

−=

=−

−

−

– hiperplano separa R i e R j não é ortogonal à reta que une as médias

– hiperplano intercepta esta reta em xo

– se P(ωi) = P(ωj), ∀i, j então está no meio das médias

– se P(ωi) ≠ P(ωj), então hiperplano se afasta da média mais provável

� Caso 3: ∑∑∑∑i = arbitrária

)(ln||ln2

12ln

2)()(

2

1)( 1

iit

i ωPd

g +−π−−−−= −ΣµxΣµxx

único termo independente de i

expandindo

o)( itii

ti wg ++= xwxWxx Classificador quadrático

)(ln||ln21

21

2

1

11o

11

iiiitii

iiiii

ωPw +−−=

=−=

−−

−−

ΣµΣµ

µΣwΣW

– caso com duas classes

– superfícies de decisão são hiperquadráticas

• hiperplanos

• hiperesferas

• hiperelipsóides

• hiperparabolóides

– regiões (decisão) não necessariamente conectadas

Quatro classes

� Exemplo: região de decisão, dados Gaussianos

2

2

4

4

6 8 10

6

8

10

-2

-2 x1

x2

µµµµ1

µµµµ2

=

=20

02/1

6

311 Σµ

=

−=

20

02

2

322 Σµ

5.0)()( 21 == ωPωP

01111 )( wg tt ++= xwxWxx

)()( 21 xx gg =

01111 )( wg tt ++= xwxWxx

2

2

4

4

6 8 10

6

8

10

-2

-2 x1

x2

µµµµ1

µµµµ2

2112 1875.0125.1514.3 xxx +−=

7-Teoria Bayesiana de decisão: atributos discretos

x ∈ { v1, ...., vm}

)(

)()|()|(

x

xx

P

ωPωPωP jj

j =

∑=

=c

jjj ωPωPP

1)()|()( xx

)|(minarg* xii

R α=α Regra de decisão mínimo risco

Regra de Bayes

Regra de Bayes para taxa de erro mínima

� decidir ωi se P(ωi | x) > P(ωj | x) ∀ i, j (ver *)

Funções de discriminação

)(ln)|(ln)(

)()|()(

)()|(

)()|()|()(

1

iii

iii

c

jjj

iiii

ωPωPg

ωPωPg

ωPωP

ωPωPωPg

+=

=

==∑=

xx

xx

x

xxx

� Exemplo: atributos binários independentes

– duas categorias (classes)

– cada componente é um valor binário

– componentes são independentes

}1,0{,),,( 1 ∈= it

d xxx Kx

)|1Pr[

)|1Pr[

2

1

ωxq

ωxp

ii

ii

==

==

ii xi

d

i

xi ppωP −

=−= ∏ 1

11 )1()|(x

ii xi

d

i

xi qqωP −

=−= ∏ 1

12 )1()|(x

– Razão de verosimilhança

∏=

−

−−

=

d

i

x

i

ix

i

iii

q

p

q

p

ωP

ωP

1

1

2

1

11

)|()|(

xx

)()(

ln)|()|(

ln)(2

1

2

1

ωP

ωP

ωP

ωPg +=

xx

x (**)

)()(

ln11

ln)1(ln)(2

1

1 ωP

ωP

q

px

q

pxg

d

i i

ii

i

ii +

−−−+=∑

=x Linear em xi

)()(

ln)1()1(

ln

,,1,)1()1(

ln

)(

2

1

10

01

ωP

ωP

p

qw

dipq

qpw

wxwg

i

id

i

ii

iii

d

iii

+−−=

=−−=

+=

∑

∑

=

=

K

x

lembrar: decidirω1 se g(x) > 0 e ω2 se g(x) ≥ 0 (***)

� Análise

– g(x) é uma combinação linear (ponderada) das componentes de x

– valor de wi é a relevância de uma resposta xi = 1 na classificação

– se pi = qi então valor de xi é irrelevante (wi = 0)

– se pi > qi então (1 –pi) < (1 –qi), wi > 0 e xi = 1 ⇒ wi votos para ω1

– se pi < qi então (1 –pi) > (1 –qi), wi < 0 e xi = 1 ⇒ |wi|votos para ω2

� Exemplo: dados binários 3-d

– duas categorias (classes)

– cada componente é um valor binário

– componentes são independentes

5.0)()( 21 == ωPωP

3,2,1,8.0,5.0 === iqp ii

)()(

ln)1()1(

ln

,,1,)1()1(

ln

2

1

10

ωP

ωP

p

qw

dipq

qpw

i

id

i

ii

iii

+−−=

=−−=

∑=

K

75.15.05.0

ln)5.01()8.01(

ln

3,,13863.1)8.01(5.0)5.01(8.0

ln

3

10 −=+

−−=

==−−=

∑=i

i

w

iw K

0 1

0

1

0

1

x1

x2

x3

0 1

0

1

0

1

x1

x2

x3

pi = 0.8 qi = 0.5i = 1,2,3

pi = 0.8 qi = 0.5, i = 1,2p3 = q3

8-Redes Bayesianas

� Conhecimento sobre distribuições

– parâmetros de distribuições

– dependência/independência estatística

– relações causais entre variáveis

� Redes Bayesianas

– explora informação estrutural no raciocínio com variáveis

– usa relações probabilísticas entre variáveis

– assume relações causais

A

D C

B

E

P(a) P(b)

P(c|b)

P(e|d)

P(d|a,c)

pai

filho

nóarco

estados de A {a1, a2,...} ≡ a

estados de B {b1, b2,...} ≡ b

Regra de Bayes + probabilidades condicionais

⇓

probabilidade conjunta de qualquer configuração de variáveis

0.70.3a4, b2

0.80.2a4, b1

0.90.1a3, b2

0.60.4a3, b1

0.20.8a2, b2

0.40.6a2, b1

0.30.7a1, b2

0.50.5a1, b1

P(x2|ai,bj)P(x1|ai,bj)

0.250.250.250.25

P(a4)P(a3)P(a2)P(a1)

0.40.6

P(b2)P(b1)

0.40.6x2

0.70.3x1

P(d2|xk)P(d1|xk)

0.50.30.2x2

0.20.20.6x1

P(c1|xk)P(c1|xk)P(c1|xk)

a1 = wintera2 = springa3 = summera4 = autumn

b1 = north Atlanticb2 = south Atlantic

Xfish

Aseason

Blocale

Clight

Dtick

d1 = wided2 = thin

c1 = lightc2 = mediumc3 = dark

x1 = salmonx2 = sea bass

P(d|x)P(c|x)

P(x|a,b)

P(a) P(b)

012.04.05.04.06.025.0)|()|(),|()()(),,,,( 22231321323213 =××××== xdPxcPbaxPbPaPdcxbaP

� Redes Bayesianas formalmente

– grafo acíclico

– nó: variável aleatória (atributo)

– arco: efeito, causa (A afeta B → B condicionado a A)

– cada nó condicionalmente independente dos não descendentes

– representa probabilidade conjunta das variáveis

x1x2

x3 xi

xj

xn

∏=

=n

iiin xPaiDexPxxP

11 ))(|(),,( K

P(xi|x1,x2)

A

P(a)

B

P(b|a)

C

P(c|b)

D

P(d|c)

∑∑∑

∑

∑

=

=

==

abc

cba

cba

aabbccd

cdbcaba

dcbad

cdbcabadcba

)()|()|()|(

)|()|()|()(

),,,()(

)|()|()|()(),,,(

,,

,,

PPPP

PPPP

PP

PPPPP

P(b)

P(c)

P(d)

� Exemplo

?),,|( 1121 cxabP

– em geral: dados os valores de algumas variáveis (evidência: e)

qual é o valor de uma configuração das outras variáveis (x) ?

),()(),(

)|( exeex

ex PP

PP α==

� Exemplo: salmon and sea bass

– probabilidade peixe veio do Atlântico Norte (b1)

– sabendo que é primavera (spring a2)

– peixe é salmão (salmon x1) claro (light c1)

� Em classificação (erro mínimo):salmon or sea bass ?

– sabe-se que

• peixe é claro (c1)

• origem é Atlântico Norte (b2)

– não se sabe:

• estação do ano

• espessura

– problema de classificação:

?),|( 211 bcxP

?),|( 212 bcxP

)]|()|([

)],|()(),|()(

),|()(),|()([

)|()(

)|(),|()()|()(

)|()|(),|()()(

),,,,(),(

),,(),|(

1211

24142313

22122111

112

121112

111,

212

,121

21

211211

xdPxdP

baxPaPbaxPaP

baxPaPbaxPaP

xcPbP

xPbxPPxcPbP

xPxcPbxPbPP

cbxPbcP

bcxPbcxP

+×++

+×α=

α=

α=

α==

∑∑

∑

∑

da

da

da

daa

daa

da

= 1

066.0),|(

114.0),|(

0.1)]3.0)(25.0()1.0)(25.0(

)8.0)(025()7.0)(25.0)[(6.0)(4.0(),|(

212

211

211

α=

α=++

+α=

bcxP

bcxP

bcxP

classificação: salmon !

� Naive Bayes

– relações de dependência entre atributos desconhecidas

– neste caso assume-se independência condicional

)|()|(),|( bxaxbax PPP =

9-Resumo

� Teoria Bayesiana de decisão é simples

� Regras de decisão– minimizar risco: ação que minimiza risco condicional

– minimizar Pr[erro]: estado que maximiza densidade a posteriori P(ωj |x)

� Superfícies decisão hiperquadráticas no caso Gaussiano

� Redes: relações dependência/independência entre variáveis

DCA-FEEC-Unicamp

Este material refere-se às notas de aula do curso CT 720 Tópicos Especiais em Aprendizagem de Máquina e Classificação de Padrões da Faculdade de Engenharia Elétrica e de Computação da Unicamp e do Centro Federal de Educação Tecnológica do Estado de Minas Gerais. Não substitui o livro texto, as referências recomendadas e nem as aulas expositivas. Este material não pode ser reproduzido sem autorização prévia dos autores. Quando autorizado, seu uso é exclusivo para atividades de ensino e pesquisa em instituições sem fins lucrativos.

Observação

ProfFernandoGomide

Education

Teoria decisao bayes