Tommi Kauppinen ja Tuukka Sarvi

S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi

Optimointiopin seminaari - Syksy 2005 / 1

Oppiminen Bayes-verkoissa II

D. Heckerman. A Tutorial on Learning with Bayesian Networks. In Learning in Graphical Models, M. Jordan, ed.. MIT Press, Cambridge, MA, 1999.

NIPS 2001 Tutorial: Learning Bayesian Networks From Data. Nir Friedman and Daphne Koller

Tommi Kauppinen ja Tuukka Sarvi



Esitelmän sisältö

• Rakenteen ja parametrien oppiminen– Pisteytysmenetelmät

– Täysi Bayes

• Epätäydellinen data

• Case: College plans

• Yhteenveto



Rakenteen ja parametrien oppiminen

• Tilanne: meillä on datajoukko ,josta pitää määrittää sekä Bayes-verkon rakenne että parametrit– Määritettävä kaaret ja todennäköisyydet

• Määritellään satunnaismuuttuja S, jonka tilat vastaavat eri rakennevaihtoehtoja

• Jo pienellä muuttujamäärällä mahdollisia verkkoja suuri määrä (ylieksponentiaalinen)

• Eri lähestymistapoja: mallien pisteytys ja täysi Bayes

NxxxD ,..., 21



Mallien pistetys

• Määritetään pisteytysfunktio, joka kertoo kuinka hyvin malli vastaa dataa

• Etsitään suurimman pistearvon tuottavaa rakennetta• Suurin osa Bayes-verkkojen oppimista käsittelevästä

kirjallisuudesta keskittyy mallien pisteytykseen ja valintaan

• Monia pisteytystapoja, esim. likelihood score, cross-validation score

• Parhaat pisteet saava malli etsitään laskemalla kaikki vaihtoehdot läpi tai käyttämällä jotain etsintäalgorimia rakennevaihtoehtojen S joukossa



Mallien pisteytys: selventävä kuva



Likelihood score

• Logaritmi todennäköisyydestä, että malli tuottaa annetun datan D:

• Todennäköisyys saadaan kaavasta:

• on datasta laskettu parametrijakauma

))|(log():( SDpDSl

dSDpSDpSDp ),|(),|()|(

),|( SDp



Cross-validation score

• Opetetaan malli (päivitetään parametrit) datalla V, jossa on jätetty pois yksi havainto:

• Lasketaan tn. poisjätetylle havainnolle– mitä suurempi tn. saadaan sitä suuremmat pisteet

• Lasketaan eri havainnot poisjättämällä saadut pisteet yhteen:

Nll xxxxV ...,,..., 111

N

lll SVxpDSCV

1

)),|(log(),(



Esim. kaksi kolikkoa

• Kaksi kolikkoa X ja Y sekä data seitsemästä heitosta

• Kaksi mallia S1 ja S2

• Lasketaan likelihood score molemmille

1 2 3 4 5 6 7

X h t t h t h h

Y h t h h t t h



Esim. kaksi kolikkoa: malli S1

• Halutaan laskea:

• Bayesin kaavalla:

• Sijoitetaan, jolloin saadaan:

• on parametrien priori-jakauma mallissa S1 • p(D|S1) on datan priori-todennäköisyys mallissa S1

dSDpSDpSDp ),|(),|()|( 111

)|(

)|(),|(),|(

1

111 SDp

SpSDpSDp

dSDp

SpSDpSDp

)|(

)|(),|()|(

1

1

2

11

)|( 1Sp



Esim. kaksi kolikkoa: malli S1

• Datasta saadaan:• Priori-tn. oletetaan tasajakautuneeksi:• Datan priori-tn. integroimalla:

• Nyt saadaan alkup. lauseke:

34341 )1()1(),|( YYXXSDp

1)|( 1 Sp

1

0

1

0

3434111 78400

1)1()1()|(),|()|( YXYYXX dddSpSDpSDp

1

0

1

0

6868

23434

1

0000386.0)1()1(78400

78400/1

1*)1()1()|(

YXYYXX

YYXX

dd

dSDp



Esim. kaksi kolikkoa

• S1:lle saadaan likelihood score:

• Vastaavasti lasketaan S2:n likelihood score:

• S2:n pistemäärä suurempi => S2 on parempi malli datan valossa

• Tämä on järkevää kun tarkastellaan

dataa

162.10))|(log():( 11 SDpDSl

783.9)0000564.0log())|(log():( 22 SDpDSl



Täysi Bayes

• Lasketaan datan perusteella posteriori-todennäköisyydet p(S|D) ja jokaiselle mallille

• p(S|D) Bayesin kaavasta:• Käytetään saatuja posteriori-todennäköisyyksiä

laskettaessa haluttuja odotusarvoja• Esim. lasketaan datajoukkoa D seuraavan havainnon

jakauma:

)|( Dp S

)(

)()|()|(

Dp

SpSDpDSp

SSS

SNN dDpSxpDSpDxp )|(),|()|()|( 11



Täysi Bayes: selventävä kuva



Täysi Bayes vs. pisteytys

• Täysi Bayes –menetelmässä säilytetään mukana kaikki mallit

• Pistetysmenetelmissä valitaan paras malli• Täysi Bayes antaa kattavampia ennusteita

– kaikki mahdollisuudet säilytetään mukana

• Täysi Bayes laskennallisesti raskasta– mahdollisia malleja suuri määrä

• Käytännössä parempi käyttää pisteytysmenetelmää



Epätäydellinen data

• Datan epätäydellisyydessä voidaan erottaa kaksi eri tapausta– Puuttuvat arvot datassa

– Puuttuvat tai piilotetut muuttujat (hidden variables)



Puuttuvat arvot datajoukossa ja EM (expectation maximization)

• EM on metodi, jossa puuttuvat arvot datassa täydennetään olemassa olevan Bayes-verkon avulla

• Saatuja arvoja käytetään kuin mitattuja



Esim. EM (expectation maximization):

Data:

oletetaan tunnetuksi:

Tästä saadaan arviot eri

yhdistelmille X, Y.

N(X,Y):

X h t h h t

Y ? ? h t t

Z t ? ? t h

3,0),|( tZhXhYp

4,0)|( tXhYp

X Y #

h h 1.3

t h 0.4

h t 1.7

t t 1.6



Puuttuvat muuttujat (hidden variables)

• Ei suoraa metodia löytää puuttuvia solmuja• Erilaisia heuristisia metodeja olemassa

– puretaan toisistaan riippuvien muuttujien osaverkko kulkemaan yhteisen muuttujan kautta

– Testataan verkkoa epäilyttävissä kohtaa lisäämällä mahdollisia puuttuvia muuttujia ja vertailemalla saatujen verkkojen ilmenemistodennäköisyyksiä alkuperäiseen



Puuttuvat muuttujat: selventävä kuva

• (a) Datan perusteella saatu verkko (mitatut muuttujat)

• (b) Ehdotus puuttuvien muuttujien lisäämiseksi



Case: College plans

• Muuttujat: sex (SEX): male, female; socioeconomic status (SES): low, lower middle, upper middle, high; intelligence quotient (IQ): low, lower middle, upper middle, high; parental encouragement (PE): low, high; college plans (CP): yes, no

• Data: tiedot 10318 Wisconsin high school oppilaista• Tarkoitus: saada tietoa muuttujien syy-seuraus-

suhteista• Lähteet: data Sewell & Shah (1968) ja analyysi D.

Heckerman (1999)



Case: College plans

• Kuvassa kaksi todennäköisintä rakennetta

• Epäilyttävää: SES vaikuttaa suoraan IQ:iin



Case: College plans

• Lisättiin puuttuva muuttuja H selittämään muuttujia IQ ja SES

• Malli 2*1010 kertaa todennäköisempi kuin paras malli ilman muuttujaa H

• Muuttuja H vastaa ”vanhempien laatua”



Yhteenveto: oppivat Bayes-verkot

• Auttaa mallin rakentamisessa• Opitaan kahta asiaa: parametrit (todennäköisyydet)

ja rakenne (kaaret)• Käytännössä tärkein menetelmä: parhaan rakenteen

ja parametrien etsiminen pisteytysmenetelmillä• Epätäydellisen datan kaksi tapausta: puuttuvat arvot

ja puuttuvat muuttujat• Suuri potentiaali, monia toimivia sovelluksia



Kotitehtävä 28

• (a) Todista, että N muuttujan tapauksessa mahdollisten verkkojen määrä on suurempi kuin N! (ylieksponentiaalinen). (3p)

• (b) Keksi ongelma, johon voisit käyttää oppivia Bayes-verkkoja. Listaa tutkittavat muuttujat ja kerro mistä saat dataa mallisi opettamiseksi. (3p)

Documents

Tommi Kauppinen ja Tuukka Sarvi