Upload
emelda
View
60
Download
0
Embed Size (px)
DESCRIPTION
Oppiminen Bayes-verkoissa II D. Heckerman. A Tutorial on Learning with Bayesian Networks. In Learning in Graphical Models, M. Jordan, ed.. MIT Press, Cambridge, MA, 1999. NIPS 2001 Tutorial: Learning Bayesian Networks From Data. Nir Friedman and Daphne Koller. Tommi Kauppinen ja Tuukka Sarvi. - PowerPoint PPT Presentation
Citation preview
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 1
Oppiminen Bayes-verkoissa II
D. Heckerman. A Tutorial on Learning with Bayesian Networks. In Learning in Graphical Models, M. Jordan, ed.. MIT Press, Cambridge, MA, 1999.
NIPS 2001 Tutorial: Learning Bayesian Networks From Data. Nir Friedman and Daphne Koller
Tommi Kauppinen ja Tuukka Sarvi
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 2
Esitelmän sisältö
• Rakenteen ja parametrien oppiminen– Pisteytysmenetelmät
– Täysi Bayes
• Epätäydellinen data
• Case: College plans
• Yhteenveto
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 3
Rakenteen ja parametrien oppiminen
• Tilanne: meillä on datajoukko ,josta pitää määrittää sekä Bayes-verkon rakenne että parametrit– Määritettävä kaaret ja todennäköisyydet
• Määritellään satunnaismuuttuja S, jonka tilat vastaavat eri rakennevaihtoehtoja
• Jo pienellä muuttujamäärällä mahdollisia verkkoja suuri määrä (ylieksponentiaalinen)
• Eri lähestymistapoja: mallien pisteytys ja täysi Bayes
NxxxD ,..., 21
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 4
Mallien pistetys
• Määritetään pisteytysfunktio, joka kertoo kuinka hyvin malli vastaa dataa
• Etsitään suurimman pistearvon tuottavaa rakennetta• Suurin osa Bayes-verkkojen oppimista käsittelevästä
kirjallisuudesta keskittyy mallien pisteytykseen ja valintaan
• Monia pisteytystapoja, esim. likelihood score, cross-validation score
• Parhaat pisteet saava malli etsitään laskemalla kaikki vaihtoehdot läpi tai käyttämällä jotain etsintäalgorimia rakennevaihtoehtojen S joukossa
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 5
Mallien pisteytys: selventävä kuva
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 6
Likelihood score
• Logaritmi todennäköisyydestä, että malli tuottaa annetun datan D:
• Todennäköisyys saadaan kaavasta:
• on datasta laskettu parametrijakauma
))|(log():( SDpDSl
dSDpSDpSDp ),|(),|()|(
),|( SDp
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 7
Cross-validation score
• Opetetaan malli (päivitetään parametrit) datalla V, jossa on jätetty pois yksi havainto:
• Lasketaan tn. poisjätetylle havainnolle– mitä suurempi tn. saadaan sitä suuremmat pisteet
• Lasketaan eri havainnot poisjättämällä saadut pisteet yhteen:
Nll xxxxV ...,,..., 111
N
lll SVxpDSCV
1
)),|(log(),(
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 8
Esim. kaksi kolikkoa
• Kaksi kolikkoa X ja Y sekä data seitsemästä heitosta
• Kaksi mallia S1 ja S2
• Lasketaan likelihood score molemmille
1 2 3 4 5 6 7
X h t t h t h h
Y h t h h t t h
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 9
Esim. kaksi kolikkoa: malli S1
• Halutaan laskea:
• Bayesin kaavalla:
• Sijoitetaan, jolloin saadaan:
• on parametrien priori-jakauma mallissa S1 • p(D|S1) on datan priori-todennäköisyys mallissa S1
dSDpSDpSDp ),|(),|()|( 111
)|(
)|(),|(),|(
1
111 SDp
SpSDpSDp
dSDp
SpSDpSDp
)|(
)|(),|()|(
1
1
2
11
)|( 1Sp
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 10
Esim. kaksi kolikkoa: malli S1
• Datasta saadaan:• Priori-tn. oletetaan tasajakautuneeksi:• Datan priori-tn. integroimalla:
• Nyt saadaan alkup. lauseke:
34341 )1()1(),|( YYXXSDp
1)|( 1 Sp
1
0
1
0
3434111 78400
1)1()1()|(),|()|( YXYYXX dddSpSDpSDp
1
0
1
0
6868
23434
1
0000386.0)1()1(78400
78400/1
1*)1()1()|(
YXYYXX
YYXX
dd
dSDp
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 11
Esim. kaksi kolikkoa
• S1:lle saadaan likelihood score:
• Vastaavasti lasketaan S2:n likelihood score:
• S2:n pistemäärä suurempi => S2 on parempi malli datan valossa
• Tämä on järkevää kun tarkastellaan
dataa
162.10))|(log():( 11 SDpDSl
783.9)0000564.0log())|(log():( 22 SDpDSl
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 12
Täysi Bayes
• Lasketaan datan perusteella posteriori-todennäköisyydet p(S|D) ja jokaiselle mallille
• p(S|D) Bayesin kaavasta:• Käytetään saatuja posteriori-todennäköisyyksiä
laskettaessa haluttuja odotusarvoja• Esim. lasketaan datajoukkoa D seuraavan havainnon
jakauma:
)|( Dp S
)(
)()|()|(
Dp
SpSDpDSp
SSS
SNN dDpSxpDSpDxp )|(),|()|()|( 11
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 13
Täysi Bayes: selventävä kuva
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 14
Täysi Bayes vs. pisteytys
• Täysi Bayes –menetelmässä säilytetään mukana kaikki mallit
• Pistetysmenetelmissä valitaan paras malli• Täysi Bayes antaa kattavampia ennusteita
– kaikki mahdollisuudet säilytetään mukana
• Täysi Bayes laskennallisesti raskasta– mahdollisia malleja suuri määrä
• Käytännössä parempi käyttää pisteytysmenetelmää
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 15
Epätäydellinen data
• Datan epätäydellisyydessä voidaan erottaa kaksi eri tapausta– Puuttuvat arvot datassa
– Puuttuvat tai piilotetut muuttujat (hidden variables)
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 16
Puuttuvat arvot datajoukossa ja EM (expectation maximization)
• EM on metodi, jossa puuttuvat arvot datassa täydennetään olemassa olevan Bayes-verkon avulla
• Saatuja arvoja käytetään kuin mitattuja
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 17
Esim. EM (expectation maximization):
Data:
oletetaan tunnetuksi:
Tästä saadaan arviot eri
yhdistelmille X, Y.
N(X,Y):
X h t h h t
Y ? ? h t t
Z t ? ? t h
3,0),|( tZhXhYp
4,0)|( tXhYp
X Y #
h h 1.3
t h 0.4
h t 1.7
t t 1.6
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 18
Puuttuvat muuttujat (hidden variables)
• Ei suoraa metodia löytää puuttuvia solmuja• Erilaisia heuristisia metodeja olemassa
– puretaan toisistaan riippuvien muuttujien osaverkko kulkemaan yhteisen muuttujan kautta
– Testataan verkkoa epäilyttävissä kohtaa lisäämällä mahdollisia puuttuvia muuttujia ja vertailemalla saatujen verkkojen ilmenemistodennäköisyyksiä alkuperäiseen
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 19
Puuttuvat muuttujat: selventävä kuva
• (a) Datan perusteella saatu verkko (mitatut muuttujat)
• (b) Ehdotus puuttuvien muuttujien lisäämiseksi
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 20
Case: College plans
• Muuttujat: sex (SEX): male, female; socioeconomic status (SES): low, lower middle, upper middle, high; intelligence quotient (IQ): low, lower middle, upper middle, high; parental encouragement (PE): low, high; college plans (CP): yes, no
• Data: tiedot 10318 Wisconsin high school oppilaista• Tarkoitus: saada tietoa muuttujien syy-seuraus-
suhteista• Lähteet: data Sewell & Shah (1968) ja analyysi D.
Heckerman (1999)
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 21
Case: College plans
• Kuvassa kaksi todennäköisintä rakennetta
• Epäilyttävää: SES vaikuttaa suoraan IQ:iin
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 22
Case: College plans
• Lisättiin puuttuva muuttuja H selittämään muuttujia IQ ja SES
• Malli 2*1010 kertaa todennäköisempi kuin paras malli ilman muuttujaa H
• Muuttuja H vastaa ”vanhempien laatua”
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 23
Yhteenveto: oppivat Bayes-verkot
• Auttaa mallin rakentamisessa• Opitaan kahta asiaa: parametrit (todennäköisyydet)
ja rakenne (kaaret)• Käytännössä tärkein menetelmä: parhaan rakenteen
ja parametrien etsiminen pisteytysmenetelmillä• Epätäydellisen datan kaksi tapausta: puuttuvat arvot
ja puuttuvat muuttujat• Suuri potentiaali, monia toimivia sovelluksia
S ysteemianalyysinLaboratorioTeknillinen korkeakoulu Esitelmä 28 – Tuukka Sarvi
Optimointiopin seminaari - Syksy 2005 / 24
Kotitehtävä 28
• (a) Todista, että N muuttujan tapauksessa mahdollisten verkkojen määrä on suurempi kuin N! (ylieksponentiaalinen). (3p)
• (b) Keksi ongelma, johon voisit käyttää oppivia Bayes-verkkoja. Listaa tutkittavat muuttujat ja kerro mistä saat dataa mallisi opettamiseksi. (3p)