Mengapa Metode Bayes
• Metode Find-S tidak dapat digunakan untuk data yang tidak konsisten dan data yang bias,yang tidak konsisten dan data yang bias, sehingga untuk bentuk data semacam ini salah satu metode sederhana yang dapat digunakan adalah metode bayes.
• Metode Bayes ini merupakan metode yang baik di dalam mesin pembelajaran berdasarkan data training, dengan menggunakan probabilitas bersyarat sebagai dasarnyabersyarat sebagai dasarnya.
• Metode Bayes digunakan untuk menyelesaikan permasalahan Klasifikasipermasalahan Klasifikasi.
Beberapa Aplikasi Metode Bayes
• Menentukan diagnosa suatu penyakit berdasarkan data-data gejala (sebagai contoh hipertensi atau sakit jantung)data gejala (sebagai contoh hipertensi atau sakit jantung).
• Mengenali buah berdasarkan fitur-fitur buah seperti warna, bentuk, rasa dan lain-lainM li b d k fi i d k RGB• Mengenali warna berdasarkan fitur indeks warna RGB
• Mendeteksi warna kulit (skin detection) berdarkan fitur warna chrominant
• Menentukan keputusan aksi (olahraga, art, psikologi) berdasarkan keadaan.
• Menentukan jenis pakaian yang cocok untuk keadaan-Menentukan jenis pakaian yang cocok untuk keadaankeadaan tertentu (seperti cuaca, musim, temperatur, acara, waktu, tempat dan lain-lain)
Probabilitas Bersyarat
S
X
YX∩Y
)()()|(
YPYXPYXP ∩
=)(YP
Probabilitas X di dalam Y adalah probabilitas interseksi X dan Y dari probabilitas Y, atau dengan bahasa lain P(X|Y) d l h b k X di d l YP(X|Y) adalah prosentase banyaknya X di dalam Y
Contoh
Melanjutkanke perguruan
Tidakmelanjutkanke perguruan
tinggi
jke perguruan
tinggi
Laki – laki 450 50
Perempuan 150 250
Perhatikan kejadian – kejadian berikut :L : kejadian yang terpilih laki - lakiK: kejadian yang terpilih adalah orang yang j y g g y g
melanjutkan ke perguruan tinggiDengan menggunakan ruang contoh yang
dipersempit K, maka akan didapatkan Peluang kejadian terpilih laki-laki untuk orang yang melanj tkan ke perg r an tinggimelanjutkan ke perguruan tinggi.
P(L|K) = ?
• Misalkan n(A) melambangkan banyaknya ( ) g y yunsur dalam himpunan A
,)()(/)()()|( LKPSnLKnLKnKLP ∩=
∩=
∩= ,
)()(/)()()|(
KPSnKnKnKLP
Contoh lain
Peluang Kereta Api Gajayana berangkat tepat padawaktunya adalah P(B) = 0 85 peluang Kereta Apiwaktunya adalah P(B) = 0.85, peluang Kereta ApiGajayana datang tepat pada waktunya adalah P(D) = 0.90 dan peluang kereta api tersebut berangkat dandatang tepat pada waktunya adalah P(B∩D) = 0 75datang tepat pada waktunya adalah P(B∩D) = 0.75. Hitung peluang bahwa Kereta Api Gajayana itu
(a) datang tepat pada waktunya bila diketahui kereta apib b k d k dtersebut berangkat tepat pada waktunya, dan
(b) berangkat tepat pada waktunya bila diketahui kereta apitersebut datang tepat pada waktunya.g p p y
Probabilitas Bersyarat Dalam Data# Cuaca Temperatur Kecepatan Angin Berolah-raga1 Cerah Normal Pelan Ya2 Cerah Normal Pelan Ya3 Hujan Tinggi Pelan Tidak4 Cerah Normal Kencang Ya5 Hujan Tinggi Kencang Tidak6 Cerah Normal Pelan Ya
Banyaknya data berolah-raga=ya adalah 4 dari 6 data maka dituliskanP(Olahraga=Ya) = 4/6
Banyaknya data cuaca=cerah dan berolah-raga=ya adalah 4 dari 6Banyaknya data cuaca cerah dan berolah raga ya adalah 4 dari 6 data maka dituliskan
P(cuaca=cerah dan Olahraga=Ya) = 4/6
16/46/4)|( ==== yaolahragacerahcuacaP
Distribusi Bersama dan Distribusi Marginal
Dari 100 orang mahasiswa menunjukkan 20 orang mahasiswa menyukai keduanya, 30 orang mahasiswa menyukai bulu tangkis tapi tidak menyukai bola volley, 40 orang mahasiswa menyukai bola volley tapi tidak menyukai bulu tangkis, dan 10 orang mahasiswa tidak menyukai kuduanya. Dari data ini dapat disusun bentuk distribusi bersama sebagai berikut:
Suka bulu tangkis (X)
Suka bola volley (Y)P(X)
Ya TidakYa 0.2 0.3 0.5
Tidak 0.4 0.1 0.5P(Y) 0 6 0 4 1P(Y) 0.6 0.4 1
Distribusi BersamaDistribusi Marginal X dan YDistribusi Marginal X dan Y
Probabilitas Bersyarat Dalam Data# Cuaca Temperatur Berolahraga1 cerah normal ya2 cerah tinggi ya3 hujan tinggi tidak4 cerah tinggi tidak5 hujan normal tidak6 cerah normal ya
Banyaknya data berolah-raga=ya adalah 3 dari 6 data maka dituliskanP(Olahraga=Ya) = 3/6
Banyaknya data cuaca=cerah temperatur=normal dan berolah-Banyaknya data cuaca cerah, temperatur normal dan berolahraga=ya adalah 2 dari 6 data maka dituliskan
P(cuaca=cerah, temperatur=normal, Olahraga=Ya) = 2/6
32
6/36/2)|,( ===== yaolahraganormaltemperaturcerahcuacaP
Kaidah Bayes
A B BcB Bc
A = (B∩A) ∪ (Bc∩A)P(A) P [(B A) (B A)]P(A) = P [(B∩A) ∪ (Bc∩A)]
= P(B∩A) + P(Bc∩A)]= P(B)P(A|B) + P(Bc)P(A|Bc)= P(B)P(A|B) + P(Bc)P(A|Bc)
Kaidah Total Peluang
Bila kejadian – kejadian Bi ≠∅ untuk i = 1, 2, j j…,k, maka untuk sembarang kejadian A yang merupakan himpunan bagian S y g p p gberlaku
P(A) = P(B1) P(A|B1) + P(B2) P(A|B2)P(A) P(B1) P(A|B1) P(B2) P(A|B2) + … + P(Bk) P(A|Bk).
Contoh 1
Tiga wakil partai A, B dan C mencalonkan diri sebagai presiden Peluang wakil dari partai A terpilih sebagaipresiden. Peluang wakil dari partai A terpilih sebagai presiden adalah 0.4, peluang wakil dari partai B terpilih adalah 0.3 dan peluang wakil dari partai C terpilih adalah 0 3 Seandainya wakil dari partai A terpilih sebagai0.3. Seandainya wakil dari partai A terpilih sebagai presiden, peluang terjadinya kenaikan harga BBM adalah 0.7. Seandainya yang terpilih adalah wakil dari partai B peluang terjadinya kenaikan harga BBM adalahpartai B, peluang terjadinya kenaikan harga BBM adalah 0.4. Bila yang terpilih adalah wakil dari partai C maka peluang terjadinya kenaikan harga BBM adalah 0.6. Berapa peluang terjadinya kenaikan harga BBM ?Berapa peluang terjadinya kenaikan harga BBM ?
Contoh 2
• Sebuah toko menjual bola lampu. Empat puluh lima persen dari bola lampu yang dijual tokolima persen dari bola lampu yang dijual toko tersebut diproduksi oleh pabrik A dan sisanya diproduksi oleh pabrik B.Bola lampu yang diproduksi pabrik A mempunyai peluang cacatdiproduksi pabrik A mempunyai peluang cacat sebesar 3 persen sedangkan yang diproduksi pabrik B mempunyai peluang cacat sebesar 5
Bil b li b l l d ipersen. Bila seseorang membeli bola lampu dari toko tersebut, berapa peluang dia akan mendapatkan bola lampu yang cacat?p p y g
Kaidah Bayes
Jika kejadian – kejadian B1, B2, …, Bk j jmerupakan sekatan dari ruang contoh S dengan P(Bi) ≠ 0 untuk I = 1, 2, …, k, g ( )maka untuk sembarang kejadian A yang bersifat P(A) ≠ 0,( )
)|()(...)|()()|()()|()()|(
2211 kk
rrr BAPBPBAPBPBAPBP
BAPBPABP+++
=
• Untuk masalah dalam Contoh 1 misalkan ada orang yang tidak mengetahui siapa yang menjadi presiden karena dia tinggal y g j p ggdi pelosok daerah. Bila beberapa waktu kemudian ternyata harga BBM naik, y gberapa peluang bahwa yang menjadi presiden adalah wakil dari partai A?
Untuk masalah pada contoh 2, misalkan ada pseseorang yang membeli bola lampu dari toko tersebut. Setelah sampai rumah dan pdicoba, ternyata lampu tersebut cacat. Berapa peluang bahwa lampu tersebut p p g pdiproduksi oleh pabrik A?
Posterior dan Prior
BnB2 ….B1
∑= kk
k BAPBPBAPBPABP
)|()()|()()|(
A
∑i
ii BAPBP )|()(
)|()( BAPBPA
)()|()()|(
APBAPBPABP kk
k =
P(Bk|A) disebut keadaan Posterior (Probabilitas Bk di ( | ) (dalam A) P(Bk) disebut keadaan Prior
Permasalahan klasifikasi
• Misalkan dalam permasalahan klasifikasi, pterdapat dua kelas w1 dan w2.
• Diketahui sebuah data yang dinyatakanDiketahui sebuah data yang dinyatakan dalam fitur vector X
• Maka P(wi|X) merupakan keadaan• Maka P(wi|X) merupakan keadaan posterior yang menyatakan peluang X ada di kelas widi kelas wi.
Permasalahan klasifikasi
• Secara umum, model klasifikasi dengan gmetode Bayes, adalah mencari P(wi|X) paling besar.p g
• Dengan kata lain,– Jika P(w1|X) > P(w2|X) maka XJika P(w1|X) > P(w2|X) maka X
diklasifikasikan sebagai kelas w1– Jika P(w2|X) > P(w2|X) maka XJika P(w2|X) P(w2|X) maka X
diklasifikasikan sebagai kelas w2
HMAPHMAP (Hypothesis Maximum Appropri Probability) menyatakan hipotesa yang diambil berdasarkan nilai probabilitas berdasarkan kondisi prior yang diketahuidiketahui.
( ) ( ) ( )YXPYPXYP
d
i i∏== 1maxarg( ) ( )XPXYP = maxarg
( ) ( )∏=d YXPYPmaxarg
HMAP adalah model penyederhanaan dari metode bayes yang disebut
( ) ( )∏ ==
i i YXPYP1
maxarg
HMAP adalah model penyederhanaan dari metode bayes yang disebut dengan Naive Bayes. HMAP inilah yang digunakan di dalam machine learning sebagai metode untuk mendapatkan hipotesis untuk suatu keputusan.keputusan.
Data Training# Cuaca Temperatur Kecepatan Angin Berolah-raga1 Cerah Normal Pelan Ya2 Cerah Normal Pelan Ya3 Hujan Tinggi Pelan Tidak4 Cerah Normal Kencang Ya5 Hujan Tinggi Kencang Tidakj gg g6 Cerah Normal Pelan Ya
Asumsi: Y = berolahraga,X1 = cuaca,X2 = temperatur,2 p ,X3 = kecepatan angin.
HMAP Dari Data Training# Cuaca Temperatur Kecepatan Angin Berolah-raga
1 Cerah Normal Pelan Ya
2 Cerah Normal Pelan YaApakah bila cuaca
cerah dan 2 Cerah Normal Pelan Ya
3 Hujan Tinggi Pelan Tidak
4 Cerah Normal Kencang Ya
5 Hujan Tinggi Kencang Tidak
cerah dan kecepatan angin kencang, orang
akan berolahraga?6 Cerah Normal Pelan Ya
akan berolahraga?
Fakta: P(Y=ya) = 4/6 , P(Y=tidak) = 2/6P(X1=cerah|Y=ya) = 1, P(X1=cerah|Y=tidak) = 0P(X3=kencang|Y=ya) = 1/4 , P(X3=kencang|Y=tidak) = 1/2
HMAP dari keadaan ini dapat dihitung dengan:P( X1=cerah,X3=kencang | Y=ya )
= { P(X1=cerah|Y=ya) P(X3=kencang|Y=ya) } P(Y=ya) { P(X1 cerah|Y ya).P(X3 kencang|Y ya) } . P(Y ya)= { (1) . (1/4) } . (4/6) = 1/6
P( X1=cerah,X3=kencang | Y=tidak ) = { P(X1=cerah|Y=tidak).P(X3=kencang|Y=tidak) } . P(Y=tidak)
{ (0) (1/2) } (2/6) 0= { (0) . (1/2) } . (2/6) = 0
KEPUTUSAN ADALAH BEROLAHRAGA = YA
Kelemahan Metode Bayes
• Metode Bayes hanya bisa digunakan untuk persoalan klasifikasi dengan supervised learning dan data-data k t ik lkategorikal.
• Metode Bayes memerlukan pengetahuan l t k d t bil tawal untuk dapat mengambil suatu
keputusan. Tingkat keberhasilan metode ini sangat tergantung pada pengetahuanini sangat tergantung pada pengetahuan awal yang diberikan.
Estimasi Prob untuk Atribut Kontinyu
• Mendiskritkan setiap atribut kontinyu dan p ymengganti nilai atribut kontinyu dengan interval diskrit yang bersesuaian. y g
• Mengasumsikan suatu bentuk distribusi probabilitas tertentu untuk variabelprobabilitas tertentu untuk variabel kontinyu dan mengestimasi parameter distribusi menggunakan data training.distribusi menggunakan data training.
Estimasi Prob untuk Atribut Kontinyu
• Misalkan dengan menggunakan distribusi Gaussian, yang mempunyai dua parameter yaitu mean (µ) dan varians (σ2), maka untuk setiap kelas y probabilitas kelas untuk atribut Xkelas yj, probabilitas kelas untuk atribut Xiadalah :
2
2)(1 ijiA µ−− 22
221)|( ij
ij
jiecAP σ
πσ=
Dimana µij dapat diestimasikan berdasarkan sample mean dari Xi untuk semua training record yang berada
j
di kelas yj. Demikian juga dengan σ²ij.
Estimasi Prob untuk Atribut Kontinyu
• Contoh Data trainingS l d i
Tid Refund MaritalStatus
TaxableIncome Cheat• Sample mean dan variance
untuk atribut kelas ‘No’ :µ=(125+100+70+120+60+220+75)/7
110
Status Income Cheat
1 Yes Single 125K No
2 No Married 100K No= 110
s²=((125-110)²+…..)/6=2975s = √2975 = 54.54
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes• Maka probabilitas untuk taxable
income 120 berlaku tidak curang adalah
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes10
0072.0)54.54(2
1)|120( )2975(2)110120(
2
2
===−
−
eNoIncomePπ
Contoh Naïve Bayes Classifier
120K)IncomeMarried,No,Refund( ===XDiberikan Test Record:
P(Refund=Yes|No) = 3/7P(R f d N |N ) 4/7
naive Bayes Classifier:
P(X|Class=No) = P(Refund=No|Class=No)P(M i d| Cl N )P(Refund=No|No) = 4/7
P(Refund=Yes|Yes) = 0P(Refund=No|Yes) = 1P(Marital Status=Single|No) = 2/7P(Marital Status=Divorced|No)=1/7
× P(Married| Class=No)× P(Income=120K| Class=No)
= 4/7 × 4/7 × 0.0072 = 0.0024
( | )P(Marital Status=Married|No) = 4/7P(Marital Status=Single|Yes) = 2/7P(Marital Status=Divorced|Yes)=1/7P(Marital Status=Married|Yes) = 0
P(X|Class=Yes) = P(Refund=No| Class=Yes)× P(Married| Class=Yes)× P(Income=120K| Class=Yes)
= 1 × 0 × 1.2 × 10-9 = 0
For taxable income:If class=No: sample mean=110
sample variance=2975If class=Yes: sample mean=90
Karena P(X|No)P(No) > P(X|Yes)P(Yes)Maka P(No|X) > P(Yes|X)
=> Class = Nosample variance=25 => Class = No
Naïve Bayes Classifier
• Jika salah satu probabilitas kondisional pbernilai nol, maka ekspresi keseluruhan menjadi nolj
• Probability estimation:NCAP ic=)|(:Original c: number of classes
NCAP
NCAP
ici
ci
+=
=
1)|(:Laplace
)|( :Originalp: prior probability
m: parameter
NmpNCAP
cNCAP
ici
ci
+=
+
)|(:estimate-m
)|(:Laplace
mNci +
)|(
Contoh Naïve Bayes ClassifierName Give Birth Can Fly Live in Water Have Legs Class
human yes no no yes mammalspython no no no no non-mammalssalmon no no yes no non-mammals
A: attributes
M: mammalsy
whale yes no yes no mammalsfrog no no sometimes yes non-mammalskomodo no no no yes non-mammalsbat yes yes no yes mammalspigeon no yes no yes non-mammals
t l
06.072
72
76
76)|( =×××=MAP
N: non-mammals
cat yes no no yes mammalsleopard shark yes no yes no non-mammalsturtle no no sometimes yes non-mammalspenguin no no sometimes yes non-mammalsporcupine yes no no yes mammalseel no no yes no non-mammals 02107060)()|(
0042.0134
133
1310
131)|( =×××=
MPMAP
NAP
ysalamander no no sometimes yes non-mammalsgila monster no no no yes non-mammalsplatypus no no no yes mammalsowl no yes no yes non-mammalsdolphin yes no yes no mammals
l l
0027.02013004.0)()|(
021.020
06.0)()|(
=×=
=×=
NPNAP
MPMAP
eagle no yes no yes non-mammals
Give Birth Can Fly Live in Water Have Legs Classyes no yes no ?
20
P(A|M)P(M) > P(A|N)P(N)
=> Mammals
Naïve Bayes (Kesimpulan)• Robust terhadap titik terisolasi• Menangani missing values dengan g g g
mengabaikan record tersebut selama perhitungan
• Robust terhadap atribut yang tidak relevan
Contoh Soal: ‘Play Tennis’ dataD ay O utlook T em perature H um id ity W ind P lay
T ennis
D ay1 S unn y H ot H igh W eak N oD ay2 S unn y H ot H igh S trong N oD ay2 S unn y H ot H igh S trong N o
D ay3 O vercast H ot H igh W eak Y es
D ay4 R ain M ild H igh W eak Y es
D ay5 R ain C oo l N orm al W eak Y es
D 6 R i C l N l S t ND ay6 R ain C oo l N orm al S trong N o
D ay7 O vercast C oo l N orm al S trong Y es
D ay8 S unn y M ild H igh W eak N o
D ay9 S unn y C oo l N orm al W eak Y es
D 10 R i M ild N l W k YD ay10 R ain M ild N orm al W eak Y es
D ay11 S unn y M ild N orm al S trong Y es
D ay12 O vercast M ild H igh S trong Y es
D ay13 O vercast H ot N orm al W eak Y es
D 14 R i M ild H i h S t ND ay14 R ain M ild H igh S trong N o
Berdasarkan data play tenis klasifikasikan data x dimana (O tl S T C l H Hi h Wi d t ) D k t l ix=(Outl=Sunny, Temp=Cool, Hum=High, Wind=strong). Dengan kata lain
dengan kondisi x, seseorang bermain tennis atau tidak?