Download pptx - Crisp-DM dan Naive Bayes

Transcript
Page 1: Crisp-DM dan Naive Bayes

Cross Industry Standard Process for Data Mining

(CRISP-DM)

Nama : Siti Maskuroh

NIM : A11.2011.06038

Kel : A11.4812

Page 2: Crisp-DM dan Naive Bayes

CRISP-DM

• CRISP - DM adalah metodologi data mining komprehensif dan Model proses untuk siapa pun (dari pemula sampai ahli data mining) dengan blueprint untuk melakukan proyek data mining.

• CRISP - DM breaks down siklus hidup proyek data mining dibagi menjadi 6 fase .

Page 3: Crisp-DM dan Naive Bayes

Sejarah

• CRISP-DM – diusulkan pada pertengahan 1990an oleh konsorsium perusahaan-perusahaan eropa untuk dijadikan methodology standard nonproprietary bagi DM (CRISP-DM, 2009)

• Diluncurkan pada pertengahan tahun 1996• Dikembangakan dan disempurnakan dari workshops

(1997-1999) yang didukung oleh 300 lebih perusahaan.• CRISP - DM 1.0 diterbitkan ( 1999) • Lebih dari 200 anggota SIG CRISP - DM di seluruh

dunia • Vendor DM - SPSS , NCR , IBM , SAS , SGI ,  Data

Distilleries , Syllogic , Magnify

Page 4: Crisp-DM dan Naive Bayes

Standart data mining CRISP-DM

Page 5: Crisp-DM dan Naive Bayes

6 fase CRISP-DM

1. Fase Pemahaman Bisnis (Business Understanding Phase)

2. Fase Pemahaman Data (Data Understanding Phase)

3. Fase Pengolahan Data (Data Preparation Phase)

4. Fase Pemodelan (Modeling Phase)

5. Fase Evaluasi (Evaluation Phase)

6. Fase Penyebaran (Deployment Phase)

Page 6: Crisp-DM dan Naive Bayes

Fase Pemahaman Bisnis(1)

• Rencana projek untuk menemukan knowledge sehingga menetapkan orang-orang yang bertanggaungjawab untuk koleksi data, analisa, melaporkan temuan-temuan

• Penentuan tujuan proyek dan kebutuhan secara detail • Menerjemahkan tujuan dan batasan permasalahan data

mining• Menyiapkan strategi awal untuk mencapai tujuan • Perlunya menentukan budget untuk mendukung kajian

ini.

Page 7: Crisp-DM dan Naive Bayes

Fase Pemahaman Data(2)

• Mengidentifikasi data yang relevan dari berbagai database yang ada.

• Analisa data agar dapat mengenali data lebih lanjut.• Mengevaluasi kualitas data. • Jika diinginkan, pilih sebagian kecil kelompok data

yang mungkin mengandung pola dari permasalahan • Contoh : project DM untuk retail mungkin ingin

mengetahui mengenai perilaku belanja para wanita penggemar belanja yang membeli baju-baju untuk musiman berdasarkan demografis mereka, transaksi kartu kredit mereka, dan ciri-ciri sosioekonomi mereka.

Page 8: Crisp-DM dan Naive Bayes

Fase Pengolahan Data(3)

• Pemrosesan data menyita waktu dan usaha paling banyak. Sekitar 80% dari total waktu yang dibutuhkan dalam pengerjaan proyek.

• Pilih kasus dan variabel sesuai analisis yang akan dilakukan.

• Lakukan perubahan pada beberapa variabel jika dibutuhkan.

• Siapkan data awal sehingga siap untuk perangkat pemodelan.

• Contoh : mengkonversi data rill yang pada umumnya tidak lengkap, noisy(berisi data error), data tidak konsisten agar bisa menjadi dataset yang bisa digali

Page 9: Crisp-DM dan Naive Bayes

Fase Pemodelan(4)

• Tahap pembuatan model juga mencakup penilaian dan analisa komparatif dari berbagai model yang dibangun. Karena tidak ada satupun model yang secara universal dianggap sebagai metode / algoritma yang terbaik.

• Pilih dan aplikasikan teknik pemodelan yang sesuai. • Beberapa teknik mungkin dapat digunakan pada

permasalahan yang sama. • Proses dapat kembali ke fase pengolahan data jika

diperlukan.• Contoh : beberapa metode DM seperti decision

tree,classification, k-means untuk clustering, dan Apriori untuk association rule mining

Page 10: Crisp-DM dan Naive Bayes

Fase Evaluasi(5)• Tahap ini mengukur sejauh mana model yang sudah

dipilih memenuhi sasaran-sasaran bisnis• Mengevaluasi satu atau lebih model sebelum

disebarkan. • Menetapkan apakah terdapat model yang memenuhi

tujuan pada fase awal.• Menentukan apakah terdapat permasalahan penting dari

bisnis atau penelitian yang tidak tertangani dengan baik. • Contoh : menginterpretasikan  hasil-hasil solusi

matematis yang canggih maka seringkali digunakan berbagai macam tabulasi dan teknik-teknik visualisasi (misalnya table-tabel pivot, tabulasi silang dari berbagai temuan,diagram pie,diagram batang,scatterplots).

Page 11: Crisp-DM dan Naive Bayes

Fase Penyebaran(6)

• Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek.

• Tahap ‘deployment’ mungkin juga meliputi berbagai aktivitas ‘maintenance’ pada model yang sudah digunakan. Karena semua yang terkait dengan bisnis pasti mengalami perubahan

• Contoh sederhana penyebaran: Pembuatan laporan. • Contoh kompleks Penyebaran: Penerapan proses data

mining secara paralel pada departemen lain.

Page 12: Crisp-DM dan Naive Bayes

Referensi

• http://repository.widyatama.ac.id/xmlui/bitstream/handle/123456789/2360/13.%20BAB%20II.pdf?sequence=14

• http://paginas.fe.up.pt/~ec/files_0405/slides/02%20CRISP.pdf

• http://beritati.blogspot.com/2013/08/seri-data-mining-for-business_19.html diakses 7/10/2014

Page 13: Crisp-DM dan Naive Bayes

Naive bayesian classifier

• Adalah metode classifier yang berdasarkan probabilitas dan Teorema Bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (independence)

• Mengansumsikan bahwa keberadaan sebuah atribut (variabel) tidak ada kaitannya dengan beradaan atribut (variabel) yang lain

• Karena asumsi atribut tidak saling terkait (conditionally independent), maka:

Page 14: Crisp-DM dan Naive Bayes

• Bila P(X|Ci) dapat diketahui melalui perhitungan di atas, maka klas (label) dari data sampel X adalah klas (label) yang memiliki P(X|Ci)*P(Ci) maksimum

Page 15: Crisp-DM dan Naive Bayes

Contoh soalNO JENIS KELAMIN STATUS MAHASISWA STATUS PRENIKAHAN IPK Semester 1-6 STATUS KELULUSAN

1 LAKI - LAKI MAHASISWA BELUM 3.17 TEPAT

2 LAKI - LAKI BEKERJA BELUM 3.30 TEPAT

3 PEREMPUAN MAHASISWA BELUM 3.01 TEPAT

4 PEREMPUAN MAHASISWA MENIKAH 3.25 TEPAT

5 LAKI - LAKI BEKERJA MENIKAH 3.20 TEPAT

6 LAKI - LAKI BEKERJA MENIKAH 2.50 TERLAMBAT

7 PEREMPUAN BEKERJA MENIKAH 3.00 TERLAMBAT

8 PEREMPUAN BEKERJA BELUM 2.70 TERLAMBAT

9 LAKI - LAKI BEKERJA BELUM 2.40 TERLAMBAT

10 PEREMPUAN MAHASISWA MENIKAH 2.50 TERLAMBAT

11 PEREMPUAN MAHASISWA BELUM 2.50 TERLAMBAT

12 PEREMPUAN MAHASISWA BELUM 3.50 TEPAT

13 LAKI - LAKI BEKERJA MENIKAH 3.30 TEPAT

14 LAKI - LAKI MAHASISWA MENIKAH 3.25 TEPAT

15 LAKI - LAKI MAHASISWA BELUM 2.30 TERLAMBAT

Page 16: Crisp-DM dan Naive Bayes

Tentukan “keterangan”

KELAMIN STATUS PRENIKAHAN IPKKETERANGA

N

LAKI – LAKI MAHASISWA BELUM 2.70 ???

Page 17: Crisp-DM dan Naive Bayes

Tahap penyelesaian

Page 18: Crisp-DM dan Naive Bayes

Hasil

KELAMIN STATUS PRENIKAHAN IPK KETERANGAN

LAKI - LAKI MAHASISWA BELUM 2.70 TERLAMBAT

Page 19: Crisp-DM dan Naive Bayes

Kelebihan dan kelemahan

Kelebihan :• Mudah diimplementasi • Memberikan hasil yang baik untuk banyak • kasus

Kelemahan:• Harus mengasumsi bahwa antar fitur tidak terkait

(independent) Dalam realita, keterkaitan itu ada • Keterkaitan tersebut tidak dapat dimodelkan oleh Naïve

Bayesian Classifier

Page 20: Crisp-DM dan Naive Bayes

Referensi

• http://charitasfibriani.files.wordpress.com/2010/11/pertemuan_82.doc

• http://education-programmer.blogspot.com/search/label/Data%20Mining

• http://www.informatika.unsyiah.ac.id/tfa/dm/dm-bayesian-classifier.pdf