Crisp-DM dan Naive Bayes

  • View
    22

  • Download
    0

Embed Size (px)

DESCRIPTION

Crisp-DM dan Naive Bayes

Transcript

PowerPoint Presentation

Cross Industry Standard Process for Data Mining (CRISP-DM)Nama : Siti MaskurohNIM : A11.2011.06038Kel : A11.4812CRISP-DMCRISP - DM adalah metodologi data mining komprehensif dan Model proses untuk siapa pun (dari pemula sampai ahli data mining) dengan blueprint untuk melakukan proyek data mining. CRISP - DM breaks down siklus hidup proyek data mining dibagi menjadi 6 fase .Sejarah CRISP-DM diusulkan pada pertengahan 1990an oleh konsorsium perusahaan-perusahaan eropa untuk dijadikan methodology standard nonproprietary bagi DM (CRISP-DM, 2009)Diluncurkan pada pertengahan tahun 1996Dikembangakan dan disempurnakan dari workshops (1997-1999) yang didukung oleh 300 lebih perusahaan.CRISP - DM 1.0 diterbitkan ( 1999) Lebih dari 200 anggota SIG CRISP - DM di seluruh dunia Vendor DM - SPSS , NCR , IBM , SAS , SGI , Data Distilleries , Syllogic , MagnifyStandart data mining CRISP-DM

6 fase CRISP-DMFase Pemahaman Bisnis (Business Understanding Phase) Fase Pemahaman Data (Data Understanding Phase) Fase Pengolahan Data (Data Preparation Phase) Fase Pemodelan (Modeling Phase) Fase Evaluasi (Evaluation Phase) Fase Penyebaran (Deployment Phase)

Fase Pemahaman Bisnis(1)Rencana projek untuk menemukan knowledge sehingga menetapkan orang-orang yang bertanggaungjawab untuk koleksi data, analisa, melaporkan temuan-temuanPenentuan tujuan proyek dan kebutuhan secara detail Menerjemahkan tujuan dan batasan permasalahan data miningMenyiapkan strategi awal untuk mencapai tujuan Perlunya menentukan budget untuk mendukung kajian ini.

Fase Pemahaman Data(2)Mengidentifikasi data yang relevan dari berbagai database yang ada. Analisa data agar dapat mengenali data lebih lanjut.Mengevaluasi kualitas data. Jika diinginkan, pilih sebagian kecil kelompok data yang mungkin mengandung pola dari permasalahan Contoh : project DM untuk retail mungkin ingin mengetahui mengenai perilaku belanja para wanita penggemar belanja yang membeli baju-baju untuk musiman berdasarkan demografis mereka, transaksi kartu kredit mereka, dan ciri-ciri sosioekonomi mereka.Fase Pengolahan Data(3)Pemrosesan data menyita waktu dan usaha paling banyak. Sekitar 80% dari total waktu yang dibutuhkan dalam pengerjaan proyek.Pilih kasus dan variabel sesuai analisis yang akan dilakukan. Lakukan perubahan pada beberapa variabel jika dibutuhkan.Siapkan data awal sehingga siap untuk perangkat pemodelan.Contoh : mengkonversi data rill yang pada umumnya tidak lengkap, noisy(berisi data error), data tidak konsisten agar bisa menjadi dataset yang bisa digaliFase Pemodelan(4)Tahap pembuatan model juga mencakup penilaian dan analisa komparatif dari berbagai model yang dibangun. Karena tidak ada satupun model yang secara universal dianggap sebagai metode / algoritma yang terbaik.Pilih dan aplikasikan teknik pemodelan yang sesuai. Beberapa teknik mungkin dapat digunakan pada permasalahan yang sama. Proses dapat kembali ke fase pengolahan data jika diperlukan.Contoh : beberapa metode DM seperti decision tree,classification, k-means untuk clustering, dan Apriori untuk association rule miningFase Evaluasi(5)Tahap ini mengukur sejauh mana model yang sudah dipilih memenuhi sasaran-sasaran bisnisMengevaluasi satu atau lebih model sebelum disebarkan. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal.Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik. Contoh : menginterpretasikan hasil-hasil solusi matematis yang canggih maka seringkali digunakan berbagai macam tabulasi dan teknik-teknik visualisasi (misalnya table-tabel pivot, tabulasi silang dari berbagai temuan,diagram pie,diagram batang,scatterplots).Fase Penyebaran(6)Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek. Tahap deployment mungkin juga meliputi berbagai aktivitas maintenance pada model yang sudah digunakan. Karena semua yang terkait dengan bisnis pasti mengalami perubahanContoh sederhana penyebaran: Pembuatan laporan. Contoh kompleks Penyebaran: Penerapan proses data mining secara paralel pada departemen lain. Referensi http://repository.widyatama.ac.id/xmlui/bitstream/handle/123456789/2360/13.%20BAB%20II.pdf?sequence=14http://paginas.fe.up.pt/~ec/files_0405/slides/02%20CRISP.pdfhttp://beritati.blogspot.com/2013/08/seri-data-mining-for-business_19.html diakses 7/10/2014Naive bayesian classifierAdalah metode classifier yang berdasarkan probabilitas dan Teorema Bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (independence) Mengansumsikan bahwa keberadaan sebuah atribut (variabel) tidak ada kaitannya dengan beradaan atribut (variabel) yang lainKarena asumsi atribut tidak saling terkait (conditionally independent), maka:

Bila P(X|Ci) dapat diketahui melalui perhitungan di atas, maka klas (label) dari data sampel X adalah klas (label) yang memiliki P(X|Ci)*P(Ci) maksimum

Contoh soalNOJENIS KELAMINSTATUS MAHASISWASTATUS PRENIKAHANIPK Semester 1-6STATUS KELULUSAN1LAKI - LAKIMAHASISWABELUM3.17TEPAT2LAKI - LAKIBEKERJABELUM3.30TEPAT3PEREMPUANMAHASISWABELUM3.01TEPAT4PEREMPUANMAHASISWAMENIKAH3.25TEPAT5LAKI - LAKIBEKERJAMENIKAH3.20TEPAT6LAKI - LAKIBEKERJAMENIKAH2.50TERLAMBAT7PEREMPUANBEKERJAMENIKAH3.00TERLAMBAT8PEREMPUANBEKERJABELUM2.70TERLAMBAT9LAKI - LAKIBEKERJABELUM2.40TERLAMBAT10PEREMPUANMAHASISWAMENIKAH2.50TERLAMBAT11PEREMPUANMAHASISWABELUM2.50TERLAMBAT12PEREMPUANMAHASISWABELUM3.50TEPAT13LAKI - LAKIBEKERJAMENIKAH3.30TEPAT14LAKI - LAKIMAHASISWAMENIKAH3.25TEPAT15LAKI - LAKIMAHASISWABELUM2.30TERLAMBATTentukan keteranganKELAMINSTATUSPRENIKAHANIPKKETERANGANLAKI LAKIMAHASISWABELUM2.70???Tahap penyelesaian

HasilKELAMINSTATUSPRENIKAHANIPKKETERANGANLAKI - LAKIMAHASISWABELUM2.70TERLAMBATKelebihan dan kelemahanKelebihan :Mudah diimplementasi Memberikan hasil yang baik untuk banyak kasusKelemahan:Harus mengasumsi bahwa antar fitur tidak terkait (independent) Dalam realita, keterkaitan itu ada Keterkaitan tersebut tidak dapat dimodelkan oleh Nave Bayesian ClassifierReferensi http://charitasfibriani.files.wordpress.com/2010/11/pertemuan_82.dochttp://education-programmer.blogspot.com/search/label/Data%20Mining http://www.informatika.unsyiah.ac.id/tfa/dm/dm-bayesian-classifier.pdf