Upload
alvian-yudha-prawira
View
72
Download
2
Embed Size (px)
DESCRIPTION
tugas ppt data mining
Citation preview
Pengertian data mining• Data mining adalah proses mencari pola atau informasi menarik
dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode dan algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
• KDD (Knowledge Discovery in Database) adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti
Sejarah dan perkembangan Data miningSejarah Data mining bukanlah bidang baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu.Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti classification, neural network, genetic algorithm dll, sudah lama dikenal di dunia kecerdasan buatan.. Yang membedakan persepsi terhadap data mining adalah perkembangan teknik-teknik data mining untuk aplikasi pada database skala besar. Sebelum populernya data mining, teknik-teknik tersebut pada umunya diterapkan pada data skala kecil saja. Selain itu beberapa teknik dari bidang database untuk transformasi data juga merupakan bagian integral dari proses data mining.
• Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan merekam setiap penjualan barang dengan memakai alat POS (point of sales). Database data penjualan tsb. bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan berskala nasional. Perkembangan internet juga punya andil cukup besar dalam akumulasi data.
• Tetapi pertumbuhan yang pesat dari akumulasi data menciptakan keadaan yang disebut “rich of data but poor of information” karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan “kuburan data” (data tombs)
• Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia.
Metode Data mining
• Clustering atau pengelompokan merupakan teknik untuk mengelompokkan data ke dalam suatu kelompok tertentu. Metode clustering dalam data mining antara lain DBScan, Simple K-mean, Hierarchical CLustering. Dua terakhir pada metode clustering dalam data mining ini juga dipelajari pada mata kuliah Statistika Multivariat Terapan. Sebagai contoh untuk clustering: Terdapat 5 negara: Indonesia, Singapura, India, Inggris, Jerman. Maka 5 negara tersebut dapat dijadikan dua klaster berdasarkan letak geografisnya: Eropa (Inggris, Jerman) dan Asia (Indonesia, Singapura, India). Namun juga dapat dijadikan dua klaster yang berbeda berdasarkan tingkat sector industri dan jasa: Negara maju (Singapura, Inggris, Jerman) dan Negara berkembang (Indonesia, India)
• Classification merupakan teknik pengklasifikasian data. Bedanya data dengan clustering pada clustering variabel dependen tidak ada sedangkan pada classification diharuskan ada variabel dependen. Contohnya pembagian criteria calon debitur yakni debitur baik dan buruk. Metode classification dalam data mining banyak sekali, misalnya ID3, C4.5, K Nearest Neigh bors.
• Associaton merupakan teknik dalam data mining yang mempelajari hubungan data. Associatin Rule ini biasa digunakan pada supermarket untuk menganalisis perilaku pelanggan dalam berbelanja. Sebagai contoh jika pelanggan membeli barang A, B, C maka pelanggan akan membeli barang X. Atau dalam notasi biasa ditulis: A, B, C -> X .Biasanya dalam software data mining juga ada beberapa metode baik clustering atau klasifikasi yang berasal dari cabang soft computing, misalnya neural network. Metode yang berasal dari soft computing yang biasanya juga disinggung dalam data mining antara lain perceptron , backpropagation (multilayer perceptron), self organizing map (SOM).
Algoritma Estimasi
• Algoritma estimasi mirip dengan algoritma klasifikasi, tapi variabel target adalah berupa bilangan numerik (kontinyu) dan bukan kategorikal (nominal atau diskrit)
• Estimasi nilai dari variable target ditentukan berdasarkan nilai dari variabel prediktor (atribut)
• Algoritma estimasi yang biasa digunakan adalah: Linear Regression, Neural Network, Support Vector Machine
Algoritma Prediksi
• Algoritma prediksi/forecasting sama dengan algoritma estimasi di mana label/target/class bertipe numerik, bedanya adalah data yang digunakan merupakan data rentet waktu(data time series)
• Istilah prediksi kadang digunakan juga untuk klasifikasi, tidak hanya untuk prediksi time series, karena sifatnya yang bisa menghasilkan class berdasarkan berbagai atribut yang kita sediakan
• Semua algoritma estimasi dapat digunakan untuk prediksi/forecasting
Algoritma Klasifikasi
• Klasifikasi adalah algoritma yang menggunakan data dengan target/class/label berupa nilai kategorikal (nominal)
• Contoh, apabila target/class/label adalah pendapatan, maka bisa digunakan nilai nominal (kategorikal) sbb: pendapatan besar, menengah, kecil
• Contoh lain adalah rekomendasi contact lens, apakah menggunakan yang jenis soft, hard atau none
• Algoritma klasifikasi yang biasa digunakan adalah: Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, etc
Algoritma Klastering• Klastering adalah pengelompokkan data, hasil observasi
dan kasus ke dalam class yang mirip• Suatu klaster (cluster) adalah koleksi data yang mirip
antara satu dengan yang lain, dan memiliki perbedaan bila dibandingkan dengan data dari klaster lain
• Perbedaan utama algoritma klastering dengan klasifikasi adalah klastering tidak memiliki target/class/label, jadi termasuk unsupervised learning
• Klastering sering digunakan sebagai tahap awal dalam proses data mining, dengan hasil klaster yang terbentuk akan menjadi input dari algoritma berikutnya yang digunakan
Algoritma Asosiasi
• Algoritma association rule (aturan asosiasi) adalah algoritma yang menemukan atribut yang “muncul bersamaan”
• Dalam dunia bisnis, sering disebut dengan affinity analysis atau market basket analysis
• Algoritma asosiasi akan mencari aturan yang menghitung hubungan diantara dua atau lebih atribut
• Algoritma association rules berangkat dari pola “If antecedent, then consequent,” bersamaan dengan pengukuran support (coverage) dan confidence (accuration) yang terasosiasi dalam aturan
Algoritma Asosiasi
• Contoh, pada hari kamis malam, 1000 pelanggan telah melakukan belanja di supermaket ABC, dimana:– 200 orang membeli Sabun Mandi– dari 200 orang yang membeli sabun mandi, 50
orangnya membeli Fanta• Jadi, association rule menjadi, “Jika membeli sabun
mandi, maka membeli Fanta”, dengan nilai support = 200/1000 = 20% dan nilai confidence = 50/200 = 25%
• Algoritma association rule diantaranya adalah: A priori algorithm, FP-Growth algorithm, GRI algorithm
Pemanfaatan Data mining
• Penentuan kelayakan aplikasi peminjaman uang di bank• Penentuan pasokan listrik PLN untuk wilayah Jakarta• Diagnosis pola kesalahan mesin• Perkiraan harga saham dan tingkat inflasi• Analisis pola belanja pelanggan• Memisahkan minyak mentah dan gas alam• Pemilihan program TV otomatis• Penentuan pola pelanggan yang loyal pada perusahaan
operator telepon• Deteksi pencucian uang dari transaksi perbankan• Deteksi serangan (intrusion) pada suatu jaringan
Sumber refrensi
• http://datamining10041.wordpress.com• http://daduhitam.wordpress.com• http://andiseprianto.blogspot.com• http://pojokkampusit.blogspot.com/• http://mr-harajuku.blogspot.com/• http://gorbyrashid.blogspot.com/• Wikipedia