13
Pengertian data mining Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode dan algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. KDD (Knowledge Discovery in Database) adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti

Tugas 1 dm1

Embed Size (px)

DESCRIPTION

tugas ppt data mining

Citation preview

Page 1: Tugas 1 dm1

Pengertian data mining• Data mining adalah proses mencari pola atau informasi menarik

dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode dan algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

• KDD (Knowledge Discovery in Database) adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti

Page 2: Tugas 1 dm1

Sejarah dan perkembangan Data miningSejarah Data mining bukanlah bidang baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu.Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti classification, neural network, genetic algorithm dll, sudah lama dikenal di dunia kecerdasan buatan.. Yang membedakan persepsi terhadap data mining adalah perkembangan teknik-teknik data mining untuk aplikasi pada database skala besar. Sebelum populernya data mining, teknik-teknik tersebut pada umunya diterapkan pada data skala kecil saja. Selain itu beberapa teknik dari bidang database untuk transformasi data juga merupakan bagian integral dari proses data mining.

Page 3: Tugas 1 dm1

• Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan merekam setiap penjualan barang dengan memakai alat POS (point of sales). Database data penjualan tsb. bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan berskala nasional. Perkembangan internet juga punya andil cukup besar dalam akumulasi data.

• Tetapi pertumbuhan yang pesat dari akumulasi data menciptakan keadaan yang disebut “rich of data but poor of information” karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan “kuburan data” (data tombs)

• Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia.

Page 4: Tugas 1 dm1

Metode Data mining

• Clustering atau pengelompokan merupakan teknik untuk mengelompokkan data ke dalam suatu kelompok tertentu. Metode clustering dalam data mining antara lain DBScan, Simple K-mean, Hierarchical CLustering. Dua terakhir pada metode clustering dalam data mining ini juga dipelajari pada mata kuliah Statistika Multivariat Terapan. Sebagai contoh untuk clustering: Terdapat 5 negara: Indonesia, Singapura, India, Inggris, Jerman. Maka 5 negara tersebut dapat dijadikan dua klaster berdasarkan letak geografisnya: Eropa (Inggris, Jerman) dan Asia (Indonesia, Singapura, India). Namun juga dapat dijadikan dua klaster yang berbeda berdasarkan tingkat sector industri dan jasa: Negara maju (Singapura, Inggris, Jerman) dan Negara berkembang (Indonesia, India)

Page 5: Tugas 1 dm1

• Classification merupakan teknik pengklasifikasian data. Bedanya data dengan clustering pada clustering variabel dependen tidak ada sedangkan pada classification diharuskan ada variabel dependen. Contohnya pembagian criteria calon debitur yakni debitur baik dan buruk. Metode classification dalam data mining banyak sekali, misalnya ID3, C4.5, K Nearest Neigh bors.

• Associaton merupakan teknik dalam data mining yang mempelajari hubungan data. Associatin Rule ini biasa digunakan pada supermarket untuk menganalisis perilaku pelanggan dalam berbelanja. Sebagai contoh jika pelanggan membeli barang A, B, C maka pelanggan akan membeli barang X. Atau dalam notasi biasa ditulis: A, B, C -> X .Biasanya dalam software data mining juga ada beberapa metode baik clustering atau klasifikasi yang berasal dari cabang soft computing, misalnya neural network. Metode yang berasal dari soft computing yang biasanya juga disinggung dalam data mining antara lain perceptron , backpropagation (multilayer perceptron), self organizing map (SOM).

Page 6: Tugas 1 dm1

Algoritma Estimasi

• Algoritma estimasi mirip dengan algoritma klasifikasi, tapi variabel target adalah berupa bilangan numerik (kontinyu) dan bukan kategorikal (nominal atau diskrit)

• Estimasi nilai dari variable target ditentukan berdasarkan nilai dari variabel prediktor (atribut)

• Algoritma estimasi yang biasa digunakan adalah: Linear Regression, Neural Network, Support Vector Machine

Page 7: Tugas 1 dm1

Algoritma Prediksi

• Algoritma prediksi/forecasting sama dengan algoritma estimasi di mana label/target/class bertipe numerik, bedanya adalah data yang digunakan merupakan data rentet waktu(data time series)

• Istilah prediksi kadang digunakan juga untuk klasifikasi, tidak hanya untuk prediksi time series, karena sifatnya yang bisa menghasilkan class berdasarkan berbagai atribut yang kita sediakan

• Semua algoritma estimasi dapat digunakan untuk prediksi/forecasting

Page 8: Tugas 1 dm1

Algoritma Klasifikasi

• Klasifikasi adalah algoritma yang menggunakan data dengan target/class/label berupa nilai kategorikal (nominal)

• Contoh, apabila target/class/label adalah pendapatan, maka bisa digunakan nilai nominal (kategorikal) sbb: pendapatan besar, menengah, kecil

• Contoh lain adalah rekomendasi contact lens, apakah menggunakan yang jenis soft, hard atau none

• Algoritma klasifikasi yang biasa digunakan adalah: Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, etc

Page 9: Tugas 1 dm1

Algoritma Klastering• Klastering adalah pengelompokkan data, hasil observasi

dan kasus ke dalam class yang mirip• Suatu klaster (cluster) adalah koleksi data yang mirip

antara satu dengan yang lain, dan memiliki perbedaan bila dibandingkan dengan data dari klaster lain

• Perbedaan utama algoritma klastering dengan klasifikasi adalah klastering tidak memiliki target/class/label, jadi termasuk unsupervised learning

• Klastering sering digunakan sebagai tahap awal dalam proses data mining, dengan hasil klaster yang terbentuk akan menjadi input dari algoritma berikutnya yang digunakan

Page 10: Tugas 1 dm1

Algoritma Asosiasi

• Algoritma association rule (aturan asosiasi) adalah algoritma yang menemukan atribut yang “muncul bersamaan”

• Dalam dunia bisnis, sering disebut dengan affinity analysis atau market basket analysis

• Algoritma asosiasi akan mencari aturan yang menghitung hubungan diantara dua atau lebih atribut

• Algoritma association rules berangkat dari pola “If antecedent, then consequent,” bersamaan dengan pengukuran support (coverage) dan confidence (accuration) yang terasosiasi dalam aturan

Page 11: Tugas 1 dm1

Algoritma Asosiasi

• Contoh, pada hari kamis malam, 1000 pelanggan telah melakukan belanja di supermaket ABC, dimana:– 200 orang membeli Sabun Mandi– dari 200 orang yang membeli sabun mandi, 50

orangnya membeli Fanta• Jadi, association rule menjadi, “Jika membeli sabun

mandi, maka membeli Fanta”, dengan nilai support = 200/1000 = 20% dan nilai confidence = 50/200 = 25%

• Algoritma association rule diantaranya adalah: A priori algorithm, FP-Growth algorithm, GRI algorithm

Page 12: Tugas 1 dm1

Pemanfaatan Data mining

• Penentuan kelayakan aplikasi peminjaman uang di bank• Penentuan pasokan listrik PLN untuk wilayah Jakarta• Diagnosis pola kesalahan mesin• Perkiraan harga saham dan tingkat inflasi• Analisis pola belanja pelanggan• Memisahkan minyak mentah dan gas alam• Pemilihan program TV otomatis• Penentuan pola pelanggan yang loyal pada perusahaan

operator telepon• Deteksi pencucian uang dari transaksi perbankan• Deteksi serangan (intrusion) pada suatu jaringan

Page 13: Tugas 1 dm1

Sumber refrensi

• http://datamining10041.wordpress.com• http://daduhitam.wordpress.com• http://andiseprianto.blogspot.com• http://pojokkampusit.blogspot.com/• http://mr-harajuku.blogspot.com/• http://gorbyrashid.blogspot.com/• Wikipedia