Data Mining Gerry

Embed Size (px)

DESCRIPTION

Pengertian Data Mining

Text of Data Mining Gerry

DAFTAR ISI

DAFTAR ISI i1. Data Mining 1 Bahasan Umum Data Mining 2 Definisi Data Mining 2 Tugas Utama Data Mining 3 Proses Data Mining 5 Cara Kerja Data Mining 6 Metodologi Data Mining yang Populer 82. Pengertian Data Mining dan Contoh Kasus yang Terjadi 13 Data, Informasi, Pengetahuan dan Gudang Data 14 Apa yang bisa dilakukan Data Mining ?15 Bagaimana Data Pekerjaan Penambangan ? 173. Pengertian Data Mining, Text Mining dan Web Mining 21 Latar Belakangan Terbentuknya Data Mining 22 Fungsi Fungsi Umum Data Mining 22 Manfaat Data Mining 244. Pengertian dan Konsep Data Mining 28 Konsep Data Mining 28

1. i

2. Data MiningKemudahan penyimpanan dan pengaksesan data oleh suatu aplikasi menyebabkan membengkaknya jumlah data yang tersedia. Sudah banyak orang yang menyadari bahwa data yang berukuran besar tersebut sebenarnya mengandung berbagai jenis pengetahuan tersembunyi yang berguna untuk proses pengambilan keputusan. Akan tetapi, pengetahuan akan sangat sulit ditemukan dengan cara menganalisis data secara manual. Oleh karena itu, dilakukan data mining untuk mengekstraksi pengetahuan secara otomatis dari data berukuran besar dengan cara mencari pola pola menarik yang terkandung di dalam data tersebut.

Data mining memiliki banyak fungsionalitas, antara lain pembuatan ringkasan data, analisis asosiasi antar data, klasifikasi data, prediksi, dan pengelompokan data. Setiap fungsionalitas akan menghasilkan pengetahuan atau pola yang berbeda satu sama lain.

Pada klasifikasi, akan dihasilkan sebuah model yang dapat memprediksi kelas atau kategori dari objek objek di dalam basis data. Sebagai contoh, klasifikasi dapat digunakan oleh petugas peminjaman uang di sebuah bank untuk memprediksi pemohon mana yang aman dan mana yang beresiko untuk diberi pinjaman, oleh manajer pemasaran di sebuah toko elektronik untuk memprediksi apakah seorang pelanggan akan membeli komputer baru, atau oleh periset di bidang medis untuk memprediksi j menis pengobatan apa yang cocok diberikan kepada seorang pasien dengan penyakit tertentu. Pada kasus-kasus tersebut, model klasifikasi dibuat untuk memprediksi kelas aman atau beresiko untuk data permohonan pinjaman; beli atau tidak untuk data pemasaran; dan pengobatan-1, pengobatan-2, atau pengobatan-3 untuk data medis. Model klasifikasi dibuat dengan cara menganalisis training data (terdiri dari objek-objek yang kelasnya sudah diketahui). Model yang dihasilkan kemudian akan digunakan untuk memprediksi kelas dari unknown data (terdiri dari objek-objek yang kelasnya belum diketahui). Model klasifikasi dapat digambarkan dalam beberapa bentuk, seperti aturan klasifikasi (IF-THEN), pohon keputusan, rumus matematika, atau jaringan saraf tiruan. Pohon keputusan banyak digunakan karena mudah dipahami oleh manusia serta mampu menangani data beratribut banyak.

Bahasan Umum Data MiningData Mining merupakan teknologi baru yang sangat berguna untuk membantu perusahaan-perusahaan menemukan informasi yang sangat penting dari gudang data mereka.

Data Mining dapat menjawab pertanyaan-pertanyaan bisnis yang dengan cara tradisional memerlukan banyak waktu untuk menjawabnya. Data Mining mengeksplorasi basis data untuk menemukan pola-pola yang tersembunyi, mencari informasi pemrediksi yang mungkin saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi mereka.

Definisi Data MiningData mining didefinisikan sebagai satu set teknik yang digunakan secara otomatis untuk mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-relasi yang kompleks pada set data yang sangat besar.

Data mining dapat juga didefinisikan sebagai pemodelan dan penemuan pola pola yang tersembunyi dengan memanfaatkan data dalam volume yang besar. Data mining menggunakan pendekatan discovery-based dimana pencocokan pola (pattern-matching) dan algoritma algoritma yang lain digunakan untuk menentukan relasi-relasi kunci di dalam data yang diekplorasi.

Data mining merupakan komponen baru pada arsitektur sistem pendukung keputusan (DSS) di perusahaan-perusahaan. Ruang Lingkup Data Mining Data mining (penambangan data), sesuai dengan namanya, berkonotasi sebagai pencarian informasi bisnis yang berharga dari basis data yang sangat besar. Usaha pencarian yang dilakukan dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya. Dengan tersedianya basis data dalam kualitas dan ukuran yang memadai.

Tugas Utama Data MiningTelah disebutkan di ruang lingkup data mining bahwa pada kebanyakan aplikasinya, gol utama dari data mining adalah untuk membuat prediksi dan deskripsi. Prediksi menggunakan beberapa variabel atau field-field basis data untuk memprediksi nilai-nilai variabel masa mendatang yang diperlukan, yang belum diketahui saat ini. Deskripsi berfokus pada penemuan pola-pola tersembunyi dari data yang ditelaah. Dalam konteks KDD, deskripsi dipandang lebih penting daripada prediksi. Ini berlawanan dengan aplikasi pengenalan pola dan mesin belajar.

Prediksi dan deskripsi pada data mining dilakukan dengan tugas-tugas utama yang akan dijelaskan di bawah ini. Pada setiap tugas akan diberikan pointer ke masalah bisnis yang dapat diselesaikan (yang telah dibahas pada butir 3).

Klasifikasi adalah fungsi pembelajaran yang memetakan (mengklasifikasi) sebuah unsur (item) data ke dalam salah satu dari beberapa kelas yang sudah didefinisikan.

Regresi adalah fungsi pembelajaran yang memetakan sebuah unsur data ke sebuah variabel prediksi bernilai nyata. Aplikasi dari regresisi ini misalnya adalah pada prediksi volume biomasa di hutan dengan didasari pada pengukuran gelombang mikro penginderaan jarak jauh (remotely-sensed), prediksi kebutuhan kustomer terhadap sebuah produk baru sebagai fungsi dari pembiayaan advertensi, dll. Pengelompokan (clustering) merupakan tugas deskripsi yang banyak digunakan dalam mengidentifikasi sebuah himpunan terbatas pada kategori ataucluster untuk mendeskripsikan data yang ditelaah. Kategori-kategori ini dapat bersifat eksklusif dan ekshaustif mutual, atau mengandung representasu yang lebih kaya seperti kategori yang hirarkis atau saling menumpu (overlapping).

Peringkasan melibatkan metodologi untuk menemukan deskripsi yang ringkas dari sebuah himpunan data. Satu contoh yang sederhana adalah mentabulasikan mean dan deviasi standar untuk semua field-field tabel.

Pemodelan Kebergantungan adalah penemuan sebuah model yang mendeskripsikan kebergantungan yang signifikan antara variabelvariabel. Model kebergantungan ini ada di 2 tingkat: tingkat structural yang menspesifikasikan variabel variabel yang secara local bergantung satu sama lain, dan tingkat kuantitatif yang menspesifikasikan tingkat kebergantungan dengan menggunakan skala numeric. Pendeteksian Perubahan dan Deviasi berfokus pada penemuanperubahan yang paling signifikan di dalam data dari nilai-nilai yang telah diukur sebelumnya.

Teknologi data mining memiliki kemampuan-kemampuan sebagai berikut:1. Mengotomatisasi prediksi tren dan sifat-sifat bisnis.Data mining mengotomatisasi proses pencarian informasi pemprediksi di dalam basis data yang besar. Pertanyaanpertanyaan yang berkaitan dengan prediksi ini dapat cepat dijawab langsung dari data yang tersedia.Contoh dari masalah prediksi ini misalnya target pemasaran, peramalan kebangkrutan dan bentukbentuk kerugian lainnya.

2. Mengotomatisasi penemuan polapola yang tidak diketahui sebelumnya.Kakas data mining menyapu basis data, kemudian mengidentifikasi pola-pola yang sebelumnya tersembunyi dalam satu sapuan. Contoh dari penemuan pola ini adalah analisis pada data penjulan ritel untuk mengidentifikasi produkproduk, yang kelihatannya tidak berkaitan, yang seringkali dibeli secara bersamaan oleh kustomer. Contoh lain adalah pendeteksian transaksi palsu dengan kartu kredit dan identifikasi adanya data anomali yang dapat diartikan sebagai data salah ketik (karena kesalahan operator).

Proses Data MiningTujuan dari data mining itu sendiri adalah mencari data pada sebuah database / data warehouse, yang dapat meramalkan prosepek masa depan. Karena DM adalah suatu rangkaian proses, DM dapat dibagi menjadi beberapa tahap yang diilustrasikan :1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)2. Integrasi data (penggabungan data dari beberapa sumber)3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)4. Aplikasi teknik DM5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)6. Presentasi pengetahuan (dengan teknik visualisasi)

Tahap-tahap diatas, bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base. Knowledge Discovery and Data Mining (KDD) adalah proses yang dibantu oleh komputer untuk menggali dan menganalisis sejumlah besar himpunan data dan mengekstrak informasi dan pengetahuan yang berguna. Data mining tools memperkirakan perilaku dan tren masa depan, memungkinkan bisnis untuk membuat keputusan yang proaktif dan berdasarkan pengetahuan. Data mining tools mampu menjawab permasalahan bisnis yang secara tradisional terlalu lama untuk diselesaikan.

Data mining tools menjelajah database untuk mencari pola tersembunyi, menemukan infomasi yang prediktif yang mungkin dilewatkan para pakar karena berada di luar ekspektasi mereka.

Proses dalam KDD adalah proses yang digambarkan pada dan terdiri dari rangkaian proses iteratif sebagai berikut:1. Data cleaning, menghilangkan noise dan data yang inkonsisten.2. Data integration, menggabungkan data dari berbagai sumber data yang berbeda3. Data selection, mengambil data yang relevan dengan tugas analisis dari database4. Data transformation, Mentransformasi atau menggabungkan data ke dalam bentuk yang sesuai untuk penggalian lewat operasi summary atau aggregation.5. Data mining, proses esensial untuk mengekstrak pola dari data dengan metode cerdas.6. Pattern evaluation, mengidentifika