Upload
others
View
12
Download
1
Embed Size (px)
Citation preview
BAB 4
KUALITAS DATA
Permasalahan kualitas data ditinjau dari aspek pengukuran data dan pengumpulan data:
Kesalahan Pengukuran (Measurement Error)
Mengacu pada permasalahan hasil dari proses pengukuran. Problem yang terjadi adalah nilai yang dicatat berbeda dari nilai sebenarnya untuk beberapa tingkat. Pada atribut kontinyu, beda numerik dari hasil pengukuran dengan nilai sebenarnya disebut dengan “error”.
Yang termasuk dalam jenis kesalahan pengukuran adalah:
Noise: Merupakan komponen random dari suatu error pengukuran. Noise berkaitan dengan dengan modifikasi dari nilai asli. Contoh: Distorsi atau
penyimpangan dari suara orang saat berbicara ditelepon buruk dan “snow”
pada layar televisi
Bias: Adalah suatu variasi pengukuran dari kuantitas yang sedang diukur dengan pengurangan antara mean dan nilai kuantitas yang diketahui
Permasalahan kualitas data ditinjau dari aspek pengukuran data dan pengumpulan data (Lanjutan)
Precision: Adalah kedekatan dari pengukuran berulang (dari kuantitas yang sama) satu dengan yang lainnya. Diukur dengan standard deviasi
Accuracy: Adalah kedekatan pengukuran terhadap nilai sebenarnya dari kuantitas yang sedang diukur
Perbedaan bias dan precision dapat dicontohkan pada soal berikut:
Kita mempunyai berat standar lab suatu benda adalah 1 gram, dan kita ingin
menghitung precision dan bias dari skala benda dari hasil pengukuran yang baru. Kita melakukan pengukuran sebanyak 5 kali dan memperoleh {1.015, 0.990,
1.013, 1.001, 0.986}
Permasalahan kualitas data ditinjau dari aspek pengukuran data dan pengumpulan data (Lanjutan) :
Jawab:
Mean = (1.015 + 0.990 + 1.013 + 1.001 + 0.986)/5 = 1.001 Bias = 1.001 - 1 = 0.001
Precision =
(1.015 െ 1.001)2+(0.990 െ 1.001)2+(1.013 െ 1.001)2+(1.001 െ 1.001)2+(0.986 െ 1.001)2 4
= 0.000171
Permasalahan kualitas data ditinjau dari aspek pengukuran data dan pengumpulan data (Lanjutan):
Kesalahan Pengumpulan (Collection Error)
Mengacu pada kesalahan-kesalahan (error) seperti hilangnya objek data atau nilai atribut, atau lingkup objek data yang tidak tepat.
Yang termasuk dalam jenis kesalahan pengumpulan adalah:
Outliers: Adalah objek data dengan sifat yang berbeda sekali dari kebanyakan objek data dalam data-set
Permasalahan kualitas data ditinjau dari aspek pengukuran data dan pengumpulan data (Lanjutan):
Missing Value: Merupakan nilai dari suatu atribut yang tidak ditemukan. Alasan terjadinya missing value adalah:
- Informasi tidak diperoleh (misal, orang-orang menolak untuk memberikan informasi umur dan berat badan)
- Atribut yang mungkin tidak bisa diterapkan ke semua kasus (misal, pendapatan tahunan tidak bisa diterapkan pada anak-anak)
-Duplicate data: data-set mungkin terdiri dari objek data yang ganda (duplikat), atau
hamper selalu terjadi duplikasi antara satu dengan yang lainnya. Persoalan utama ketika menggabungkan data dari sumber-sumber yang bervariasi (heterogen).
Contoh: orang yang sama dengan alamat email yang lebih dari satu. Pembersihan data
(data cleaning) merupakan proses yang berkaitan dengan permasalahan data yang
duplikat.
Permasalahan kualitas data ditinjau dari aspek pengukuran data dan pengumpulan data (Lanjutan):
Penanganan missing value adalah dengan:
• Mengurangi objek data
• Memperkirakan missing values
• Mengabaikan missing values pada saat analisis
• Mengganti dengan semua nilai yang mungkin (tergantung probabilitasnya)
Pengolahan awal data (data preprocessing)
Data dalam Knowledge Discovery in Database (KDD) mengalami beberapa proses pengolahan. Sebelum diterapkan algoritma data mining terhadap sebuah data-set, perlu dilakukan pengolahan awal yang bertujuan untuk mendapatkan data-set yang dapat diolah dengan cepat dan menghasilkan kesimpulan yang tepat. Beberapa proses pengolahan awal adalah:
Proses pengumpulan (aggregation) Penarikan contoh (sampling)
Pengurangan dimensi (dimensionality reduction) Pemilihan fitur (feature subset selection) Pembuatan fitur (feature creation)
Pendiskritan dan pembineran (discretization and binarization) Transformasi atribut (attribute transformation)
Pengumpulan (aggregation)
Proses pengumpulan (aggregation) adalah proses mengkombinasikan
dua atau lebih atribut-atribut atau objek-objek kedalam satu atribut
tunggal atau objek. Misalkan sebuah data-set yang berisi data transaksi yang mencatat penjualan harian dari produk-produk dibanyak lokasi
toko Indomaret, seperti terlihat pada table berikut:
No_transaksi
Nama Barang
Lokasi toko
Tanggal
Harga
1001122
Supermie ayam
Semolowaru 1
12-3-2016
2000
1001122
Gula 1 kg
Semolowaru 1
12-3-2016
14000
1001123
Buku tulis antik
Ketintang 1
12-3-2016
8000
Pengumpulan (aggregation)
Proses pengumpulan (aggregation) dilakukan untuk mendapatkan sebuah
transaksi aggregasi terhadap data pada tabel tsb, misal untuk mendapatkan
informasi penjualan harian untuk satu lokasi toko saja atau untuk melihat transaksi harian satu buah produk saja. Pada proses agregasi, atribut kuantitatif seperti harga dapat digabungkan atau dikombinasikan dengan operasi sum ataupun rata-rata.
Tujuan dari proses agregasi:
• Pengurangan data (data reduction), yaitu mengurangi jumlah atribut atau objek
• Perubahan skala, misalkan kota yang dikumpulkan atau digabungkan kedalam daerah, propinsi, Negara, dsb
• Lebih menstabilkan data. Data-data yang digabungkan cenderung lebih sedikit variasinya.
Penarikan contoh (sampling)
Penarikan contoh (sampling) merupakan teknik utama yang digunakan untuk seleksi data. Proses ini sering digunakan untuk persiapan penyelidikan dan
analisis data akhir.
Penarikan contoh digunakan dalam data mining karena pengolahan
himpunan data yang diinginkan secara keseluruhan sangat mahal atau
menghabiskan waktu.
Prinsip utama untuk penarikan contoh yang efektif adalah:
• Menggunakan suatu contoh yang akan dapat bekerja hampir sebaik penggunaan data-set keseluruhan, jika contoh tersebut representatif
(bersifat mewakili)
• Suatu contoh dikatakan representatif jika paling tidak mempunyai sifat yang sama (dengan yang diperhatikan) sebagai himpunan data asli
Penarikan contoh (sampling) Lanjutan
Ada beberapa tipe penarikan contoh, yaitu:
• Penarikan contoh acak sederhana. Kemungkinan ada suatu pemilihan item tertentu yang sama
• Penarikan contoh tanpa penggantian. Setiap item yang dipilih dikeluarkan dari populasinya
• Penarikan contoh dengan penggantian. Objek-objek tidak dikeluarkan dari populasi saat objek tersebut dipilih untuk sample. Dalam
penarikan contoh dengan penggantian, objek yang sama dapat terambil lebih dari satu kali
• Penarikan contoh bertingkat (stratified sampling). Membagi data
dalam beberapa bagian (partisi), kemudian menarik contoh dari tiap partisi
Penarikan contoh (sampling) Lanjutan
Ukuran dari sample sangat menentukan keakuratan dari pengambilan kesimpulan jika diterapkan sebuah algoritma data mining. Semakin besar ukuran sample maka hasilnya akan semakin akurat. Namun
demikian, perlu dipertimbangkan juga waktu komputasi. Untuk itu
perlu ditentukan ukuran yang tepat dan tidak terlalu besar.
Pengurangan dimensi (Dimensionality reduction)
Salah satu permasalahan yang harus diatasi dalam penerapan algoritma data mining adalah masalah dimensionalitas. Jika dimensi meningkat, data akan meningkat secara halus dalam daerah yang ditempati. Definisi dari kepadatan dan jarak antar titik, yang merupakan kondisi kritis untuk clustering dan outlier detection, akan menjadi kurang berarti.
Manfaat dari pengurangan dimensi:
• Mencegah terjadinya efek dari dimensionalitas
• Mengurangi jumlah waktu dan memori yang dibutuhkan oleh algoritma data mining
• Membuat data lebih mudah divisualisasikan
• Membantu untuk mengurangi fitur-fitur yang tidak relevan atau mengurangi gangguan/derau
Pengurangan dimensi (Dimensionality reduction)
Teknik-teknik yang biasa digunakan untuk mereduksi jumlah dimensi adalah:
• Principle component analysis (PCA): bertujuan untuk mendapatkan sebuah proyeksi yang menangkap sejumlah variasi data yang paling
besar
• Singular value decomposition
• Supervised dan non-linear techniques
Pemilihan fitur (Feature subset selection)
Salah satu cara untuk mengurangi dimensi adalah dengan memilih fitur yang tepat atau hanya menggunakan atribut-atribut yang diperlukan. Secara koseptual, pemilihan sub-set fitur merupakan suatu proses pencarian terhadap semua kemungkinan sub-set fitur.
Dalam memilih fitur perlu diperhatikan:
1. Fitur-fitur yang redundant, yaitu duplikasi sebagian besar atau semua data informasi yang terkandung dalam satu atau lebih atribut lain.
Contoh, harga pembelian dari sebuah produk dan jumlah pajak
penjualan yang dibayar
2. Fitur-fitur yang tidak relevan yaitu fitur-fitur yang tidak mengandung informasi berguna untuk tugas data mining secara langsung. Contoh,
NIM mahasiswa tidak relevan untuk memprediksi IPK mahasiswa
Pemilihan fitur (Feature subset selection)
Teknik yang digunakan untuk memilih sub-set fitur adalah:
• Brute-force approach: Mencoba semua kemungkinan fitur sub-set sebagai masukan algoritma data mining
• Embedded approach: feature selection terjadi secara alami sebagai bagian dari algoritma data mining
• Filter approach: fitur-fitur dipilih sebelum algoritma data mining dijalankan
• Wrapper approach: Menggunakan algoritma data mining sebagai
sebuah kotak hitam untuk mendapatkan sub-set atribut-atribut yang
paling baik
Pemilihan fitur (Feature subset selection)
Proses pemilihan fitur terdiri dari empat bagian, yaitu:
1. Sebuah pengukuran untuk mengevaluasi suatu sub-set fitur
2. Sebuah strategi pencarian yang mengontrol pembangkitan sub-set
fitur yang baru
3. Sebuah kriteria penghentian
4. Sebuah prosedur validasi
Pembuatan fitur (Feature creation)
Merupakan proses membuat atribut baru yang dapat menangkap
informasi penting dalam sebuah himpunan data y (ombininang lebih efisien daripada atribut-atribut yang ada. Ada tiga metodologi umum
yang bisa digunakan untuk membuat fitur baru, yaitu:
• Ekstraksi fitur: domain spesifik
• Pemetaan data ke ruang menggunakan transformasi fourier atau transformasi wavelate
• Konstruksi fitur dengan menggabungkan fitur-fitur (combining fitur)
Pendiskritan dan Pembineran (Discretization and binarization)
Beberapa algoritma data mining, khususnya algoritma klasifikasi,
membutuhkan data dalam bentuk atribut katagorikal. Sedangkan
algoritma asosiasi memerlukan data dalam bentuk atribut biner. Transformasi atribut kontinyu kedalam bentuk atribut katagorikal disebut dengan discretization.
Transformasi atribut kontinyu maupun diskrit kedalam bentuk atribut biner disebut binarization.
Binarization (Lanjutan)
Salah satu teknik binarization adalah:
• Jika ada m nilai katagorikal, maka beri untuk setiap nilai tersebut dengan sebuah nilai integer yang unik pada interval [0,m-1]. Jika
atributnya ordinal maka urutan harus diperhatikan dalam proses
pemberian nilai
• Konversikan tiap nilai integer tersebut kedalam bilangan biner Contoh hasil pembineran:
Nilai
Integer
X1
X2
X3
Awful
0
0
0
0
Poor
1
0
0
1
OK
2
0
1
0
Good
3
0
1
1
Great
4
1
0
0
Binarization (Lanjutan)
Transformasi dari atribut kontinyu ke atribut katagorikal meliputi dua langkah, yaitu:
• Menentukan berapa banyak katagori. Setelah nilai dari atribut kontinyu diurutkan, kemudian dibagi dalam n interval dengan menentukan n-1 split
point.
• Menentukan bagaimana memetakan nilai-nilai dari atribut kontinyu ke katagori-katagori ini. Semua nilai dalam satu interval dipetakan ke nilai
katagori yang sama.
Discretization untuk tujuan klasifikasi dibedakan menjadi dua, yaitu:
Unsupervised discretization, yaitu metode discretization tanpa menggunakan informasi kelas. Pendekatan yang digunakan adalah:
Pendekatan equal with: membagi range atribut kedalam sejumlah interval yang ditentukan user yang masing-masing mempunyai lebar yang sama
Pendekatan equal frequency (equal depth): menempatkan objek-objek dengan jumlah yang sama dalam tiap interval
Binarization (Lanjutan)
Contoh: Ubah atribut taxable income pada tabel dibawah menjadi
atribut katagorikal dengan katagori: rendah, sedang, dan tinggi
Tax Income
125
100
70
120
95
60
220
85
75
90
1. Pendekatan equal width
Range data [60 220]
Rendah: range[60-113] Sedang: range[114-167] Tinggi: range[168-220]
Tax Income baru
S
R
R
S
R
R
R
R
R
R
Binarization (Lanjutan)
Contoh: Ubah atribut taxable income pada tabel dibawah menjadi
atribut katagorikal dengan katagori: rendah, sedang, dan tinggi
Tax Income
125
100
70
120
95
60
220
85
75
90
2. Pendekatan equal frequency
Sort data: 60,70,75220
Rendah: 60,70,75
Sedang: 85,90,95
Tinggi: 100,120,125,220
Tax Income baru
T
T
R
T
S
R
T
S
R
S
Binarization (Lanjutan)
Supervised discretization
Salah satu pendekatan dalam supervised discretization adalah entropy based approach, yang langkahnya sebagai berikut:
Menentukan entropy: Misalkan diketahui ada k: jumlah klas, mi
jumlah nilai dalam interval ke-i dari sebuah partisi, dan mij: jumlah nilai dariklas j dalam interval i. Maka entropy ei dari interval ke-i adalah:
𝑘
𝑒𝑖=𝑝𝑗𝑙𝑜𝑔2𝑝𝑗
𝑖 =1
Dimana pij = mij/mi adalah probabilitas kelas j dalam interval i
Binarization (Lanjutan)
Entropy total, e dari partisi merupakan rata-rata entropy interval terboboti:
𝑛
𝑒 =𝑤𝑖 𝑒𝑖
𝑖=1
Dimana m adalah jumlah nilai, wi=mi/m, dan n: jumlah interval
Entropy dari satu interval merupakan ukuran kemurnian dari suatu interval. Jika interval berisi hanya nilai-nilai dari satu klas maka entropy=0. Jika klas dari nilai dalam satu interval menjadi sama maka entropy maksimum. Langkah paling mudah adalah dengan membagi atribut kontinyu dalam dua interval yang memberikan nilai entropy minimal. Teknik ini perlu mempertimbangkan tiap nilai sebagai split point, karena diasumsikan bahwa interval berisi himpunan nilai yang terurut. Proses splitting diulang untuk interval lain yang secara khusus memilih interval dengan entropy paling besar sampai jumlah interval yang ditentukan tercapai.
Transformasi Atribut
(attribute transformation)
Adalah suatu fungsi yang memetakan keseluruhan himpunan nilai dari
atribut yang diberikan ke suatu himpunan nilai-nilai pengganti yang baru
sedemikian hingga nilai yang lama dapat dikenali dengan satu dari nilai-nilai baru tersebut.
Contoh: fungsi-fungsi sederhana: xk,log(x),ex, 𝑥
Salah satu fungsidari transformasi atribut adalah untuk standarisasi dan normalisasi. Tujuan dari standarisasi dan normalisasi adalah untuk membuat keseluruhan nilai mempunyai suatu sifat khusus. Salah satu contoh transformasi standarisasi adalah:
• Hitung nilai tengah dengan median
• Hitung absolute standard deviation
• Lakukan transformasi dengan persamaan 𝜎𝐴 =
𝑚
𝑖=1
𝑥𝑖 െ 𝜇