Tesis01 - digilib.its.ac.id · 2/2/2011 7}Perancangan Graphical User Interfaces(GUI) Tabel 4.2 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan data simulasi dengan metode Fuzzy

2/2/2011

1

Surabaya, 19 Januari 2011

Tony HartonoMahasiswa Magister Statistika, Fakultas MIPA, Institut Teknologi Sepuluh Nopember, Surabaya

e-mail : [email protected]

} Permasalahan data hilang atau tidak lengkap (missing data) biasa ditemui di berbagai bidang

} Missing data merupakan hal yang tidak diinginkan oleh peneliti, karena dengan adanya missing data tersebut maka data hasil observasi tidak dapat dianalisis dengan baik.

Mekanisme misssing data

(Little dan Rubin , 1987)

Missing Completely at Random (MCAR)

Missing at Random(MAR)

Missingness Is Non-Ignorable

Sejumlah penelitian untuk mengatasi missing data :} Dempster, Laird dan Rubin (1976) menerapkan suatu pendekatan

umum untuk perhitungan secara iterasi dari estimasi Maximum Likelihood ketika observasi diketahui berupa data tak lengkap.

} Roth (1994) menggunakan Missing Data Techniques (MDTs) pada kasus data tak lengkap.

} Gary, Honaker, Joseph dan Scheve (2000) mencoba menangani perbedaan subtansial antara cara pandang ilmuwan politik dan komunitas statistik, tentang analisis data yang mengandung missing values.

} Grzymala dan Busse (2003) menunjukkan suatu teknik yang dapat digunakan pada incomplete data dengan menggunakan blok/kumpulan pasangan nilai suatu atribut

mailto:[email protected]

2/2/2011

2

Metode dalam menangani misssing data

mengabaikan dan membuang missing data(Gary, Honaker, Joseph &

Scheve, 2000)

estimasi parameter(Dempster, Laird & Rubin,

1977)

Imputasi(Myrteveit, Stensrud &

Olsson, 2001)

} Beberapa contoh metode imputasi yang sering dipakai imputasi rata-rata (Mean imputation), imputasi regresi, Cold & Hot Deck imputation, Multiple Imputation (Little & Rubin, 1987) dan sebagainya.

} (Sarle, 1998) Metode Hot Deck kurang sesuaijika dipakai untuk memprediksi karena nilaiprediksi akan tergantung pada faktor-faktoryang tak nyata seperti pada urutan dalamdataset atau pada angka pseudo-random.

} Sedangkan metode Multiple Imputation, Maximum Likelihood dan Bayesian sangat sesuai untuk memprediksi namun pada beberapa kasus, algoritma tersebut menjadi lebih lama dalam proses perhitungannya disaat suatu prediksi harus dihitung dengan cepat secara real time

} Proses kluster sering kali digunakan dalam Hot Deck Imputation. Secara umum ada dua langkah dalam dalam metode Hot Deck Imputation yaitu pertama data dibagi kedalam beberapa kluster berdasar metrik persamaan tertentu dan masing-masing contoh yang mengandung missing data terhubung dalam salah satu kluster, kedua menghitung mean dari atribut dalam sebuah kluster dan kasus yang lengkap dalam kluster digunakan untuk mengisi missing values(Fujikawa dan Ho, 2002).

2/2/2011

3

(Jang, Sun & Mizutani, 1997) Algoritma klusterdapat digunakan untuk mengetahui struktur dalamdata, dapat digunakan lebih lanjut dalam berbagaiaplikasi, dapat diterapkan ke dalam data yang kuantitatif (numerik), kualitatif (kategorikal) ataukombinasi dari keduanya. (Zadeh, 1997) Salah satu algoritma kluster yang dikenal adalah metode Fuzzy K-means, modelnyamerupakan derajat keanggotaan dimana objektersebut lebih dekat ke sebuah kluster. Hal tersebutmerupakan ide dasar dari soft computing, yang lebih menerima kekurangakuratan (imprecision), ketidakpastian (uncertainty) dan kebenaran parsial(partial truth)

} Salah satu kriteria yang digunakan dalamkluster adalah ukuran kemiripan yang dilakukan dengan menggunakan fungsi jarak. Pada umumnya banyak penelitian yang menggunakan fungsi jarak Euclidean, akantetapi seringkali fungsi ini tidak tepat saatterjadi perbedaan skala/satuan pada data (Sharma, 1996).

} missing data juga dijumpai pada Survei Tahunan Perusahaan Industri Besar Dan Sedang yang merupakan salah satu survei rutin yang dilakukan BPS

} Permasalahan yang sering dijumpai pada pelaksanaan survei tersebut adalah perusahaan yang nonrespon baik itu perusahaan lama ataupun perusahaan baru.

} Data Survei Perusahaan Industri Besar Dan Sedang Provinsi Jawa Timur Tahun 2008 tercatat ada 4.154 perusahaan yang terdiri dari 3.427 perusahaan sedang dan 727 perusahaan besar atau sekitar 82,50% perusahaan sedang dan 17,50% perusahaanbesar. Dan dari data 4.154 perusahaan besarmaupun sedang sebanyak 15% dari observasitersebut terdapat missing values.

2/2/2011

4

} Belum adanya toolbox MATLAB Fuzzy K-Means yang khusus digunakan untuk menangani missing data

} Bagaimana melakukan imputasi missing data denganmenggunakan algoritma Fuzzy K-Means pada Data Perusahaan Industri Besar Provinsi Jawa Timur Tahun 2008

} Bagaimana perbandingan hasil imputasi antara metodeFuzzy K-Means imputation dengan metode imputasi lain yaitu metode K-Nearest Neighbors Imputation.

} Bagaimana perbandingan hasil imputasi menggunakan dua fungsi jarak pada metode Fuzzy K-means Imputation yaitu fungsi jarak Euclidean dan Manhattan

} Membuat toolbox MATLAB Fuzzy K-Means yang dapat menangani permasalahan missing data dan bersifat user friendly.

} Melakukan imputasi missing data dengan menggunakanmetode Fuzzy K-Means pada data Perusahaan Industri Besar Provinsi Jawa Timur Tahun 2008.

} Membandingkan hasil imputasi antara metode Fuzzy K-Means Clustering dengan metode K-Nearest Neighbors Imputation pada Data Perusahaan Industri Besar Provinsi Jawa Timur Tahun 2008

} Membandingkan hasil imputasi menggunakan dua fungsi jarak pada algoritma Fuzzy K-means imputation yaitu fungsi jarak Euclidean dan Manhattan

} Penerapan algoritma Fuzzy K-means untukimputasi nilai yang hilang dengan dua fungsijarak yaitu Euclidean dan Manhattan

} Missing data yang diperoleh adalah dengancara menghilangkan dengan acak beberapanilai/field pada Data Perusahaan Industri Besar Provinsi Jawa Timur Tahun 2008

} Laencina, Gomez, Vidal dan Verleysen, (2009) melakukan kajian dari kinerja algoritma KNN untuk melakukan imputasi missing values. Metode ini memilih K observasi yang terdekatdari serangkaian observasi dengan nilai yang telah diketahui dalam atribut untuk dilakukanimputasi sehingga akan meminimalisasi ukuranjarak. Ketika nilai tetangga K terdekat ditemukan, nilai pengganti yang disubstitusikan untukmissing values harus diestimasikan. Nilaipengganti dihitung bergantung pada tipe data, metode ini dapat digunakan untuk data kualitatif dan mean untuk data kontinu.

2/2/2011

5

Hathaway dan Bezdek (2001) mencoba mengelompokkan/clustering pada sekumpulan objek { }1 , , nO o o= L yang dipresentasikan dengan dataset objek

numerik { }1 , , snX x x R= ⊂L kedalam c kluster, 1 c n< < . Data numerik tersebut menggambarkan objek-objek dengan nilai spesifik untuk s variabel.

Selanjutnya merupakan algoritma dari FKM adalah sebagai berikut:

FKM-1. Tentukan m, c dan ε , dimana 1m > , 1 c n< < dan 0ε > . Pilih (0) sv R⊂ ,

sebuah A norm untuk mJ , dan sebuah termination norm untuk

FKM. Kemudian saat langkah ke-r, 0,1,2,r = K

FKM-2. Hitung ( ){ }( 1) ( )arg min ,fcnr rmU MU J U v+

∈= dengan menggunakan 1 i c< < , 1 k n≤ ≤ maka :

( )1/(1 )( 1) 1/(1 )1mikrik c mikj

DU D −+

−

=

= ∑

(2.7)

dimana 2( )rik k i AD x v= − (2.8)

FKM-3. Hitung ( ){ }( 1) ( 1)arg min ,r rmvv J U v+ += dengan menggunakan 1 i c≤ ≤ dan 1 j s≤ ≤ maka :

( )

( )

( 1)1( 1) ( 1)1

n mr kjikkrij n mrikkxUv U

+

=+

+

=

=

∑

∑

FKM-4. Bandingkan ( 1)Rv + terhadap ( )Rv menggunakan ( 1 ) ( )R Rv v ε+ − < . Jika

benar maka berhenti. Jika tidak, tetapkan 1r r= + dan kembali ke

FKM-2.

Fungsi Jarak

Jarak antara centroid iv dan objek kx dalam Fuzzy K-Means dinotasikan

dengan ( , )i kD v x . Pemilihan jarak merupakan salah satu alternatif penerapan

Fuzzy K-means, contohnya jarak Generelized pL norm yang digunakan untuk

mengukur jarak antara sebuah centroid dan objek data dalam kluster, seperti

dalam persamaan berikut :

1/1( , ) ( | |)S pi k kj ijjD v x x v=

= −∑ (2.10)

Jarak Euclidean sebenarnya adalah jarak 2L dan jarak Manhattan adalah jarak 1L .

Root Mean Squared Error (RMSE)

Root Mean Squared Error (RMSE) seringkali digunakan untuk

membandingkan nilai prediksi dengan nilai aktual/sesungguhnya dari suatu uji.

Metrik analisis error RMSE didefinisikan sebagai berikut :

21| |n i ii F fRMSE n=

−=

∑ (2.12)

dimana n adalah jumlah total dari nilai uji, iF adalah nilai data estimasi, dan if adalah nilai data aktual.

2/2/2011

6

} Survei Tahunan Industri Besar dan SedangProvinsi Jawa Timur Tahun 2008

} informasi yang terdapat didalamnya meliputijumlah tenaga kerja (orang), pemakaian listrikdari PLN (KWH), nilai pemakaian listrik (riburupiah), pemakaian listrik sendiri (KWH), listrik yang dijual (KWH). nilai bahan bakaryang digunakan (ribu rupiah), total nilaibahan baku (ribu rupiah) dan total nilaiproduksi yang dihasilkan (ribu rupiah).

} x1 = Jumlah tenaga kerja (orang); } x2 = Nilai bahan bakar (ribu rupiah); } x3 = Total nilai bahan baku (ribu rupiah) dan} x4 = Total nilai produksi (ribu rupiah).

Start

Data yang mengandung Missing values

Tentukan m, c dan ε

Hitung objek lengkap & pilih sebagai centroid pertama

( ){ }( 1) ( 1)arg min ,r rmvv K U v+ +=

Hitung fungsi keanggotaan

( ){ }( 1) ( )arg min ,fc nr rmU MU K U v+

∈=

Bandingkan centroid (r+1) dengan centroid (r)( 1) ( )r rv v ε+ <−

End

Isi semua missing values

1 ( , )ckj k i ijix U x v v=

= ∗∑

tidak

ya

2/2/2011

7

} Perancangan Graphical User Interfaces (GUI)

Tabel 4.2 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan data simulasi dengan metode Fuzzy K-Means berdasarkan banyaknya kluster dan fungsi jarak

Persentase

missing Kluster = 2 Kluster = 3 Kluster = 4 Kluster = 5

Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan

10% 19.465,66 19.426,48 19.606,11 19.523,12 19.670,02 19.521,65 19.747,26 19.633,98 20% 19.112,96 19.154,71 19.215,70 19.017,53 19.093,26 18.907,50 19.307,92 19.156,66 30% 19.201,80 19.245,06 19.510,94 19.608,55 19.640,89 19.708,03 19.860,88 19.918,01

40% 18.552,92 18.551,65 18.936,57 19.060,72 19.306,38 19.537,92 19.388,57 19.531,14 50% 20.141,22 20.121,23 20.674,93 20.502,14 20.958,13 20.811,14 20.993,51 20.947,00

Rata-rata 19.294,91 19.299,83 19.588,85 19.542,41 19.733,74 19.697,25 19.859,62 19.837,36 Sumber : data simulasi (hasil pengolahan)

Tabel 4.3 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan data simulasi dengan metode K-Nearest Neighbors berdasarkan banyaknya titik terdekat dan fungsi jarak.

Persentase

missing K = 1 K = 2 K = 3 K = 4


10% 28.748,49 28.748,49 29.811,26 29.820,69 28.417,70 28.425,99 NaN NaN

20% 29.233,34 29.233,34 30.436,49 30.437,28 29.387,52 29.390,59 NaN NaN 30% 31.293,62 31.293,62 37.100,89 37.095,56 34.448,40 34.461,47 NaN NaN

40% 31.056,22 31.056,22 34.035,00 34.060,53 34.201,37 34.219,98 NaN NaN

50% 28.778,27 28.778,27 35.978,65 36.003,08 36.811,41 36.824,34 NaN NaN Rata-rata 29.821,99 29.821,99 33.472,46 33.483,43 32.653,28 32.664,47 NaN NaN

Sumber : data simulasi (hasil pengolahan)

2/2/2011

8

Tabel 4.8 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan Data Perusahaan Besar dengan metode Fuzzy K-Means berdasarkan banyaknya kluster dan fungsi jarak.

Persentase

missing Kluster = 2 Kluster = 3 Kluster = 4

Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan

10% 49.931.071,57 51.243.368,36 44.377.627,07 48.366.963,02 41.823.163,46 49.000.239,16

20% 45.828.962,04 51.796.767,88 60.058.244,18 57.831.000,97 44.646.293,29 95.743.880,98

30% 93.013.997,17 93.502.955,32 82.132.593,42 80.411.155,39 85.984.872,24 93.704.528,82

40% 74.558.483,99 75.783.302,20 94.804.820,64 96.866.933,42 120.270.534,66 120.410.863,75

50% 63.199.701,17 63.795.545,77 68.466.609,62 65.392.118,90 69.782.847,53 78.093.497,24

Rata-rata 65.306.443,19 67.224.387,91 69.967.978,99 69.773.634,34 72.501.542,24 87.390.601,99

Sumber : Data Perusahaan Industri Besar (hasil pengolahan)

Tabel 4.8 lanjutan Persentase

missing Kluster = 5 Kluster = 6

Euclidean Manhattan Euclidean Manhattan

10% 40.448.553,89 45.817.857,25 43.059.642,86 46.271.565,12

20% 41.771.446,07 60.449.501,13 38.171.123,80 105.133.279,27

30% 87.203.390,91 98.962.220,20 96.365.329,61 95.350.321,96

40% 93.382.633,72 139.080.279,38 85.611.483,56 106.643.687,91

50% 89.127.402,09 107.191.545,29 93.424.730,01 108.262.392,71

Rata-rata 70.386.685,33 90.300.280,65 71.326.461,97 92.332.249,39

Tabel 4.9 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan Data Perusahaan Industri Besar dengan metode K-Nearest Neighborsberdasarkan banyaknya titik terdekat dan fungsi jarak.

Persentase

missing K = 1 K = 2 K = 3 K = 4


10% 33.820.877,66 29.169.413,4844.553.899,03 35.132.197,8144.883.391,3241.348.606,91 NaN NaN

20% 50.414.057,69 50.402.712,3642.778.766,78 42.698.353,4145.737.757,2546.073.421,21 NaN NaN

30% 89.972.884,30 89.972.884,3087.841.768,38 87.776.402,5190.528.924,5190.298.468,16 NaN NaN

40% 86.407.518,66 86.407.518,6668.946.445,32 67.024.169,1069.422.933,2467.435.408,44 NaN NaN

50% 44.137.411,60 44.102.667,6544.020.421,76 42.055.044,0042.416.004,9642.609.115,36 NaN NaN

Rata-rata 60.950.549,98 60.011.039,2957.628.260,25 54.937.233,37 58.597.802,2557.553.004,02 NaN NaN

Tabel 4.10 Nilai U Error dari 5 kali percobaan menggunakan Data Perusahaan Industri Besar berdasar banyaknya kluster dan fungsi jarak.

Persentase


Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan 10% 0,37090 0,37457 0,45508 0,35495 0,37222 0,4148120% 0,19464 0,56103 0,48068 0,26599 0,28562 0,4552430% 0,37329 0,20456 0,48493 0,48155 0,36669 0,2858740% 0,54359 0,73445 0,37826 0,40049 0,38176 0,4397450% 0,37670 0,55847 0,38370 0,58939 0,30978 0,28682

Rata-rata 0,37183 0,48661 0,43653 0,41847 0,34321 0,37650Sumber : Data Perusahaan Industri Besar (hasil pengolahan)

2/2/2011

9

Tabel 4.10 lanjutan Persentase

missing Kluster = 5 Kluster = 6

Euclidean Manhattan Euclidean Manhattan 10% 0,24249 0,29903 0,20184 0,28516 20% 0,33481 0,29103 0,29276 0,30635 30% 0,29123 0,24613 0,30520 0,25135 40% 0,35269 0,34463 0,24006 0,28741 50% 0,23826 0,30985 0,26785 0,29874

Rata-rata 0,29189 0,29814 0,26154 0,28580

Tabel 4.11 Nilai Centroid Error dari 5 kali percobaan menggunakan Data Perusahaan Industri Besar berdasar banyaknya kluster dan fungsi jarak.

Persentase


Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan

10% 315.962.989,11 361.980.302,54 741.738.089,20 615.432.394,77 1.199.194.686,15 1.013.567.171,30

20% 198.796.652,67 570.313.816,51 866.803.185,79 740.559.781,63 977.874.563,14 1.297.481.799,43

30% 311.530.852,20 251.033.889,88 725.467.796,33 1.047.559.131,48 809.785.584,87 1.031.257.172,62

40% 434.139.659,38 652.580.051,86 795.874.834,27 1.275.544.344,23 1.567.220.905,25 1.438.858.878,92

50% 374.392.066,91 584.636.410,40 985.735.080,52 1.436.105.228,87 1.469.041.980,66 1.227.645.616,54

Rata-rata 326.964.444,05 484.108.894,24 823.123.797,22 1.023.040.176,20 1.204.623.544,02 1.201.762.127,76

Sumber : Data Perusahaan Industri Besar (hasil pengolahan)

Tabel 4.11 Lanjutan

Persentase missing

Kluster = 5 Kluster = 6

Euclidean Manhattan Euclidean Manhattan

10 1.164.299.546,36 1.313.182.555,01 747.623.932,08 1.126.983.043,71

20 1.084.470.380,86 1.308.798.868,00 1.478.361.053,32 1.590.169.582,78

30 1.206.688.239,91 1.555.276.834,73 1.756.650.108,30 1.559.151.766,93

40 1.390.866.526,18 1.550.809.656,72 1.413.945.699,50 1.482.492.562,39

50 1.404.179.135,63 1.699.220.254,05 1.666.696.320,25 1.448.915.399,96

Rata-rata 1.250.100.765,79 1.485.457.633,70 1.412.655.422,69 1.441.542.471,15

} Metode FKMI selain untuk kluster dapat jugaditerapkan untuk menangani masalah missing data.

} Pada hasil pengolahan dengan menggunakandata simulasi yang memiliki distribusi normal ternyata metode FKMI menghasilkan nilai rata-rata RMSE yang lebih kecil jika dibandingkandengan metode KNNI.

} Secara keseluruhan nilai imputasi baikmenggunakan metode FKMI ataupun metodeKNNI menghasilkan nilai minimum maupunmaksimum yang sama dengan data simulasi asli.

2/2/2011

10

} Sedangkan pada data Perusahaan Industri Besar hasil pengolahanmenunjukan nilai rata-rata RMSE dengan menggunakan metodeFKMI memiliki nilai yang lebih besar dibandingkan denganmetode KNNI, namun metode FKMI masih dapat lebihdikembangkan lebih lanjut mengingat parameter FKMI yang lebihvariatif jika dibandingkan dengan metode KNNI.

} Fungsi jarak Euclidean secara rata-rata menghasilkan nilai error yang lebih kecil jika dibandingkan dengan fungsi jarakManhattan baik itu nilai RMSE, Centroid Error maupun U Error.

} Nilai minimum dan maksimum dari Data Perusahaan IndustriBesar hasil imputasi memiliki nilai yang sama baik menggunakanmetode FKMI maupun metode KNNI.

} Lebih mendalami pola ataupun mekanisme yang menyebabkan missing data.

} Mencoba pada data lain yang memiliki pola, mekanisme, jumlah variabel maupun observasi yang berbeda.

} Menggunakan fungsi jarak selain Euclidean danManhattan.

} Membandingkan dengan metode imputasi yang lain.} Memperbaiki tampilan toolbox FKMI.} Mencoba menggunakan paket program yang open

source

Documents

Tesis01 - digilib.its.ac.id · 2/2/2011 7}Perancangan Graphical User Interfaces(GUI) Tabel 4.2 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan data simulasi dengan metode Fuzzy