laporan 1

Embed Size (px)

DESCRIPTION

laporan praktikum

Citation preview

LAPORAN PRAKTIKUMKelasA

KOMPUTASI STATISTIKAMANAJEMEN DATA DI R DENGAN COMMAND LINE

NAMA PRAKTIKANNOMOR MAHASISWATANGGAL KUMPULTANDA TANGAN

PRAKTIKANLABORAN

MAULINA S.1161103623 Oktober 2014

NAMA PENILAITANGGAL KOREKSINILAITANDA TANGAN

ASISTENDOSEN

Ayu Septiani

Muhammad Muhajir,S.Si.,M.Si.

JURUSAN STATISTIKAFAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAMUNIVERSITAS ISLAM INDONESIAYOGYAKARTA2014BAB IPENDAHULUANI. Support Vector Machinesa. Konsep Support Vector MachinesSupport Vector Machines adalah suatu metode supervised learning yang digunakan untuk melakukan klasifikasi data. Support Vector Machines bekerja dengan cara memetakan dataset masukan (input space) ke dalam vektor yang berdimensi tinggi untuk kemudian dilakukan pemisahan antar class denganmenggunakan hyperlane (Mahsus, dkk, 2012). Pembentukan hyperlane ini berdasarkan support vectors yang merupakan data yang memiliki jarak paling dekat dengan hyperlane yang dibangun (Steve, 2003).b. Karakteristik Support Vector MachinesMenurut (Nugroho,2003), karakteristik SVM secara umum dirangkumkan sebagai berikut:1. Secara prinsip SVM adalah linear classifier.2. Pattern recognition dilakukan dengan mentransformasikan data pada input space ke ruang yang berdimensi lebih tinggi, dan optimisasi dilakukan pada ruang vector yang baru tersebut.3. Menerapkan strategi Structural Risk Minimization (SRM).4. Prinsip kerja SVM pada dasarnya hanya mampu menangani klasifikasi dua kelas.c. Kelebihan Support Vector MachinesAdapun beberapa kelebihan dari metode SVM adalah sebagai berikut:1. GeneralisasiGeneralisasi didefinisikan sebagai kemampuan suatu metode untuk mengklasifikasikan suatu pattern, yang tidak termasuk data yang dipakai dalam fase pembelajaran metode itu.2. Curse of dimensionalityCurse of dimensionality didefinisikan sebagai masalah yang dihadapi suatu metode pettern recognition dalam mengestimasikan parameter dikarenakan jumlah sampel data yang relative lebih sedikit dibandingkan dengan dimensional ruang vektor data tersebut.3. FeasibilitySVM dapat diimplementasikan relative mudah, karena proses penentuan support vector dapat dirumuskan dalam QP problem (Nugroho, 2003)d. Kekurangan Support Vector MachinesAdapun beberapa kekurangan dari metode SVM adalah sebagai berikut :1. Sulit dipakai problem berskala besar. Dalam hal ini dimaksudkan dengan jumlah sampel yang diolah.2. SVM secara teoritik dikembangkan untuk problem klasifikasi dengan dua kelas. Dewasa ini SVM telah dimodifikasi agar dapat menyelesaikan masalah dengan lebih dari dua kelas (Nugroho, 2003).

II. Jenis Data Pada RBeberapa jenis data pada R antara lain yaitu data vektor, data matriks, data frame, dan daa list.a. Data VektorVektor merupakan suatu array atau himpunan bilangan, character atau string, logical value, dan merupakan objek paling dasar yang dikenal dalam R. Pada data vektor harus digunakan mode tunggal pada data, sehingga gabungan dua data atau lebih yang berbeda mode tidak dapat dilakukan ke dalam satu objek vektor.b. Data MatriksMatriks atau data array dua dimensi adalah salah satu data yang banyak digunakan dalam pemrograman statistik. Proses entry data matriks dilakuka dengan menggunakan fungsi matrix. Argumen yang diperlukan adalah elemen-elemen matriks, dan argumen optional yaitu banyaknya baris dan banyaknya kolom. Untuk pengisisan matriks menurut baris per baris dapat dilakukan dengan menggunakan argumen optionalbyrow=T.c. Data FrameData frame merupakan objek yang mempunyai bentuk sama dengan matriks, yaitu terdiri atas baris dan kolom. Perbedaannya adalah data frame dapat terdiri atas mode data yang berbeda-beda untuk setiap kolomnya. Objek data frame dapat dibuat dengan menggunakan perintah data.frame.d. Data ListData list merupakan objek yang paling umum dan paling fleksibel di dalam R. List adalah suatu vektor terurut dari sekumpulan komponen. Setiap komponen dapat berupa sembarang data objek, yaitu vektor, matriks, data frame, atau data list sendiri. Tiap kompnen pada data list dapat mempunyai mode yang berbeda. Data list dapat dibuat dengan menggunakan perintah list.BAB IIDESKRIPSI KERJA

I. Support Vector Machines1. Membuka http://cran.r-project.org/

Gambar 2.1 Page cran.r-project.org2. Klik Task Views.

3. Memilih CRAN Task View: Machine Learning & Statistical Learning.

Gambar 2.2 Task Views4. Pada CRAN Task View: Machine Learning & Statistical Learning, terdapat beberapa topik yang dapat dipilih. Penulis memilih topik Support Vector Machines and Kernel Methods.5. Package yang didownload adalah package e1071.6. Sebagai contoh penggunaan package e1071, penulis mengambil contoh yang diperoleh dari http://cran.r-project.org/ berjudul Support Vector Machines karya David Meyer dkk. Berikut adalah langkah-langkah yang dilakukan:7. Memanggil package e1071> library(e1071)8. Memanggil dataframe default variabel (iris) yang sudah ada di dalam package e1071> data(iris)9. Menempelkan dataframe ke dalam konteks, sehingga untuk memanggil nama kolom tidak perlu menuliskan nama dataframe lagi, cukup dengan nama kolomnya> attach(iris)10. Melakukan klasifikasi menggunakan factor response> model x y model summary(model)15. Melakukan pengujian dengan menggunakan data latih (train data)> pred pred table(pred, y)17. Menghitung nilai keputusan dan probabilitas> pred attr(pred, "decision.values")[1:4,]18. Memvisualisasikan ke dalam bentuk plot> plot(cmdscale(dist(iris[,-5])),+ col = as.integer(iris[,5]),+ pch = c("o","+")[1:150 %in% model$index + 1])

II. Tipe-tipe Data Pada RVektor1. Untuk data vektor, penulis mengambil contoh dari http://www.r-tutor.com/r-introduction/vector dan http://www.r-tutor.com/r-introduction/vector/combining-vectors . Berikut adalah contohnya:

MatriksSebuah matriks adalah sekumpulan dari elemen-elemen data yang tersusun dalam sebuah layout rectangular dua dimensi. Berikut ini adalah contoh matriks yang diambil dari http://www.r-tutor.com/r-introduction/matrix1. Untuk membuat matriks di dalam R, digunakan fungsi matrix. Berikut ini adalah script yang digunakan untuk merepresentasikan matriks:

2. Suatu elemen pada m baris, n kolom dari sebuah matriks lina dapat diakses dengan dengan menggunakan expression lina[m,n].

3. Untuk melihat element data pada suatu baris m, dapat menggunakan lina[m,].4. Untuk melihat elemen data pada suatu kolom n, dapat menggunakan lina[,n].5. Selain itu, dapat juga melihat lebih dari satu baris atau satu kolom pada suatu waktu. Berikut contohnya:

6. Apabila hendak dilakukan pemberian nama untuk baris dan kolom pada matriks, berikut contohnya:

List1. Contoh data list pada laporan ini merupakan contoh yang diambil dari http://www.r-tutor.com/r-introduction/list/named-list-members2. Sebagai contoh, maul merupakan sebuah list dari dua anggota bernama bob dan john. Untuk script-nya dapat dilihat pada contoh berikut:

3. List Slicing, memisahkan list, untuk melihat elemen data pada masing-masing anggota (bob dan john).

4. Member Reference.

Data Frame1. Untuk data frame, penulis mengambil contoh dari http://www.r-statistics.com/ .2. Contoh berupa dataset pasien yang mengandung data numeric dan character.Tabel 1. Dataset PasienPatientIDAdmDateAgeDiabetesStatus

110/15/200925Type1Poor

211/01/200934Type2Improved

310/21/200928Type1Excellent

410/28/200952Type1Poor

3. Membuat kolom pertama, yaitu patientID> patientID age diabetes status patientdata patientdata[1:2], digunakan untuk menampilkan data pada kolom 1 (patientID) dan kolom 2 (age)

Cara lain untuk menampilkan elemen data pada kolom yang diinginkan adalah dengan menuliskan nama kolom yang ingin dilihat elemen datanya> patientdata[c(diabetes,status)]> patientdata$age, digunakan untuk memunculkan data pada variabel age yang terdapat dalam dataframe bernama patientdata.9. Membuat crosstabulation type diabetes dan status dengan menggunakan bantuan notasi $> table(patientdata$diabetes, patientdata$status)

BAB IIIPEMBAHASAN

Penjelasan Package e1071Package e1071 merupakan fungsi yang dapat digunakan untuk latent class analysis, short time Fourier transform, fuzzy clustering, support vector machines,shortest path computation, bagged clustering, naive Bayes classifier. Package e1071 merupakan package yang pertama kali memperkenalan implementasi SVM pada R.

Support Vector Machines

Gambar di atas merupakan hasil yang muncul ketika attach(iris). Terlihat bahwa dalam data iris terdapat lima variabel (petal.length, petal.width, sepal.length, sepal.width, dan species).

SVM-Type, merupakan tipe dari SVM. C-classification merupakan tipe default. Beberapa opsi tipe yang dapat dipilih adalah nu-classification, one-classification, eps-regression, dan nu-regression. Jumlah support vector sebanyak 51. Dari output di atas, dapat diketahui bahwa jumlah kleas yang terbentuk ada 3 kelas dengan level setosa, versicolor, dan virginica. Support vectors ntuk level setosa ada sebanyak 8, level versicolor sebanyak 22, dan level virginica sebanyak 21.

Gambar di atas dapat dibilang merupakan crosstabulation antara prediksi dengan variabel target y. Sehingga di dapatkan bahwa dari 50 setosa, ternyata semuanya dapat diklasifikasikan dengan benar sebagai setosa. Untuk versicolor, dari 50 versicolor, yang dapat diklasifikasikan dengan tepat sasaran bahwa mereka adalah versicolor ada sebanyak 48 versicolor, sedangkan dua sisanya, masuk ke golongan virginica. Sedangkan untuk virginica, dari 50 virginica, yang dapat diklasifikasikan dengan tepat sasaran bahwa mereka adalah virginica ada sebanyak 48 versicolor, sedangkan dua sisanya, masuk ke golongan versicolor.

Dari plot di atas, dapat dilihat penegelompokannya dengan lebih mudah. Pengelompokan iris pada plot di atas, berdasarkan berwarna. Ada tiga warna; hitam, merah, hijau, berarti terdapat tiga kelompok (setosa, versicolor, virginica). Sedangkan untuk SV (support vectors) ditandai dengan tanda plus atau crosses. Support vectors merupakan titik data (data point) yang terletak paling dekat dengan permukaan keputusan.

Dari langkah kerja pembuatan matriks yang telah dilakukan, diperoleh bentuk matriks seperti gambar output di atas. Matriks di atas akan terlihat lebih cantik jika setiap kolom diberi nama, dan berikut hasil pemberian nama untuk kolom dan baris matriks:

Data Frame

Dari patientdata[1:2], dapat ditampilkan elemen data pada kolom 1 (patientID) dan kolom 2 (age)Dari > patientdata[c(diabetes,status)], dapat ditampilkan elemen data pada kolom diabetes dan statusDari > patientdata$age, dapat ditampilkan data pada variabel age yang terdapat dalam dataframe bernama patientdata

Gambar output di atas merupakan crosstab antara tipe diabetes dengan status. Diperoleh bahwa: pasien dengan status excellent, tipe diabetes 1 sebanyak satu orang; pasien dengan status improved, tipe diabetes 2 sebanyak satu orang; pasien dengan status poor, tipe diabetes 1 sebanyak dua orang.BAB IVPENUTUPDari langkah-langkah yang telah dilakukan Praktikan dan pembahasan pada bab sebelumnya, maka didapat beberapa kesimpulan pada praktikum kali ini yaitu sebagai berikut:1. Package e1071 merupakan fungsi yang dapat digunakan untuk latent class analysis, short time Fourier transform, fuzzy clustering, support vector machines,shortest path computation, bagged clustering, naive Bayes classifier.2. Package e1071 merupakan package yang pertama kali memperkenalan implementasi SVM pada R.3. Support Vector Machines adalah suatu metode supervised learning yang digunakan untuk melakukan klasifikasi data.4. Vektor merupakan suatu array atau himpunan bilangan, character atau string, logical value, dan merupakan objek paling dasar yang dikenal dalam R.5. Data frame merupakan objek terdiri atas baris dan kolom dengan data yang berbeda-beda untuk setiap kolomnya.6. List merupakan suatu vektor terurut dari sekumpulan komponen yang dapat berupa vektor, matriks, data frame, atau data list sendiri pada setiap komponen. Tiap kompnen pada data list dapat mempunyai mode yang berbeda.

DAFTAR PUSTAKABerwick, R. An Idiots guide to Support vector Machines (SVMs). Village Idiot.Fachrurrazi, S. 2012. Chapter II.pdf. http://repository.usu.ac.id/bitstream/123456789/31198/3/Chapter%20II.pdf [22 Oktober 2014]Mahsus, dkk. 2012. Implementasi dan Analisa Granular Support Vectro Machine Dengan Data Cleaning (GSVM-DC) Untuk E-mail Spam Filtering. Seminar Nasional Aplikasi Teknologi Informasi 2012 (SNATI 2012). Yogyakarta, 15-16 Juni 2012.Mayer, David. 2014. Misc Function of the Department of Statistics (e1071).Widyarini, T. Dan Santosa, B. Aplikasi Metode Cross Entropy Untuk Support Vector Machines. Institut Teknologi Sepuluh Nopember (ITS) Surabaya: Jurusan Teknik Industri.http://www.r-statistics.com/ [22 Oktober 2014]http://www.r-tutor.com/ [22 Oktober 2014]