Laporan Data Mining - Analisis Algoritma C45 Pada MPG Otomatis

Embed Size (px)

Citation preview

ANALISIS DAN IMPLEMENTASI ALGORITMA C.4.5 PADA DATA MPG OTOMATIShttp://archive.ics.uci.edu/ml/datasets/Auto+MPG

Data Mining 04 Kelompok 29

Disusun Oleh :

1. Miftakhurrokhmat 2. Rachmat Ady Saputra

( 09.11.3207 / 09-S1TI-09 ) ( 09.11.3224 / 09-S1TI-09 )

SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER AMIKOM YOGYAKARTA 2012

A. DESKRIPSI UMUM Data yang diolah pada proses data mining ini adalah data MPG otomatis. Setelah dilakukan analisis awal data ini memiliki beberapa atribut yaitu : mpg, cylinders, displacement, horsepower, weight, acceleration, model year, and origin. Metode yang dipilih untuk melakukan analisis adalah data mining model klasifikasi dengan menggunakan algoritma C4.5 untuk membangun Decision Tree. Pemilihan metode didasarkan pada pertimbangan bahwa dengan sudah dimilikinya data lama yang dapat digunakan membangun decision tree. B. DESKRIPSI DATA N o 1. Atribut Mpg : Value terus menerus/ continuous untuk sample dan perhitungan manual umur di kelaskan menjadi 2 yaitu extravagant dan economical terus menerus/ continuous untuk sample dan perhitungan manual umur di kelaskan menjadi 3 yaitu big-C, medium-C dan small-C terus menerus/ continuous untuk sample dan perhitungan manual umur di kelaskan menjadi 3 yaitu high-D, mediumD dan low-D terus menerus/ continuous untuk sample dan perhitungan manual umur di kelaskan menjadi 3 yaitu medium-HP, high-HP dan low-HP terus menerus/ continuous untuk sample dan perhitungan manual umur di kelaskan menjadi 3 yaitu big-W, mediumW dan small-W terus menerus/ continuous untuk sample dan perhitungan manual umur di kelaskan menjadi 3 yaitu slow-A, fast-A dan medium-A terus menerus/ continuous untuk sample dan perhitungan manual umur di kelaskan menjadi 3 yaitu seventy-Ydan

2.

Cylinders

:

3.

Displacement

:

4.

Horsepower

:

5.

Weight

:

6.

Acceleration

:

7.

Model year

:

8.

Origin

:

Target analisis C. PROSES DATA MINING

:

eighty-Y terus menerus/ continuous untuk sample dan perhitungan manual umur di kelaskan menjadi 3 yaitu one-O, two-O dan three-O Extravagant, economical

Untuk proses data mining dilakukan dua kali analisis yakni dengan proses perhitungan otomatis menggunakan software Tanagra. Datanya sejumlah 398 dengan jumlah field 8 buah. Untuk targetnya adalah mpg dengan inputannya berjumlah 7 buah, yaitu cylinders, displacement, horsepower, weight, acceleration, model year, and origin. Sebelum dilakukan pemrosesan menggunakan software Tanagra, data mentah yang diproses harus dilakukan pengubahan dulu dari data yang continuos yang berwujud angka diubah menjadi symbol tertentu, karena Tanagra tidak bisa memprosesnya. Data sebelum diubah:

Data setelah diubah:

1. Jalankan Tanagra, klik File New

2. Pilih file data dengan klik Browse pada Dataset, disini klik data_3.xls.Lalu klik OK.

3. Muncul dataset.Klik data visualization View dataset.Drag ke View dataset 1 lalu klik View

4. Klik pada toolbar atas, maka muncul Define status 1.Klik Target => masukkan mpg

Klik Input => masukkan selain mpg

5. Klik Spv learning C4.5.Drag ke View dataset 1, muncul Supervised Learning 1 (C4.5).Klik kanan pada Supervised Learning 1 (C4.5) pilih Supervised parameter

6. Klik kanan View maka muncul decision tree

Berikut tampilan tiap kita mengklik tiap-tiap layer pada kolom kiri Tanagra.

1. Dataset (data_3.xls)

2. View dataset 1

3. Define status 1

4. Supervised Learning 2 (C4.5)

D. Hasil dan Pembahasan Hasil Analisis

Berdasarkan analisi yang kami lakukan maka Berdasarkan analisis yang kami peroleh didapat bahwa tingkat pesimistis (convidence) sebesar 0.1 atau sebanyak 10%

E. KESIMPULAN Dari data analisis diatas dapat di simpulkan bahwa

Perbedaan Clustering dan Classification

Dataset yang digunakan pada Clustering tidak menampilkan Class / target attribute, sedangkan Dataset yang digunakan pada Classification mutlak harus menampilkan class / target attribute. Pengetahuan yang dihasilkan oleh metode Clustering berupa Cluster, sedangkan Pengetahuan yang dihasilkan oleh metode Classification berupa selain Cluster (bisa Decision Tree, Ruleset, Weight2 pada BackPropagation, dll).

Clustering pada umumnya menggunakan pembelajaran unsupervised learning, sedangkan Classification umumnya menggunakan pembelajaran supervised learning.

Dataset Attribute Class Tuple

: Kumpulan data yang siap dimining. : Komponen/Properties/Column/Field yang ada pada dataset. : Attribute pada Dataset yang berisi penggolongan / Target Attribute. : 1 data pada dataset (Row\