Upload
novi-indah-pradasari
View
12
Download
0
Embed Size (px)
DESCRIPTION
pengenalan pola
Citation preview
Pengenalan Pola
PTIIK - 2014
Ekstraksi dan Seleksi Fitur
Course Contents
Collect Data 1
Object to Dataset 2
Ekstraksi Fitur 3
Seleksi Fitur 4
Design Cycle
Collect data
Choose features
Choose model
Train system
Evaluate system
Apa sensor yang harus kita gunakan?
Bagaimana mengumpulkan data?
Bagaimana mengetahui fitur apa yang dipilih,
dan bagaimana kita memilihnya ...?
(Misal transformasi data fitur dengan PCA)
Apa classifier yang akan digunakan?
Apakah ada classifier yang terbaik ...?
Bagaimana kita melakukan proses Training?
Bagaimana mengevaluasi kinerja sistem?
Bagaimana memvalidasi hasil?
Berapakah tingkat kepercayaan hasil
keputusan?
Collect Data
Mengambil nilai data dari objek, Tipe data berdasarkan
penskalaan datanya :
Data Kualitatif : Data yang bukan berupa angka,. Terbagi dua :
• Nominal : Data yang paling rendah dalam level pengukuran data.
Contoh : Jenis kelamin, Merk mobil, Nama tempat
• Ordinal : Ada tingkatan data. Contoh : Sangat setuju, Setuju, kurang
setuju, tidak setuju.
Data Kuantitatif : Data berupa angka dalam arti sebenarnya.
Terbagi dua :
• Data Interval, Contoh : Interval temperatur ruang adalah sbb : Cukup
panas jika antara 50C-80 C, Panas jika antara 80 C-110 C,
Sangat panas jika antara 110 C-140 C.
• Data Rasio, Tingkat pengukuran paling ‘tinggi’ ; bersifat angka dalam
arti sesungguhnya. Contoh : Tinggi badan, Berat badan, Usia.
Object to Dataset
Ilustrasi transformasi data dari objek yang diamati :
Keterangan :
M menyatakan banyak data, N menyatakan banyak fitur.
Ektraksi fitur dilakukan jika data yang diamati masih berupa data mentah
(masih berupa kumpulan citra).
Fitur yang diambil adalah yang merupakan ciri khas yang membedakan
satu objek dengan objek lainnya.
Seleksi Fitur
Problem : kompleksitas komputasi terhadap
pengenalan pola pada ruang dimensi yang tinggi.
Solusi : mapping data ke dalam ruang dimensi
yang lebih rendah
Seleksi Fitur
• Pengurangan dimensi data dapat dilakukan
dengan :
• Mengkombinasikan Fitur (secara linear maupun non-
linear)
• Memilih himpunan bagian dari fitur-fitur yang tersedia
• Kombinasi Linier merupakan pendekatan yang
menarik karena metode tersebut dilakukan
dengan perhitungan yang sederhana dan
terlacak secara analitis
Seleksi Fitur
Diberikan x ϵ RN, dengan tujuan untuk mencari
transformasi linier U sehingga y = UTx ϵ RK
where K<N
Seleksi Fitur
Dua pendekatan klasik untuk menghitung
transformasi linier yang optimal :
Principal Components Analysis (PCA): mencari
proyeksi yang menyediakan informasi sebanyak
mungkin dalam data dengan pendekatan least-
squares.
Linear Discriminant Analysis (LDA): mencari proyeksi
terbaik yang dapat memisahkan data dengan
pendekatan least-squares.
Tujuan PCA : mengurangi dimensi data dengan
mempertahankan sebanyak mungkin informasi
dari dataset yang asli
Seleksi fitur menggunakan PCA
PCA memproyeksikan data
sepanjang suatu arah dimana data
tersebut memiliki varians yang
tinggi
Arah tersebut ditentukan oleh
eigenvectors dari matriks
covariance yang memiliki nilai
eigenvalues terbesar.
Nilai besaran dari eigenvalues
merupakan nilai varians data
sepanjang arah dari eigenvector
(garis lurus merah dan biru)
Seleksi Fitur
Pendekatan vektor dengan menemukan basis ke
dalam ruang dimensi yang lebih rendah
Representasi ruang Dimensi-Lebih Tinggi :
Represenasi ruang Dimensi-Lebih Rendah :
NNvavavax ...2211
Nvvv ,...,, 21 merupakan basis dari ruang dimensi N
KKubububx ...ˆ2211
Kuuu ,...,, 21 merupakan basis dari ruang dimensi K
Seleksi fitur menggunakan PCA
Pengurangan dimensi berdampak pada
hilangnya informasi
PCA mempertahankan sebanyak mungkin
informasi, dengan cara meminimalkan error :
Bagaimana caranya menentukan sub-ruang
dimensi yang lebih rendah yang terbaik ?
• Eigenvektor yang terbaik dari matriks covarians x
Eigenvalue yang terbesar
• Disebut sebagai Principal Components
Seleksi fitur menggunakan PCA
Misalkan x1, x2, ..., xM terdapat dalam vektor N x 1
1. Mencari Mean (nilai rata-rata) dari data
2. Menghitung Zero Mean (setiap nilai pada data sampel
dikurangi nilai rata-rata tiap fitur yang terkait)
3. Membangun matriks Covarians dengan mengkalikan
matriks Zero Mean dengan transposenya
4. Menghitung eigenvalue
5. Menghitung matriks eigenvektor
6. Mengurangi dimensi sebesar K dimensi yang
didapatkan dari eigenvalue yang terbesar pertama
Seleksi fitur menggunakan PCA
Langkah 1: Mencari Mean Global (nilai rata-rata)
Langkah 2: Menghitung Zero Mean
M
xxxx M
...21
M
xM
i
i 1
xxii
Seleksi fitur menggunakan PCA
Langkah 3: Membangun matriks Covarians
dengan mengkalikan matriks Zero Mean dengan
transposenya
Populasi
Sampel
M
i
i
T
iM
C1
1
M
i
i
T
iM
C11
1
Seleksi fitur menggunakan PCA
Langkah 4 : Menghitung eigenvalue dari C
Hasil :
0)(
UCI
UIUC
UIUCI
UUC
0)det( CI
N ,...,,, 321
Seleksi fitur menggunakan PCA
Langkah 5 : Menghitung eigenvektor
Dari eigenvalue yang dihitung pada langkah 4,
disubstitusikan ke rumus :
Selesaikan dengan menemukan nilai U
Hasil :
0)( UCI
Nuuuu ,...,,, 321
Seleksi fitur menggunakan PCA
Langkah 6 : Mengurangi dimensi sebesar K
dimensi
Pilihlah fitur sebanyak K berdasarkan nilai eigenvalue
terbesar
merupakan hasil transformasi dari x
x̂
Seleksi fitur menggunakan PCA
Pemilihan nilai K menggunakan kriteria berikut :
Pada contoh kasus diatas, dapat dikatakan
bahwa kita “menyediakan” 90% atau 95%
informasi dari data yang tersedia
Jika K=N, maka kita “menyediakan” 100% dari
data yang tersedia
Seleksi fitur menggunakan PCA
Vektor asal x dapat dibangun kembali menggunakan
komponen prisipal-nya
PCA meminimalkan error dari rekonstruksi prinsipal
tersebut:
Hal itu dapat ditunjukkan bahwa error sama dengan :
Contoh PCA : Menghitung EigenValue
Misal diketahui dataset :
Mean global
Zero Mean
Kovarian
2913
1317
2913
1317
12
1
51
24
51
24
1
1T
NC
No Fitur 1 Fitur 2 Kelas
1 P11 P12 Mobil
2 P21 P22 Rumah
D =
2221
1211
PP
PP
DataBanyak
PPx
_
21111
51
24,
222121
212111
21
21misal
xPxP
xPxP
xx
xxD
DataBanyak
PPx
_
22122
EigenValue
0det CI
032446
01694931729
0169)29(1729
0169)29(17
013*13)29(17
02913
1317det
02913
1317
10
01*det
2
2
31782.372
63564.2846
68218.82
63564.2846
2
82046
2
1296211646
1*2
324*1*446)46(
2
4
2
1
2,1
2,1
2
2,1
2
2,1
a
acbb
02913
1317det
02913
1317
10
01*det
31782.370
068218.8ValueEigenMatrik
EigenVektor
31782.370
068218.8ValueEigenMatrik
UCU
0
10
01
10
01
10
01
2
1
2221
1211
2
1
2
1
2221
1211
2
1
2
1
2221
1211
2
1
2
1
2221
1211
u
u
cc
cc
u
u
u
u
cc
cc
u
u
u
u
cc
cc
u
u
u
u
cc
cc
0)(
0)(
222121
212111
ucuc
ucuc
Vektor eigen didapatkan dengan
persamaan :
0)29(13
013)17(
21
21
uu
uu
2913
1317CMatrik kovarian :
Untuk λ1 = 8.68218 maka :
020.317813
0138.3178
21
21
uu
uu
EigenVektor
Untuk λ1 = 8.68218 maka :
020.317813
0138.3178
21
21
uu
uu
Untuk λ2 = 37.31782 maka :
08.3178-13
01320.3178-
21
21
uu
uu
Solusi non trivial sistem persamaan
ini adalah :
8.3178
13
138.3178
21
21
uu
uu
Misalkan maka
au 113
8.3178a2 u
Jadi vektor eigen untuk λ1 = 8.68218
adalah :
13
3178.8 aa
U
dimana a adalah bilangan sembarang
yang tidak nol.
Solusi non trivial sistem persamaan
ini adalah :
3178.20
13
133178.20
21
21
uu
uu
Misalkan maka
bu 2 3178.20
13b1 u
Jadi vektor eigen untuk λ2 = 37.31782
adalah :
b
b
U 3178.20
13
dimana b adalah bilangan sembarang
yang tidak nol.
EigenVektor
Vektor eigen untuk λ1 = 8.68218
adalah :
13
3178.8 aa
U
misalkan a = -0.8423 maka
Vektor eigen untuk λ2 = 37.31782
adalah :
b
b
U 3178.20
13
misalkan b = 0.8423 maka .
0.5389
0.8423-U
8423.0
0.5389U
Jadi Vektor eigen globalnya adalah :
8423.00.5389
0.53890.8423-U
Evaluasi Error dan Penentuan Jumlah K
Transformasi data, fitur
Tentukan nilai K dengan 90% informasi data
yang kita gunakan
Dari nilai K yang ditentukan akan diperoleh fitur
yang dijadikan sebagai proses pengenalan pola
xx ˆ
kkUxx ˆ
Diskusi
Tentukan hasil transformasi dataset berikut !
No Fitur 1 Fitur 2 Fitur 3 Kelas
1 8 3 4 Apel
2 2 4 9 Jeruk
Latihan
Tentukan hasil transformasi dataset berikut
dengan Threshold = 95% untuk nilai K !
No Fitur 1 Fitur 2 Fitur 3 Kelas
1 10 7 2 Padi
2 6 5 4 Jagung
3 2 3 6 Gandum
4 8 0 10 Kedelai
Ketentuan Baru
Bagi kelompok yang datasetnya banyak yang
kualitatif silakan ganti dataset
Bagi kelompok yang fiturnya melebihi 10 maka
hilangkan fitur yang lain dan jadikan hanya 10
fitur saja atau cari dataset yang memiliki fitur
maksimal 10 fitur
Bagi kelompok yang datanya melebihi 100 maka
ambil 100 data saja, dengan catatan jumlah data
di setiap kelas harus seimbang
Tugas
Lakukan perhitungan PCA terhadap data yang
telah dikumpulkan pada tugas sebelumnya
081 331 834 734 / 088 160 127 40