Upload
nurtriaiman
View
319
Download
8
Embed Size (px)
Citation preview
8/10/2019 Makalah dbscan
1/13
BAB I
PENDAHULUAN
1.1 Latar Belakang
Clustering merupakan suatu proses untuk mengelompokkan kumpulan objek-
objek fisik atau objek-objek abstrak ke dalam kelas-kelas objek yang similar (mirip).
Dalam mengembangkan metode clustering terdapat beberapa pendekatan, diantaranya
dengan pendekatan partisi dan pendekatan hirarki. Di samping kedua pendekatan tersebut,
ada juga clustering dengan pendekatan locality. Telah banyak pendekatan clustering yang
dikembangkan sedangkan yang akan dibahas pada makalah ini hanya pendekatan locality
yaitu algoritma DBSCAN.
Algoritma DBSCAN adalah sebuah algoritma clustering yang dikembangkanberdasarkan tingkat kerapatan data (density-based). Dimana algoritma ini menumbuhkan
daerah yang memiliki kerapatan tinggi menjadi cluster-cluster, dan menemukan cluster-
cluster tersebut pada bentuk bebas dalam sebuah ruang database dengan memanfaatkan
noise. Noise dalam metode ini digunakan untuk mewakili daerah yang kurang padat yang
digunakan untuk memisahkan antara cluster satu dengan cluster lainnya, pada objek
dalam ruang data.
1.2 Rumusan Masalah
1. Apakah yang dimaksud dengan metode clustering DBSCAN?
2. Bagaimanakah konsep algoritma yang digunakan pada metode DBSCAN?
3. Bagaimana cara menentukan parameter Eps dan MinPts?
4. Apakah kelebihan dan kelemahan metode clustering DBSCAN?
1.3 Tujuan
1. Mengetahui maksud dari metode clustering DBSCAN.
2. Mengetahui konsep algoritma yang digunakan pada metode DBSCAN.
3. Mengetahui bagaimana cara menentukan parameter Eps dan MinPts.
4. Mengetahui kelebihan dan kekurangan metode clustering DBSCAN.
8/10/2019 Makalah dbscan
2/13
BAB II
PEMBAHASAN
2.1 Clustering DBSCAN
DBSCAN adalah salah satu algoritma clustering density-based. Algoritma
memperluas wilayah dengan kepadatan yang tinggi ke dalam cluster dan menempatkan
cluster irregular pada database spasial dengan noise. Metode ini mendefiniskan cluster
sebagai maximal setdari titik-titik yang density-connected.
DBSCAN memiliki 2 parameter yaitu Eps (radius maksimum dari neighborhood)
danMinPts (jumlah minimum titik dalamEps-neighborhood darisuatu titik).
Ide dasar dari density-based clusteringberkaitan dengan beberapa definisi baru
1. Neighborhood dengan radiusEps dari suatu obyek disebutEps-neighborhood dari
suatu obyek tersebut
2. Jika Eps-neighborhood dari suatu obyek mengandung titik sekurang-kurangnya
jumlah minimum,MinPts, maka suatu obyek tersebut dinamakan core object
3. Diberikan set obyekD, obyekpdikatakan directly density-reachabledari obyek q
jika p termasuk dalam Eps-neighborhooddari qdan qadalah coreobjek.Gambar
6.14 memberikan ilustrasiEps-neighborhood
Gambar 2.1Eps-neighborhood
4.
Sebuah obyek p adalah density-reachable dari obyek q dengan memperhatikan Eps
danMinPtsdalam suatu set objek ,D, jika terdapat serangkaian obyek p1,,pn, p1=q
dan pn=p dimana pi+1adalah directlydensity-reachable dari pidengan memperhatikan
Eps dan MinPts, untuk 1
8/10/2019 Makalah dbscan
3/13
ilustrasikan pada Gambar 6.15.
Gambar 2.2Density-reachable
5. Sebuah obyek p adalah density-connected terhadap obyek q dengan
memperhatikan Eps dan MinPts dalam set obyek D, jika ada sebuah obyek o
elemen D sehingga p dan q keduanya density-reachable dari o dengan
memperhatikan Eps dan MinPts. Gambar 6.16 merupakan ilustrasi dari konsep
density-connected.
Gambar 2.3Density-connected
Sifat density-reach abilityadalah transitive closuredari direct density reachabledan
relasi ini simetris. Sedangkan density connectivityadalah relasi simetris.
Algoritma DBSCAN
Arbitrary select a point p
Retrieve all points density-reachable from pwrt Epsand MinPts. If pis a core point,
a cluster is formed.
If pis a border point, no points are density-reachable from pand DBSCAN visits the
next point of the database.
Continue the process until all of the points have been processed
8/10/2019 Makalah dbscan
4/13
Contoh :
Contoh Studi kasus dengan data base yang diujikan :
Pemakaian DBSCAN:
Diketahui MinPts= 3 dan = 1cm
a.
Misalkan dalam iterasi terpilih node C1. Maka dicari node-node -neighborhood
dari C1. Sesuai dengan ketentuan bahwa yaitu 1 cm maka diperoleh -neighborhood
dari C1 yaitu 1,2,3,4, dan 5. Karena ketentuan bahwa MinPts yang ada adalah 3 node,
maka node C1 dengan -neighborhood sebanyak 5 node (lebih banyak dari pada MinPts)
menjadi Core Object
b.
8/10/2019 Makalah dbscan
5/13
Iterasi dilanjutkan dengan node lain dalam database. Diperoleh titik C2. Didapat -
neighborhood dari C2 yaitu 1,2,4,6 dan 7. Karena -neighborhood berjumlah 5 dan itu
lebih besar dari MinPts-nya maka C2 merupakan Objectcore.
c.
Dipilih titik C3 didapat -neighborhood nya yaitu node 4,5, dan 6. Sesuai dengan
ketentuan bahwa -neighborhooddari suatu titik jika dia lebih banyak atau sama dengan
MinPts maka node tersebut merupakan core object. C1, C2 dan C3 adalah density-
reachable. Hal ini terjadi karena C1 direct-density-reachable dari C2 maupun C3 dan
node 4 sendiri merupakancore object maka semua merupakanCore object maka mereka
saling density-connected. Iterasi terus dilakukan terhadap node yang belum pernah
menjadi core-object masuk
Dari iterasi tersebut didapat 4, 7, C1, C2, C3, C4, C5, dan C6 sebagai core, mereka
density-reachable dan saling density-connected. Iterasi dilanjutkan untuk semua node/
object pada database.
8/10/2019 Makalah dbscan
6/13
Ci dan Cn dir ect density reachabledan sudah tentu mereka density-connected.
Iterasi yang terus dilakukan saat berada di node n. Maka akan dicari -neighborhood
dari n didapat node h dan i, karena jumlah-neighborhood tidak mencapai MinPts maka n
bukan merupakan core objectdan karena n,h,i tidak termasuk -neighborhooddari core
object yang ada maka mereka dianggap sebagai noise. Sehingga didapatkan cluster
sebanyak dua kelompok dengan beberapa noise
2.2 Algoritma DBSCAN
Untuk menemukan klaster, DBSCAN memulai dengan sembarang titik p dan
mengambil semua titik yang density-reachable dari p dengan memperhatikan Eps dan
MinPts. Jika p merupakan core point, prosedur ini menghasilkan klaster berdasarkan Eps
dan MinPts. Jika p merupakan border point, tidak ada titik yang density-reachabledari p
dan DBSCAN mengunjungi titik berikutnya dalam database.
Karena menggunakan nilai global untuk Eps dan Minpts, DBSCAN dapat
menggabungkan 2 klaster menjadi 1 klaster, jika 2 klaster dengan densitas (kepadatan)
yang berbeda dekat satu sama lain. Definisikan jarak antara 2 titik S 1dan S2 sebagai
( ) *( )| +. Kemudian 2 set titik setidaknya memiliki
densitas dari klaster tertipis akan dipisahkan satu sama lain hanya jika jarak antara 2 set
lebih besar dari Eps. Sebagai akibat, recursive calldari DBSCAN mungkin dibutuhkan
untuk mendeteksi klaster dengan nilai yang lebih tinggi untuk MinPts. Hanya hal ini tidak
bermanfaat karena aplikasi rekursif DBSCaN menghasilkan algoritma dasar yang sangat
8/10/2019 Makalah dbscan
7/13
efisien. Selanjutnya, klastering rekursif dari setiap titik hanya diperlukan dalam kondisi
yang dapat dengan mudah dideteksi.
Berikut adalah versi dasar DBSCAN yang menghilangkan detail tipe dan generasi
data dari informasi tambahan tentang klaster:
SetOfPoints adalah keseluruhan database atau klaster yang ditemukan pada eksekusi
sebelumnya. Eps dan MinPts adalah parameter densitas global yang ditentukan secara
manual atau berdasarkan heuristic. Fungsi SetOfPoint.get(i)mengembalikan elemen ke-i
dari SetOfPoints. Fungsi yang paling penting digunakan oleh DBSCAN adalah
ExpandClustersebagai berikut:
8/10/2019 Makalah dbscan
8/13
Suatu panggilan SetOfPoints.regionQuery(Point, Eps) mengembalikan Eps-
Neighborhood dari Point dalam SetOfPoints sebagai daftar titik. Region Query dapat
didukung secara efisien oleh metode akses spatial seperti R*-tree (Beckmann et al. 1990)
yang diasumsikan tersedia dalam SDBS untuk pemrosesan efisien dari beberapa tipe
spatial query (Brinkhoff et al. 1994). Tinggi R*-tree adalah O(log n) untuk database n
points pada kasus terburuk (worst case) dan sebuah query dengan query region yang
kecil harus melintasi jumlah jalur yang terbatas dalam R*-tree. Karena Eps-
Neighborhood diharapkan kecil jika dibandingkan dengan ukuran keseluruhan data space,
rata-rata kompleksitas waktu eksekusi dari 1 region query adalah O(log n). Untuk setiap n
8/10/2019 Makalah dbscan
9/13
points database, paling tidak ada satu region query. Demikian, rata-rata kompleksitas
waktu eksekusi DBSCAN adalah O(n * log n).
ClId(clusterId) dari titik-titik yang telah ditandai sebagai NOISE dapat berubah
nantinya, jika mereka density-reachable dari beberapa titik lain dalam database. Ini
berlaku untuk border points dari suatu klaster. Titik-titik tersebut tidak ditambahkan ke
seed-list karena telah diketahui bahwa titik dengan ClId NOISE bukanlah sebuah core
point. Menambahkan titik-titik tersebut ke seeds hanya akan menghasilkan reqion query
tambahan yang tidak akan menghasilkan jawaban baru.
Jika dua klaster C1 dan C2 sangat dekat satu sama lain, bisa saja beberapa titik p
masuk k kedua klaster, C1dan C2. Kemudian p akan menjadi border point dalam kedua
klaster karena sebaliknya C1 akan setara dengan C2 karena digunakannya parameter
global. Dalam kasus ini, titik p akan dimasukan ke klaster yang pertama ditemukan.
Terlepas dari situasi yang jarang ini, hasil DBSCAN independen dari urutan titik yang
dikunjungi database.
2.3 Menentukan Parameter Eps dan MinPts
Heuristik yang efektif untuk menentukan parameter Eps dan MinPts dari klaster
tertipis dalam database. d adalah jarak suatu titik p ke k-th nearest neighbor, kemudian d-
neighborhood dari p berisi tepat k+1 titik untuk hamper semua titik p. d-neighborhood
dari p berisi lebih dari k+1 titik hanya jika beberapa titik memiliki jarak d yang sama
persis dari p yang agak tidak mungkin. Selanjutnya mengubah k untuk titik dalam klaster
tidak menghasilkan perubahan besar pada d. Ini hanya terjadi jika k-th nearest neighbor
dari p untuk k = 1, 2, 3, . terletak kira-kira pada garis lurus yang umumnya tidak benar
untuk sebuah titik dalam klaster.
Untuk k, didefiniskan fungsi k-dist dari database D ke angka real, memetakan setiap
titik pada jarak dari k-th nearest neighbornya. Ketika mensortir titik-titik database dalam
urutan descending dari nilai k-dist, graf dari fungsi ini memberikan beberapa petunjuk
mengenai distribusi densitas dalam database. Graf ini disebut sorted k-dist graph. Jika
8/10/2019 Makalah dbscan
10/13
dipilih sembarang titik p, atur parameter Eps menjadi k-dist(p) dan atur parameter MinPts
menjadi k, semua titik dengan nilai k-dist yang sama atau lebih kecil akan menjadi core
point. Jika threshold dapat ditemukan dengan nilai maksimal k-dist dalam klaster tertipis
D, akan didapatkan nilai parameter yang diinginkan. Titik threshold merupakan titik
pertama dalam lembah (valley) pertama dari graf k-dist yang telah disorting (lihat
gambar 2.4). Semua titik dengan nilai k-dist yang lebih tinggi dianggap sebagai noise,
semua titik yang lain dimasukan ke dalam beberapa klaster
Gambar 2.4sorted 4-dist graph untuk database sampel.
Secara umum, sangat sulit mendeteksi lembah pertama secara otomatis, tetapi
sangat simple untuk user untuk melihat lembah dalam representasi grafis.
DBSCAN membutuhkan 2 parameter, Eps dan MinPts. Tetapi berdasarkan
eksperimen, k-dist graph untuk k>4 tidak berbeda secara signifikan dari 4-dist graph,
sehingga diperlukan perhitungan lebih jauh. Selanjutnya parameter MinPts dieliminasi
dengan menaturnya menjadi 4 untuk semua database (untuk data 2 dimensi). Ada
beberapa pendekatan interaktif untuk menentukan parameter Eps DBSCAN:
- Sistem menghitung dan menampilkan graf 4-dist untuk database.
- Jika user dapat mengestimasi persentase noise, presentasi ini dimasukan dan
sistem mengambil usulan untuk titik threshold.
- User dapat menerima threshold yang yang diusulkan atau memilih titik lainnya
sebagai titik threshold. Nilai 4-dist dari titik threshold digunakan sebagai nilai Eps
untuk DBSCAN.
8/10/2019 Makalah dbscan
11/13
2.4 Kelebihan dan Kekurangan Clustering DBSCAN
2.4.1 Kelebihan DBSCAN
Dapat mendeteksi bentuk yang selalu berubah-ubah, tidak terlalu sensitive terhadap
noise, mendukung deteksi outlier, memiliki mompleksitas yang baik, metode yang paling
sering digunakan selain K-means.
2.4.2 Kekurangan DBSCAN
Tidak bekerja maksimal jika diterapkan pada dataset yang berdimensi tinggi,
pemilihan parameternya cukup rumit, memiliki permasalahan di identifikasi cluster dari
kepadatan yang bervariasi (algoritma SSN), estimasi kepadatannya cukup sederhana
(tidak membentuk fungsi kepadatan yang sesungguhnya, tapi lebih ke arah poin-poin
kepadatan yang saling terhubung dan membentuk graf).
8/10/2019 Makalah dbscan
12/13
BAB III
PENUTUP
Kesimpulan
Algoritma DBSCAN membantu mendeteksi adanya event dengan cara
mengelompokkan sebuah data berdasarkan tingkat kepadatannya sehingga cluster akan
dipisahkan dengan data-data dengan tingkat kepadatan yang rendah. DBSCAN
membutuhkan dua parameter input untuk melakukan clustering, yaitu eps dan MimPts.
Kedua parameter tersebut sangat berpengaruh terhadap hasil cluster. Sebuah cluster hasil
dari DBSCAN ini merepresentasikan sebuah event yang ingin didteksi sehingga satu
cluster berarti satu event.
8/10/2019 Makalah dbscan
13/13
DAFTAR PUSTAKA
- Modul Kuliah Data Mining. Diakses dari
http://www.biomaterial.lipi.go.id/ilkomers2010materi/SEMESTER%20IV/DAMIN
G/Referensi/modul%20kuliah%20PDF/Bab%206%20Analisis%20Cluster.pdfpada
tanggal 23 November 2014.
- Density Based Clustering. Diakses dari ww2.cs.uh.edu/~ceick/ML/Topic9.ppt pada
tanggal 23 November 2014.
- Rendy. 2013. Event Detectin pada Microblogging Twitter dengan Algoritma
dengan DBSCAN (Study Kasus : Banjir). Universitas Pendidikan Indonesia.
- Clustering Menggunakan Algoritma DBSCAN (Density-Based Spatial Clustering
of Application with Noise) untuk Data Hasil Produksi Potensi Pertanian Studi
Kasus: Kabupaten Gresik. Diakses dari
http://etd.ugm.ac.id/index.php?mod=penelitian_detail&sub=PenelitianDetail&act=
view&typ=html&buku_id=50239pada tanggasl 23 November 2014.
- Ester, Martin, dkk. A Density-Based Algorithm for Discovering Clusters in Large
Spatial Databases with Noise. Institute for Computer Science, University of
Munich.
http://www.biomaterial.lipi.go.id/ilkomers2010materi/SEMESTER%20IV/DAMING/Referensi/modul%20kuliah%20PDF/Bab%206%20Analisis%20Cluster.pdfhttp://www.biomaterial.lipi.go.id/ilkomers2010materi/SEMESTER%20IV/DAMING/Referensi/modul%20kuliah%20PDF/Bab%206%20Analisis%20Cluster.pdfhttp://www.biomaterial.lipi.go.id/ilkomers2010materi/SEMESTER%20IV/DAMING/Referensi/modul%20kuliah%20PDF/Bab%206%20Analisis%20Cluster.pdfhttp://etd.ugm.ac.id/index.php?mod=penelitian_detail&sub=PenelitianDetail&act=view&typ=html&buku_id=50239http://etd.ugm.ac.id/index.php?mod=penelitian_detail&sub=PenelitianDetail&act=view&typ=html&buku_id=50239http://etd.ugm.ac.id/index.php?mod=penelitian_detail&sub=PenelitianDetail&act=view&typ=html&buku_id=50239http://etd.ugm.ac.id/index.php?mod=penelitian_detail&sub=PenelitianDetail&act=view&typ=html&buku_id=50239http://www.biomaterial.lipi.go.id/ilkomers2010materi/SEMESTER%20IV/DAMING/Referensi/modul%20kuliah%20PDF/Bab%206%20Analisis%20Cluster.pdfhttp://www.biomaterial.lipi.go.id/ilkomers2010materi/SEMESTER%20IV/DAMING/Referensi/modul%20kuliah%20PDF/Bab%206%20Analisis%20Cluster.pdf