Makalah dbscan

Embed Size (px)

Citation preview

  • 8/10/2019 Makalah dbscan

    1/13

    BAB I

    PENDAHULUAN

    1.1 Latar Belakang

    Clustering merupakan suatu proses untuk mengelompokkan kumpulan objek-

    objek fisik atau objek-objek abstrak ke dalam kelas-kelas objek yang similar (mirip).

    Dalam mengembangkan metode clustering terdapat beberapa pendekatan, diantaranya

    dengan pendekatan partisi dan pendekatan hirarki. Di samping kedua pendekatan tersebut,

    ada juga clustering dengan pendekatan locality. Telah banyak pendekatan clustering yang

    dikembangkan sedangkan yang akan dibahas pada makalah ini hanya pendekatan locality

    yaitu algoritma DBSCAN.

    Algoritma DBSCAN adalah sebuah algoritma clustering yang dikembangkanberdasarkan tingkat kerapatan data (density-based). Dimana algoritma ini menumbuhkan

    daerah yang memiliki kerapatan tinggi menjadi cluster-cluster, dan menemukan cluster-

    cluster tersebut pada bentuk bebas dalam sebuah ruang database dengan memanfaatkan

    noise. Noise dalam metode ini digunakan untuk mewakili daerah yang kurang padat yang

    digunakan untuk memisahkan antara cluster satu dengan cluster lainnya, pada objek

    dalam ruang data.

    1.2 Rumusan Masalah

    1. Apakah yang dimaksud dengan metode clustering DBSCAN?

    2. Bagaimanakah konsep algoritma yang digunakan pada metode DBSCAN?

    3. Bagaimana cara menentukan parameter Eps dan MinPts?

    4. Apakah kelebihan dan kelemahan metode clustering DBSCAN?

    1.3 Tujuan

    1. Mengetahui maksud dari metode clustering DBSCAN.

    2. Mengetahui konsep algoritma yang digunakan pada metode DBSCAN.

    3. Mengetahui bagaimana cara menentukan parameter Eps dan MinPts.

    4. Mengetahui kelebihan dan kekurangan metode clustering DBSCAN.

  • 8/10/2019 Makalah dbscan

    2/13

    BAB II

    PEMBAHASAN

    2.1 Clustering DBSCAN

    DBSCAN adalah salah satu algoritma clustering density-based. Algoritma

    memperluas wilayah dengan kepadatan yang tinggi ke dalam cluster dan menempatkan

    cluster irregular pada database spasial dengan noise. Metode ini mendefiniskan cluster

    sebagai maximal setdari titik-titik yang density-connected.

    DBSCAN memiliki 2 parameter yaitu Eps (radius maksimum dari neighborhood)

    danMinPts (jumlah minimum titik dalamEps-neighborhood darisuatu titik).

    Ide dasar dari density-based clusteringberkaitan dengan beberapa definisi baru

    1. Neighborhood dengan radiusEps dari suatu obyek disebutEps-neighborhood dari

    suatu obyek tersebut

    2. Jika Eps-neighborhood dari suatu obyek mengandung titik sekurang-kurangnya

    jumlah minimum,MinPts, maka suatu obyek tersebut dinamakan core object

    3. Diberikan set obyekD, obyekpdikatakan directly density-reachabledari obyek q

    jika p termasuk dalam Eps-neighborhooddari qdan qadalah coreobjek.Gambar

    6.14 memberikan ilustrasiEps-neighborhood

    Gambar 2.1Eps-neighborhood

    4.

    Sebuah obyek p adalah density-reachable dari obyek q dengan memperhatikan Eps

    danMinPtsdalam suatu set objek ,D, jika terdapat serangkaian obyek p1,,pn, p1=q

    dan pn=p dimana pi+1adalah directlydensity-reachable dari pidengan memperhatikan

    Eps dan MinPts, untuk 1

  • 8/10/2019 Makalah dbscan

    3/13

    ilustrasikan pada Gambar 6.15.

    Gambar 2.2Density-reachable

    5. Sebuah obyek p adalah density-connected terhadap obyek q dengan

    memperhatikan Eps dan MinPts dalam set obyek D, jika ada sebuah obyek o

    elemen D sehingga p dan q keduanya density-reachable dari o dengan

    memperhatikan Eps dan MinPts. Gambar 6.16 merupakan ilustrasi dari konsep

    density-connected.

    Gambar 2.3Density-connected

    Sifat density-reach abilityadalah transitive closuredari direct density reachabledan

    relasi ini simetris. Sedangkan density connectivityadalah relasi simetris.

    Algoritma DBSCAN

    Arbitrary select a point p

    Retrieve all points density-reachable from pwrt Epsand MinPts. If pis a core point,

    a cluster is formed.

    If pis a border point, no points are density-reachable from pand DBSCAN visits the

    next point of the database.

    Continue the process until all of the points have been processed

  • 8/10/2019 Makalah dbscan

    4/13

    Contoh :

    Contoh Studi kasus dengan data base yang diujikan :

    Pemakaian DBSCAN:

    Diketahui MinPts= 3 dan = 1cm

    a.

    Misalkan dalam iterasi terpilih node C1. Maka dicari node-node -neighborhood

    dari C1. Sesuai dengan ketentuan bahwa yaitu 1 cm maka diperoleh -neighborhood

    dari C1 yaitu 1,2,3,4, dan 5. Karena ketentuan bahwa MinPts yang ada adalah 3 node,

    maka node C1 dengan -neighborhood sebanyak 5 node (lebih banyak dari pada MinPts)

    menjadi Core Object

    b.

  • 8/10/2019 Makalah dbscan

    5/13

    Iterasi dilanjutkan dengan node lain dalam database. Diperoleh titik C2. Didapat -

    neighborhood dari C2 yaitu 1,2,4,6 dan 7. Karena -neighborhood berjumlah 5 dan itu

    lebih besar dari MinPts-nya maka C2 merupakan Objectcore.

    c.

    Dipilih titik C3 didapat -neighborhood nya yaitu node 4,5, dan 6. Sesuai dengan

    ketentuan bahwa -neighborhooddari suatu titik jika dia lebih banyak atau sama dengan

    MinPts maka node tersebut merupakan core object. C1, C2 dan C3 adalah density-

    reachable. Hal ini terjadi karena C1 direct-density-reachable dari C2 maupun C3 dan

    node 4 sendiri merupakancore object maka semua merupakanCore object maka mereka

    saling density-connected. Iterasi terus dilakukan terhadap node yang belum pernah

    menjadi core-object masuk

    Dari iterasi tersebut didapat 4, 7, C1, C2, C3, C4, C5, dan C6 sebagai core, mereka

    density-reachable dan saling density-connected. Iterasi dilanjutkan untuk semua node/

    object pada database.

  • 8/10/2019 Makalah dbscan

    6/13

    Ci dan Cn dir ect density reachabledan sudah tentu mereka density-connected.

    Iterasi yang terus dilakukan saat berada di node n. Maka akan dicari -neighborhood

    dari n didapat node h dan i, karena jumlah-neighborhood tidak mencapai MinPts maka n

    bukan merupakan core objectdan karena n,h,i tidak termasuk -neighborhooddari core

    object yang ada maka mereka dianggap sebagai noise. Sehingga didapatkan cluster

    sebanyak dua kelompok dengan beberapa noise

    2.2 Algoritma DBSCAN

    Untuk menemukan klaster, DBSCAN memulai dengan sembarang titik p dan

    mengambil semua titik yang density-reachable dari p dengan memperhatikan Eps dan

    MinPts. Jika p merupakan core point, prosedur ini menghasilkan klaster berdasarkan Eps

    dan MinPts. Jika p merupakan border point, tidak ada titik yang density-reachabledari p

    dan DBSCAN mengunjungi titik berikutnya dalam database.

    Karena menggunakan nilai global untuk Eps dan Minpts, DBSCAN dapat

    menggabungkan 2 klaster menjadi 1 klaster, jika 2 klaster dengan densitas (kepadatan)

    yang berbeda dekat satu sama lain. Definisikan jarak antara 2 titik S 1dan S2 sebagai

    ( ) *( )| +. Kemudian 2 set titik setidaknya memiliki

    densitas dari klaster tertipis akan dipisahkan satu sama lain hanya jika jarak antara 2 set

    lebih besar dari Eps. Sebagai akibat, recursive calldari DBSCAN mungkin dibutuhkan

    untuk mendeteksi klaster dengan nilai yang lebih tinggi untuk MinPts. Hanya hal ini tidak

    bermanfaat karena aplikasi rekursif DBSCaN menghasilkan algoritma dasar yang sangat

  • 8/10/2019 Makalah dbscan

    7/13

    efisien. Selanjutnya, klastering rekursif dari setiap titik hanya diperlukan dalam kondisi

    yang dapat dengan mudah dideteksi.

    Berikut adalah versi dasar DBSCAN yang menghilangkan detail tipe dan generasi

    data dari informasi tambahan tentang klaster:

    SetOfPoints adalah keseluruhan database atau klaster yang ditemukan pada eksekusi

    sebelumnya. Eps dan MinPts adalah parameter densitas global yang ditentukan secara

    manual atau berdasarkan heuristic. Fungsi SetOfPoint.get(i)mengembalikan elemen ke-i

    dari SetOfPoints. Fungsi yang paling penting digunakan oleh DBSCAN adalah

    ExpandClustersebagai berikut:

  • 8/10/2019 Makalah dbscan

    8/13

    Suatu panggilan SetOfPoints.regionQuery(Point, Eps) mengembalikan Eps-

    Neighborhood dari Point dalam SetOfPoints sebagai daftar titik. Region Query dapat

    didukung secara efisien oleh metode akses spatial seperti R*-tree (Beckmann et al. 1990)

    yang diasumsikan tersedia dalam SDBS untuk pemrosesan efisien dari beberapa tipe

    spatial query (Brinkhoff et al. 1994). Tinggi R*-tree adalah O(log n) untuk database n

    points pada kasus terburuk (worst case) dan sebuah query dengan query region yang

    kecil harus melintasi jumlah jalur yang terbatas dalam R*-tree. Karena Eps-

    Neighborhood diharapkan kecil jika dibandingkan dengan ukuran keseluruhan data space,

    rata-rata kompleksitas waktu eksekusi dari 1 region query adalah O(log n). Untuk setiap n

  • 8/10/2019 Makalah dbscan

    9/13

    points database, paling tidak ada satu region query. Demikian, rata-rata kompleksitas

    waktu eksekusi DBSCAN adalah O(n * log n).

    ClId(clusterId) dari titik-titik yang telah ditandai sebagai NOISE dapat berubah

    nantinya, jika mereka density-reachable dari beberapa titik lain dalam database. Ini

    berlaku untuk border points dari suatu klaster. Titik-titik tersebut tidak ditambahkan ke

    seed-list karena telah diketahui bahwa titik dengan ClId NOISE bukanlah sebuah core

    point. Menambahkan titik-titik tersebut ke seeds hanya akan menghasilkan reqion query

    tambahan yang tidak akan menghasilkan jawaban baru.

    Jika dua klaster C1 dan C2 sangat dekat satu sama lain, bisa saja beberapa titik p

    masuk k kedua klaster, C1dan C2. Kemudian p akan menjadi border point dalam kedua

    klaster karena sebaliknya C1 akan setara dengan C2 karena digunakannya parameter

    global. Dalam kasus ini, titik p akan dimasukan ke klaster yang pertama ditemukan.

    Terlepas dari situasi yang jarang ini, hasil DBSCAN independen dari urutan titik yang

    dikunjungi database.

    2.3 Menentukan Parameter Eps dan MinPts

    Heuristik yang efektif untuk menentukan parameter Eps dan MinPts dari klaster

    tertipis dalam database. d adalah jarak suatu titik p ke k-th nearest neighbor, kemudian d-

    neighborhood dari p berisi tepat k+1 titik untuk hamper semua titik p. d-neighborhood

    dari p berisi lebih dari k+1 titik hanya jika beberapa titik memiliki jarak d yang sama

    persis dari p yang agak tidak mungkin. Selanjutnya mengubah k untuk titik dalam klaster

    tidak menghasilkan perubahan besar pada d. Ini hanya terjadi jika k-th nearest neighbor

    dari p untuk k = 1, 2, 3, . terletak kira-kira pada garis lurus yang umumnya tidak benar

    untuk sebuah titik dalam klaster.

    Untuk k, didefiniskan fungsi k-dist dari database D ke angka real, memetakan setiap

    titik pada jarak dari k-th nearest neighbornya. Ketika mensortir titik-titik database dalam

    urutan descending dari nilai k-dist, graf dari fungsi ini memberikan beberapa petunjuk

    mengenai distribusi densitas dalam database. Graf ini disebut sorted k-dist graph. Jika

  • 8/10/2019 Makalah dbscan

    10/13

    dipilih sembarang titik p, atur parameter Eps menjadi k-dist(p) dan atur parameter MinPts

    menjadi k, semua titik dengan nilai k-dist yang sama atau lebih kecil akan menjadi core

    point. Jika threshold dapat ditemukan dengan nilai maksimal k-dist dalam klaster tertipis

    D, akan didapatkan nilai parameter yang diinginkan. Titik threshold merupakan titik

    pertama dalam lembah (valley) pertama dari graf k-dist yang telah disorting (lihat

    gambar 2.4). Semua titik dengan nilai k-dist yang lebih tinggi dianggap sebagai noise,

    semua titik yang lain dimasukan ke dalam beberapa klaster

    Gambar 2.4sorted 4-dist graph untuk database sampel.

    Secara umum, sangat sulit mendeteksi lembah pertama secara otomatis, tetapi

    sangat simple untuk user untuk melihat lembah dalam representasi grafis.

    DBSCAN membutuhkan 2 parameter, Eps dan MinPts. Tetapi berdasarkan

    eksperimen, k-dist graph untuk k>4 tidak berbeda secara signifikan dari 4-dist graph,

    sehingga diperlukan perhitungan lebih jauh. Selanjutnya parameter MinPts dieliminasi

    dengan menaturnya menjadi 4 untuk semua database (untuk data 2 dimensi). Ada

    beberapa pendekatan interaktif untuk menentukan parameter Eps DBSCAN:

    - Sistem menghitung dan menampilkan graf 4-dist untuk database.

    - Jika user dapat mengestimasi persentase noise, presentasi ini dimasukan dan

    sistem mengambil usulan untuk titik threshold.

    - User dapat menerima threshold yang yang diusulkan atau memilih titik lainnya

    sebagai titik threshold. Nilai 4-dist dari titik threshold digunakan sebagai nilai Eps

    untuk DBSCAN.

  • 8/10/2019 Makalah dbscan

    11/13

    2.4 Kelebihan dan Kekurangan Clustering DBSCAN

    2.4.1 Kelebihan DBSCAN

    Dapat mendeteksi bentuk yang selalu berubah-ubah, tidak terlalu sensitive terhadap

    noise, mendukung deteksi outlier, memiliki mompleksitas yang baik, metode yang paling

    sering digunakan selain K-means.

    2.4.2 Kekurangan DBSCAN

    Tidak bekerja maksimal jika diterapkan pada dataset yang berdimensi tinggi,

    pemilihan parameternya cukup rumit, memiliki permasalahan di identifikasi cluster dari

    kepadatan yang bervariasi (algoritma SSN), estimasi kepadatannya cukup sederhana

    (tidak membentuk fungsi kepadatan yang sesungguhnya, tapi lebih ke arah poin-poin

    kepadatan yang saling terhubung dan membentuk graf).

  • 8/10/2019 Makalah dbscan

    12/13

    BAB III

    PENUTUP

    Kesimpulan

    Algoritma DBSCAN membantu mendeteksi adanya event dengan cara

    mengelompokkan sebuah data berdasarkan tingkat kepadatannya sehingga cluster akan

    dipisahkan dengan data-data dengan tingkat kepadatan yang rendah. DBSCAN

    membutuhkan dua parameter input untuk melakukan clustering, yaitu eps dan MimPts.

    Kedua parameter tersebut sangat berpengaruh terhadap hasil cluster. Sebuah cluster hasil

    dari DBSCAN ini merepresentasikan sebuah event yang ingin didteksi sehingga satu

    cluster berarti satu event.

  • 8/10/2019 Makalah dbscan

    13/13

    DAFTAR PUSTAKA

    - Modul Kuliah Data Mining. Diakses dari

    http://www.biomaterial.lipi.go.id/ilkomers2010materi/SEMESTER%20IV/DAMIN

    G/Referensi/modul%20kuliah%20PDF/Bab%206%20Analisis%20Cluster.pdfpada

    tanggal 23 November 2014.

    - Density Based Clustering. Diakses dari ww2.cs.uh.edu/~ceick/ML/Topic9.ppt pada

    tanggal 23 November 2014.

    - Rendy. 2013. Event Detectin pada Microblogging Twitter dengan Algoritma

    dengan DBSCAN (Study Kasus : Banjir). Universitas Pendidikan Indonesia.

    - Clustering Menggunakan Algoritma DBSCAN (Density-Based Spatial Clustering

    of Application with Noise) untuk Data Hasil Produksi Potensi Pertanian Studi

    Kasus: Kabupaten Gresik. Diakses dari

    http://etd.ugm.ac.id/index.php?mod=penelitian_detail&sub=PenelitianDetail&act=

    view&typ=html&buku_id=50239pada tanggasl 23 November 2014.

    - Ester, Martin, dkk. A Density-Based Algorithm for Discovering Clusters in Large

    Spatial Databases with Noise. Institute for Computer Science, University of

    Munich.

    http://www.biomaterial.lipi.go.id/ilkomers2010materi/SEMESTER%20IV/DAMING/Referensi/modul%20kuliah%20PDF/Bab%206%20Analisis%20Cluster.pdfhttp://www.biomaterial.lipi.go.id/ilkomers2010materi/SEMESTER%20IV/DAMING/Referensi/modul%20kuliah%20PDF/Bab%206%20Analisis%20Cluster.pdfhttp://www.biomaterial.lipi.go.id/ilkomers2010materi/SEMESTER%20IV/DAMING/Referensi/modul%20kuliah%20PDF/Bab%206%20Analisis%20Cluster.pdfhttp://etd.ugm.ac.id/index.php?mod=penelitian_detail&sub=PenelitianDetail&act=view&typ=html&buku_id=50239http://etd.ugm.ac.id/index.php?mod=penelitian_detail&sub=PenelitianDetail&act=view&typ=html&buku_id=50239http://etd.ugm.ac.id/index.php?mod=penelitian_detail&sub=PenelitianDetail&act=view&typ=html&buku_id=50239http://etd.ugm.ac.id/index.php?mod=penelitian_detail&sub=PenelitianDetail&act=view&typ=html&buku_id=50239http://www.biomaterial.lipi.go.id/ilkomers2010materi/SEMESTER%20IV/DAMING/Referensi/modul%20kuliah%20PDF/Bab%206%20Analisis%20Cluster.pdfhttp://www.biomaterial.lipi.go.id/ilkomers2010materi/SEMESTER%20IV/DAMING/Referensi/modul%20kuliah%20PDF/Bab%206%20Analisis%20Cluster.pdf