Upload
rifwan-hamidi
View
46
Download
0
Embed Size (px)
DESCRIPTION
Universitas Brawijaya
Citation preview
Rifwan Hamidi 135150200111149
Basis Data Terdistribusi – C
2016
Review : Apache HBase
Hinggal saat ini, Google setidaknya telah mempublikasikan tiga system canggih dalam hubungannya dengan pengelolaan dan pemberdayaan Big Data.
Ketiga system canggih tersebut adalah :
Google File System
Google MapReduce
Google Bigtable
Latar Belakang
Rifwan Hamidi 135150200111149
Rifwan Hamidi 135150200111149
Dari konsep Google File System lahirlah Hadoop Distributed File System
Dari konsep Google MapReduce lahir Hadoop MapReduce
Dari spesifikasi Google Bigtable diciptakanlah Hadoop HBase
Ketiga produk Open Source ini merupakan teknologi GRATIS yang boleh dipakai oleh siapa saja, dan memang sudah digunakan oleh banyak perusahaan besar seperti halnya Yahoo!, Facebook, Twitter, IBM, Trend Micro, NTT Docomo, Recrute Japan, Adobe, Amazon, Rakuten Japan, Benipal Technologies dan masih banyak lagi.
Latar Belakang
Rifwan Hamidi 135150200111149
Non-relational, distributed database
Column‐Oriented
Multi‐Dimensional
High Availability
High Performance
HBase itu apa?
Rifwan Hamidi 135150200111149
Hbase (Hyper NoSQL Database)
HBase adalah database terdistribusi yang berorientasi pada kolom.
HBase adalah program yang berjalan diatas Hadoop Distributed File System yang mampu memproses data dalam skala besar secara interaktif.
HBase merupakan implementasi dari konsep Google Bigtable.
HBase itu apa?
Rifwan Hamidi 135150200111149
Relational Database Management System (RDBMS) seperti halnya MySQL, PostgreSQL dll yang sudah sangat dikenal dan biasa digunakan oleh berbagai kalangan,
pada awalnya tidaklah didesain untuk menangani data super besar dan dalam sistem terdistribusi yang memperkerjakan puluhan hingga ribuan komputer.
Kenapa harus HBase?
Rifwan Hamidi 135150200111149
Sedangkan, HBase sedari awal memang didesain untuk dapat mengelola data berukuran super besar dalam suatu sistem terdistribusi dan memiliki fungsi sharding original bawaan yang dapat bekerja secara otomatis maupun manual.
HBase juga mampu menangani input data yang terjadi secara terus-menerus dari ribuan user yang selama menjadi 'bottle neck' pada sistem database sebelumnya.
Kenapa harus HBase?
Rifwan Hamidi 135150200111149
Struktur Data HBase
Rifwan Hamidi 135150200111149
HBase memiliki struktur data yang cukup sederhana, yang hanya terdiri atas Key (kunci )dan Value (data).
Model ini dikenal dengan istilah Key Value Store (KVS).
Tiap kunci berpasangan dengan satu data. Key disusun berurutan, sedangkan data disimpan berdasarkan lokasi yang ditunjuk oleh Key-nya.
Struktur Data
Rifwan Hamidi 135150200111149
Pasanngan Key dan Value ini dapat diibaratkan
seperti halnya sebuah kamus.
Key adalah kata yang ingin kita cari artinya, kata-kata dalam kamus disusun berurutan berdasarkan urutan alfabet. Sedangkan Value adalah arti dari kata itu sendiri, yang disimpan berdasarkan lokasi Key-nya.
Struktur Data
Rifwan Hamidi 135150200111149
Key terdiri atas Row Key, Column Family, Column, dan Timestamp.
Row Key juga berupa 'byte array' dan bertindak sebagai 'Primary Key'. Row Key disusun berurutan pada bagian baris tabel
Column Family, Column dan Timestamp menempati bagian kolom dari tabel tersebut.
Sedangkan Value (datanya) adalah data yang disimpan dalam bentuk 'byte array' yang bisa berupa data teks, angka, website pages, maupun data binary.
Data yang disimpan disortir berdasarkan urutan Row Key
Struktur Data
Rifwan Hamidi 135150200111149
Struktur Data
Rifwan Hamidi 135150200111149
Column Family adalah kolom yang terdiri atas satu, beberapa atau ribuan Column. Column Family harus ditentukan pada saat pembuatan skema tabel, sedangkan Column dapat ditambahkan setiap saat
Struktur Data
Rifwan Hamidi 135150200111149
Secara fisik, sebuah tabel pada HBase akan disimpan per Column Family. Satu tabel dipecah menjadi beberapa bagian berdasarkan jumlah Column Family yang dimilikinya, kemudian tiap Column Family ini akan disimpan terpisah dalam media penyimpanan yang dalam hal ini adalah HDFS
Struktur Data
Rifwan Hamidi 135150200111149
Ketika data yang disimpan dalam satu tabel menjadi semakin banyak dan melewati batas jumlah baris maksimal yang ditentukan (default 64 MB),
maka tabel tersebut akan dipartisi menjadi dua bagian yang sama besar.
Tiap bagian ini disebut Region dan secara fisik disimpan terpisah satu sama lainnya.
Struktur Data
Rifwan Hamidi 135150200111149
Tiap Region memiliki penunjuk identitas (identifier) yang terdiri atas Nama Tabel asalnya dan Nomor baris nya
Struktur Data
Rifwan Hamidi 135150200111149
Jadi, sebuah tabel dalam HBase, secara vertikal (baris) dibagi menjadi beberapa Region dan secara horisontal (kolom) dibagi menjadi beberapa Column Family
Struktur Data
Rifwan Hamidi 135150200111149
Struktur Data
Rifwan Hamidi 135150200111149
Timestamp digunakan untuk memberikan versi pada suatu data yang memiliki Row Key, Column Family, dan Column yang persis sama.
Data yang persis sama ini akan disimpan dalam cell yang berbeda setelah diberi penanda waktu (Timestamp) dan diurut berdasarkan urutan Timestamp tersebut.
Data dengan versi terbaru (Timestamp terbesar) akan disimpan paling atas.
Struktur Data
Rifwan Hamidi 135150200111149
Struktur Data
Rifwan Hamidi 135150200111149
Arsitektur HBase
Rifwan Hamidi 135150200111149
Arsitektur
Rifwan Hamidi 135150200111149
Sebuah cluster HBase terdiri HMaster, RegionServer, ZooKeeper, dan HDFS
HMaster adalah server pada HBase yang bertugas men-start HBase, mendistribusikan Region ke RegionServer yang terdaftar, mendeteksi dan memulihkan RegionServer yang rusak.
RegionServer adalah server yang bertugas menyimpan danmengelola Region-region yang diterimanya dari Hmaster
ZooKeeper bertugas mengelola informasi pokok tentangkondisi Hbase
HDFS (Hadoop Distributed File System) berfungsi sebagaimedia penyimpanan data bagi HBase. Semua data yang diloading ke HBase dan data log HBase disimpan dalam HDFS.
Arsitektur
Rifwan Hamidi 135150200111149
Arsitektur
Rifwan Hamidi 135150200111149
Hadoop MapReduce sangat handal dalam memproses data secara sekali proses atau dikenal dengan 'batch processing'.
Tetapi, MapReduce tidak cukup efektif untuk memproses data secara interaktif.
Untuk menutupi kekurangan Hadoop MapReduce ini maka dikembangkanlah HBase.
HBase dapat menggerakkan MapReduce untuk memproses data yang membutuhkan mode 'batch processing'
Kompatibilitas HBase dengan
MapReduce
Rifwan Hamidi 135150200111149
Kompatibilitas HBase dengan
MapReduce
Rifwan Hamidi 135150200111149
Pengguna HBase
Rifwan Hamidi 135150200111149
Beberapa User :
Pengguna HBase
Rifwan Hamidi 135150200111149
Facebook -Messaging System
Pengguna HBase
Rifwan Hamidi 135150200111149
Twitter -People Search
Pengguna HBase
Rifwan Hamidi 135150200111149
Mozilla -Socorro
Pengguna HBase
Rifwan Hamidi 135150200111149
HBase vs. RDBMS
Rifwan Hamidi 135150200111149
HBase vs. RDBMS
Rifwan Hamidi 135150200111149
Kesimpulan
Rifwan Hamidi 135150200111149
HBase adalah database yang berorientasi pada kolom (column oriented database) yang beroperasi pada sistem file terdistribusi (distributed file system).
Secara default, HBase beroperasi pada HDFS (Hadoop Distributed File System). HBase dapat memproses data baik secara interaktif maupun dengan mode 'batch processing'. HBase juga bergantung pada ZooKeeper dan dapat bekerjasama dengan MapReduce.
Kesimpulan
Rifwan Hamidi 135150200111149
http://vijjam.blogspot.co.id/2013/03/hbase-hyper-nosql-database.html
https://cs.brown.edu/courses/cs227/archives/2011/slides/mar14-hbase.pdf
Daftar Pustaka
Rifwan Hamidi 135150200111149