ETL Big Data dengan Apache Hadoop

ETL Big Data dengan Apache Hadoop

syafrizaladi 24/06/2015

Beberapa tahun terakhir sektor organisasi publik dan pribadi membuat

keputusan strategis untuk mengubah Big Data menjadi data yang mempunyai

nilai, tantangan dalam penggalian nilai dari Big Data adalah

mentransformasikan data dari data mentah menjadi Informasi yang berguna

untuk kebutuhan dan tujuan Analisa Bisnis, proses ini dikenal sebagai Extract,

Transform & Load (ETL).

PROSES ETL

Sumber : Intel Hadoop

it was six men of Hindustan To learning much inclined,Who went to see the Elephant (Though all of them were blind),That each by observation Might satisfy his mind.

john godfrey saxe (1872)

QUOTES

Apache Hadoop untuk Big Data

Apache Hadoop

Apache Hadoop adalah software bebas dan open source, yang ditulis dalam kerangka bahasapemrograman Java untuk dijalankan secara terdistribusi dan skalabel. yang memungkinkan menjalankantugas komputasi intensif dalam mengolah data jumlah besar (Big Data, sekitar petabyte keatas) dikomputer cluster.

Pusat skalabilitas Apache Hadoop adalah MapReduce dibuat untuk memudahkan programmermemecahkan masalah paralel data, yang berfungsi untuk memecah data set menjadi bagian yang lebihkecil dan dapat di proses secara independen.

MapRecude membagi input data-set menjadi beberapa potongan data, masing-masing ditugaskansebagai map task yang dapat memproses data secara paralel. Setiap map task membaca input sebagaisatu set (kunci, nilai) data dan menghasilkan satu set transformasi (key, value) data sebagai output.MapReduce menggunakan mekanisme JobTracker dan TaskTracker untuk menjadwalkan task, memantaumereka, dan merestart proses apapun yang gagal.

Platform Apache Hadoop juga mencakup Hadoop Distributed System (HDFS), yang dirancang untukskalabilitas dan faulttolerance dala Berkas data.HDFS menyimpan file besar dengan membagi mereka kedalam blok (biasanya 64 atau 128 MB) dan mereplikasi blok pada tiga atau lebih server. HDFSmenyediakan API untuk aplikasi MapReduce untuk membaca dan menulis data secara paralel. Kapasitasdan kinerja dapat ditingkatkan dengan menambahkan Data Node, dan mekanisme NameNode tunggalmengelola data ketersediaan server penempatan dan monitor. HDFS Cluster saat ini mampu memprosesPetabytes data dalam ribuan node.

ARSITEKTUR HADOOP - ARSITEKTUR LOGIK


ARSITEKTUR HADOOP - ALIRAN PROSES

Split 0

Split 1


ARSITEKTUR HADOOP - ARSITEKTUR FISIK


Apache Flume Adalah sistem terdistribusi untuk mengumpulkan, menggabungkan,dan menggerakan data dalam jumlah besar dari berbagai sumber dalam HDFS ataumenyimpan data pusat lainnya. Enterprise biasanya mengumpulkan file log dalamserver aplikasi atau dalam sistem lain dan arsip file log untuk mematuhi aturan.Mampu untuk menelan dan menganalisis data tidak terstruktur atau semi-terstrukturHadoop dapat mengubah sumber data pasif menjadi aset yang berharga.

Hive Merupakan bahasa pemrograman yang menyederhanakan pengembanganaplikasi menggunakan MapReduce Framework. HiveQL adalah bahasa SQL danmendukung subset dari sintaks. Meskipun lambat, Hive sedang aktif dikembangkanoleh komunitas pengembang untuk mengaktifkan query-latency rendah pada ApacheHBase * dan HDFS. Pig Latin adalah bahasa pemrograman prosedural yangmenyediakan abstraksi tingkat tinggi untuk MapReduce. Anda dapat memperpanjangdengan Penggunaan Fungsi didefinisikan oleh user ditulis di Java, Python, dan bahasalainnya.

KOMPONEN HADOOP

KOMPONEN HADOOP

Sqoop adalah alat untuk mentransfer data antara Hadoop dan database relasional.Anda dapat menggunakan Sqoop untuk mengimpor data dari MySQL atau databaseOracle ke HDFS, berjalan MapReduce pada data, dan kemudian mengekspor datakembali ke RDBMS. mengotomatiskan Sqoop proses ini, menggunakan MapReduceuntuk mengimpor dan mengekspor data secara paralel dengan toleransi kesalahan.

Untuk HBase dan Hive adalah komponen berbayar termasuk dalam distribusiperangkat lunak Hadoop, Mereka menyediakan konektivitas dengan aplikasi SQLdengan menerjemahkan standar Query SQL ke perintah HiveQL yang dapat dieksekusipada data di HDFS atau HBase.

ODBC/JDBC

Connectors

ETL, ELT, ETLT dengan Apache Hadoop

TIGA FUNGSI ETL

Ekstrak data dari berbagai sumber data seperti Aplikasi ERP atau CRM1

Selama langkah ekstrak data, Anda mungkin perlu untuk mengumpulkan data dari beberapa sumbersistem dan dalam berbagai format file, seperti file datar dengan pembatas (CSV) dan file XML. Andajuga mungkin perlu untuk mengumpulkan data dari sistem yang menyimpan data dalam formatmisterius tidak ada orang lain menggunakan lagi. Ini terdengar mudah, namun sebenarnya dapatmenjadi salah satu kendala utama dalam mendapatkan solusi ETL dalam pengaplikasiannya.

2 Mengubah data ke dalam format umum yang cocok dengan data pada Data Warehouse

Langkah Transformasi termasuk beberapa data yang dimanipulasi, seperti menggerakan, membelah,menerjemahkan, menggabungan, memilah, memutar, dan banyak lagi. Sebagai contoh, namapelanggan mungkin dibagi menjadi nama pertama dan terakhir, atau tanggal mungkin berubahdengan standar Format ISO (misalnya, dari 07-24-13 untuk 2013/07/24). Seringkali langkah ini jugamelibatkan validasi data terhadap aturan kualitas data.

Load Data ke dalam Data Warehouse untuk Kebutuhan Analisa3

Langkah ini bisa dilakukan dalam proses batch atau baris demi baris, kurang lebih secara real time.

Sebelum ETL ada, satu-satunya cara untuk mengintegrasikan data dari berbagai sumber data yang berbeda adalahmenggunakan script dalam bahasa pemograman seperti COBOL, RPG, dan PL/SQL. Meskipun kuno tampaknya, 45persen dari semua pekerjaan ETL saat ini terselesaikan menggunakan cara tersebut. Meskipun cara tersebut rawankesalahan, lambat untuk dikembangkan, dan susah untuk pelihara, mereka memiliki pengguna setia yang tampaknyakebal terhadap pesona alat ETL, seperti Oracle Warehouse Builder.

Sebuah arsitektur ETL tradisional mengakomodasi beberapa iterasi ETL, dilakukan di area Staging, yang mendapatkandata dari sumber sistem secepat mungkin. Sebuah area staging dapat menggunakan database atau sekadar file CSV,yang membuat proses lebih cepat dari memasukkan data ke dalam tabel database. tambahan Iterasi ETL dapat diimplementasikan untuk mentransfer data dari Enterprise Data Warehouse dalam Data Mart, yang mendukung tujuananalisis tertentu dan alat untuk pengguna.

Perubahan dalam data warehousing selama dua dekade terakhir. Database telah menjadi jauh lebih kuat. mesinRDBMS sekarang mendukung transformasi kompleks SQL, termasuk di database data mining, di validasi database dankualitas data, pembersihan, profiling, algoritma statistik, fungsi hirarkis dan drill-down, dan lebih banyak. Hal ini telahmenjadi lebih efisien untuk melakukan sebagian besar jenis "Transformasi" dalam mesin RDBMS.

ELT muncul sebagai pendekatan alternatif dimana data diekstrak dari berbagai sumber, dimuat ke dalam targetdatabase, dan kemudian diubah dan diintegrasikan ke dalam format yang diinginkan. Semua data yang beratpengolahan berlangsung di dalam target database. Keuntungan dari pendekatan ini adalah bahwa sistem databaselebih cocok untuk penanganan beban kerja besar dimana ratusan juta catatan perlu diintegrasikan. Mesin RDBMSjuga dioptimalkan untuk disk I/O, meningkatkan throughput. Dan, selama hardware RDBMS dinaikan skala kinerjasistemnya.

StagingArea Data

Mart


PROSES TRADISIONAL ETL

KEUNTUNGAN TRADISIONAL ETLT

Memproses data dalam jumlah besar tanpa menentukan Skema1

Karakteristik utama dari Hadoop disebut "No Shcema on Write" yang berarti Anda tidak perlu pra-definisikanskema data sebelum pemuatan data ke Hadoop. Hal ini berlaku tidak hanya untuk Data terstruktur (sepertitransaksi point-of-sale, panggilan detail catatan, transaksi buku besar, dan transaksi call centre), tetapi juga untukdata yang tidak terstruktur (seperti komentar pengguna, catatan dokter, deskripsi mengklaim asuransi , dan weblog) dan data media sosial (dari situs seperti Facebook, LinkedIn, Pinterest, dan Twitter). tanpa memperhatikanapakah data yang masuk Anda memiliki struktur eksplisit atau implisit, Anda dapat dengan cepat memuat data kedalam Hadoop, dimana tersedia untuk proses analisa.

2 Offload transformasi data mentah oleh Pemrosesan Data Paralel

Setelah data berada di Hadoop (pada sistem file Hadoop-kompatibel), Anda dapat melakukan tugas-tugastradisional ETL seperti pembersihan tugas, normalisasi, menyelaraskan, dan menggabungkan data untukEnterprise Data Warehouse Anda dengan mempekerjakan skalabilitas besar MapReduce.

Hadoop memungkinkan Anda untuk menghindari hambatan transformasi data pada ETLT tradisional denganmengkonsumsi off-loading, transformasi, dan integrasi data tidak terstruktur ke dalam Data Warehouse Anda.Karena Hadoop memungkinkan Anda untuk merangkul tipe data lebih dari sebelumnya, memperkaya DataWarehouse Anda dengan cara yang sebaliknya menjadi tidak layak atau mahal. Karena kinerja terukur, Andadapat secara signifikan mempercepat pekerjaan ETLT. Selain itu, karena data yang disimpan dalam Hadoop dapatbertahan lebih lama, Anda dapat memberikan rincian data melalui EDW Anda untuk Analisa high-fidelity.

HADOOP ETL OFFLOAD


KESIMPULAN

Gelombang terbaru dari Trend Big Data adalah menghasilkan peluang baru dan tantangan

baru untuk bisnis pada setiap industri. tantangan data integrasi, menggabungkan data dari

media sosial dan lainnya dan data tidak terstruktur ke dalam lingkungan tradisional BI

adalah salah satu masalah yang paling mendesak yang dihadapi CIO dan Manajer IT.

Apache Hadoop memberikan Solusi platform hemat biaya dan terukur untuk memproses

Big Data dan mempersiapkannya untuk di analisis. Menggunakan Hadoop untuk Proses

ETL offload tradisional dapat mengurangi waktu dalam menganalisa Data baik jam atau

bahkan berhari-hari. Menjalankan cluster Hadoop berarti efisien & optimal dalam

infrastruktur server, storage, jaringan, dan perangkat lunak.

THANK YOU

Data & Analytics

ETL Big Data dengan Apache Hadoop