41
Analisis Performa Kecepatan Mapreduce Pada Hadoop Menggunakan TCP Packet Flow Analysis Priagung Khusumanegara 1006661084 Skripsi Teknik Komputer Universitas Indonesia Senin, 30 Juni

Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Embed Size (px)

Citation preview

Page 1: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Analisis Performa Kecepatan Mapreduce

Pada Hadoop Menggunakan TCP Packet Flow Analysis

Priagung Khusumanegara1006661084

Skripsi

Teknik KomputerUniversitas IndonesiaSenin, 30 Juni 2014

Page 2: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Latar Belakang

Referensi Gambar: http://technews.tmcnet.com/telecommunications/topics/telecommunications/articles/156051-what-att-purchase-t-mobile-means.htm

Page 3: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

1. Mengimplementasikan sebuah program untuk mengolah data aliran paket

TCP pada sebuah jaringan yang dapat dijalankan secara terditribusi oleh

Hadoop,

2. Melakukan percobaan terhadap enam skenario berdasarkan topologi yang

telah dirancang,

3. Melakukan analisis pengaruh physical node, virtual node, block size dan

jumlah slot map terhadap kecepatan MapReduce pada Hadoop.

Tujuan Penelitian

Page 4: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Hadoop Framework

Page 5: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Hadoop merupakan framework software

berbasis Java dan opensource yang

berfungsi untuk mengolah data yang

memiliki ukuran besar secara terdistribusi.

Pengertian Hadoop

Page 6: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Hadoop terdiri dari 2 komponen inti:

1.Hadoop Distributed File System (HDFS)

2.MapReduce

Arsitektur Hadoop

Gambar: Bagian inti Hadoop (a) komponen HDFS (b) komponen MapReduce

Referensi Gambar : JeongJin Cheon, Tae-Young Choe. Distributed Processing of Snort Alert Log using Hadoop. International Journal of Engineering and Technology (IJET), Gyeongbuk Korea, 2013.

HADOOP

HDFS MapReduce

Page 7: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

• File system pada Hadoop

• Menyimpan data secara terdisribusi

• Data disimpan dalam bentuk potongan-potongan (secara default

64 MB)

Hadoop Distributed File System (HDFS)

Referensi Gambar: http://www.cloudera.com/content/dam/cloudera/product-assets/hdfs-data-distribution.png

Gambar: Distribusi data pada HDFS

Page 8: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

HDFS memiliki 3 komponen utama berupa:

1.NameNode

2.DataNode

3.Secondary NameNode

Komponen HDFS

Gambar: Komponen HDFS

Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.

NameNodeSecondaryNameNode

DataNode

Node 1

DataNode

Node 2

DataNode

Node 3

DataNode

Node N

Page 9: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

1. NameNode

• Berada pada master node

• Mengkoordinasi DataNode yang terdapat pada slave node.

Komponen HDFS…Lanjutan…

Gambar: NameNode pada HDFS

Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.

File metadata:/user/hadoop/data1 -> 1,2,3/user/hadoop/data2 -> 4,5

NameNode(Master)

DataNode(Slave 1)

DataNode(Slave 2)

DataNode(Slave 3)

DataNode(Slave 4)

3

5 4

2

3

5

1

5 3

2 4

4 1

1 4

2

Page 10: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

2. DataNode

• Berada pada slave node

• Menyimpan data pada slave node.

Komponen HDFS…Lanjutan…

Gambar: DataNode pada HDFS

File metadata:/user/hadoop/data1 -> 1,2,3/user/hadoop/data2 -> 4,5

NameNode(Master)

DataNode(Slave 1)

DataNode(Slave 2)

DataNode(Slave 3)

DataNode(Slave 4)

3

5 4

2

3

5

1

5 3

2 4

4 1

1 4

2

Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.

Page 11: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

3. Secondary NameNode

• Berada pada master node

• Melakukan monitoring keadaan dari cluster HDFS.

Komponen HDFS…Lanjutan…

Gambar: Secondary NameNode pada HDFS

NameNodeSecondaryNameNode

DataNode

Node 1

DataNode

Node 2

DataNode

Node 3

DataNode

Node N

Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.

Page 12: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

• Framework untuk aplikasi dan programming yang digunakan Hadoop

• Melakukan suatu pekerjaan dari komputasi terdistribusi yang dijalankan

pada sebuah cluster.

• Proses utama : Map dan Reduce

Mapreduce

Gambar: Bagian inti Hadoop (a) komponen HDFS (b) komponen MapReduce

HADOOP

HDFS MapReduce

Referensi Gambar : JeongJin Cheon, Tae-Young Choe. Distributed Processing of Snort Alert Log using Hadoop. International Journal of Engineering and Technology (IJET), Gyeongbuk Korea, 2013.

Page 13: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Shuffle ReduceMap

Proses Mapreduce

Referensi Gambar : The overall MapReduce WordCount process, http://www.rabidgremlin.com/data20/#%283%29. Dikases pada tanggal 30 Oktober 2013.

Apple, Mango, OrangeMango, Banana, AppleOrange, Banana, Apple

Apple, 1Mango, 1Orange, 1

Mango, 1Banana, 1Apple, 1

Orange, 1Banana, 1Apple, 1

Apple, 1Mango, 1Orange, 1

Mango, 1Banana, 1Apple, 1

Orange, 1Banana, 1Apple, 1

Apple, 1Apple, 1Apple, 1

Banana, 1Banana, 1

Mango, 1Mango, 1

Orange, 1Orange, 1

Apple, 1Apple, 1Apple, 1

Banana, 1Banana, 1

Mango, 1Mango, 1

Orange, 1Orange, 1

Apple, 3

Banana, 2

Mango, 2

Orange, 2

Gambar 2.4 Proses MapReduce pada Hadoop

Page 14: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Komponen MapReduce pada Hadoop yaitu:

1.JobTracker

2.TaskTracker

Komponen Mapreduce

Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.

Gambar: Komponen MapReduce

Page 15: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

1. JobTracker

• Memecah permintaan yang diberikan ke HDFS menjadi beberapa pekerjaan

yang lebih kecil.

• Memberikan pekerjaan tersebut kepada setiap slave node.

Komponen Mapreduce…Lanjutan…

Gambar: Komponen MapReduce

Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.

Page 16: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

2. Tasktracker

• Berfungsi untuk menerima pekerjaan yang diberikan oleh JobTracker.

• Menjalankan pekerjaan yang diberikan JobTracker.

Komponen Mapreduce…Lanjutan…

Gambar: Kerja TaskTracker pada setiap node

Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.

Page 17: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Perancangan, Hasil, dan Analisa

Page 18: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

TCP Packet Flow Analysis• Menganalisis aliran paket yang terdapat pada sebuah jaringan

menggunakan Hadoop.

• Program yang menggunakan konsep MapReduce.

Gambar: Contoh file yang akan diproses

Page 19: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

TCP Packet Flow Analysis…Lanjutan…

A

Split a string into separate

“hasilPecahInput”

Start

If hasilPecahInput [2] > 1

Reads the input line by

line

Create token for hasilPecahInput[2]

and hasilPecahInput[4]

Set keyword: Koneksi protokol

“hasilPecahInput[6]”

While: token available

Set keyword: Koneksi “hasilPecahInput[2]”

dan “hasilPecahInput[4]”

Protokol “hasilPecahInput[6]”

Set lengthValue from value of

hasilPecahInput[1]

Create a pair <keyword,”Packet”,

one>

YesNo

Yes

No

Gambar: Flowchart TCP Packet Flow Analysis

Page 20: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

TCP Packet Flow Analysis…Lanjutan…

Gambar: Hasil dari TCP Packet Flow Analysis (a) packet total (b) packet length

Page 21: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Skenario 1

Hardware Laptop 1 Laptop 2

CPU AMD Dual Core,

Clock Speed 1.48 GHz Intel Dual Core,

Clock Speed 2.0 GHz RAM 4.00 GB 4.00 GB

Sistem Operasi CentOS 6.3 CentOS 6.3

Gambar: Topologi Skenario 1

Tabel: Spesifikasi machine yang digunakan pada skenario 1

Page 22: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Hasil Skenario 1

Page 23: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Skenario 2

Hardware Host VM 1 VM 2

CPU AMD Dual Core,

Clock Speed 1.48 GHz One Core One Core

RAM 4.00 GB 1.00 GB 1.00 GB Sistem Operasi CentOS 6.3 CentOS 6.3 CentOS 6.3

Gambar: Topologi Skenario 2

Tabel: Spesifikasi machine yang digunakan pada skenario 2

Page 24: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Hasil Skenario 2

Page 25: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Skenario 3

Hardware Laptop 1 CPU AMD Dual Core, Clock Speed 1.48 GHz RAM 4.00 GB

Sistem Operasi CentOS 6.3

Gambar: Pembagian block size pada Hadoop yang dijalankan secara single node

Tabel: Spesifikasi machine yang digunakan pada skenario 3

Page 26: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Hasil Skenario 3

Page 27: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Analisis Skenario 3

Gambar: Jumlah task pada file 1 GB dengan (a) block size 64 MB (b) block size 128 MB

Gambar: Komunikasi antara scheduler, JobTracker, dan TaskTracker

Page 28: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Analisis Skenario 3…Lanjutan…

Gambar: Proses MapReduce pada ukuran file 512 MB dengan block size 256 MB

Gambar: Proses MapReduce pada ukuran file 512 MB dengan block size 256 MB

Page 29: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Skenario 4

Hardware Laptop 1 Laptop 2

CPU AMD Dual Core,

Clock Speed 1.48 GHz Intel Dual Core,

Clock Speed 2.0 GHz RAM 4.00 GB 4.00 GB

Sistem Operasi CentOS 6.3 CentOS 6.3

Gambar: Pembagian block size pada Hadoop yang dijalankan secara multi node

Tabel: Spesifikasi machine yang digunakan pada skenario 4

Page 30: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Hasil Skenario 4

Page 31: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Analisis Skenario 4

Gambar: Jumlah task pada file 512 GB dengan block size 128 MB

Gambar: Proses MapReduce pada ukuran file 512 MB dengan block size 128 MB

Page 32: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Skenario 5

Hardware Laptop 1 CPU AMD Dual Core, Clock Speed 1.48 GHz RAM 4.00 GB

Sistem Operasi CentOS 6.3

Gambar: Gambaran slot map pada Hadoop

Tabel: Spesifikasi machine yang digunakan pada skenario 5

Page 33: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Hasil Skenario 5

Page 34: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Skenario 6

Hardware PC

CPU Intel i7-2600 , Clock Speed 3.4 GHz

RAM 4.00 GB

Sistem Operasi CentOS 6.3

Gambar: Topologi Skenario 6

Tabel: Spesifikasi machine yang digunakan pada skenario 6

Page 35: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Hasil Skenario 6

Page 36: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

1. Penambahan jumlah physical machine dapat mempercepat kecepatan rata-rata

MapReduce.

2. Penambahan jumlah virtual machine dapat memperlambat kecepatan rata-rata

MapReduce.

3. Block size dapat mempengaruhi kecepatan MapReduce pada Hadoop, semakin

besar block size maka semakin cepat kecepatan MapReduce pada Hadoop

dengan syarat: number of task > slot map

Kesimpulan

Page 37: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

4. Jumlah slot map dapat mempengaruhi kecepatan MapReduce pada Hadoop,

dimana performa kecepatan MapReduce lebih cepat jika jumlah slot map pada

Hadoop sesuai dengan jumlah core yang dimiliki oleh machine.

5. Hadoop memiliki keunggulan dalam mengolah data yang memiliki ukuran yang

besar dan jumlah yang banyak karena Hadoop dapat mengolah data tersebut

secara terdistribusi.

Kesimpulan…Lanjutan…

Page 38: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

1. Leslie Lamport and Nancy Lynch. (1989, February 3). Chapter on Distributed Computing.2. Chuck Lam. (2011). Hadoop In Action. Stamford: Mainning Publications Co.3. Tom White. (2009). Hadoop: The Definitive Guide. California: O’Reilly.4. Garry Turkington. (2013). Hadoop Beginner's Guide. Birmingham: Packt Publishing.5. Shv, Hairong, SRadia, Chansler. (2010). The Hadoop Distributed File System. Jurnal IEEE.6. Intel Corporation. (2013). Optimizing Java* and Apache Hadoop* for Intel® Architecture.

USA: Intel Corporation.7. Apache TM Hadoop @ homepage. http://hadoop.apache.org/. Diakses 17 Oktober 2013.8. JeongJin Cheon, Tae-Young Choe. (2013). Distributed Processing of Snort Alert Log using

Hadoop. International Journal of Engineering and Technology (IJET).9. Aditya B. Patel, Manashvi Birla, Ushma Nair. (2012). Addressing Big Data Problem Using

Hadoop and Map Reduce. Nirma University International Conference On Engineering.

Daftar Referensi

Page 39: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

10. Amit Anand. (2013). Configuration Parameters dfs.Block.Size. Hadoop.11. Dima May. (2012). Hadoop Distributed File System (HDFS) Overview. coreservlets.com.12. Magang Industri. (2013). Definisi Cloud Computing. Meruvian.org Cloud Computing.13. Colin White. (2012, January). MapReduce and the Data Scientist. BI Research.14. R. David Idol. Large-Scale TCP Packet Flow Analysis for C Using Apache™ Hadoop.

University of North Carolina at Chapel Hill.15. Tutorial dan Konfigurasi Hadoop Single Node. 16. http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-

cluster/. Diakses pada tanggal 20 Oktober 2013.17. MapReduce Hadoop. http://www.yalescientific.org/2012/03/hadapt-yale-startup/. Diakses pada

tanggal 29 Oktober 2013.

Daftar Referensi…Lanjutan…

Page 40: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

18. Interaction between the JobTracker, TaskTracker and the Scheduler @ homepage. http://www.thecloudavenue.com/2011/11/interaction-between-jobtracker.html. Diakses pada tanggal 29 Oktober 2013.

19. The overall MapReduce WordCount process,20. http://www.rabidgremlin.com/data20/#%283%29. Diakses pada tanggal 30 Oktober 2013.21. Thinking in MapReduce, https://engineering.cerner.com/2013/07/thinking-in-mapreduce/.

Diakses pada tanggal 30 Oktober 2013.

Daftar Referensi…Lanjutan…

Page 41: Analisis performa kecepatan mapreduce pada hadoop menggunakan tcp packet flow analysis

Sekian…Terima Kasih…