21
XỬ LÝ DỮ LIỆU SONG SONG & PHÂN TÁN VỚI HADOOP Trình bày: Nguyễn Minh Quý Bộ môn: CNPM – Khoa CNTT [email protected]

XỬ LÝ DỮ LIỆU SONG SONG & PHÂN TÁN VỚI HADOOP

  • Upload
    lexine

  • View
    181

  • Download
    20

Embed Size (px)

DESCRIPTION

XỬ LÝ DỮ LIỆU SONG SONG & PHÂN TÁN VỚI HADOOP. Trình bày: Nguyễn Minh Quý Bộ môn: CNPM – Khoa CNTT [email protected]. Đặt vấn đề. Bạn từng xử lý dữ liệu có kích thước lớn nhất là bao nhiêu MB/GB? Bạn dùng hệ quản trị cơ sở dữ liệu nào để lưu trữ? Access, SQL, MySQL hay Oracle?. - PowerPoint PPT Presentation

Citation preview

Page 1: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

XỬ LÝ DỮ LIỆU SONG SONG & PHÂN TÁN

VỚI HADOOP

Trình bày: Nguyễn Minh QuýBộ môn: CNPM – Khoa CNTT

[email protected]

Page 2: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

Đặt vấn đề Bạn từng xử lý dữ liệu có kích thước lớn nhất là bao

nhiêu MB/GB? Bạn dùng hệ quản trị cơ sở dữ liệu nào để lưu trữ?

Access, SQL, MySQL hay Oracle?. Giới hạn kích thước cơ sở dữ liệu trong SQL Server

(Bản SQL Server Express) là bao nhiêu GB? Các công cụ và môi trường bạn biết/làm việc có thể xử

lý dữ liệu lên đến hàng ngàn, thậm chí hàng triệu, hàng tỉ GB được không?

Copy 1 triệu GB qua mạng LAN Gigabit hết bao lâu?

Page 3: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

Đặt vấn đề Bạn từng xử lý dữ liệu có kích thước lớn nhất là

bao nhiêu MB/GB? Bạn dùng hệ quản trị cơ sở dữ liệu nào để lưu

trữ? Access, SQL, MySQL hay Oracle?.

Giới hạn kích thước cơ sở dữ liệu trong SQL Server (Bản SQL Server Express) là bao nhiêu GB?

Các công cụ và môi trường bạn biết/làm việc có thể xử lý dữ liệu lên đến hàng ngàn, thậm chí hàng triệu, hàng tỉ GB được không?

Copy 1 triệu GB qua mạng LAN Gigabit hết bao lâu?

Giải quyết??

Page 4: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

Nội dung HADOOP

Giới thiệu về Hadoop Các thành phần trong Hadoop Cấu hình và chạy Hadoop Demo chương trình đếm từ trong văn bản So sánh tốc độ với chương trình chạy trên máy đơn

Page 5: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

Giới thiệu Hadoop Hadoop là một hệ thống lưu trữ, xử lý dữ liệu

song song và phân tán. Được Google phát triển từ năm 2002 Hiện có nhiều tổ chức và công ty lớn sử dụng:

Yahoo, Google, Facebook,… Năm 2009, Hadoop đã giành chiến thắng khi

sắp xếp 1 terabyte (=1000GB) dữ liệu trong vòng 209s, phá kỷ lục trước đó là 297s.

Page 6: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

Giới thiệu Hadoop Lưu trữ dữ liệu phân tán trên hệ thống

Hadoop Distributed File System (HDFS)

Mỗi Block có kích thước 64, 128,… MB

Page 7: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

Giới thiệu Hadoop Xử lý song song và phân tán trên các nút

Chương trình java sẽ được copy xuống các node và việc xử lý sẽ diễn ra tại node

Page 8: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

Kiến trúc của Hadoop

Page 9: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

Kiến trúc của HDFS

Page 10: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

MapReduce framework

- Map phase: Chuyển dữ liệu ban

đầu thành các cặp <Key, Value> bằng hàm Map

- Reduce phase: Tổng hợp/tính toán

trên danh sách <Key, Value> từ Map phase và tạo ra kết quả cuối cùng. Bằng hàm Reduce

Page 11: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

CÀI ĐẶT VÀ CẤU HÌNH HADOOP Cài đặt hadoop

Chỉ việc download Hadoop tại địa chỉ (v1.1):http://mirrors.digipower.vn/apache/hadoop/common/hadoop-1.1.0/hadoop-1.1.0.tar.gz

Giải nén và copy vào thư mục bất kỳ, ví dụ /home/hadoop

Đặt thông số cho các file cấu hình trong thư mục /conf của hadoop, gồm: core-site.xml, mapred-site.xml, hdfs-site.xml, masters, slaves

Page 12: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

CÀI ĐẶT VÀ CẤU HÌNH HADOOP Cấu hình các file (Ví dụ có 3 nodes, 1 là nút

master: 192.168.1.10, 2 nút còn lại là slaves: 192.168.1.11 và 192.1.12).

Page 13: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

Cấu hình cho mô hình Hadoop có 1 master và 2 slaves (node)

Master nodeIP: 192.168.1.10

Slave1 (Data node)IP: 192.168.1.11 Slave2 (Data node)

IP: 192.168.1.12

Page 14: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

Cấu hình cho mô hình Hadoop có 1 master và 2 slaves (node)

Master nodeIP: 192.168.1.10

Slave1 (Data node)IP: 192.168.1.11 Slave2 (Data node)

IP: 192.168.1.12

Step 1: Sửa file /etc/hostsTrên cả 3 nodes

Page 15: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

Cấu hình cho mô hình Hadoop có 1 master và 2 slaves (node)

Master nodeIP: 192.168.1.10

Slave1 (Data node)IP: 192.168.1.11

Slave2 (Data node)IP: 192.168.1.12

Thêm đường dẫn đến Java trong file /etc/bash.bashrc trên cả 3 nodesexport HADOOP_HOME=/home/quynm/hadoopexport JAVA_HOME=/usr/lib/jvmexport HIVE_HOME=/home/quynm/hive-0.8.1

export PATH=$PATH:$JAVA_HOME/binexport PATH=$PATH:$HADOOP_HOME/binexport PATH=$PATH:$HIVE_HOME/bin

STEP 2:

Page 16: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

Cấu hình cho mô hình Hadoop có 1 master và 2 slaves (node)

Master nodeIP: 192.168.1.10

Slave1 (Data node)IP: 192.168.1.11 Slave2 (Data node)

IP: 192.168.1.12

Core-site.xml <name>fs.default.name</name><value>hdfs://master:54310</value>

Hdfs-site.xml <name>dfs.replication</name><value>2</value>

Mapred-site.xml <name>mapred.job.tracker</name><value>hdfs://master:54311</value>

Masters Master

Slaves Slave1Slave2

Đặt giá trị một số thuộc tính trong file cấu hình ở cả 3 Nodes

Page 17: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

Chạy chương trình Hadoop Biên dịch chương trình viết trong Java sang file rar. Vd: Chạy chương trình wordcount (có sẵn trong

hadoop) B1.Copy file lên server: hadoop dfs -copyFromLocal

/home/quynm/hadoop/wordcountdata/ /user/root/

B2.Chạy: hadoop jar /home/quynm/hadoop/hadoop-examples-1.0.0.jar wordcount /user/root/wordcountdata /user/root/wordcount-out

Page 18: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

Màn hình chạy Hadoop

Page 19: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

Xem tiến trình xử lý trên web

Page 20: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

So sánh tốc độ với chương trình chạy trên máy đơn Chạy bộ dữ liệu lớn (lên đến 240 triệu bản

ghi) chứa các Flows gói tin trong mạng.

InternetLAN

WANHadoop Data nodes

Hadoop Namenode

Flow export enabled

Flow export enabledFlow export enabled

Page 21: XỬ LÝ DỮ LIỆU  SONG SONG & PHÂN TÁN VỚI HADOOP

So sánh (Benchmark)

Kết quả thử nghiệm