19
Etu DW Offload 解放資料倉儲的運算效能 Etu Chris Lin Technical Consultant Dec. 20, 2012

Etu DW Offload 解放資料倉儲的運算效能

Embed Size (px)

DESCRIPTION

隨著企業資料量爆炸性地成長,現有資料倉儲系統面臨著前所未有的產出、效能、與成本效益之間的掙扎。Etu Appliance 巨量資料處理平台,以其運算與儲存合一、高效運算、線性擴充的特性,搭配Sqoop 與各傳統資料庫及資料倉儲界接的能力,可用遠低於擴充既有系統的成本,在更短的時間內完成相同的資料倉儲作業,釋放出寶貴的系統資源。

Citation preview

Etu DW Offload 解放資料倉儲的運算效能

Etu

Chris Lin

Technical Consultant

Dec. 20, 2012

2

自我介紹

林志樺 Chris – Etu 科技顧問

• 資料分析師及資料庫管理

• ERP 系統管理及技術支援

• ERP 系統導入顧問

• CCDH (Cloudera Certified Developer for

Hadoop)

3

大綱

• 資料倉儲系統在企業的定位

• 資料倉儲系統面臨的問題與挑戰

• Etu DW Offload 方案架構及效益

• 案例分享

4

資料倉儲系統在企業的定位

ERP CRM LOB APPs

S S RS

SSAS

BI 工具及平台

結構化資料來源

資料倉儲系統

Legacy 3rd party

5

資料倉儲系統面臨的問題 S S RS

SSAS

BI 工具及平台

結構化資料來源

資料倉儲系統

ERP CRM LOB APPs Legacy 3rd party ERP CRM LOB APPs 3rd party Legacy

ERP CRM LOB APPs 3rd party Legacy

結構化 資料倍增

Sensor

Logs

Device

非結構化 資料來源

非結構化 資料導入

資料倉儲系統擴充

報表產出時間變長

6

資料倉儲系統的挑戰

• 時效:當日資料要數日後方可取得

• 儲存:保存原始資料需大量儲存空間

• 擴充:單位儲存運算成本高但效益低

• 彈性:對於大量、半/非結構化資料處理不易

7

Hadoop 系統特色

• 儲存並處理巨量多結構化資料

• 內建資料與任務的容錯機制

• 執行資料分析程式於分散式系統上

• 線性的擴充能力

• 運行於商用伺服器,無需高端硬體

資料倉儲系統

8

資料處理方式比較

檔案系統

ETL 工具 或

Script

關聯式 資料庫

分散式 檔案系統

分散式 檔案系統

分散式 檔案系統

平行 運算

平行 運算

平行 運算

NoSQL NoSQL NoSQL

Scale Out (TB to PB)

Sca

le U

p

(up

to

TB

)

原始數據

資料處理

查詢應用

Hadoop 系統

9

資料倉儲系統卸載至 Hadoop

ERP CRM LOB

BI 工具及平台

結構化資料來源

資料倉儲系統

Sensor Logs Device

非結構化資料來源

Hadoop

10

資料倉儲系統卸載至 Hadoop 的好處

• 將資料接收及預處理作業移出,釋出資源

• 運用 Hadoop 平行運算的強大運算,提昇效能

• 透過 Hadoop 安全容錯的大量儲存,降低成本

• 藉由 Hadoop 保存完整的原始資料,拓展資料

倉儲提供資訊的深度及廣度

11

Etu Appliance 特色

• 為 Hadoop 任務量身訂做及最佳化:

高度整合、簡單佈署

高效處理、簡化使用

高度安全、簡易擴充

• Hadoop 最佳作業平台

12

Etu DW Offload 方案架構

IMAGE

Web

Log

Text

ERP

CRM

SCM

MapReduce

HDFS

Data Store Layer

Data Processing Layer

Pig Hive

ETL Languages

Etu DataFlow

Sqoop

FTP

Syslog

Aggregated

Dataset

BI Tools

DW

Hive Connector

13

Etu DW Offload 方案的效益

• 減少資料倉儲運算及儲存負荷

• 降低資料倉儲升級需求

• 提昇全程資料處理時間

• 加快企業策略反應速度

14

Etu DW Offload 方案的優勢

• 低學習曲線 Etu Appliance 包含的 Pig 與 Hive 語言,是以資料分析師的經驗設計與開發,學習難度低。除 Java 外,應用程式亦可使用 Python 等語言開發,適用範圍廣。

• 高企業整合性 Etu Appliance 包含與各資料庫界接之 JDBC/ODBC,資料流動性佳。

• 高系統與資料可用度 除了 Hadoop 容錯,Etu Appliance 還內建全系統 HA 機制, 提供更完整的保障。

15

Etu Appliance 系統與企業整合

BI 工具

結構化資料來源

資料倉儲系統

結構化與非結構化資料

Etu Appliance

Excel with Hive Connector

16

案例分享(電信商)

• 問題

話務資料在資料倉儲前的 ETL 處理耗時過長(數日),無

法即時發現門號欠費、盜用、超量等問題,影響營收

• 挑戰

當日資料於隔日上班前即可完成報表,以利即時提出反

應對策

17

案例分享(電信商)

話務 資料

Etu Appliance 平台

話務 資料

參照 資料

彙總 資料

BI 工具

ETL Tools

效益 時間 – 數天->數小時 資料 - 減量 90%

18

如果您只記得三件事

• Hadoop:Offload 資料倉儲的最佳平台

• Etu:最專業的 Hadoop 團隊;Etu Appliance:企業級

Hadoop 首選平台

• Etu DW Offload:以 Etu Appliance 為平台的 End-to-

End 資料倉儲卸載完整解決方案,協助您提昇資料倉儲工作

的效率,並降低資料倉儲升級的成本

19

www.etusolution.com [email protected] Taipei, Taiwan 318, Rueiguang Rd., Taipei 114, Taiwan T: +886 2 7720 1888 F: +886 2 8798 6069

Beijing, China Room B-26, Landgent Center, No. 24, East Third Ring Middle Rd., Beijing, China 100022 T: +86 10 8441 7988 F: +86 10 8441 7227

聯絡 Etu