66
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. John Chang ( 張書源 ) Technology Evangelist Amazon Web Services March 2017 大數據入門 深入淺出 AWS 大數據工具

深入淺出 AWS 大數據工具

Embed Size (px)

Citation preview

Page 1: 深入淺出 AWS 大數據工具

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

John Chang (張書源 )Technology EvangelistAmazon Web Services

March 2017

大數據入門

深入淺出 AWS 大數據工具

Page 2: 深入淺出 AWS 大數據工具

贊助廠商

Page 3: 深入淺出 AWS 大數據工具

§Build an entire analytics application to power your business§Scale Hadoop cluster to thousands of instances in minutes§Leverage powerful AWS compute instances using Intel technology

Big Data Spotlight: Analytics

Page 4: 深入淺出 AWS 大數據工具

大綱

• AWS 大數據應用介紹

• AWS 上的大數據分析選項• 使用模式和不適合的使用模式

• 效能與成本

• 耐用性與擴充能力

• 介面

• 建置大數據分析解決方案— AWS 的方法

• 範例方案

Page 5: 深入淺出 AWS 大數據工具

大數據 (Big Data)用於批次或即時

有效處理任何規模的大量數據的技術與技巧.

Page 6: 深入淺出 AWS 大數據工具

速度(Velocity)

大量(Volume)

多樣(Variety)

大數據的 3V

Page 7: 深入淺出 AWS 大數據工具

GB TBPB

ZB

EB

大數據: 沒有成長的限制

• 非結構化資料呈現爆炸性的成長

• 數位匯流 1.2 ZB 資料中,95% 的資料是非結構化的

• 來自機器的資料與物聯網會讓這曲線更顯著

• 70% 的資料由用戶產生

Source: IDC, The Internet of Things: Getting Ready to Embrace Its Impact on the Digital Economy, March 2016.

Page 8: 深入淺出 AWS 大數據工具

為何建立大數據解決方案?

Security threat detection

User Behavior Analysis

Smart Application (Machine Learning)

Business Intelligence

Fraud detection

Financial Modeling and Forecasting

Spending optimization

Real-time alerting

更快獲得答案而且可以找出目前未發現的問題

Page 9: 深入淺出 AWS 大數據工具

關聯式

NoSQL

Web 伺服器

Mobile phones/Tablets

3rd party feeds

IoT

Clickstream

來源

Big Data 資料來源

Page 10: 深入淺出 AWS 大數據工具

結構化

非結構化

文字

二進位

即時/接近即時

批次

格式

大數據格式與速度 (Velocity)

速度

Page 11: 深入淺出 AWS 大數據工具

彈性與高度延展性

無需前期資本費用

只需支付實際用量+

+

隨時根據需求提供+

= 雲端,移除了導入大數據的門檻

Page 12: 深入淺出 AWS 大數據工具

為大數據打造的AWS 雲端平台

Page 13: 深入淺出 AWS 大數據工具

並非一個工具可以駕馭全部

Page 14: 深入淺出 AWS 大數據工具

輸入/搜集

使用/視覺化

儲存 處理/分析

資料1 4

0 95

洞察結果

從這裡開始WITH A BUSINESS CASE

Page 15: 深入淺出 AWS 大數據工具

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

AWS Big Data 服務

Page 16: 深入淺出 AWS 大數據工具

AWS Big Data 平台

EMR EC2

Glacier

S3

Import Export

Kinesis

Direct Connect

Machine LearningRedshift

DynamoDB

AWS Database Migration Service

搜集 彙整 儲存 分析

AWS Lambda

AWS IoT

AWS Data Pipeline

Amazon Kinesis Analytics

AmazonSNS

AWS Snowball

AmazonSWF

Amazon Athena

Amazon QuickSight

Amazon AuroraAWS Glue

Page 17: 深入淺出 AWS 大數據工具

參考架構: Data Lake

AthenaGlue

Page 18: 深入淺出 AWS 大數據工具

建立大數據應用程式

web clients

mobile clients

DBMS Amazon Redshift

AWS Cloudcorporate data center

使用 Amazon Redshift 建立資料倉儲

Page 19: 深入淺出 AWS 大數據工具

PB 級規模

大量平行處理

關聯式資料倉儲

完全受管,無需任何管理作業

低達 $1,000/TB/年

快上許多便宜許多簡單許多

Amazon Redshift

Page 20: 深入淺出 AWS 大數據工具

Amazon Redshift• 理想的使用模式—分析

• 銷售資料

• 歷史資料

• 博弈資料

• 社會發展趨勢

• 廣告資料

• 效能• 大量平行處理

• 直欄式儲存

• 資料壓縮

• 區域圖

• 直接連接儲存

• 成本模型• 不需支付前期成本或長期投入

• 免費備份儲存等於 100% 的佈建儲存

使用直欄式儲存時,只需讀取所要的資料

Page 21: 深入淺出 AWS 大數據工具

Amazon Redshift

• 可擴展性與彈性• 調整規模或擴展—只要按幾下就能變更節點的數目或類型

• 耐用性與可用性• 複寫

• 備份

• 從故障的磁碟和節點自動復原

• 介面• JDBC/ODBC 介面 (包含 BI/ETL 工具)• Amazon S3 或 DynamoDB

• 不適合的使用模式• 小型資料集

• OLTP• 非結構化資料

• BLOB 資料

10 GigE(HPC)

擷取備份還原

JDBC/ODBC

Page 22: 深入淺出 AWS 大數據工具

你的 (大數據) 資料要如何匯入AWS?

Page 23: 深入淺出 AWS 大數據工具

建立大數據應用程式

web clients

mobile clients

DBMS Amazon Redshift

AWS Cloudcorporate data center

Migrate your data to AWS

AWS Database Migration Service

AWS Direct Connect

AWS Import/Export& Snowball

Page 24: 深入淺出 AWS 大數據工具

• 10分鐘內開始你的第一個資料搬移

• 資料搬移期間你的 app 可以正常運作

• 可將資料搬移到執行在 Amazon EC2, Amazon

RDS, or Amazon Redshift上面的資料庫

AWSDatabase

Migration Service

Page 25: 深入淺出 AWS 大數據工具

你的 CEO 並不想直接看到SQL 查詢出來的結果

Page 26: 深入淺出 AWS 大數據工具

建置視覺化

進行專案性分析

透過Storyboard進行分享與協作

主要行動平台的原生存取功能

Amazon QuickSight

Page 27: 深入淺出 AWS 大數據工具

Amazon QuickSight 介紹

雲端驅動的商業智慧服務,

成本只需傳統 BI 軟體的 1/10

ü 不需 IT 介入。不需建置維度模型

ü 自動搜索所有 AWS 資料來源

ü 超快速、並行、記憶體內計算引擎 (SPICE)

ü 全受管

aws.amazon.com/quicksight

Page 28: 深入淺出 AWS 大數據工具

建立大數據應用程式

web clients

mobile clients

DBMS Amazon Redshift

Amazon QuickSight

AWS Cloudcorporate data center

使用 Amazon QuickSight 視覺化你的資料

AWS Database Migration Service

AWS Direct Connect

AWS Import/Export& Snowball

Page 29: 深入淺出 AWS 大數據工具

如果是非結構化資料?

如果你不需要所有的 raw data 怎麼辦?

如果你需要合併數個資料集怎麼辦?

Page 30: 深入淺出 AWS 大數據工具

事件驅動、全受管運算

不需管理基礎設施

自動擴展

AWS Lambda

Page 31: 深入淺出 AWS 大數據工具

AWS Lambda• 理想的使用模式

• 即時檔案處理

• 擷取、轉換、負載

• 效能• 處理事件只需幾毫秒的時間

• 成本模型• 按使用量付費• 不需管理執行個體,只要針對服務付費即可

• Lambda 免費方案包含 1 百萬次免費要求

1 2 3無伺服器 事件驅動擴展 次秒級計費

Page 32: 深入淺出 AWS 大數據工具

AWS Lambda• 耐用性與可用性

• 無維護空窗期或排程停機

• 如果失敗,非同步功能會重試 3 次

• 可擴展性與彈性

• 可執行任意數目的並行功能

• AWS Lambda 將動態分配容量以符合連入事件的速率。

• 介面

• Lambda 支援 Java、Node.js 和 Python• 透過事件或排程觸發

• 不適合的使用模式

• 長時間執行的應用程式

• Lambda 中保存狀態的應用程式

Page 33: 深入淺出 AWS 大數據工具

建立大數據應用程式

web clients

mobile clients

DBMS Amazon Redshift

Amazon QuickSight

AWS Cloud

使用 AWS Lambda 進行事件導向的資料轉換

corporate data center

AWS Lambda Structured DataIn Amazon S3

Raw dataIn Amazon S3

Page 34: 深入淺出 AWS 大數據工具

在大規模狀況下如何實施?

資料處理超過 timeout 時間怎麼辦?

Page 35: 深入淺出 AWS 大數據工具

快速啟動叢集

依小時付費,利用競價來節省成本

MapReduce、Apache Spark、

Presto

Amazon EMR

Page 36: 深入淺出 AWS 大數據工具

Amazon EMR• 理想的使用模式

• 記錄處理與分析

• 大型 ETL 與資料移動• 風險模型建置與威脅分析

• 廣告目標設定與點擊流分析

• 基因體

• 預測分析

• 非例行性資料採礦與分析

• 效能—驅動因子• 執行個體類型

• 執行個體的數目

• 成本模型

• 只針對叢集啟動的時數付費

• EC2 執行個體與 EMR 價格

Page 37: 深入淺出 AWS 大數據工具

Amazon EMR

• 可擴展性與彈性• 調整執行中叢集的規模

• 增加更多核心或任務節點

• 耐用性與可用性• 從屬節點的容錯能力 (HDFS) • 備份至 S3,以提供主節點故障時的復原能力

• 介面• Hive、Pig、Spark、Hbase、Impala、Hunk、

Presto、其他熱門的工具

• 不適合的使用模式• 小型資料集

• ACID (原子性、一致性、隔離與耐用性)

Amazon EMR 叢集

Amazon EMR 叢集

Amazon EMR 叢集

Page 38: 深入淺出 AWS 大數據工具

建立大數據應用程式

web clients

mobile clients

DBMS Amazon Redshift

Amazon QuickSight

AWS Cloud

使用Amazon EMR大規模轉換和探索數據

corporate data center

Amazon EMR Structured DataIn Amazon S3

Raw dataIn Amazon S3

Page 39: 深入淺出 AWS 大數據工具

當您探索新數據時,怎麼樣做即時查詢?

Page 40: 深入淺出 AWS 大數據工具

無伺服器互動式查詢服務

• 使用標準 SQL 輕鬆分析 Amazon S3 中的資料,不用設定和管理任何伺服器或資料倉儲

• 不需載入資料,直接從 S3 查詢

• 無須擔心是否有足夠的運算資源,可獲得快速的互動式查詢效能。

• 支援多種標準資料格式,包括 CSV、JSON、ORC、Avro 和Parquet。

• 只需支付所執行查詢掃描資料的費用。將資料壓縮、分割並轉換為單欄格式,則每個查詢的成本可節省 30% 到 90%,且可獲得較高的效能。

AmazonAthena

Page 41: 深入淺出 AWS 大數據工具

建立大數據應用程式使用 Amazon Athena 將您的資料倉儲擴展到 S3

web clients

mobile clients

DBMS

Raw dataIn Amazon S3

Amazon Redshift

Staging DataIn Amazon S3

Amazon QuickSight

AWS Cloudcorporate data center

Amazon EMR

Amazon Athena

Page 42: 深入淺出 AWS 大數據工具

建立大數據應用程式使用 Amazon Athena 將您的資料倉儲擴展到 S3

web clients

mobile clients

DBMS Amazon Redshift

Amazon QuickSight

AWS Cloudcorporate data center

Amazon EMR

Orc/Parquet in Amazon S3(Columnar Data Format)

Amazon EMR

Raw dataIn Amazon S3

Staging DataIn Amazon S3

Amazon Athena

Page 43: 深入淺出 AWS 大數據工具

如果我想要執行自訂的程式碼,或是多種應用程式框架怎麼辦?

Page 44: 深入淺出 AWS 大數據工具

建立大數據應用程式在 Amazon EMR 上使用 Presto, Spark SQL等, 將您的資料倉儲擴展到 S3

web clients

mobile clients

DBMS Amazon Redshift

Orc/Parquet in Amazon S3(Columnar Data Format)

Amazon QuickSight

AWS Cloudcorporate data center

Amazon EMR

Amazon EMR

Amazon EMR

Raw dataIn Amazon S3

Staging DataIn Amazon S3

Page 45: 深入淺出 AWS 大數據工具

即時資料該如何處理?

Page 46: 深入淺出 AWS 大數據工具

擷取串流資料

即時處理資料

每小時儲存 TB 級的資料Amazon Kinesis

Page 47: 深入淺出 AWS 大數據工具

Amazon Kinesis Streams

• 可擴展性與彈性

• 擴展—增加碎片數

• 耐用性與可用性

• 複寫

• 保留指標

• 介面

• 輸入—資料傳入• 輸出—資料傳出• Kinesis Firehose

• 不適合的使用模式

• 小規模的傳輸量一致• 長期資料儲存與分析

Page 48: 深入淺出 AWS 大數據工具

建立大數據應用程式

web clients

mobile clients

DBMS Amazon Redshift

Orc/Parquet(Columnar Data Format)

Amazon QuickSight

Amazon Kinesis Streams

AWS Cloud

使用 Amazon Kinesis 加上 Spark on Amazon EMR 建立即時資料層

corporate data center

Amazon EMR

Amazon EMR

Amazon EMR

Raw dataIn Amazon S3

Staging DataIn Amazon S3

Amazon Athena

Page 49: 深入淺出 AWS 大數據工具

建立大數據應用程式

web clients

mobile clients

DBMS Amazon Redshift

Amazon QuickSight

AWS Cloud

使用 Amazon Kinesis Analytics 與 AWS Lambda 響應即時資料

corporate data center

Amazon Kinesis Firehose

Amazon Kinesis Analytics

AWS Lambda

Amazon Kinesis Streams

Amazon SNS

Reference data in Amazon S3

Amazon Athena

Page 50: 深入淺出 AWS 大數據工具

建立大數據應用程式

web clients

mobile clients

DBMS Amazon Redshift

Amazon QuickSight

AWS Cloud

使用 Amazon Machine Learning 智能的響應即時資料

corporate data center

Amazon Kinesis Firehose

Amazon Kinesis Analytics

AWS Lambda

Amazon Kinesis Streams

Reference data in Amazon S3

Amazon Machine Learning

Amazon SNS

Amazon Athena

Page 51: 深入淺出 AWS 大數據工具

如果你需要透過加密或是網路隔離以符合業界法規準則該怎麼辦?

Page 52: 深入淺出 AWS 大數據工具

建立大數據應用程式

web clients

mobile clients

DBMS Amazon Redshift

Amazon QuickSight

Amazon Kinesis Streams

AWS Cloud

使用 AWS KMS 進行資料存放時加密

corporate data centerAWS KMS

Amazon EMR

Amazon EMR

Raw data in S3 Staging Data in S3

Orc/Parquet in Amazon S3(Columnar data)

Page 53: 深入淺出 AWS 大數據工具

建立大數據應用程式

web clients

mobile clients

DBMS Amazon Redshift

Amazon QuickSight

Amazon Kinesis Streams

AWS Cloud

AWS KMS

VPC subnet

SSL/TLS

SSL/TLS

資料傳輸保護與網路隔離

corporate data center

Raw data in S3 Staging Data in S3

Orc/Parquet in Amazon S3(Columnar data)

Page 54: 深入淺出 AWS 大數據工具

其他大數據服務

Page 55: 深入淺出 AWS 大數據工具

全受管式 NoSQL 資料庫

大規模處理時延遲時間僅單位

數毫秒範圍

支援文件與鍵值

AmazonDynamoDB

Page 56: 深入淺出 AWS 大數據工具

Amazon DynamoDB• 理想的使用模式

• 行動應用程式、遊戲、數位廣告投放、即時投票、感測器網路、記錄擷取

• 對Web 內容的存取控制、電子商務購物車• Web 工作階段管理

• 效能• SSD• 根據資料表計算的佈建傳輸量

• 可擴展性與彈性• 對儲存的資料量無限制• 提高或降低資料表的讀取和寫入容量

• 成本模型• 依用量計費• 佈建的吞吐容量 (每小時)• 已檢索資料的儲存 (每月每 GB)• 傳入或傳出的資料 (每月每 GB)

ü 每資料表的已佈建讀取/寫入效能。ü 透過主控台或 API 擴展的可預測高效能

Page 57: 深入淺出 AWS 大數據工具

受管服務的設計,可讓所有程度的開發人員輕鬆使用機器學習

採用 Amazon 內部資料科學家使用多年的 ML技術

Amazon Machine Learning使用可擴充而強大的實作產業標準 ML演算法

Amazon Machine Learning

Page 58: 深入淺出 AWS 大數據工具

快速建立 Elasticsearch 叢集

與 Logstash 和 Kibana 整合

無縫擴展 Elasticsearch 叢集

Amazon Elasticsearch

服務

Page 59: 深入淺出 AWS 大數據工具

Amazon Elasticsearch• 耐用性與可用性

• 區域意識• 自動與手動快照

• 可擴展性與彈性• 新增或移除執行個體• 隨資料增長修改 EBS 磁碟區

• 介面• AWS 管理主控台• API 的介面• SDK 的介面• Kibana 與 Logstash (ELK 堆疊)

• 不適合的使用模式• OLTP• 需要 5TB 以上儲存容量的工作負載

Elasticsearch + Logstash + Kibana = 即時分析與視覺化

Page 60: 深入淺出 AWS 大數據工具

AWS Glue

• 了解您的資料來源,準備數據以進行分析,並將其可靠地載入到資料存儲

• 完全託管的ETL服務

• 集中式數據目錄組織您的資料來源

• 自動產生資料轉換

• 靈活的工作排程和協調

• 內建整合S3,RDS,Redshift和任何符合JDBC的資料來源

• 支持您已知的工具和技術,如Python,Spark,Git和您最喜歡的整合開發環境(IDE)

aws.amazon.com/glue

Page 61: 深入淺出 AWS 大數據工具

視需要擴展與縮減規模

按使用量付費

多重選項

自造式大數據應用程式

Amazon EC2

Page 62: 深入淺出 AWS 大數據工具

web clients

mobile clients

DBMS Amazon Redshift

Amazon QuickSight

AWS Cloudcorporate data center

Amazon Kinesis Firehose

Amazon Kinesis Analytics

AWS Lambda

Amazon Kinesis Streams

Reference data in Amazon S3

Amazon Machine Learning

Amazon SNS

<這裡留給您的公司>

Amazon Athena

Page 63: 深入淺出 AWS 大數據工具

謝謝!

John Chang (張書源)Technology Evangelist

[email protected]

Page 64: 深入淺出 AWS 大數據工具

AWS Facebook Taiwan Page

Page 65: 深入淺出 AWS 大數據工具

請記得填寫問卷!

Page 66: 深入淺出 AWS 大數據工具

Q&A