34
Spark 2.0: What’s Next Reynold Xin @rxin Spark Conference Japan Feb 8, 2016

Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Embed Size (px)

Citation preview

Page 1: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Spark 2.0: What’s Next

Reynold Xin @rxin Spark Conference Japan Feb 8, 2016

Page 2: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Please put up your hand if you know what Spark is?

Page 3: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Put up your hand if you think your significant other know what Spark is? (girlfriend, boyfriend, wife, husband, …)

Page 4: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

This Talk

What is Spark? How are people using it? Spark 2.0

Page 5: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

open source data processing engine built around speed, ease of use, and sophisticated analytics

スピード、使いやすさ、洗練された分析を兼ね合わせた オープンソースのデータ処理エンジン

Page 6: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Page 7: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Page 8: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

About Databricks

Founded by creators of Spark & behind Spark development

Cloud Enterprise Spark Platform •  Cluster management, interactive notebooks,

dashboards, production jobs, data governance, security, …

Databricks について

Spark開発者とSpark開発を支持する人たちによって設立された

エンタープライズクラウド Spark プラットフォーム ・クラスタ管理、対話型ノートブック ・ダッシュボード、ジョブ生成 ・データガバナンス、セキュリティ

Page 9: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

2015: Great Year for Spark

Most active open source project in data (1000+ contributors)

New language: R

Widespread industry support & adoption

2015: Sparkにとって大きな年

データ上、最も活発なオープンソースプロジェクト (1000人以上の貢献者)

新しい言語 : R

幅広い業界サポートと採用

Page 10: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Meetup Groups: December 2014

source: meetup.com

Page 11: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Meetup Groups: December 2015

source: meetup.com

Tokyo Spark Meetup

Page 12: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

IBMはApache Spark の高度化へのコミットメントをアナウンス、次の10年で最も重要なオープンソースプロジェクトとなる可能性を秘めているという

Spark Or Hadoop – どちらがベストなビッグデータフレームワーク?

Apache Spark が人気急上昇だと 調査結果が示す

Page 13: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

How are people using Spark?

Page 14: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Diverse Runtime Environments HOW RESPONDENTS ARE

RUNNING SPARK

51%on a public cloud

MOST COMMON SPARK DEPLOYMENTENVIRONMENTS (CLUSTER MANAGERS)

48% 40% 11%Standalone mode YARN Mesos

Cluster Managers

さまざまな実行環境

Page 15: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Industries Using Spark

Other

Software(SaaS, Web, Mobile)

Consulting (IT)Retail,

e-Commerce

Advertising,Marketing, PR

Banking, Finance

Health, Medical,Pharmacy, Biotech

Carriers,Telecommunications

Education

Computers, Hardware

29.4%

17.7%

14.0%

9.6%

6.7%

6.5%

4.4%

4.4%

3.9%

3.5%

Sparkを利用している業界

ソフトウェア

コンサルティング (IT)

銀行、金融

コンピューター、ハードウェア

教育

健康、医療、薬剤、バイオテクノロジー

キャリア、通信

広告、 マーケティング、

PR

小売、eコマース

その他

Page 16: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Top Applications

29%

36%

40%

44%

52%

68%

Fraud Detection / Security

User-Facing Services

Log Processing

Recommendation

Data Warehousing

Business Intelligence ビジネスインテリジェンス

データウェアハウジング

レコメンデーション

ログ処理

ユーザー向けサービス

不正検出 / セキュリティ

上位のアプリケーション

Page 17: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Are we done?

No. Development is faster than ever!

もう完成?

いいえ。開発は今まで以上に活発になって続いている!

Page 18: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

2012

started @

Berkeley

2010

research paper

2013

Databricks started

& donated to ASF

2014

Spark 1.0 & libraries (SQL, ML, GraphX)

2015

DataFrames Tungsten

ML Pipelines

2016

Spark 2.0

Page 19: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

SQL Streaming MLlib

Spark Core (RDD)

GraphX

Spark stack diagram Sparkのスタック図

Page 20: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Frontend (user facing APIs)

Backend (execution)

Spark stack diagram (a different take)

Sparkのスタック図 (違う見方で)

フロントエンド (ユーザーに面するAPI)

バックエンド (実行)

Page 21: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Frontend (RDD, DataFrame, ML pipelines, …)

Backend (scheduler, shuffle, operators, …)

Spark stack diagram (a different take)

Sparkのスタック図 (違う見方で)

フロントエンド (RDD, DataFrame, ML pipelines, …)

バックエンド (スケジューラ、

シャッフル、演算子、…)

Page 22: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Frontend API Foundation

Streaming

DataFrame/Dataset SQL

Backend 10X Performance

Whole-stage Codegen

Vectorization

Spark 2.0

フロントエンド API の創設

ストリーミング DataFrame/Dataset

SQL

バックエンド 10倍のパフォーマンス

全ステージ コード生成 ベクトル化

Page 23: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Guiding Principles for API Foundation

1.  Simple yet expressive

2.  (Semantics) well-defined

3.  Sufficiently abstracted to allow optimized backends

API を創るにあたっての指針

シンプルだが表現豊かに

(セマンティクスが) 十分定義されている

バックエンドの最適化ができるよう十分に抽象化されている

Page 24: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Java/Scala frontend

JVM backend

RDD

DataFrame frontend

Logical Plan

Physical execution

Catalyst optimizer

DataFrame

Page 25: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Python Java/Scala SQL

DataFrame Logical Plan

JVM Tungsten …

Page 26: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

API Foundations in Spark 2.0

1.  Streaming DataFrames

2.  Maturing and merging DataFrame and Dataset

3.  ANSI SQL •  natural join, subquery, view support

Spark 2.0 におけるAPIの創設

ストリーミング DataFrames

DataFrame と Dataset の成熟とマージ

自然結合、サブクエリ、ビューのサポート

Page 27: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Challenges with Stream Processing

Stream processing is hard to reason about •  Output over time •  Late data •  Failures •  Distribution

And all this has to work across complex operations

•  Windows, sessions, aggregation, etc

ストリーム処理に関する課題

ストリーム処理が難しい理由は ・長い期間に渡るアウトプット ・遅れてくるデータ ・障害 ・分散

これらすべてが複雑なオペレーションにわたって機能しなければならない ・ウィンドウ、セッション、アグリゲーション、など

Page 28: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Next-gen Streaming with DataFrames

1.  Easy-to-use APIs (batch, streaming, and interactive)

2.  Well-defined semantics •  Out-of-order data •  Failures •  Sources/sinks with exactly-once semantics

3.  Leverages Tungsten backend

DataFramesによる次世代ストリーミング

1. 使いやすいAPI (バッチ、ストリーミング、インタラクティブ) 2. うまく定義されたセマンティクス ・順序通りでないデータ ・障害 ・exactly-once セマンティクスを持つ source / sink

3. Tungsten バックエンドの利用

Page 29: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Next-gen Streaming with DataFrames

1.  Easy-to-use APIs (batch, streaming, and interactive)

2.  Well-defined semantics •  Out-of-order data •  Failures •  Sources/sinks with exactly-once semantics

3.  Leverages Tungsten backend

DataFramesによる次世代ストリーミング

1. 使いやすいAPI (バッチ、ストリーミング、インタラクティブ) 2. うまく定義されたセマンティクス ・順序通りでないデータ ・障害 ・exactly-once セマンティクスを持つ source / sink

3. Tungsten バックエンドの利用

More details next few weeks 数週間後により詳細を

Page 30: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Spark is already pretty fast.

Can we make it 10X faster in 2.0?

Spark はすでにかなり速い

2.0 で 10 倍高速にできるのだろうか?

Page 31: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Spark 1.6 13.95 million rows/sec

Spark 2.0 work-in-progress

125 million rows/sec

High throughput 高スループット

Teaser: SQL/DataFrame Performance

come to my talk this afternoon to learn more 詳しく知りたいようでしたら午後のわたしの話を聞きに来てください

少しだけ宣伝: SQL/DataFrame のパフォーマンス

Page 32: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Tungsten Execution

Python SQL R Streaming

DataFrame (& Dataset)

Advanced Analytics

Page 33: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

Spark 2.0 Release Schedule

Under active development on GitHub March – April: code freeze April – May: official release

Spark 2.0 のリリーススケジュール

GitHub 上で活発に開発中

3月-4月 : コードフリーズ

4月-5月 : 正式リリース

Page 34: Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)

ありがとうございました @rxin