35
HADOOP / SPARK CONFERENCE JAPAN 2016

Hadoop / Spark Conference Japan 2016 参加報告

Embed Size (px)

Citation preview

Page 1: Hadoop / Spark Conference Japan 2016 参加報告

HADOOP / SPARK CONFERENCE JAPAN 2016参加報告

Page 2: Hadoop / Spark Conference Japan 2016 参加報告

講演・LTのプログラム

http://hadoop.apache.jp/hcj2016-program/

Page 3: Hadoop / Spark Conference Japan 2016 参加報告

基調講演

ご挨拶、Hadoopを取り巻く環境2016Hadoopの現在と未来Yahoo!Japanのデータプラットフォームの 全体像と未来

Page 4: Hadoop / Spark Conference Japan 2016 参加報告

基調講演

ご挨拶、Hadoopを取り巻く環境2016Hadoopの現在と未来Yahoo!Japanのデータプラットフォームの 全体像と未来

Page 5: Hadoop / Spark Conference Japan 2016 参加報告

今回のHCJ

Hadoop10周年Hadoop Conference Japan 6回目、7年目1347人が参加、そのうち63%が初参加Spark Conference初開催

Page 6: Hadoop / Spark Conference Japan 2016 参加報告

多様化するHADOOP

多数のディストリビューション・周辺ミドルウェア

今はHadoopにとって過渡期かつてはLinuxも同じ状況だった徐々に収束していくはず

Page 7: Hadoop / Spark Conference Japan 2016 参加報告

基調講演

ご挨拶、Hadoopを取り巻く環境2016Hadoopの現在と未来Yahoo!Japanのデータプラットフォームの 全体像と未来

Page 8: Hadoop / Spark Conference Japan 2016 参加報告

HADOOPの過去

Hadoopとは?複数のサーバを束ねてひとつの処理システムとして透過的に扱うシステム

従来はHDFS+MapReduceHadoopを皮切りに他にも様々な分散処理系が登場

e.x. Spark, Hive, Storm ...昔はHadoop≒MapReduce

Page 9: Hadoop / Spark Conference Japan 2016 参加報告

HADOOPの現在

YARNリソース管理のミドルウェアMapReduceもYARN上で動作する一処理系でしかなくなる

得意な処理系が得意なタスクをやる

今はHadoop≒YARN

Page 10: Hadoop / Spark Conference Japan 2016 参加報告

HADOOPの未来

現在の分散処理ミドルウェアは

従来のハードウェアを想定

CPU, メモリ, HDD新しいハードウェアの登場

CPU => GPU, FPGAGoogle TensorFlow, Microsoft Project Catapult

メモリ => NVMHDD => SSD

Apache KuduYARNも様々な計算リソースに対応する データセンターOSとして進化を遂げていく

Page 11: Hadoop / Spark Conference Japan 2016 参加報告

基調講演

ご挨拶、Hadoopを取り巻く環境2016Hadoopの現在と未来Yahoo!Japanのデータプラットフォームの 全体像と未来

Page 12: Hadoop / Spark Conference Japan 2016 参加報告

YAHOO!JAPANのデータプラットフォームの全体像と未来

現在の構成

Hadoopクラスタ: 6000ノード・120PBPercona, Oracle, Teradata, Cassandra, ...

これからの構成

Presto, Spark, LLAP, ...Our Issues = データ需要の指数関数的増大

データ量は4倍/年3000台のHadoopクラスタを8ヶ月で使い切る

Hortonworksと技術提携し、使う側から作る側へ

Page 13: Hadoop / Spark Conference Japan 2016 参加報告

聴講した発表

さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景

SparkによるGISデータを題材とした時系列データ処理Hive On Sparkを活用した高速データ分析次世代アーキテクチャから見たHadoop/Sparkの位置づけ

Page 14: Hadoop / Spark Conference Japan 2016 参加報告

聴講した発表

さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景

SparkによるGISデータを題材とした時系列データ処理Hive On Sparkを活用した高速データ分析次世代アーキテクチャから見たHadoop/Sparkの位置づけ

Page 15: Hadoop / Spark Conference Japan 2016 参加報告

さくらインターネットについて

主なサービスは「ハウジング」と「ホスティング」

データセンターは東京・大阪・北海道石狩の3ヶ所事業のポイント

垂直統合型経営

土地から建物(データセンター)からサーバまで持つ経営

規模の追求

エネルギー効率、面積効率、回線効率などの追求いわゆる規模の経済

Page 16: Hadoop / Spark Conference Japan 2016 参加報告

背景

「持つ経営」の成長=資産が増える原価計算が重要

投下した資本は回収できているか?サービスの提供にどのくらいのコストがかかるか?

以前はExcelで人手で集計時間がかかる

入力ミスの発生

Page 17: Hadoop / Spark Conference Japan 2016 参加報告

目標

原価計算の精緻化と迅速化

データの整備と社員の意識向上分散処理基盤の知見を積む

Page 18: Hadoop / Spark Conference Japan 2016 参加報告

やり方

ノーチラステクノロジーズと協力

Asakusa FrameworkとSpark土地・建物などの資産をノードとしてツリー構造で表す

最終的にバッチができる

Page 19: Hadoop / Spark Conference Japan 2016 参加報告

聴講した発表

さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景

SparkによるGISデータを題材とした時系列データ処理Hive On Sparkを活用した高速データ分析次世代アーキテクチャから見たHadoop/Sparkの位置づけ

Page 20: Hadoop / Spark Conference Japan 2016 参加報告

IHIにおけるデータ収集・データ解析

データ収集

製品のセンサデータe.x. 圧力・温度・流量, ...メンテナンス・設計へのフィードバック

GISデータe.x. 経度・緯度・速度新サービス開発

IHIには独自のメトリクス収集・監視システムが存在

分析にはPythonやRを使用実用的な処理時間・柔軟性などからHadoopやSparkに注目

Page 21: Hadoop / Spark Conference Japan 2016 参加報告

目標

港湾の混雑予測にGISデータを活用する

Page 22: Hadoop / Spark Conference Japan 2016 参加報告

問題設定

GISデータ

動的な情報

データ受信時刻、座標、速度静的な情報

移動体id、目的地、到着予想時刻

移動体の座標や速度から

ある時点での港湾内の移動体の数を予測

Page 23: Hadoop / Spark Conference Japan 2016 参加報告

課題

GISデータなどの多変量時系列データは データの並び順が重要

Sparkのいくつかの処理(shuffleなど)は データの並び順を保証しない

Page 24: Hadoop / Spark Conference Japan 2016 参加報告

解決策

移動体ごとの時系列データをレコードとしてひとまとめにする

長所

各移動体のレコードはランダムにならないので時系列データを元の並び順で扱える

短所

移動体ごとのレコードの長さが異なるためスケーラビリティが出づらい?

移動体ごとのレコード長比較、レコード長の偏りの有無におけるスケーラビリティを調査

Page 25: Hadoop / Spark Conference Japan 2016 参加報告

聴講した発表

さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景

SparkによるGISデータを題材とした時系列データ処理Hive On Sparkを活用した高速データ分析次世代アーキテクチャから見たHadoop/Sparkの位置づけ

Page 26: Hadoop / Spark Conference Japan 2016 参加報告

課題

Hiveが遅いクエリのデバッグ

データ量の増加による実行時間の増大

Page 27: Hadoop / Spark Conference Japan 2016 参加報告

SQL ON HADOOP

HiveHive on MapReduce <= 以前はこれHive on SparkHive on Tez

SparkSparkSQLDataframe

ImpalaApache DrillPresto

Page 28: Hadoop / Spark Conference Japan 2016 参加報告

HIVE ON SPARK導入の理由

クエリの書き換え不要

学習コストの低さ

HiveクエリとSpark運用知識があれば

Page 29: Hadoop / Spark Conference Japan 2016 参加報告

聴講した発表

さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景

SparkによるGISデータを題材とした時系列データ処理Hive On Sparkを活用した高速データ分析次世代アーキテクチャから見たHadoop/Sparkの位置づけ

Page 30: Hadoop / Spark Conference Japan 2016 参加報告

日本市場にHADOOPは合わない

Hadoopは100ノード以上の大規模クラスタが対象

障害対策

頻繁な同期

チェックポイントの設定

中間データを複製・ディスクに書き込み

日本のユーザ層は数ノード~数十ノードが多数

数ノードで障害は顕在化しない障害対策のせいでノード数の割には遅い

Page 31: Hadoop / Spark Conference Japan 2016 参加報告

これからのアーキテクチャ

ムーアの法則の終了

メニーコア化メモリーバスの強化ストレージIOの低減

サーバクラスタの凝集化

RSA(Intel), TheMachine(HP), Firebox(AMPLab)日本市場にはこちらの方が合う?

Asakusa Frameworkの方向性もこちら

Page 32: Hadoop / Spark Conference Japan 2016 参加報告

個人的感想

さらに進化するHadoop新しいハードウェアへの対応

さらに浸透するHadoopWeb系企業のみならず 某小売り店や某メーカーにおける導入事例など

その一方Hadoopでカバーできないケースも

HadoopはLinuxの夢を見るか?

Page 33: Hadoop / Spark Conference Japan 2016 参加報告

参考URLなど

ご挨拶、Hadoopを取り巻く環境2016濱野さん (日本Hadoopユーザー会、NTTデータ)

Hadoopの現在と未来鯵坂さん、小沢さん (Hadoopコミッタ)

Yahoo!Japanのデータプラットフォームの 全体像と未来

遠藤さん (Yahoo!Japan)

発表資料

発表資料

参考記事

Page 34: Hadoop / Spark Conference Japan 2016 参加報告

参考URLなど

さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景

須藤さん (さくらインターネット)

SparkによるGISデータを題材とした時系列データ処理鈴木さん (IHI), 土橋さん (NTTデータ)

参考記事

発表資料

Page 35: Hadoop / Spark Conference Japan 2016 参加報告

参考URLなど

Hive On Sparkを活用した高速データ分析加嵜さん (DMM.comラボ)

次世代アーキテクチャから見たHadoop/Sparkの位置づけ

神林さん (ノーチラステクノロジーズ)

発表資料

参考記事