Hadoop / Spark Conference Japan 2016 参加報告

Preview:

Citation preview

HADOOP / SPARK CONFERENCE JAPAN 2016参加報告

講演・LTのプログラム

http://hadoop.apache.jp/hcj2016-program/

基調講演

ご挨拶、Hadoopを取り巻く環境2016Hadoopの現在と未来Yahoo!Japanのデータプラットフォームの 全体像と未来

基調講演

ご挨拶、Hadoopを取り巻く環境2016Hadoopの現在と未来Yahoo!Japanのデータプラットフォームの 全体像と未来

今回のHCJ

Hadoop10周年Hadoop Conference Japan 6回目、7年目1347人が参加、そのうち63%が初参加Spark Conference初開催

多様化するHADOOP

多数のディストリビューション・周辺ミドルウェア

今はHadoopにとって過渡期かつてはLinuxも同じ状況だった徐々に収束していくはず

基調講演

ご挨拶、Hadoopを取り巻く環境2016Hadoopの現在と未来Yahoo!Japanのデータプラットフォームの 全体像と未来

HADOOPの過去

Hadoopとは?複数のサーバを束ねてひとつの処理システムとして透過的に扱うシステム

従来はHDFS+MapReduceHadoopを皮切りに他にも様々な分散処理系が登場

e.x. Spark, Hive, Storm ...昔はHadoop≒MapReduce

HADOOPの現在

YARNリソース管理のミドルウェアMapReduceもYARN上で動作する一処理系でしかなくなる

得意な処理系が得意なタスクをやる

今はHadoop≒YARN

HADOOPの未来

現在の分散処理ミドルウェアは

従来のハードウェアを想定

CPU, メモリ, HDD新しいハードウェアの登場

CPU => GPU, FPGAGoogle TensorFlow, Microsoft Project Catapult

メモリ => NVMHDD => SSD

Apache KuduYARNも様々な計算リソースに対応する データセンターOSとして進化を遂げていく

基調講演

ご挨拶、Hadoopを取り巻く環境2016Hadoopの現在と未来Yahoo!Japanのデータプラットフォームの 全体像と未来

YAHOO!JAPANのデータプラットフォームの全体像と未来

現在の構成

Hadoopクラスタ: 6000ノード・120PBPercona, Oracle, Teradata, Cassandra, ...

これからの構成

Presto, Spark, LLAP, ...Our Issues = データ需要の指数関数的増大

データ量は4倍/年3000台のHadoopクラスタを8ヶ月で使い切る

Hortonworksと技術提携し、使う側から作る側へ

聴講した発表

さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景

SparkによるGISデータを題材とした時系列データ処理Hive On Sparkを活用した高速データ分析次世代アーキテクチャから見たHadoop/Sparkの位置づけ

聴講した発表

さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景

SparkによるGISデータを題材とした時系列データ処理Hive On Sparkを活用した高速データ分析次世代アーキテクチャから見たHadoop/Sparkの位置づけ

さくらインターネットについて

主なサービスは「ハウジング」と「ホスティング」

データセンターは東京・大阪・北海道石狩の3ヶ所事業のポイント

垂直統合型経営

土地から建物(データセンター)からサーバまで持つ経営

規模の追求

エネルギー効率、面積効率、回線効率などの追求いわゆる規模の経済

背景

「持つ経営」の成長=資産が増える原価計算が重要

投下した資本は回収できているか?サービスの提供にどのくらいのコストがかかるか?

以前はExcelで人手で集計時間がかかる

入力ミスの発生

目標

原価計算の精緻化と迅速化

データの整備と社員の意識向上分散処理基盤の知見を積む

やり方

ノーチラステクノロジーズと協力

Asakusa FrameworkとSpark土地・建物などの資産をノードとしてツリー構造で表す

最終的にバッチができる

聴講した発表

さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景

SparkによるGISデータを題材とした時系列データ処理Hive On Sparkを活用した高速データ分析次世代アーキテクチャから見たHadoop/Sparkの位置づけ

IHIにおけるデータ収集・データ解析

データ収集

製品のセンサデータe.x. 圧力・温度・流量, ...メンテナンス・設計へのフィードバック

GISデータe.x. 経度・緯度・速度新サービス開発

IHIには独自のメトリクス収集・監視システムが存在

分析にはPythonやRを使用実用的な処理時間・柔軟性などからHadoopやSparkに注目

目標

港湾の混雑予測にGISデータを活用する

問題設定

GISデータ

動的な情報

データ受信時刻、座標、速度静的な情報

移動体id、目的地、到着予想時刻

移動体の座標や速度から

ある時点での港湾内の移動体の数を予測

課題

GISデータなどの多変量時系列データは データの並び順が重要

Sparkのいくつかの処理(shuffleなど)は データの並び順を保証しない

解決策

移動体ごとの時系列データをレコードとしてひとまとめにする

長所

各移動体のレコードはランダムにならないので時系列データを元の並び順で扱える

短所

移動体ごとのレコードの長さが異なるためスケーラビリティが出づらい?

移動体ごとのレコード長比較、レコード長の偏りの有無におけるスケーラビリティを調査

聴講した発表

さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景

SparkによるGISデータを題材とした時系列データ処理Hive On Sparkを活用した高速データ分析次世代アーキテクチャから見たHadoop/Sparkの位置づけ

課題

Hiveが遅いクエリのデバッグ

データ量の増加による実行時間の増大

SQL ON HADOOP

HiveHive on MapReduce <= 以前はこれHive on SparkHive on Tez

SparkSparkSQLDataframe

ImpalaApache DrillPresto

HIVE ON SPARK導入の理由

クエリの書き換え不要

学習コストの低さ

HiveクエリとSpark運用知識があれば

聴講した発表

さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景

SparkによるGISデータを題材とした時系列データ処理Hive On Sparkを活用した高速データ分析次世代アーキテクチャから見たHadoop/Sparkの位置づけ

日本市場にHADOOPは合わない

Hadoopは100ノード以上の大規模クラスタが対象

障害対策

頻繁な同期

チェックポイントの設定

中間データを複製・ディスクに書き込み

日本のユーザ層は数ノード~数十ノードが多数

数ノードで障害は顕在化しない障害対策のせいでノード数の割には遅い

これからのアーキテクチャ

ムーアの法則の終了

メニーコア化メモリーバスの強化ストレージIOの低減

サーバクラスタの凝集化

RSA(Intel), TheMachine(HP), Firebox(AMPLab)日本市場にはこちらの方が合う?

Asakusa Frameworkの方向性もこちら

個人的感想

さらに進化するHadoop新しいハードウェアへの対応

さらに浸透するHadoopWeb系企業のみならず 某小売り店や某メーカーにおける導入事例など

その一方Hadoopでカバーできないケースも

HadoopはLinuxの夢を見るか?

参考URLなど

ご挨拶、Hadoopを取り巻く環境2016濱野さん (日本Hadoopユーザー会、NTTデータ)

Hadoopの現在と未来鯵坂さん、小沢さん (Hadoopコミッタ)

Yahoo!Japanのデータプラットフォームの 全体像と未来

遠藤さん (Yahoo!Japan)

発表資料

発表資料

参考記事

参考URLなど

さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景

須藤さん (さくらインターネット)

SparkによるGISデータを題材とした時系列データ処理鈴木さん (IHI), 土橋さん (NTTデータ)

参考記事

発表資料

参考URLなど

Hive On Sparkを活用した高速データ分析加嵜さん (DMM.comラボ)

次世代アーキテクチャから見たHadoop/Sparkの位置づけ

神林さん (ノーチラステクノロジーズ)

発表資料

参考記事

Recommended