Upload
kuninobu-sasaki
View
378
Download
0
Embed Size (px)
DESCRIPTION
Cloudera World Tokyo 2014のライトニングトークセッション資料です。
Citation preview
マイクロソフトとHadoop
2014年11月6日
日本マイクロソフト株式会社
佐々木邦暢 (@ksasakims)
2
佐々木と申します
(@ksasakims)
3
担当の技術営業です
4
今日はマイクロソフトの
Hadoop への取り組み
について話そうかと
5
しかしその前に
マイクロソフトの
内なるHadoop的なもの
2014年11月6日
日本マイクロソフト株式会社
佐々木邦暢 (@ksasakims)
8
Dryad って聞いたことありますよね
http://research.microsoft.com/en-us/projects/dryad
9
Cosmos ってご存知でしょうか
http://research.microsoft.com/en-us/events/fs2011/helland_cosmos_big_data_and_big_challenges.pdf
PB クラスの分散ストレージ
計算ノード群(クラスタ)の
管理とジョブスケジューリング
Dryad ベースの分散並列処理
“SCOPE” という SQL 的な
クエリ言語(Dryad 上のジョブ
へコンパイルされる)
10
Cosmos のアーキテクチャ
ここにDryad
Hive, Pig的な
クエリの仕組み
HDFS的な
分散ストレージ
11
SCOPE
http://research.microsoft.com/en-us/um/people/jrzhou/pub/Scope.pdf
12
AdCenter, Azure, Bing, Bing Maps, MSN, Xbox Live
and more!
2005年ぐらいから今に至るまで、大好評稼働中
社内には多くのCosmos ユーザー
13
外部公開する?
14http://www.publickey1.jp/blog/10/hadoopdryad.html
http://blogs.technet.com/b/windowshpc/archive/2011/05/20/dryad-becomes-linq-to-hpc.aspx
15
しかし LINQ to HPC は開発中止
正式リリースの2週間前のことでした…
「これは LINQ to HPC
の最後のプレビューです。
正式版を出荷する計画は
ありません。
Windows 版 Hadoop
を提供するので。」
17
Microsoft Azure HDInsight Service
すぐに使えるクラウド上の Hadoop です
2013 年 10 月正式リリース済み
利用可能なリージョンは 11 箇所
日本では西日本リージョンで利用可能
OS
Windows Server 2012 R2
バージョンは以下の3種から選択可能
HDInsight-3.0
(HDP 2.0 / Hadoop 2.2)
HDInsight-3.1
(HDP 2.1 / Hadoop 2.4)
18
HDInsight Service システム構成
データ ノードネーム ノード BLOB ストレージ
A4サイズ8 コア /ノード
A3サイズ4 コア /ノード
Microsoft Azure の PaaS 機能と BLOB ストレージを活用します
ネームノード、
データノードはどちらも
Worker ロールの
インスタンスです。
多数のノードを素早く
デプロイできます。
また、Microsoft Azure の
「BLOB ストレージ」を、
デフォルトのファイル
システムとして利用します。
もちろん HDFS も
利用可能です。
19
Azure ストレージに関する論文
http://sigops.org/sosp/sosp11/current/2011-Cascais/printable/11-calder.pdf
20
ファイル(BLOB)の構造
複製の仕組み
21
NativeAzureFileSystem
BLOB を Hadoop のファイルシステムに
様々なファイルシステムを扱えるように、
Hadoop はファイルシステムの抽象化層を持っています。
マイクロソフトは NativeAzureFileSystem クラスを作成し、
Azure BLOB をサポートしました。
種類 URIスキーム
Javaの実装クラス(org.apache.Hadoop)
説明
Local file fs.LocalFileSystemローカルファイルシステム
HDFS hdfs hdfs.DistributedFileSystem HDFS
FTP ftp fs.ftp.FTPFileSystem FTP サイト用
S3 s3n fs.s3native.NativeS3FileSystem Amazon S3 用
AzureBLOB
wasb fs.azurenative.NativeAzureFileSystem Azure BLOB 用
22
BLOB 対応の Parcel もあります
23
HBase や Storm もサポート
こんなチュートリアルも出ています
25
実は
Dryad と
DryadLINQ
27
HDInsight 上の
YARN アプリケーション
28
29
Naiad という新しい兄弟も
http://research.microsoft.com/en-us/projects/naiad/
Dryad 及び DryadLINQ が
スループット重視だとすれば、
Naiadはインメモリでの低遅延
処理を重視
こちらも、HDInsight
クラスタ上での実行が可能
30
SOSP 2013 の論文
http://research.microsoft.com/pubs/201100/naiad_sosp2013.pdf
31
Dryad と Naiad
向いている処理 成熟度
Dryad + DryadLINQスループット重視
バッチ処理に向く
歴史が長い分
安定している
Naiadレイテンシ重視
繰り返しの処理に向く
活発に開発中
API 変更頻繁
33
Cloudera さんとコラボ
34
Azure Marketplace に Cloudera Enterprise
35
最新の D14 インスタンスで Cloudera
+