69
OpenStack、Hadoop -OSSクラウドの最新動向 ~NTTデータのOSSクラウドへの取り組み~ 第二回 クラウド勉強会 in 北陸 2010年11月22日 株式会社NTTデータ 技術開発本部 伊藤雅典

OpenStack, Hadoop -- OSSクラウドの最新動向

Embed Size (px)

DESCRIPTION

2010/11/22に金沢で開催された、「クラウド勉強会in北陸 第二回」の資料です。

Citation preview

Page 1: OpenStack, Hadoop -- OSSクラウドの最新動向

OpenStack、Hadoop - OSSクラウドの最新動向

~NTTデータのOSSクラウドへの取り組み~

第二回 クラウド勉強会 in 北陸

2010年11月22日

株式会社NTTデータ

技術開発本部 伊藤雅典

Page 2: OpenStack, Hadoop -- OSSクラウドの最新動向

00 自己紹介

氏名

伊藤 雅典 (いとう まさのり)

所属

株式会社NTTデータ 技術開発本部 ITアーキテクチャ&セキュリティ技術センタ

担当業務

NTTデータの総合クラウドサービス BizXaaS™ (http://bizxaas.net/)の、

Copyright © 2010 NTT DATA CORPORATION1

「フルOSSクラウド構築ソリューション」 の開発ほかに従事

http://www.nttdata.co.jp/release/2010/040801.html

OpenStackやクラウドストレージ技術などに注力中

その他、活動領域

金沢大学出身(在籍していたのは、兼六園キャンパスから角間へ引っ越しした頃)

Open Cloud Campus、日本OpenStackユーザ会(JOSUG)、JEUG、

VIOPS InterCloud SIG、GICTF等でも活動中

Page 3: OpenStack, Hadoop -- OSSクラウドの最新動向

INDEX

01 イントロ:クラウドとは

02 NTTデータのクラウドに対する取り組み

03 OSSクラウド基盤の次世代スタンダード:OpenStack

04 NTTデータの取り組み:フルOSSクラウド構築ソリューション

Copyright © 2010 NTT DATA CORPORATION

2

04 NTTデータの取り組み:フルOSSクラウド構築ソリューション

05 OSSによる大規模データ処理基盤:Hadoop

06 NTTデータの取り組み: Hadoop構築・運用ソリューション

07 まとめ

Page 4: OpenStack, Hadoop -- OSSクラウドの最新動向

クラウドのサービス形態

情報システムを「保有せずに利用する」サービス形態

利用者は「ネットワークの向こう側」からサービスを受ける

「ネットワークの向こう側」がどうなっているかを知る必要はない

Copyright © 2010 NTT DATA CORPORATION3

Page 5: OpenStack, Hadoop -- OSSクラウドの最新動向

クラウドのサービス形態

PaaS

種類 解説

SaaS

Software

as a Service

CRM・ERPなどの業務アアアア

プリケーションプリケーションプリケーションプリケーションを提供

中中中中

柔軟性

低低低低

•アプリケーションとして

サービスが完成している

ため、変更には改修が

伴う

ユーザはハードを意識せずに

アプリケーションを利用可能

SaaS基盤(テナント管理・認証等)

AP AP

ユーザはハードを意識せずに

Copyright © 2010 NTT DATA CORPORATION4

ミドルウェア・フレーム

ワーク等アプリケーション

実行環境実行環境実行環境実行環境を提供

CPU・メモリ・ネットワー

ク・ストレージなどのリリリリ

ソースソースソースソースを提供

PaaS

Platform

as a Service

中中中中

•アプリケーション開発を行

うための基盤であるため、

仕様変更等は比較的反

映し易い

高高高高

•アプリケーションを動作

させるインフラであるた

め、サービスの要求ス

ペックにあわせて自由に

変更が可能

ユーザはハードを意識せずに

アプリケーションを開発可能

開発環境

開発ツール

IaaS

Infrastructure as a

Service

ユーザはハードを意識せずに

リソースを利用可能

仮想サーバ

ミドルウェア

メモリ

CPU

メモリ

CPU

リソース

4

Page 6: OpenStack, Hadoop -- OSSクラウドの最新動向

クラウドのサービス形態

パブリッククラウド

コミュニティクラウド

プライベート

クラウド

プライベート

クラウド

Copyright © 2010 NTT DATA CORPORATION5

•一般共有

(例 ECサイト)

•汎用性が求められるため、個別の要

求仕様には適合しにくい

プライベートクラウド コミュニティクラウド パブリッククラウド

•特定組織間で共有

(例 共同センター)

•コミュニティが定めた範囲内でユーザの

要求仕様に適合可能

•単一機関内で利用

(例 社内ポータル)

•個別機関毎に構築するため、細かな

要求仕様にも適合可能

特徴

Page 7: OpenStack, Hadoop -- OSSクラウドの最新動向

INDEX

01 イントロ:クラウドとは

02 NTTデータのクラウドに対する取り組み

03 OSSクラウド基盤の次世代スタンダード:OpenStack

04 NTTデータの取り組み:フルOSSクラウド構築ソリューション

Copyright © 2010 NTT DATA CORPORATION

6

04 NTTデータの取り組み:フルOSSクラウド構築ソリューション

05 OSSによる大規模データ処理基盤:Hadoop

06 NTTデータの取り組み: Hadoop構築・運用ソリューション

07 まとめ

Page 8: OpenStack, Hadoop -- OSSクラウドの最新動向

NTTデータの総合クラウドサービス (http://bizxaas.net/)

企画フェーズから運用フェーズまで、データセンタからアプリケーション

までを含んだワンストップサービス体系

最適化コンサル

マイグレーションクラウド 本日ご紹介

プラットフォーム(PaaS)

データセンタ(IaaS)

アプリケーション(SaaS)

クラウド

プラットフォーム

サービス

マイグレーション

クラウド構築

運用管理

構築・運用

サービス

7Copyright © 2010 NTT DATA CORPORATION

本日ご紹介

する領域

Page 9: OpenStack, Hadoop -- OSSクラウドの最新動向

本日のセッションでは

以下の2つのトピックについてご紹介します。

1. IaaS レイヤ

03節 OSSクラウド基盤の次世代スタンダード:OpenStack

04節 NTTデータの取り組み:フルOSSクラウド構築ソリューション

http://www.nttdata.co.jp/release/2010/040801.html

2. PaaS レイヤ

05節 OSSによる大規模データ処理基盤:Hadoop

06節 NTTデータの取り組み: Hadoop構築・運用ソリューション

http://www.nttdata.co.jp/release/2010/070101.html

Copyright © 2010 NTT DATA CORPORATION

Page 10: OpenStack, Hadoop -- OSSクラウドの最新動向

INDEX

01 イントロ:クラウドとは

02 NTTデータのクラウドに対する取り組み

03 OSSクラウド基盤の次世代スタンダード:OpenStack

04 NTTデータの取り組み:フルOSSクラウド構築ソリューション

Copyright © 2010 NTT DATA CORPORATION

9

04 NTTデータの取り組み:フルOSSクラウド構築ソリューション

05 OSSによる大規模データ処理基盤:Hadoop

06 NTTデータの取り組み: Hadoop構築・運用ソリューション

07 まとめ

Page 11: OpenStack, Hadoop -- OSSクラウドの最新動向

OpenStackプロジェクトとは

オープンなクラウドインフラ構築ソフトウェアを開発するプロジェクト

• 米国RackSpace社が主催

• 後援:NASA

• 日本からはNTTデータやミドクラ等が参加

AMD

ANSO

Autonomic Resources

Intalio

Intel

InterNap

Rackspace

RightScale

Riptano

業界第2位のユーザ数をもつ

IaaSクラウドサービス事業者

Copyright © 2010 NTT DATA CORPORATION10

協賛企業 (アルファベット順、http://openstack.org/community/より)

Autonomic Resources

Cirrascale

Citrix

Cloud Central

Cloud.com

Cloudkick

Cloudscaling

CloudSwitch

Dell

enStratus

FathomDB

InterNap

iomart Group

Limelight

MidoKura

Morphlabs

NASA

Nicira

NTT Data

Opscode

PEER 1

Puppet Labs

Riptano

rPath

Scalr

SoftLayer

Sonian

Spiceworks

Vyatta

Zenoss

Zuora

Page 12: OpenStack, Hadoop -- OSSクラウドの最新動向

OpenStackプロジェクトの背景とポリシー

Rackspace社とNASAがOpenStackプロジェクトを

立ち上げた理由

• スケーラビリティ(膨大なノード数とデータ量)

• 開発のオープン性

• ユーザベースの拡大

「今日の科学技術計算では、ますます

大量のストレージと強力な処理能力

をオンデマンドで提供することが求め

られている」

-NASA CTOのChris Kemp

http://www.itmedia.co.jp/enterprise/

articles/1007/21/news023.html

“as his (Chris Kemp’s) engineers

Copyright © 2010 NTT DATA CORPORATION11

OpenStackにおける“Open”

• コミュニティや開発プロセスをすべて公開する

• OSI承認オープンソースライセンスである

Apache License 2.0を採用

• Open Core 戦略は採らず、

エンタープライズ版を作らない

(http://wiki.openstack.org/Openより)

“as his (Chris Kemp’s) engineers

attempted to contribute additional

Eucalyptus code to improve its

ability to scale, they were unable

to do so because some of the

platform's code is open and some

isn't.”

http://www.theregister.co.uk/2010/07

/20/why_nasa_is_dropping_eucalyptus_fr

om_its_nebula_cloud/

Page 13: OpenStack, Hadoop -- OSSクラウドの最新動向

OpenStackプロジェクトのこれまで

Nova

公開

NASA/Anso Labs

NASA

Nebula

’10/7/19

‘10/5/19

本年7月に発表があって以来、初版がリリースされ、第2版に向けて開

発が本格的にスタートした段階

12

公開

Swift公開

Rackspace社

OpenStackOpenStack

発表

Nebula

Rackspace

Cloud Files

Austin リ

リース

‘10/10/21

Copyright © 2010 NTT DATA CORPORATION

Page 14: OpenStack, Hadoop -- OSSクラウドの最新動向

OpenStackの構成

OpenStackプロジェクトは、主に二つのコンポーネントから構成される

• OpenStack Compute

• 開発コードネーム: Nova

• Amazon EC2に相当(計算機資源の提供と管理を行う)

• Amazon EC2モデルに加えて、RackSpaceモデルのサポートや、運

Copyright © 2010 NTT DATA CORPORATION13

• Amazon EC2モデルに加えて、RackSpaceモデルのサポートや、運

用系の機能追加等を目指し、活発な開発活動が続いている

• OpenStack Object Storage

• 開発コードネーム: Swift

• Amazon S3に相当(分散オブジェクトストレージ≒PUTとGETのみ)

• Novaに比べると新規機能追加の提案は少なく、相対的に枯れてい

ると言える

Page 15: OpenStack, Hadoop -- OSSクラウドの最新動向

OpenStackの構成

その他の主要コンポーネント

• Glance

• VMのイメージのキャッシングを行うための proxy コンポーネント

• Swiftだけでなく、Amazon S3等も扱えるになっている

• Bexar Network Service

• 現状(Austin)、NW管理機構はNovaの一部として存在するが、

Copyright © 2010 NTT DATA CORPORATION14

• 現状(Austin)、NW管理機構はNovaの一部として存在するが、

Bexar以降に向けて、仮想化Networkを管理する独立コンポーネン

トを起こすことが検討されている

• 実装

• 実装言語はPython

• ライブラリの標準化が進んでいることが採用理由

• バージョン2.6以上必須

Page 16: OpenStack, Hadoop -- OSSクラウドの最新動向

OpenStackプロジェクト関連の情報源

• OpenStack公式サイト

• http://openstack.org/

• OpenStack Blog http://openstack.org/blog/

• OpenStack Wiki

• http://wiki.openstack.org/

• ドキュメント

• リリースミーティングのIRCログ

Copyright © 2010 NTT DATA CORPORATION15

• リリースミーティングのIRCログ

• Launchpad

• https://launchpad.net/~openstack

• リポジトリ、メーリングリスト(OpenStack/Nova/Swift)、

blueprint (簡素な機能仕様書)

• Twitter

• @openstack http://twitter.com/openstack

• 他にも @opnstk_com_mgr (コミュニティマネージャ) や

@openstackjapan (OpenStack Japan)など

Page 17: OpenStack, Hadoop -- OSSクラウドの最新動向

Novaのアーキテクチャ

Volume Node

• Amazon EC2 API

• OpenStack API

メッセージメッセージ

API Server

永続データ構成を提供

Amazon EBSに相当

Network Node

Scheduler Node

仮想マシン/インスタンス

要求に対する処理

AMQP

(実装はRabbitMQ)

Advanced

Message

Queuing

Protocol

Copyright © 2010 NTT DATA CORPORATION16

nova-manageコマンド

キューキュー

API Server Network Node

Compute Node

仮想マシンインスタンスを配置

種々のハイパーバイザをサポート

Object Storage

Server

プロジェクトへのVLAN割り当て

パブリックIPアドレスの払い出し

独立した複数のコンポーネントから構成されている

メッセージキューを介してコンポーネント同士が連携

仮想マシンイメージの管理

Page 18: OpenStack, Hadoop -- OSSクラウドの最新動向

NovaとEucalyptusの比較(Austin Release時点)

Copyright © 2010 NTT DATA CORPORATION17

出典:

OpenStack Wiki(Nova EucalyptusFeatureComparison #10)

http://wiki.openstack.org/Nova/EucalyptusFeatureComparison

Page 19: OpenStack, Hadoop -- OSSクラウドの最新動向

OpenStackのこれから

• コミュニティとしてのスケジュール感

• Austin Release (1st) 2010/10/21

• First Public Release

• Bexar Design Summit 2010/11/09-11/12

• Bexar Release (2nd) 2011/02/03

• Production Ready

Copyright © 2010 NTT DATA CORPORATION 18

• Production Ready

• Cactus Release (3rd)2011/05/? #GW中だと思われます

• Service Provide Scale Ready

• 主要なDriving Force

• NASAの Nebula Cloudからの要件

• RackSpace社のホスティング環境からの要件

• 日本からの contribute

• Live Migration、ネットワークサービス拡張、IPv6、国際化、 etc.

Page 20: OpenStack, Hadoop -- OSSクラウドの最新動向

日本のコミュニティの状況

日本OpenStackユーザ会

• 10月22日に設立プレスリリース

• 公式サイト http://openstack.jp/

• ML http://groups.google.com/group/openstack-ja/

• 11/19に都内で

日本OpenStackユーザ会

Copyright © 2010 NTT DATA CORPORATION19

日本OpenStackユーザ会 公式サイト

カンファレンス2010を開催

• OpenStack コミュニティから

Jim Curry氏と

Jonathan Bryce氏を

招き講演

Page 21: OpenStack, Hadoop -- OSSクラウドの最新動向

INDEX

01 イントロ:クラウドとは

02 NTTデータのクラウドに対する取り組み

03 OSSクラウド基盤の次世代スタンダード:OpenStack

04 NTTデータの取り組み:フルOSSクラウド構築ソリューション

Copyright © 2010 NTT DATA CORPORATION

20

04 NTTデータの取り組み:フルOSSクラウド構築ソリューション

05 OSSによる大規模データ処理基盤:Hadoop

06 NTTデータの取り組み: Hadoop構築・運用ソリューション

07 まとめ

Page 22: OpenStack, Hadoop -- OSSクラウドの最新動向

フルOSSクラウド構築ソリューション

BizXaaSのクラウド構築サービスラインナップの1つ

OSSをフル活用して安価でカスタマイズ可能なプライベート/コミュニティ

クラウドを構築

現状は OpenStack ではなく、

OSS版Eucalyptusをコアに

改良を施して使用

21Copyright © 2010 NTT DATA CORPORATION

Page 23: OpenStack, Hadoop -- OSSクラウドの最新動向

こんな悩みにおこたえします

散在する開発試験環境

構築も維持管理も高コスト…

同一構成で数が必要な教育環境、

終わったら邪魔だし…

22

終わったら邪魔だし…

仮想化環境の提供を始めたはいいけれど、

払い出し窓口が結局ボトルネックに…

Copyright © 2010 NTT DATA CORPORATION

Page 24: OpenStack, Hadoop -- OSSクラウドの最新動向

フルOSSクラウドの利用イメージ

クラウド利用者によるセルフサービスセルフサービスセルフサービスセルフサービス型型型型のためスピーディに利用できる

23Copyright © 2010 NTT DATA CORPORATION

Page 25: OpenStack, Hadoop -- OSSクラウドの最新動向

Eucalyptusと独自拡張

仮想

マシン

仮想

マシン

仮想

マシン

クラウド利用者

CLC

(クラウドコントローラ)

CC

(クラスタコントローラ)

仮想

マシン

仮想

マシン

仮想

マシン

SC

(ストレージコントローラ)

EBS

Walrus

イメージ

仮想マシン

イメージ

Eucalyptusに企業ユース向けの独自拡張を実施

� 直感的なGUIクライアント

� 仮想マシンのグルーピングとバージョン管理

� Windows仮想マシン

� 不揮発性インスタンス(EBS起動)

� LDAPによる外部認証サービスとの連携

24

NC

(ノードコントローラ)

NC

(ノードコントローラ)

Copyright © 2010 NTT DATA CORPORATION

Page 26: OpenStack, Hadoop -- OSSクラウドの最新動向

利用例:全体像

25Copyright © 2010 NTT DATA CORPORATION

Page 27: OpenStack, Hadoop -- OSSクラウドの最新動向

認証

部門内の既存認証サービス(LDAP)を

利用して認証可能

26

利用して認証可能

Copyright © 2010 NTT DATA CORPORATION

Page 28: OpenStack, Hadoop -- OSSクラウドの最新動向

イメージから選択して仮想マシンを起動

バージョン管理された仮想マシンイメージ一覧

(現在ログインしている利用者のプライベート)

27

性能や台数を指定して起動

全利用者が利用可能な

パブリックイメージ一覧

Copyright © 2010 NTT DATA CORPORATION

Page 29: OpenStack, Hadoop -- OSSクラウドの最新動向

Linux仮想マシンにログイン

起動した仮想マシン一覧

右クリックして各種操作が可能

28Copyright © 2010 NTT DATA CORPORATION

Page 30: OpenStack, Hadoop -- OSSクラウドの最新動向

Windows仮想マシンにログイン

29

Windows仮想マシンは

リモートデスクトップが

右クリックメニューに表示される

Copyright © 2010 NTT DATA CORPORATION

Page 31: OpenStack, Hadoop -- OSSクラウドの最新動向

クラウドインフラの運用を助ける機能

クラウド利用状況レポート クラウドインフラ監視

30Copyright © 2010 NTT DATA CORPORATION

Page 32: OpenStack, Hadoop -- OSSクラウドの最新動向

適用事例・想定利用シーン

開発試験環境提供サービス

�複数の開発部門から共通利用可能なクラウドを構築

�開発や試験に必要なマシンをセルフサービスで払い出し

教育環境提供サービス

�教育インフラとしてクラウドを構築�教育インフラとしてクラウドを構築

�受講者が利用する環境を講師がイメージとして登録

�講義の際は受講者の数だけ仮想マシンをワンタッチで起動、簡単に

受講者それぞれの専用環境を提供

31Copyright © 2010 NTT DATA CORPORATION

Page 33: OpenStack, Hadoop -- OSSクラウドの最新動向

フルOSSクラウド構築ソリューション:まとめ

OSSクラウド構築ソリューションは

�安価なプライベートクラウドを提供します

�セルフサービス型のため仮想マシン払い出し手続き等の煩

わしさがありません

�開発環境や教育環境に最適です

32Copyright © 2010 NTT DATA CORPORATION

Page 34: OpenStack, Hadoop -- OSSクラウドの最新動向

INDEX

01 イントロ:クラウドとは

02 NTTデータのクラウドに対する取り組み

03 OSSクラウド基盤の次世代スタンダード:OpenStack

04 NTTデータの取り組み:フルOSSクラウド構築ソリューション

Copyright © 2010 NTT DATA CORPORATION

33

04 NTTデータの取り組み:フルOSSクラウド構築ソリューション

05 OSSによる大規模データ処理基盤:Hadoop

06 NTTデータの取り組み: Hadoop構築・運用ソリューション

07 まとめ

Page 35: OpenStack, Hadoop -- OSSクラウドの最新動向

Hadoopの前に・・・ Googleの基盤技術

Googleは独自の基盤技術を用いて、大規模データを対象としたサービスを展開

� Googleは、自ら 「クラウドコンピュータを持ってサービス展開している」 という

Web検索 ログ解析 Gmail Google Maps ・・・

Sawzall

分散処理フレームワーク キー・バリュー型データストア

プログラミング言語

34

独自に建造したデータセンタ

Google File System (GFS)

MapReduce BigTable

グーグルプラットフォーム

分散ファイルシステム

分散処理フレームワーク キー・バリュー型データストア

論文:

The Google File

System (2003年)論文:

MapReduce:

Simplified Data

Processing on

Large Clusters

(2004年)

Page 36: OpenStack, Hadoop -- OSSクラウドの最新動向

Hadoop とは?

オープンソースの大規模分散処理フレームワーク

� Googleの基盤ソフトウェアのオープンソースのクローン

� 数千ノードおよびペタバイトクラスのデータを処理することが可能

� Bank of America、VISA、JP Morgan Chase & Co、GE (General Electric)、

AOL、CMCC(中国移動通信)、Baidu (百度)、国内テレコム事業者、

Yahoo! 、Facebook 、Twitter、eBay、楽天 なども活用

� ログ解析やレコメンデーションエンジン、検索エンジンなどでの活用が主流

今後は、DHW/BI領域での活用が進む

35

今後は、DHW/BI領域での活用が進む

Yahoo! のHadoop環境がソート処理の世界記録を樹立

� 1TBのデータソートを62秒で実現 (2009年5月)

大きく2つのコンポーネントで構成される

� 分散ファイルシステム: HDFS (Hadoop Distributed File System)

� 大規模分散処理フレームワーク: Hadoop MapReduce Framework

Page 37: OpenStack, Hadoop -- OSSクラウドの最新動向

Hadoop – 分散ファイルシステムHDFSとMapReduceフレームワーク

低価格サーバの大量使用による故障の発生

が前提の設計

データの多重化で可用性を担保する

従来とは運用利便性の考え方が異なる

Client

NameNodeブロックに分割して

ランダムに分散配置

大規模分散処理向けフレームワーク

Googleが検索インデックス作成のため考案

少なくとも5000台までスケールアウトしても性能向上

することが知られている

HDFS MapReduce

36

SW SW SW

ランダムに分散配置

コピーをラックの内外に

多重作成して冗長化

DataN

odes

Rack

SHUFFLE

MAP

REDUCE

Page 38: OpenStack, Hadoop -- OSSクラウドの最新動向

Hadoop - 環境の全体像

NamenodeJobTracker

Jobクライアント

NameNodeJobTracker

L2スイッチ

L2スイッチ

Hadoopマスタサーバ集中管理型の

分散システム

�クラスタの追加・削除は

自動的に行われる

• 各ノードはマスターサーバ

に定期的に通知する

�ジョブやデータの管理は

マスターサーバによって

37

L2スイッチ

L2スイッチ

L2スイッチ

L2スイッチ

L2スイッチ

Hadoopスレーブサーバ (DataNode/TaskTracker)

マスターサーバによって

行われる

HDFS

�マスター: NamaNode

�スレーブ: DataNode

MapReduce処理

�マスター: JobTracker

�スレーブ: TaskTracker

Page 39: OpenStack, Hadoop -- OSSクラウドの最新動向

Hadoopの特徴

個別設計する必要なく、分散処理を実現

� 従来、プログラムごとに分散処理方式を検討する必要があった

� Hadoopでは、MapReduceアルゴリズムにしたがうことで、プログラム個別に分散

処理ロジックを用意することなく、分散処理が行える

高いスケーラビリティ

� サーバ台数を増やすことで、扱えるデータサイズや処理性能(処理時間)を向上で

きる

様々なデータに対応

38

様々なデータに対応

� どのようなデータでも格納できる

� (格納時ではなく) 利用時にデータの意味付けを行える

コモディティサーバの利用

� IAサーバ+Linuxなど安価に入手できるコモディティ品で構築できる

大量サーバ利用を前提とした設計

� 一部のサーバが故障しても、サービスの可用性に影響を及ぼさない

Page 40: OpenStack, Hadoop -- OSSクラウドの最新動向

利用事例: Yahoo!

検索インデックスやレコメンデーションにHadoopを活用

� 過去3年分のログデータ分析が、Hadoopでは約20分 (従来は26日)

� 現在、Hadoopで170ペタバイトのデータを管理・処理している

� 全体で38,000台規模の

Hadoop環境を持つ

� 最大クラスタは4000台

� 本社前にはコンテナ型

39

(出典: Hadoop World:NYC)

のデータセンタも・・・

Page 41: OpenStack, Hadoop -- OSSクラウドの最新動向

利用事例: facebook

4TBのデータが

毎日新規に生成される

135TBのデータを

毎日処理している

Hive & Hadoop Usage @ Facebook� Statistics per day:

– 4 TB of compressed new data added per day– 135TB of compressed data scanned per day– 7500+ Hive jobs on per day– 80K compute hours per day

� Hive simplifies Hadoop:

40

� Hadoopで処理したデータを

Oracle RACやMySQLに格納して

利用しているものもある

(出典: Hadoop World:NYC)

– New engineers go though a Hive training session– ~200 people/month run jobs on Hadoop/Hive– Analysts (non-engineers) use Hadoop through Hive– 95% of jobs are Hive Jobs

Page 42: OpenStack, Hadoop -- OSSクラウドの最新動向

利用事例: VISA

過去2年間で730億ものトランザクション=36TBのデータが生成

分析にこれまで1カ月かかっていたものが、Hadoopによって13分に

41

(出典:

Hadoop World:NYC)

Page 43: OpenStack, Hadoop -- OSSクラウドの最新動向

利用事例: China Mobile

対象: CDR (Calling Data Recode) データ

�ユーザー5億人のデータ

�CMCC: 5~8TB/日

商用のDB製品、DWH製品を利用していたがHadoopに移行

�スケーラビリティを確保

•商用製品のスケーラビリティに限界を感じていた

42

�汎用ハードウェアとHadoopによりローコストを実現

•商用製品のライセンス費用が肥大化していた

�柔軟性を確保

•様々なアプリケーションを適宜追加できる

(出典: Hadoop World:NYC)

Page 44: OpenStack, Hadoop -- OSSクラウドの最新動向

利用事例: 日本国内

楽天

�複数のサービスで利用中

•楽天市場、楽天レンタル、楽天ブックス、楽天ダウンロード、・・・

�広告のインプレッション解析、レコメンデーション、ランキングの集計

処理などで商用環境で利用

�元々はPerlスクリプトでやっていたが、Hadoopに移行して処理速度

が約580%向上した (約26時間→4.5時間)

43

が約580%向上した (約26時間→4.5時間)

�行動ターゲティング広告の配信ログは年50%ずつ増加するため(現

状は約1億レコード/日) スケーラビリティが必要

はてな

�主にログ解析に利用 (300ジョブ/日)

• ダイヤリー 7GB/日、ブックマーク 5GB/日、うごメモ 3GB/日

クックパッド

�アクセス傾向をアドホック分析

Page 45: OpenStack, Hadoop -- OSSクラウドの最新動向

Hadoopの適用領域

特に向いている領域

� テラバイト・ペタバイト級のデータを扱うシステム

� バッチ処理的なアプリケーション

• リアルタイム性が求められる処理の前処理

� 準定型的なデータも扱える柔軟な ETL & ELT

利用例

� ログ解析 (広告分析、トラヒック解析など)

44

� ログ解析 (広告分析、トラヒック解析など)

� レコメンデーションエンジン

� 検索 (転置インデックス作成、クローラ)

� 機械学習 (スパムメールのパターン分析、分類など)

� データマイニング

� BI、DWH

� シミュレーション (金融工学)

� 創薬

� デジタルデータ変換 (動画、テキスト、音楽)

Page 46: OpenStack, Hadoop -- OSSクラウドの最新動向

Hadoopの適用領域

バッチ処理

�高レイテンシ

非構造化データ

大規模データ

�テラバイトクラス

� RDBMSと競合するものではない

45

�ペタバイトクラス

RDBMSと組み合わせ

て利用する例もある

(出典: Hadoop World:NYC)

Page 47: OpenStack, Hadoop -- OSSクラウドの最新動向

INDEX

01 イントロ:クラウドとは

02 NTTデータのクラウドに対する取り組み

03 OSSクラウド基盤の次世代スタンダード:OpenStack

04 NTTデータの取り組み:フルOSSクラウド構築ソリューション

Copyright © 2010 NTT DATA CORPORATION

46

04 NTTデータの取り組み:フルOSSクラウド構築ソリューション

05 OSSによる大規模データ処理基盤:Hadoop

06 NTTデータの取り組み: Hadoop構築・運用ソリューション

07 まとめ

Page 48: OpenStack, Hadoop -- OSSクラウドの最新動向

SI事業者としてのHadoopの位置づけ

今まで扱うことが難しかった領域を切り拓く

� ペタバイトクラスのデータ、大規模分散処理 など

� プロセス指向だけでなく、データ指向に基づいたシステムの浸透

� スケールアウト技術が身近なものに

� コモディティ品(IAサーバ+OSS)により大量サーバの利用が容易化

� 新しい処理モデルやデータモデルの浸透

47

アプローチ

� 新しいビジネス領域を切り拓くビジネスをお客様と一緒に生み出す

• 今まで捨てざるを得なかったデータの活用やあきらめていた処理の実現

� 活用例

• POSデータなどの解析による顧客動向の分析システム

• ログ解析による広告最適化を支援するシステム

• 大規模Webサイトのログ解析システム

• レコメンデーションを支えるシステム など

Page 49: OpenStack, Hadoop -- OSSクラウドの最新動向

BizXaaS® Hadoop構築・運用ソリューション

BizXaaS® クラウド構築サービスのひとつとして 『Hadoop構築・運用ソリューション』 を発表

� 2010年7月1日にプレスリリース

� BizXaaS® はNTTデータのクラウドサービスのブランド名称

48

Page 50: OpenStack, Hadoop -- OSSクラウドの最新動向

BizXaaS® Hadoop構築・運用ソリューション

これまでに培った技術力やノウハウをもとに提供

� NTTデータはこれまでに数十台~千台のサーバによるHadoopシステムを構築・

運用してきた実績を有している

� お客様の新しいビジネス機会を生み出すシステムの実現のためのコンサルティング、

システム構築、運用設計、導入後のサポートまで幅広く対応

� Hadoop特有の考え方やノウハウについて知識・経験を持つメンバーが対応

49

� 業務システムや社会基盤システムと

して活用できるノウハウが盛り込ま

れている

�信頼性を向上させるための仕組み�多数のサーバを管理する際に顕在化しやすい運用コストの増大を抑え

る仕組み など

Page 51: OpenStack, Hadoop -- OSSクラウドの最新動向

OSS構築実績 (規模・処理量マップ)

処理量

(万件/時)

● ●

40

60

構築・運用中

先見派

今後の

ターゲット

領域

PostgreSQL

50

DB規模

10

20

10万件 100万件 300万件 500万件 1000万件 1億件

●●

10億件

構築・運用中

Hadoop

Page 52: OpenStack, Hadoop -- OSSクラウドの最新動向

Hadoop関連のR&D

NTTデータでは、H21年度に経済産業省様から「分散制御処理技術等

に係るデータセンター高信頼化に向けた実証事業」受託し、Hadoopに

関して以下のようなR&Dを行いました。

「経済産業省の平成21年度 産学連携ソフトウェア工学実践事業報

告書」

http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_rehttp://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_re

search/sangaku_software_houkokusho.html

中段の

「高信頼クラウド実現用ソフトウェア開発」

です。

かいつまんで紹介します。

Copyright © 2010 NTT DATA CORPORATION

Page 53: OpenStack, Hadoop -- OSSクラウドの最新動向

R&D:自動構築・環境一元管理

・スケーラブルな運用手法の実現: (1)大量機器への対応、(2)機器種別混在への対応、(3)機器故障の効率的な

復旧・再構築

■得られた成果

■課題

・効率的な環境構築手法を開発: 100台規模の環境構築を90分、 環境変更は3分

・実装した手法は、大量のサーバを設定する初期構築や構成変更・維持管理、故障サーバの回復処理、サーバ群の

増設などに際して一元的・共通して利用可能

開発した環境構築手法の特徴

完全自動化

・ 「電源を押すだけ」で構築完了(90分で100台)

・ Kickstart+Puppet

また壊れた

このCPUでの

設定に時間

がかかる

52

スレーブサーバ

種別・スペック等

が混在

頻繁な故障と

再構築

大量にサーバが

存在

運用担当者

クラウド基盤の環境

構築手法の開発・整

構成管理サーバ

自動構築

設定の配布

一括操作

クラウドでは、スレーブサーバは交代可能な部品。

本手法により、構築も増設も、故障回復も同一手順で、実施

可能、スレーブサーバを部品として容易扱える。

混在性の隠蔽

・ 「機器ごとの最適設定」を自動生成、配布

・ Puppetを軸にHadoopモジュール、factorを開発

動的な環境構成

・ IP管理・名前管理不要⇒設置後すぐに増設可

・ 構築直後から、即クラスタメンバに組み込まれる

・ Kickstart+PuppetこのCPUでの最適設定は…

Page 54: OpenStack, Hadoop -- OSSクラウドの最新動向

R&D: Hadoop基盤における信頼性

・信頼性向上のため、Hadoop基盤における単一故障点を排除したい

■得られた成果

■課題

ジョブジョブジョブジョブ停止停止停止停止マスタサーバ

スレーブサーバ

ラック内

L2スイッチ

コアL3スイッチ ジョブジョブジョブジョブ停止停止停止停止

縮退

縮退

SPOF

Domain0 Domain0

完全完全完全完全

仮想化仮想化仮想化仮想化

ゲストゲストゲストゲスト

Kemariプロセスプロセスプロセスプロセス

xc_kemari_saveKemariプロセスプロセスプロセスプロセス

xc_kemari_restore

Heartbeat

DRBD

Heartbeat

DRBD

ノードノードノードノード監視監視監視監視

ディスクディスクディスクディスク同期同期同期同期

VM状態同期状態同期状態同期状態同期

Kemariによるによるによるによる

同期同期同期同期

仮想的仮想的仮想的仮想的なななな

FTマシンマシンマシンマシン

仮想的仮想的仮想的仮想的なななな

FTマシンマシンマシンマシン

完全完全完全完全

仮想化仮想化仮想化仮想化

ゲストゲストゲストゲスト

Hadoop基盤の信頼性調査を実施 ソフトウェアFT (Kemari)適用

運用系サーバは対象外

53

•スレーブサーバやネットワークトポロジの故障に対して、HDFSのレプリ

ケーションやMapReduceのジョブ再割り当てで信頼性を確保している

ことが確認できた

•Reduceタスク中に故障が発生すると、Shuffleのタイムアウトが発生し

ジョブが遅延する

SPOF

Xen HypervisorXen Hypervisor

Kemari

ゲストゲストゲストゲスト領域領域領域領域 ゲストゲストゲストゲスト領域領域領域領域DRBDによるによるによるによる

同期同期同期同期

物理物理物理物理ノードノードノードノード1111 (ACT) 物理物理物理物理ノードノードノードノード2 (SBY)

•ソフトウェアFT技術をKemari/Heartbeat/DRBDという、IAサーバ

とOSSの組み合わせを追求して実現

•マスタサーバ故障時に無停止で処理が継続できることを確認で

きた

Kemariの性能への影響

スレーブサーバ台数

3台

25台

93台

Kemariなし Kemariあり

180秒 256秒

249秒 485秒

258秒 553秒

Page 55: OpenStack, Hadoop -- OSSクラウドの最新動向

R&D: Hadoop基盤の可視化

・Hadoop基盤の利用と運用を鑑みて可視化すべきリソースを洗い出す

・大量のサーバで構成されるHadoop基盤に対してスケーラブルな可視化手法をオープンソースで実現する

■課題

■得られた成果

Gangliaの機能で不足している閾値監視項目を追加実現

運用監視サーバ1台あ

たり(PCレベルのス

MapMap ReduceReduce

・Hadoopアプリケーションの処理内容においてユーザと運用管理者それぞれが求める可視化対象を検討(33項目)

・スケーラブルな実装としてオープンソースのGangliaを選定し、不足機能を開発

Gangliaを選定し、実証実験クラウドでスケーラビリティを検証

54

ラック内でM

ulticastし情

報共有

1ラック当たり、

1サーバと通信

すればよい

たり(PCレベルのス

ペック)400台弱まで

スケール可能

主な使用

リソース

N/W JVM

Gangliaでの

実装状況

N/W

あり

JVM

ヒープ領域

(New、Old、

Permanent)

今回追加

実装した主

な項目

I/O待ちプロセス数

割り込み不可能な

スリープ状態の

プロセス数

スイッチのパケット

入力状況

スイッチのパケット

出力状況

○○○○ ×××× ×××× ××××

作成した可視化スクリプトは下記に公開予定

Gmetric Script Repositrory

(http://ganglia.sourceforge.net/gmetric/)

Page 56: OpenStack, Hadoop -- OSSクラウドの最新動向

R&D:スペックが混在するHadoop基盤での分散処理設定

スペック差があるノード: 最適なMapやReduceの割当は?

■課題

・ハードウェアスペックの差(CPU、ディスク、メモリ)により、処理時間遅延や処理失敗を引き起こす

・分散処理を最適化するためにHadoopの基盤パラメタやアプリケーションの実行パラメタの最適化指針が不明

分割A

分割B

処理はどの程度に分割すればよい?

CPUコア

メモリ

ディスク容量不足で

処理失敗

メモリ容量不足で

処理遅延

ディスク

CPU性能が

異なる

55

処理分割に着目した処理時間測定結果

0

500

1000

1500

2000

2500

3000

3500

4000

4500

0 500 1000 1500 2000 2500 3000 3500 4000

処理分割数

処理時間(秒)

過分割

分割不足

良い分割

■得られた成果

・Hadoopの処理特性を分析、ベンチマークモデルで最適化指針を検証

- CPUコア数で Map及びReduceの 「スロット数」 を決定、ただしメモリ量・ディスク量が不足する場合は調整が必要

- 入出力バッファのサイズを目安にして処理の分割数を決定

Mapスロット数 ~ CPUコア数の1.5倍

Reduceスロット数 ~ CPUコア数+1 メモリ容量不足の

場合はスロット数を

削減

ディスク容量が少な処理ノードはRAID0で容量確保

Page 57: OpenStack, Hadoop -- OSSクラウドの最新動向

R&D:クラウド型分散処理アプリケーションの開発

・MapReduceアルゴリズムを適用したアプリケーションの開発事例が少ない

■得られた成果

■課題

・多様かつ大量なデータ処理の実証事例としてプローブデータによる「渋滞解析アプリケーション」を開発した

・処理精度を制御する機能を実装し、処理時間と処理精度のバランスの具体的な実現事例を示した

・従来型開発で利用している処理フローをベースにMapReduce処理化する設計指針の具体的な事例を示した

Step1Step1Step1Step1

従来手法と同等の分析手法で機

能の処理フローを作成する。

データの流れに着目し

MapとReduceに分割

設計指針設計指針設計指針設計指針のののの事例事例事例事例

データを分類する

56

Step3Step3Step3Step3

並列処理を想定して入力データを

二つに分割、別々のデータフローに

データを流した際の動作を考え、

データフロー間のデータ依存箇所を

特定する。

Step4Step4Step4Step4

データ依存箇所をもとに、Map処理、

Reduce処理に分割、その後入力

データ、中間データ、出力データを

分類する。

Step2Step2Step2Step2

処理フローから入出力を明確にし

たデータフロー図を作成する。

データデータデータデータ依存箇所依存箇所依存箇所依存箇所

フロー間のデータ依存

までの処理はMapで実装

フロー間のデータ依存

以降の処理はReduceで実装

実装する

Page 58: OpenStack, Hadoop -- OSSクラウドの最新動向

R&D:シナリオに基づく運用性評価

実際の大量プローブデータを使用し、「渋滞解析アプリケーション」を用いながら運用シナリオに従い実証実験を行う

<実証実験の確認観点>

■処理精度と処理時間の適切なバランス

①データ量、計算量の増大に対し、サーバ増設によるスケールラビリティの確保

②アプリケーションを実行し、処理精度と処理時間の適切なバランスの確保

■クラウド基盤の可用性・信頼性

③マスタサーバ、スレーブサーバ、ラック単位での故障に対する可用性と信頼性の確保

■クラウド基盤の運用効率化

④混在環境でのサーバ増設時の自動構築と増設後の安定稼動の確認

⑤サーバ故障時の検知と効率的な復旧作業の確認

シナリオ3:故障発生サーバ、ラックの故障が発生する②処理時間と処理精度のバランス

⑤故障検知

故障サーバを自動的に検知することが出来た

57

サービススタート

小規模構成

サーバ台数

安定稼動

安定稼動

タイムライン

安定稼動 シナリオ1:データ量増大

プローブユーザの拡大によってデータ量が増大

データ量:約2GB⇒約2TB

縮退稼動

シナリオ2:サービス拡大解析対象道路の拡大によって計算量が増大する

道路数:約100万本⇒約400万本

安定稼動

サーバ、ラックの故障が発生する

①スケーラビリティ

マシン増強によるスケーラビリティを確認し、

サービス要件を満たすことが出来た。

②処理時間と処理精度のバランス

サービス拡大による処理精度の向上を図り、

精度と時間のバランスを確保

サーバ増設サーバ増設

④自動構築

サーバ25台⇒100台への増設時、設定ファイル自動配布などの

効率的な自動構築を実現した。

③可用性の確保

サーバ故障時でも処理が中断することな

く縮退稼動を出来ることを確認した。

⑤復旧作業

サーバ復旧時でも、実行中のジョブが

妨げられることなく作業が出来た。

④自動構築

サーバ3台⇒25台への増設時、設定ファイル自動配布などの

効率的な自動構築を実現した。

サーバ増設サーバ増設

サーバ

切り離し

サーバ

切り離し

サーバ追加サーバ追加

Page 59: OpenStack, Hadoop -- OSSクラウドの最新動向

INDEX

01 イントロ:クラウドとは

02 NTTデータのクラウドに対する取り組み

03 OSSクラウド基盤の次世代スタンダード:OpenStack

04 NTTデータの取り組み:フルOSSクラウド構築ソリューション

05 OSSによる大規模データ処理基盤:Hadoop

06 NTTデータの取り組み: Hadoop構築・運用ソリューション

Copyright © 2010 NTT DATA CORPORATION58

06 NTTデータの取り組み: Hadoop構築・運用ソリューション

07 まとめ

Page 60: OpenStack, Hadoop -- OSSクラウドの最新動向

全体のまとめ

OpenStackは

�Openな開発体制で、NASAやサービス事業者の使用に耐えるスケーラブルなIaaS環境を提供します

Hadoopは

�既に実用の域に達しつつある大規模データ処理基盤です�既に実用の域に達しつつある大規模データ処理基盤ですNTTデータは

�OSSクラウドの企業ユースに向け、インフラ層(IaaS)・プラットフォーム層(PaaS)ともに取り組み、貢献していきます

59Copyright © 2010 NTT DATA CORPORATION

Page 61: OpenStack, Hadoop -- OSSクラウドの最新動向

ご清聴ありがとうございました

Copyright © 2010 NTT DATA CORPORATION 60

Page 62: OpenStack, Hadoop -- OSSクラウドの最新動向

本文中に記載の会社名、商品名、製品名などは、一般に各社の商標または登録商標です

ただし本文中では、TMや®マークは明記してありません

Page 63: OpenStack, Hadoop -- OSSクラウドの最新動向

Q&A

Copyright © 2010 NTT DATA CORPORATION 62

Page 64: OpenStack, Hadoop -- OSSクラウドの最新動向

References

� NTTデータ関連

�BizXaaS

�http://bizxaas.net/

�BizXaaS:フルOSSクラウド構築ソリューション

Copyright © 2010 NTT DATA CORPORATION63

�http://www.nttdata.co.jp/release/2010/040801.html

�BizXaaS:Hadoop構築・運用ソリューション

�http://www.nttdata.co.jp/release/2010/070101.html

Page 65: OpenStack, Hadoop -- OSSクラウドの最新動向

References : IaaS基盤

� オープンソース

� OpenStack http://www.openstack.org/

� Eucalyptus http://www.eucalyptus.com/

� OpenNebula http://www.opennebula.org/

� Nimbus http://www.nimbusproject.org/

� Wakame-vdc http://wakame.axsh.jp/vdc.html

� Karesansui http://karesansui.sourceforge.jp/

Copyright © 2010 NTT DATA CORPORATION64

� Karesansui http://karesansui.sourceforge.jp/

� CloudStack http://cloud.com/community

� Hail https://hail.wiki.kernel.org/index.php/Main_Page

� 商用

� Morph http://www.mor.ph/ja/

� Enomaly http://www.enomaly.com/

� Nimbula http://www.nimbula.com/

Page 66: OpenStack, Hadoop -- OSSクラウドの最新動向

References : IaaS基盤

� その他

� NASA Nebulaクラウド http://nebula.nasa.gov/

� NII edubaseクラウド http://grace-center.jp/prj_educloud.html

�国立情報学研究所(NII)プレスリリースより

NASA Nebula とNII edubaseクラウドが連携

http://www.nii.ac.jp/index.php?action=pages_view_main&page_id=1106

� WIDEクラウド http://www.wide.ad.jp/project/wg/wide-cloud-j.html

Copyright © 2010 NTT DATA CORPORATION65

� WIDEクラウド http://www.wide.ad.jp/project/wg/wide-cloud-j.html

� 国プロ系の取り組み

� 総務省 H21年度情報通信に関わる研究開発

「セキュアクラウドネットワーキングの研究開発」

http://www.idg.co.jp/expo/cns/ (クラウドネットワーキングシンポジウム)

Page 67: OpenStack, Hadoop -- OSSクラウドの最新動向

References : 関連コンポーネント

� ストレージ系

� SheepDog http://www.osrg.net/sheepdog/

� Ceph/RADOS http://ceph.newdream.net/

� Vastsky http://sourceforge.net/projects/vastsky/

� HC2 Project http://www.tierracloud.com/technology/HC2.html

etc.

� NW系

Copyright © 2010 NTT DATA CORPORATION66

� NW系

� Vyatta http://www.vyatta.com/

http://www.vyatta-users.jp/

� Open vSwitch http://openvswitch.org/

� Nox http://noxrepo.org/wp/

� CloudSwitch http://www.cloudswitch.com/

etc.

Page 68: OpenStack, Hadoop -- OSSクラウドの最新動向

References : PaaS基盤

� PaaS系

� Hadoop http://hadoop.apache.org/

� Heroku http://heroku.com/

�Ruby on RailsベースのPaaS (「Heroku最強伝説」 by @nabehiro_ さん)

� FluxFlex http://www.fluxflex.com/

�第4回JAWS-UG勉強会LT

� AppScale http://appscale.cs.ucsb.edu/

Copyright © 2010 NTT DATA CORPORATION67

� AppScale http://appscale.cs.ucsb.edu/

�OSSなGAEクローン

etc.

Page 69: OpenStack, Hadoop -- OSSクラウドの最新動向

References : そのほか

� ユーザ会

�Open Cloud Campus まだHPがありません… ��OpenStack http://openstack.org/

�Eucalyptus http://eucalyptus-users.jp/

Copyright © 2010 NTT DATA CORPORATION68

�JAWSUG http://jaws-ug.jp/

�JAZUG http://jazug.jp/