18
プランニング・ガイド ビッグデータ分析への着手 導入を成功させ、さらに前進するための方法 この文書を読むべき理由 このプランニング・ガイドは、ビッグデータ分析イニシアチブの導入を 計画している IT マネージャー向けに、次のようなビッグデータに 関する最新情報と導入の実践的手順を紹介しています。 ビッグデータを取り巻く今日の IT 環境、および、既成概念を 覆すビッグデータの力がもたらす課題と機会 Apache* Hadoop* フレームワークとインメモリー分析に重点を置 いた、柔軟なビッグデータ・プラットフォームを構成するビッグデータ・ テクノロジー 使用形態に応じて最適なビッグデータ導入を実現するための、 適切なインフラストラクチャー展開の重要性 ビッグデータ・プロジェクトの計画および実装を進める IT マネー ジャーを支援する、 3 つの「次のステップ」とチェックリスト

プランニング・ガイド ビッグデータ分析への着手 · Apache* Hadoop*ソフトウェアは、完全なオープンソースの ビッグデータ向けフレームワークで、大規模で多様なデータ

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

プランニング・ガイド

ビッグデータ分析への着手導入を成功させ、さらに前進するための方法

この文書を読むべき理由このプランニング・ガイドは、ビッグデータ分析イニシアチブの導入を計画している ITマネージャー向けに、次のようなビッグデータに 関する最新情報と導入の実践的手順を紹介しています。

• ビッグデータを取り巻く今日の IT環境、および、既成概念を 覆すビッグデータの力がもたらす課題と機会

• Apache* Hadoop* フレームワークとインメモリー分析に重点を置いた、柔軟なビッグデータ・プラットフォームを構成するビッグデータ・テクノロジー

• 使用形態に応じて最適なビッグデータ導入を実現するための、適切なインフラストラクチャー展開の重要性

• ビッグデータ・プロジェクトの計画および実装を進める ITマネージャーを支援する、3つの「次のステップ」とチェックリスト

目 次 3 ビッグデータ分析を取り巻く今日の IT環境

4 ビッグデータ・テクノロジーを理解する

6 ビッグデータ・ソリューションを導入する

12 ビッグデータ分析に着手する:3つの基本ステップ

15 関連資料

3 インテル ITセンター プランニング・ガイド | ビッグデータ分析への着手 | 2015年4月

ビッグデータ分析を 取り巻く今日の IT環境ビッグデータに対する熱狂は、過剰な期待感からより現実的な会話へとシフトしています。成熟過程にあるテクノロジー、スキル不足、そして ITとビジネスの関係性の変化から見えるのは、ビッグデータの活用はそう簡単ではないという新たな現実です。

しかし、ビッグデータへの対応は避けられないことも確かです。ビッグデータの経済的な有効性を疑う人々からの反発があったとしても、組織は立ち止まってはいられません。例えば、ビッグデータに関して IDGが実施した最新の企業調査によると、ほぼ半数(49%)が、ビッグデータ関連のプロジェクトを展開中、あるいは計画中だと回答しています。1

現状維持という消極的な姿勢では、競争に取り残される リスクが高いのです。

今日、ベンダーは技術革新に基づき、企業向けの包括的な プラットフォームとソリューションを数多く提供しています。私たちの内容は「ビッグデータに価値はあるのか?」から、「会社にとって価値あるビッグデータの使い方は?」「競合他社に勝つためにどうしたらインサイトの取得にかかる時間を短縮できるだろうか?」へと変わってきています。

ビッグデータの次のキーワード: 予測分析、リアルタイム、 モノのインターネット(IoT)ビッグデータの価値の大半は、分析段階で生成されるインサイトによってもたらされます。これによって、企業は パターンを発見し、意味を見出し、決断することが可能になります。言い換えるならば、知性をもって世界に対応するということです。テクノロジーが成熟し、ビッグデータとの対話が進むと、組織は主力業務から手の届かなかったビッグデータへのアプローチが可能になり、インサイトを得るための新しい方法を開発できるようになります。

例えば、顧客との関わりを深め、プロセスを最適化し、運用コストを削減するために、多くの企業が予測分析への取り組みを始めています。リアルタイム・データストリームと、「決して止まらない処理」とも呼ばれる予測分析との組み合わせは、競合他社に対する圧倒的な優位性を生み出せる可能性があります。予測分析の概要と重要性、それを運用する方法については、『Predictive Analy tics 101: Next-Generation Big Data Intelligence』(英語)を参照してくだ さい。

インターネット対応デバイス同士が相互に、かつクラウドとも通信を行うモノのインターネット(IoT)もまた、ビッグデータ分析の革新を後押ししています。Gartnerは、2020年には IoTによって330億もの「モノ」がインターネットとつながると試算しています。2そうなると、膨大な量のデータが目まぐるしく行き交うことになります。そのほとんどは、機械に埋め込まれたセンサーとアクチュエーターによって生成されるデータです。センサーとアクチュエーターは、 有線または無線接続のネットワーク上で、同じインターネット接続プロトコルを使って通信します。そこに、人の手によって生成された、携帯電話やタブレットといったデバイスからのデータも混じります。こうしたデータは、イベント間の相関関係の解明や、インテリジェント・システムの自動化に利用することができます。また、ビジネスや社会において次々と発生する難題の解決に役立つインサイトも、これらのデータから得ることができます。機械生成データに対するインテルの考え方については、『Internet of Things Video: IoT Explained』(日本語字幕)を参照してください。

IT部門に集中する負担を分散する企業の行く末を大きく左右するビッグデータへの取り組みは、孤立していては達成することができません。ビッグデータの 可能性を見出し、必要なサポートを受けながら前進するために、IT部門はビジネスリーダーと強力なパートナーシップを構築する必要があります。また、ビッグデータに基づいてビジネス上の問題を的確に把握し、インサイトを発見し、システムを 統合し、膨大な量のデータベースを構築し、分散ソフトウェア・ フレームワークを管理、運営するには、経営、技術、分析のそれぞれにおいて新しいスキルが必要になります。

具体的に「ビッグデータ」とは何か?ビッグデータとは、巨大なデータセットを指します。桁違いに大量(volume)で、構造化 /半構造化 /非構造化を含む多様(variety)なデータが、高速(velocity)に行き交うデータストリームであり、これまでは誰も、そしてどの会社も扱う必要のなかった規模です。こうした大量のデータは、PCやスマートフォンから、RFIDリーダーや交通監視カメラなどのセンサーまで、ネットワークに接続されたデバイスによって生成されます。さらに、データは異種混在環境で生成され、テキスト、ドキュメント、画像、動画、ブログ、トランザクションなど、さまざまなフォーマットで集まります。

4 インテル ITセンター プランニング・ガイド | ビッグデータ分析への着手 | 2015年4月

ハイレベルな3つの基本ステップによって、ビッグデータ分析を完全な形で導入することができます。それぞれのステップで 重複している項目もありますが、実行する順番が重要です。

1. ビッグデータが組織に与える文化的な影響を理解する。ビジネスリーダーと協力し、プロジェクトの遂行の障害となっている社内外の文化の壁を見つけます。

2. 必要な技術を持った人材を雇用する。データ・サイエンティスト、システム・アーキテクト、データエンジニアなど、経営面、技術面、分析面で必要なスキルセットを確保します。

3. ビッグデータ・ソリューションを導入する。技術要件を決定し、ソリューション・スタックを実装します。

プロジェクトを成功させるためには、3つのステップすべてが重要ですが、このガイドではステップ3の「ビッグデータ・ソリューションの導入」に重点を置いて説明します。最初の2つのステップについては、『International Institute for Analytics』(英語)に有益な情報が掲載されています。

ビッグデータ・テクノロジーを理解する

次から次へと高速で生成される大量で多種多様なデータセットを扱うには、従来のツールとインフラストラクチャーでは不十分です。ビッグデータの潜在的価値を企業が十分に認識するためには、新たな手法でデータの収集、格納、分析を行う必要があります。

ビッグデータ・テクノロジーは、分散型のグリッド・コンピューティング・リソースと「シェアード・ナッシング・アーキテクチャー」、分散処理フレームワーク、非リレーショナル・データベースを使って、データの管理、分析方法を再定義します。サーバー・イノベーションとスケールアップ・インメモリー分析ソリューションにより、ストリーミング・データの取り込みと格納、リアルタイム分析といった最も過酷な分析ワーク ロードにおいて、処理能力、拡張性、信頼性、総保有コスト(TCO)の最適化が実現されます。

ビッグデータのソリューション・スタック使用形態にもよりますが、ビッグデータのソリューション・ スタックは、Apache* Hadoop*ソフトウェアのような分散処理フレームワーク、非リレーショナル分析データベース、および分析アプリケーションの併用に耐えうる高性能なインフラストラクチャーで構成されます。

機能的な観点からすると、これらのテクノロジーは相互補完的であり、柔軟性の高いビッグデータ・プラットフォームとして連携するため、既存のデータ管理アーキテクチャーを活用することも可能です。例えば、Hadoop*のヒストリカル分析は、従来とは異なるリレーショナル・データベース管理システム(RDBMS)やNoSQLデータベースへと移管することで、構造化されていない多種多様なデータソースの取り込みと分析を行うことができます。また、従来のエンタープライズ・データ・ウェアハウス(EDW)の構造化データと、構造化されていないデータを組み合わせて、さらなる分析を実行することも可能です。

Apache* Hadoop*ソフトウェアApache* Hadoop*ソフトウェアは、完全なオープンソースのビッグデータ向けフレームワークで、大規模で多様なデータセットを処理する最良の方法として、広く利用されています。Hadoop*フレームワークは、大規模なデータセットを分散処理するためのシンプルなプログラミング・モデルを提供します。分散ファイルシステムのHadoop Distributed File System(HDFS*)、ジョブのスケジューリングを担う Apache*

Hadoop* YARN、並列処理フレームワークの Apache* Hadoop* MapReduceで構成されています。さらに、特定の機能を提供する追加コンポーネントも用意されています。例えば、データの取り込み(Apache Flume*サービスおよびApache Spark*ソフトウェア)、クエリーと分析(Apache Pig*、Apache Hive*、Apache HBase*ソフトウェア)、ワークフローの調整管理(Apache* Oozie)、基盤サーバークラスター(Apache Ambari*ソフトウェア)といったものがあります。これらのApache* ソフトウェア・コンポーネントを組み合わせることで、分散 データのバッチ処理とバッチ分析によってヒストリカル分析を行う強力なフレームワークとなります。

バッチから準リアルタイムへ Apache* Hadoop*はバッチ処理で名を馳せたフレームワークですが、Apache Spark*ソフトウェアの登場により、準リアルタイムなプラットフォームへと急速に進化しています。Spark*は大規模データを高速に処理するためのエンジンで、インメモリー環境またはディスクストレージ環境で動作します。搭載されている 数多くのハイレベルなツールは、機械学習アルゴリズム、 構造化データの処理、グラフデータ処理、ストリーミング処理など、同一アプリケーション上でシームレスに 組み合わせることができます。

5 インテル ITセンター プランニング・ガイド | ビッグデータ分析への着手 | 2015年4月

Hadoop*フレームワークは、オープンソース・コミュニティー、またはベンダーからパッケージの形で入手できます。ベンダーから入手すると、独自のソフトウェアやサービス(管理、トレーニング、サポート)といった付加価値も利用できます。こうしたパッケージの多くは、EDW、RDBMS、その他のデータ管理システムに統合することができるため、Hadoop*クラスターとそれ以外の環境との間でデータを動かし、データプールに対して処理やクエリーを実行することが可能です。

インメモリー分析ビッグデータ分析の能力とスピードに大きな影響を与える可能性を秘めたインメモリー・コンピューティングは、ビジネスに変革をもたらす存在です。インメモリー・コンピューティングによって、得られたデータに基づくリアルタイムな意思決定が可能になります。そしてそれは、主力業務部門でまかなえるコストで実現させることが可能です。3

インメモリー・コンピューティングの場合、ビッグデータ・ ソリューションの多くが抱える大きな制限、つまり、ディスクストレージ上のデータにアクセスすることで引き起こされる、高レイテンシーと入出力のボトルネックという問題は発生しません。関連するすべてのデータは、コンピューター・シス テムのメインメモリー上に置かれます。アクセススピードが桁違いに高速になるため、データをすぐに分析し、一瞬にしてインサイトを得ることが可能になります。インメモリー・コンピューティングでは、データマートとデータ・ウェアハウスが丸ごとDRAMに移され、データセット全体が高速に分析されます。

インメモリー分析は、分析アプリケーションとインメモリー・データベースを専用のサーバーに統合します。負荷の高い演算をリアルタイムで処理しなければならない分析の場面では、これが理想形です。インメモリー・データベース・ソリューションの例は、次のようになります。SAP HANA*プラットフォーム(インテルとSAPの共同開発)、Oracle* Database In-Memory Option for Oracle 12c、IBM* BLUアクセラレーション搭載インメモリー・システム、SAS* In-Memor y Analytics、Apache Spark*(前ページの補足説明『バッチから準リアルタイムへ』を参照してください)。

インメモリーに関するベンダー各社のソリューションと、インメモリー・コンピューティングがビッグデータ分析をどのように変えようとしているかについては、ホワイトペーパー『Changing the Way Businesses Compute and Compete with

Analytics』(英語)を参照してください。

インテルとClouderaが提携2014年3月、インテルは市場で一番の人気を誇るApache* Hadoop*ソフトウェアのプロバイダー、Clouderaへの株式(7億4,000万ドル)および知的財産権に対する大規模な出資を発表しました。また、インテルはビッグデータ分析ソフトウェア市場から自社製品を引き揚げ、Clouderaと協業してApache* Hadoop*向けインテル ® ディストリビューション(インテル ® データ・プラットフォーム)を、Apache*

Hadoop*を含む Clouderaのディストリビューション(CDH)へと最適化して統合することも発表しました。両社は協力して、セキュリティー、パフォーマンス、マネジメントを中心にオープンソース・テクノロジーの革新を引き続き進め、主力企業へのHadoop*導入を後押しします。また、Clouderaはインテルと緊密に連携し、同社の製品がインテルのデータセンター・テクノロジーを最大限に活用できるよう、最適化を進めています。インテルと Clouderaは、Hadoop*の基本テクノロジーに対しても技術協力を行い、ソフトウェア・フレームワークを進化させ、オープンソース・デベロッパーの技術革新を支援します。CDHの詳細については、http://cloudera.com/を参照してください。

さらなるパワーとスピードをインメモリー・コンピューティングと言えば、分散データグリッド、大規模で高コストな導入という形をとっているのが現状です。しかし、今日のインメモリー・システムは、スピードも性能も向上し、費用対効果も高くなっています。なぜでしょうか?ムーアの法則で予測されたように、メモリーのコストは下がり続けます。DRAMとNAND型フラッシュメモリーは劇的に安くなりました。しかし同時に、チップ当たりのプロセッサーの数は増えています。インテル ® Xeon® プロセッサー E7 v3 ファミリーなら、4-wayシステムで最大6TB、8-wayシステムで最大12TBのメモリーを搭載したサーバーを構成することができます。これは、今日のデータベースの中でも最大規模のものを1つのサーバーのメモリー上に複数保持できるほどの容量です。サードパーティー製のノード・コントローラーを使えば、インテル ® Xeon® プロセッサー E7 v3 ファミリーを最大32-wayシステムにスケールアップしてさらにストレージを確保することもできます。これに、パフォーマンスの向上といったサーバーの技術革新(例えば、トランザクション・スピードとスキャン操作を高速化するビルトイン・テクノロジー4)と、分析ソフトウェア・プラットフォームの成熟を加味すると、インメモリー・データベースのスケールアップ・アーキテクチャーはより安価になります。

6 インテル ITセンター プランニング・ガイド | ビッグデータ分析への着手 | 2015年4月

NoSQLデータベース

これらの非リレーショナル・データベースには、キーバリュー、カラムナー、グラフ、ドキュメントの4つのデータ格納型があり、高性能で高可用性のストレージがWebスケールで実現します。大量のデータストリームと柔軟なスキーマおよびデータ型を、短い応答時間で処理するのに便利です。NoSQLデータベースは分散型で耐障害性に優れたアーキテクチャーを採用しているため、システムの信頼性と拡張性が確保されます。NoSQLデータベースには、Apache HBase*、Apache Cassandra*、MarkLogic*、MongoDB*、Apache CouchDB*ソフトウェアなどがあります。

カラム型分析データベース

グリッドベースのデータベースは、行ではなく列(カラム)を使ってデータを格納するため、クエリー処理中に読み出されるデータエレメントの数が少なく、大量の同時クエリーを高速で処理できるという利点があります。カラム型分析データベースは読み取り専用環境であり、従来型のRDBMSシステムと比べ、コスト・パフォーマンスと拡張性に優れています。EDWなど大量のクエリーが発生するアプリケーション

で使用され、高度な分析ができるようにストレージと抽出が最適化されています。SAP* Sybase* IQ、ParAccel* Analytic Platform、HP* Vertica* Analytics Platformは、 カラム型分析データベースを採用しています。

グラフ型データベースと分析ツール

NoSQLデータベースの一種で重要性が高まっているのが、グラフ型データベースです。このタイプのデータベースは、個々のエンティティーよりも相互の関係性が重要視されるネットワーク状のデータ構造にとりわけ有効です。データ構造に柔軟性があるため、データの接続とモデル生成を 簡単に行えます。また、クエリーが高速で、より直感的に モデル生成と可視化ができるようになっています。ビッグ データの発展の大部分は、事実上、グラフによって支えられています。

グラフ型データベースは、単体、あるいは他のグラフツール(可視化、分析、機械学習など)と連携して動作します。例えば機械学習であれば、グラフ型データベースを使って関係性のマイニングや予測を行うことで、幅広い問題を解決できます。

ビッグデータ・ソリューションを導入する

ビッグデータの導入には、大がかりなインフラストラクチャーの整備が必要な場合があります。設計の時点で選定したハード ウェアとソフトウェアが、その後の実運用と総保有コストに大きく影響します。ビッグデータのメリットを最大限に活用するためには、使用形態に見合うインフラストラクチャーを適切な場所に導入し、Hadoop*と分析ソフトウェアを最適化して最高の パフォーマンスを引き出す必要があります。

業務に必要な機能を積み上げる柔軟で拡張性のあるビッグデータ・プラットフォームを選ぶことで、IT部門は業務に必要な機能を積み上げ、使用形態に対して最も費用対効果の高いシステムを構築することができます。次に紹介する3つの利用モデルは、相互に重なり、ますます多くの価値をもたらします。

抽出、変換、ロード(ETL)

抽出、変換、ロード(ETL)は、データの集約、前処理、格納を指します。しかし、従来型の ETLソリューションでは、ビッグ データの特徴である大量(volume)、多様(variety)、高速(velocity)を扱うことができません。Hadoop*プラットフォームはデータを分散環境に格納して処理するため、入力データを

断片に分割して、大規模な大量のデータを並列処理します。Hadoop*に本来備わっている拡張性によって、ETLのジョブは高速に処理され、分析にかかる時間は大幅に短縮されます。Hadoop*ソフトウェアを使ったETLについては、ホワイトペーパー『Extract, Transform, and Load Big Data with Apache Hadoop*』(英語)を参照してください。

インタラクティブ・クエリー

超並列処理(MPP)アーキテクチャーにHadoop*フレームワークと最新のエンタープライズ・データ・ウェアハウス(EDW)を組み合わせると、ビッグデータ・プラットフォームでインタラクティブ・クエリーを実行できるようになり、より高度な分析が可能になります。Hadoop*は多様なストリーミング・ データで構成される大規模な大量のデータを抽出して処理し、EDWへとロードして、構造化問い合わせ言語(SQL)のアド ホックなクエリー、分析、レポートを作成することができます。Hadoop*はさまざまなデータ型を処理できるため、従来は不可能であった、EDWへの多彩なデータの格納が可能になります。さらに、Hadoop*インフラストラクチャーにはデータを長期間残すことができるため、より粒度の細かい詳細なデータを使って高精度な分析を行えます。

7 インテル ITセンター プランニング・ガイド | ビッグデータ分析への着手 | 2015年4月

予測分析

予測分析とは、ヒストリカル・データを用いてより多くの値を抽出し、今後起こりうることを予測するというものです。インテル IT部門では、MPPアーキテクチャーとEDWの組み合わせを推奨しています。Hadoop*クラスターで複雑な予測分析を瞬時に実行できるため、高速で拡張性が高く安価なETLが実現するからです。また、Hadoop*クラスターをツールや他のコンポーネントで拡張すれば、追加のデータ処理や分析機能を実行すること も可能です。この利用モデルについては、ホワイトペーパー 『Perform Predictive Analytics and Interactive Queries on

Big Data』(英語)を参照してください。

インテル IT部門のビッグデータ・プラットフォーム

インテル IT部門は、顧客と連携してビッグデータのさまざまな 使用事例を開発してきました。最初の2つの利用モデルの エレメントを予測分析と組み合わせ、自由度の高いハイブリッドな分析インフラストラクチャーの構築に成功しています。

インテル IT部門はHadoop*を使って、ソーシャルメディアやWebトラフィック、センサーログから、構造化されていないデータの抽出、変換、統合をオフロードします。データはMPPアーキテクチャー上のEDWにロードされます。Hadoop*上の異種混在なデータに、抽出と変換の段階で構造を追加し、それをEDWにロードするというこの手法の利点は、ユーザーがそれまでに使っていたビジネス・インテリジェンス(BI)ツールや分析ツールを、インタラクティブ・クエリーやその他の高度な分析に適用できることです。

インテル IT部門は、インテル ® Xeon® プロセッサー E5 ファミリー上でHadoop*ソフトウェアを稼動させ、異種混合データの取り込み、キャッシュ、Webインデックス、ソーシャルメディア分析を行っています。Hadoop*ソフトウェアは、分析に備えてデータを随時フィルタリングし、データ・ウェアハウス・ アプライアンスへと送ります。

MPPアーキテクチャーをベースとするデータ・ウェアハウス・アプライアンスは、複雑な予測分析を高速に実行し、インタラクティブなデータ検索に対して準リアルタイムで結果を返します。データ・ウェアハウス・アプライアンスはサードパーティー製のソリューションです。インテル® Xeon® プロセッサー E7 ファミリー上で動作し、比較的低コストで高性能と高可用性を実現します。 アプライアンスは B Iソリューションに組み込まれ、統計 パッケージRなど、高度な分析ツールをサポートします。

インテル IT部門は、予測分析エンジンを社内開発することで、ビッグデータ・プラットフォームの拡張を続けてきました。 これにより、予測サービスの継続的な提供が可能になってい ます。第一の使用例は、リアルタイム・レコメンデーション・ サービスの実装です。このサービスのために、BIチームはデータマイニング・ライブラリーの Apache Mahout*を使って、 予測アルゴリズムを開発しました。これらのアルゴリズムはHadoop*に格納されたヒストリカル・データを対象として 処理し、その結果をNoSQL Cassandra*データベースへと転送します。Cassandra*ソフトウェアを使うと、リアルタイム検索の場面で要求される、高速で低レイテンシーのデータ抽出が 可能になります。ユーザーがオンラインで操作している間、Cassandra*データベースから結果が抽出され、コンテキスト・データ(ユーザーが入力した値やロケーションなど)と組み合わされて、最適なレコメンデーション情報がリアルタイムで 提供されます。

大量のデータセットをリアルタイムで分析するために必要十分なクエリー応答性を確保するため、インテル IT部門は テストを行い、費用対効果に優れた高性能のインメモリーBI ソリューションという条件を満たす、最適なプラットフォームを策定しました。インテル ® Xeon® プロセッサーを搭載した業界標準サーバーにおける、サーバー速度、プロセッサー・コア数、キャッシュサイズ、メモリーの最適な組み合わせについては、『優れたパフォーマンスを実現するインメモリーBIプラットフォームの構成』を参照してください。

8 インテル ITセンター プランニング・ガイド | ビッグデータ分析への着手 | 2015年4月

Hadoop*フレームワーク向けの インフラストラクチャーサーバーHadoop*フレームワークは、データの発生源に近い場所でコンピューティングを実行するという原則に基づいて動作します。基本的には、標準ハードウェアを使って構成した大規模なサーバークラスター上で動作します。このフレームワークは、インテル ® Xeon® プロセッサーを搭載したサーバー上で容易にスケールアウトすることができます。Hadoop*フレームワークと標準のサーバー・プラットフォームを組み合わせることで、費用対効果に優れた高性能な並列アプリケーション向け分析プラットフォームの基盤が生まれます。

費用対効果の観点で考えると、ほとんどの Apache* Hadoop*ワークロードにとって、最新のインテル ® Xeon®

プロセッサー E5 ファミリーを搭載した2-wayサーバーが最良の選択です。このタイプのサーバーは一般的に、大規模なマルチプロセッサー・プラットフォームよりも、分散コンピューティング環境において高い効率性を得ることができます。非常に高性能で、より小規模な1-wayサーバーと比較すると、ロードバランスと並列スループットの効率に優れています。プロセッサーには、暗号化の高速化 5、レイテンシーの低減、帯域幅の拡大を担うテクノロジーが内蔵されています。

インテル® Xeon® プロセッサーは、データの破損やサーバーのダウンタイムの原因となるメモリーエラーを自動検出して補正する、エラー訂正コード(ECC)メモリーをサポートしています。Apache* Hadoop*クラスターには大量のメモリー (通常はサーバーごとにおよそ64GB以上)が搭載されているため、ECCメモリーのサポートは極めて重要な機能です。

インテル IT部門の柔軟なビッグデータ・プラットフォーム使用事例が増えるごとに、インテル IT部門は自社のビッグデータ・プラットフォームを拡張します。性能の向上に伴い、最もコストがかからないアーキテクチャーでワークロードを稼動させる柔軟性も獲得しました。

超並列処理(MPP)プラットフォーム

Apache* Hadoop*フレームワーク

予測分析エンジン

• サードパーティー製ソリューション• 従来のシステムよりも高速な処理

• インテル® Xeon® プロセッサー E7 ファミリー搭載

• 社内開発• リアルタイムで継続的な予測サービスが可能

• インテル® Xeon® プロセッサー E7 ファミリー搭載

• インテル® Xeon® プロセッサー E5 ファミリー、インテル® Solid-State Drive、インテル® 10ギガビット・イーサネットに最適化• リニアスケールが可能な分散ファイルシステム

• Apache HBase* NoSQLデータベース

インテル IT部門が構築した柔軟なビッグデータ・プラットフォームは、複数のテクノロジーとソリューションを組み込み、バッチ処理とリアルタイム処理を行うことで、インサイトをもたらします。

9 インテル ITセンター プランニング・ガイド | ビッグデータ分析への着手 | 2015年4月

Apache* Hadoop* フレームワーク向けのインテル® プロセッサー

インテル ® Xeon® プロセッサー E5 v3

ファミリー• 業界をリードするインテルの22nm 3-Dトライゲート・トランジスター・テクノロジーを採用したインテル ® マイクロアーキテクチャー(開発コード名:Ivy Bridge)で、優れたパフォーマンスとエネルギー効率を実現

• 演算、ストレージ、ネットワークが効率よく連動するように設計

• ワークロードの変動、ネットワークやストレージに対する需要の変化に柔軟なスケーリングで対応するインテル ® ターボ・ブースト・テクノロジー 4

• パフォーマンスと I/Oの強化による、システム全体の性能向上とバランス調整、およびサーバー効率の向上

• Memcachedなどのクラウド・アプリケーションのパフォーマンス向上とレイテンシー低減を可能にする、インテル ® イーサネット・フロー・ディレクターの高度な トラフィック・ステアリング機能

• データの全面的な保護 6を支援する高速な暗号化と復号化

• エラー訂正コード(ECC)メモリーをサポート

• 統合型10ギガビット /40ギガビット・イーサネット(GbE)ネットワークと簡素化されたデータセンター・インフラストラクチャーをサポート

• サーバーおよびデータセンター・レベルでのテレメトリーによる電力の監視および管理で電力消費量を最適化

• ハイパフォーマンス・コンピューティングなど、シングルスレッドおよびマルチスレッド・アプリケーションに対する優れたパフォーマンス

Apache* Hadoop* には、インテル ® Xeon® プロセッサー E5 ファミリーを搭載した2-wayサーバーが最適です。

ネットワークとストレージメインストリーム・コンピューティングとストレージリソースが飛躍的に改善されると、ビッグデータのサーバー・ プラットフォームも恩恵を受けます。さらに10ギガビット・イーサネット(10 GbE)ソリューションを使うことで、バランスの取れたシステムになります。大容量のデータセットをサーバー間でインポートしたり複製するには、10 GbEに 対応する帯域幅の拡大が極めて重要になります。インテル ® 10 ギガビット・イーサネット・ソリューションにより、高スループット接続が実現します。インテル ® Solid-State Drive(インテル ® SSD)は、RAWストレージ向けの高性能で高速なハードディスク・ドライブです。

効率性を高めるには、データの圧縮や暗号化、自動ティアリング、重複排除、消失訂正符号処理、シン・プロビジョニングといった高度な機能をストレージがサポートしている必要があります。インテル ® Xeon® プロセッサー E5 ファミリーは、これらすべてをサポートしています。

インテルは、インテル ® Xeon® プロセッサー E5 ファミリーを搭載したサーバーをHadoop*クラスター向けのベースライン・プラットフォームとして、テストを繰り返し行いました。ビッグデータ、ネットワーク、ストレージなど、 インテルの各方面のエキスパートで結成したチームは、 ネットワークとストレージ・コンポーネントをさまざまに組み合わせ、Apache* Hadoop*の性能評価を行いました。その結果、演算処理、ストレージ、ネットワーク・リソースのバランスを整えることで、著しい性能優位性が見られました。TeraSortベンチマークによると、処理時間は4時間から 12分に短縮しています(準リアルタイムの結果)。5, 7, 8, 9

インテルのテクノロジーを使った高性能Hadoop*クラスターについては、ホワイトペーパー『Big Data Technologies for Near-Real-Time Results』(英語)を参照してください。

10 インテル ITセンター プランニング・ガイド | ビッグデータ分析への着手 | 2015年4月

インメモリー分析ソリューション向けのインフラストラクチャーサーバーHadoop*ソフトウェアは異種混在データセットを大量に抽出し、処理に備えることができますが、高度な分析 (モニタリング、インタラクティブ・クエリー、予測分析)を行うには、より強力なインフラストラクチャーが必要です。ベンダー各社からは、モジュール型の超並列処理(MPP)データ・ウェアハウス・プラットフォームがアプライアンスとして提供されています。こうしたアプライアンスは、ソフトウェアがあらかじめ統合されているため、簡単な手順で導入することができ、 処理、メモリー、I/O、ストレージも高度に最適化されています。統合型のデータ管理と高度な分析ツールにより、新しいやり方でデータを扱うことができます。ソリューションの多くは、既存のBIツールや分析環境と互換性があります。

厳しい性能要件を満たすためには、データベースと分析が専用システムにまとめられているインメモリー分析アプラ

イアンスが必要な場合があります。これらのシステムは、 複合イベント処理(CEP)や、ストリーミング・データを含むリアルタイム・アプリケーションに最適です。インテル ® Xeon® プロセッサー E7 v3 ファミリーを搭載するサーバーは、メモリーをスケーリングしてワークロードのリソースを最適化します。そのため、医療、エネルギー、金融、物流など、リアルタイム・サービスが不可欠な分野に対しても、十分なメモリー、実行リソース、信頼性を提供することができます。プロセッサーの進歩は目覚ましく、世代ごとにパフォーマンスは驚くほど向上しています。また、大容量メモリーと柔軟性の高い構成は、大量のストリーミング・ワークロードにも確実に対応します。

加えて、インメモリー・システムは一般的に、従来のソリューションよりも大規模なデータセットを処理し、サーバー 単位のワークロードの拡張性も高いため、ミッション・クリティカルな処理に必要なデータの整合性と高可用性が確保されています。

インメモリー分析向けのインテル® プロセッサー

インテル ® Xeon® プロセッサー E7 v3

ファミリー• 業界をリードするインテルの22nm 3-Dトライゲート・トランジスター・テクノロジーを採用し、優れたパフォーマンスとエネルギー効率を実現

• 大容量メモリー:

- 4-wayおよび8-way構成。1ソケット当たり最大1.5TB、サーバー単位では最大6TBまたは12TBのメモリーを搭載可能

- サードパーティー製(OEM)ノード・コントローラーを使うことで、最大32-way システムという拡張性を実現

• 同期型DRAM(SDRAM)のDDR4およびDDR3の両方をサポート、ワークロードの 拡大にも高速転送レートで対応

• インテル® トランザクショナル・シンクロナイゼーション・エクステンション4により、前世代のプロセッサーよりもトランザクション・ワークロードに優れたパフォーマンスを提供

• インテル ® アドバンスト・ベクトル・エクステンション 2(インテル ® AVX2)4によりスキャン操作が高速化

• スケールアップ・ハイパフォーマンス・コンピューティングやテクニカル・アプリケーションなど、シングルスレッドおよびマルチスレッド・アプリケーションに対する優れたパフォーマンス

• ストレージとネットワークの接続に余裕の性能と柔軟性を提供する内蔵PCI Express*(PCIe*) 3.0ポート。帯域幅が向上し、PCIe*ベースのソリッドステート・ ドライブへの対応を実現

• 99.999%のサーバー稼動時間を目指して設計された40種類の高度なRAS(信頼性、可用性、保守性)機能。インテル® Run Sure テクノロジーを含むミッション・クリティ カルな分析ワークロードでデータの整合性が向上 4

• 業界を代表するパートナーと協力して、業界標準に基づくオープンで幅広いエコシステムを構築。高度な分析を可能にするインメモリー・データベース、エンタープライズ・リソース・プランニング(ERP)などのトランザクションが集中するワークロード、オンライン・トランザクション処理(OLTP)、カスタマー・リレーションシップ・マネジ メントなど、インテルのアーキテクチャーに最適化されたソリューションを提供

インテル ® Xeon® プロセッサー E7 v3 ファミリーは、大量のデータを扱うスケールアップ・ワークロードとインメモリー・データ

ベースの分析を高速に処理します。

インテル ITセンター プランニング・ガイド | ビッグデータ分析への着手 | 2015年4月11

ネットワークとストレージインメモリー環境ではデータ処理に著しく負荷がかかるため、ボトルネックを回避して低レイテンシーの通信を支えるには、10ギガビット・イーサネット・ソリューションが必要です。

インメモリー・システムはメモリー依存型ですが、SQL準拠のデータベース・トランザクションを維持するためには、永続型ストレージが必要になります。トランザクションは、原子性、一貫性、独立性、永続性(ACID)を担保しなければなりません。インテル ® Solid-State Driveは、低レイテンシーで高帯域幅の永続型ストレージです。標準ベースで費用対効果に優れたACID準拠のストレージで、リアルタイム・パフォーマンスを可能にします。

最高のパフォーマンスを引き出すための最適化とチューニングインテルは、Linux*、OpenStack*、KVM、Xen*ソフトウェアといったオープンソース・イニシアチブに貢献する主要企業の1つです。また、Clouderaなどのシステム・プロバイダーやソリューション・プロバイダーとも連携しながら、社内外でHadoop*の分析、テスティング、パフォーマンスの特性化にも取り組んでいます。こうした技術的な取り組みを通して、インテルは、ハードウェア、ソフトウェア、システム設定の間に数多くの実用的なトレードオフを発見しました。これらは、データセンターに影響を与えるほどのトレードオフです。生産性を最大限に高め、消費電力を制限し、総保有 コストを削減するソリューション・スタックを設計する ことで、リソースを最大限に活用しながらも、運用コストを最小限に抑えることができます。

そのカギを握るのがHadoop*の環境設定です。Hadoop*を適切に設定することで、それ以外のハードウェアおよびソフトウェア・ソリューションから十分な恩恵を得ることができます。インテル ® プロセッサーを搭載したアーキテクチャーを使い、自社ラボとお客様のオフィスで繰り返し実施したベンチマーク・テストから、インテルはHadoop* システムの最適化とチューニングの推奨事例を導き出しました。パフォーマンスとコストの両面に効果的な、Hadoop*環境の設定と管理の方法です。

各社のジョブやワークロードによって条件が異なるため、最適な設定が見つかるまでにはそれなりの時間がかかります。しかし、費やした時間は、パフォーマンスの改善だけでなく、Hadoop*環境の総保有コストの削減という形でも成果をもたらします。個々の設定については、『Optimizing Hadoop* Deployments』(英語)を参照してください。

パフォーマンスのベンチマークを実行する ベンチマークは、あらゆるコンピューター・システムの性能を測定できる定量的な指標です。インテルは、Hadoop*環境向けの包括的ベンチマーク・テストセット、H i B e n c h スイートを開発しました。10 個々のテストで、10個の重要なHadoop*ワークロードとハードウェア使用特性が測定できるようになっています。HiBenchには、マイクロベンチマークに加え、検索インデックス、機械学習、クエリーなど、実際のHadoop*アプリケーションの代表的なデータ分析機能が 含まれます。現在、Apache* License 2.0のオープンソース・ ソフトウェアとして、HiBench 3.0が利用可能です。ソフトウェアのダウンロード、特定のワークロードに関する情報、使用方法などは、https://github.com/intel-hadoop/HiBench/を 参照してください。

インテル ITセンター プランニング・ガイド | ビッグデータ分析への着手 | 2015年4月12

ここまで読み進めて、ビッグデータのための IT環境、ビッグデータが組織にもたらす潜在的価値、そして、構造化、半構造化、非構造化のどのタイプのリソースからもデータを得ることができるテクノロジーであることは理解できたでしょうか。さらに、インフラストラクチャーを適切な場所に導入するための基本と、ビッグデータ・イニシアチブを支えるスムーズな稼動についての概要も理解できたことでしょう。

このガイドの冒頭で説明した3つの基本ステップに従うことで、いよいよビッグデータ分析プロジェクトに着手できます。このガイドでは、主にそのテクノロジーとステップ3の部分を詳しく説明していますが、各ステップでの重要項目をチェックリストの形式で以下にまとめています。参考にしてください。

ステップ1:ビッグデータが組織に与える文化的な影響を理解する

• ビッグデータ分析が組織にもたらす価値に対する理解を深めてください。

a IT部門の同僚や取引先と話をします。

a インテル ITセンターにあるビッグデータ関連のリソースを活用し、テクノロジーについてよく理解します。

a ベンダーの提案内容を理解します。

a Apache が提供しているチュートリアルに取り組んで、ユーザー向け資料をじっくりと読みます。

• 会社の経営層と協力して、ビッグデータに対する戦略やアプローチを考えてください。

a ビッグデータのビジネスケース:ビッグデータ分析によって、自社のビジネス価値はどのように高まりますか? そのときの主要課題となるのは何ですか?

a 短期、中期、長期目標を決める:ビッグデータ・プロジェクトが目標を達成するための主要なフェーズは何ですか?

a 組織における ITインフラストラクチャーの現状と未来:データセンターはビッグデータ・プラットフォームに 対応できますか?データセンターで現在使用しているテクノロジーにアクセスし、必要であれば、演算、ストレージ、ネットワークなどのリソースのアップグレードを検討します。

a データソースとデータ品質:内部的なプライマリー・データソースは何ですか? 取得する可能性のあるほかの追加データはどのようなものですか?データ品質をどのように確保しますか?

a ビッグデータのプラットフォームとツール:ソリューション構築に使用するプラットフォームは何ですか? 目的に到達するために必要なソフトウェアとツールは何ですか?

a 成功の測定基準 :システムのパフォーマンスをどのように測定しますか?ジョブの投入数、並行処理数、効率的に完了できる数を、成功の基準とします。

ビッグデータ分析に着手する:3つの基本ステップ

インテル ITセンター プランニング・ガイド | ビッグデータ分析への着手 | 2015年4月13

• ビジネスユーザーと協力して、ビジネスチャンスを明確にしてください。

a 特定のビジネスユーザー(アナリスト、データ・サイエンティスト、マーケティングのプロなど)と協力して、自分の組織のビッグデータ分析にとって最高のビジネスチャンスを見つけます。例えば、現在のビジネス上の問題、中でも、解決が難しくコストがかかるもの、現在のデータソースと分析システムでは解決不可能なものについて検討します。または、データソースが新しく、構造化されていないために、現状では取り込みができていない問題について検討します。

a 機会のリストに優先順位をつけて、投資収益率(ROI)が確実に分かるプロジェクトを選択します。最適なプロジェ クトを決定するために、次の質問に対する答えを検討の基準としてください。

- 何を達成しようとしていますか?

- このプロジェクトは組織の戦略的目標と一致していますか?

- プロジェクトの管理に対してサポートは得られますか?

- ビッグデータ分析に、従来型の分析からは得られなかったようなインサイトが見込めますか?

- プロジェクトの結果を参考にしてどんなアクションが取れますか?

- 投資に対する予想利益はどれくらいですか?

- このプロジェクトを査定する期間として半年から1年を投入できますか?

- 必要としているデータは利用可能なものですか?すでに持っているものは何ですか?購入する必要があるものは何ですか?

- 収集されるのはリアルタイムのデータですか、それともヒストリカル・データですか?

ステップ2:必要な技術を持った人材を雇用する

• 自社の組織や IT部門に必要なスキルを理解し、雇用を検討してください。

a この取り組みを成功させるために必要なスキルは何ですか? そうしたスキルを持った人材が社内にいますか?

a 社内の人材にスキルを身に付けてもらいますか? 有望な人材を新しく雇いますか?外部に委託しますか?

a そうした人材を社内のどの部署の所属にしますか? IT部門で良いでしょうか?

ステップ3:ビッグデータ・ソリューションを導入する

• プロジェクトの使用事例を開発してください。

a プロジェクト遂行に必要な使用事例を特定します。

a データフローを緻密に計画して、ビジネス上の課題を解決するために必要なテクノロジーとビッグデータ機能を 定義します。

a 含めるデータと除外するデータを選り分けます。意義のあるインサイトに結びつく戦略的データだけを特定します。

a データの相互関係と業務ルールの複雑度を調べます。

a 目的とする出力の生成に必要な分析クエリーと分析アルゴリズムを特定します。

a インタラクティブ・クエリーや予測分析といった高度な分析、また、リアルタイム・データストリームに対応する 必要があるかどうかを検討します。

14 インテル ITセンター プランニング・ガイド | ビッグデータ分析への着手 | 2015年4月

• 現行の能力と、将来的に目指す能力とのギャップを特定してください。

a 収集、クレンジング、統合するデータを使用可能なフォーマットにするために、データ品質に関する追加要件が必要ですか?

a データの分類、関連性の定義、保管、分析、アクセスのそれぞれで、どのようなデータ管理ポリシーを策定する必要がありますか?

a 拡張性、低レイテンシー、パフォーマンス(コンピューティング、ストレージ、ネットワーク機能)を確保するために、どのようなインフラストラクチャー能力が必要ですか?

a 大量の異種データを高速で検索するために、NoSQLデータベースなど専門的なコンポーネントを追加する必要はありますか?

a 一定のリアルタイム・データストリーム処理を考えている場合は、どんなインフラストラクチャーとメモリー機能を追加する必要がありますか? MPPインメモリー分析アプライアンスは必要ですか?CEPソリューションは必要ですか?

a デリバリーモデルにクラウド・コンピューティングを検討していますか? プライベート、パブリック、ハイブリッド、どのタイプのクラウド環境を使いますか?

a ユーザーに対してデータをどのように提示しますか? 検索結果は、経営幹部から情報専門家まで幅広いビジネスユーザーが簡単に理解できる形で示す必要があります。

• 実機バージョンのテスト環境を整備してください。

a リファレンス・アーキテクチャーを自分の組織に合ったものにします。インテルは、一流のパートナーと連携してリファレンス・アーキテクチャーを開発しています。これはインテル ® クラウド・ビルダーズ・プログラムの一環であり、ビッグデータの使用事例のガイダンスとなります。

a プレゼンテーション・レイヤー、分析アプリケーション・レイヤー、データ・ウェアハウスを定義します。可能な場合は、プライベート、またはパブリックベースのクラウドデータ管理を定義します。

a ユーザーが結果を意味のある形で提示するために必要なツールを決定します。ツールの普及(ユーザー・アダプション)は、プロジェクト全体の成功を大きく左右します。

15 インテル ITセンター プランニング・ガイド | ビッグデータ分析への着手 | 2015年4月

これまでに示したリソースに加え、さらにビッグデータ導入に役立つ以下のコンテンツも利用可能です。

Webサイトテーマごとに、次のような追加情報があります。• ビッグデータ: http://www.intel.co.jp/bigdata/• モノのインターネット(IoT):http://www.intel.co.jp/iot/• 可能性を開く新中核:http://www.intel.co.jp/centerofpossibility/• インテル ® Xeon® プロセッサー E5 ファミリー:http://www.intel.co.jp/xeone5/• インテル ® Xeon® プロセッサー E5 v3 ファミリーのソフトウェア・ソリューション:

http://www.intel.co.jp/content/www/jp/ja/processors/xeon/xeon-e5-v3-software-solutions.html• インテル ® Xeon® プロセッサー E7 ファミリー:http://www.intel.co.jp/xeone7/ • インテル ® Xeon® プロセッサー E7 v3 ファミリーのソフトウェア・ソリューション:

http://www.intel.com/content/www/jp/ja/processors/xeon/xeon-e7-v3-software-solutions.html

ビッグデータ・プラットフォーム関連『Accelerate Big Data Analysis with Intel® Technologies』このホワイトペーパーは、日々増大するデータの大量(volume)、多様(variety)、高速(velocity)に企業が対応するための、Apache* Hadoop*クラスターをスケールアップするインテルのテクノロジーについて説明しています。少数のより強力な サーバーを使用することで、運用コストの大幅な削減が可能になります。http://www.intel.com/content/www/us/en/big-data/big-data-analysis-intel-technologies-paper.html(英語)

『ビッグデータ分析によるマーケティング・インサイトの最大化』 このホワイトペーパーは、インテルのコーポレート・マーケティング・グループと IT部門の連携について説明しています。こうした連携は、メディアチャネル全体に対するより効率的なマーケティング費用の配分に役立つ、マーケティング分析プログラムを導入します。http://www.intel.co.jp/content/www/jp/ja/it-management/intel-it-best-practices/maximizing-marketing-insight-through-big-data-analytics-paper.html

『企業内のビッグデータのマイニングによるビジネス・インテリジェンスの向上』 インテル IT部門が作成したこのホワイトペーパーでは、運用効率と競争力を高めるために、インテルがどのようにビッグデータ分析システムとそのスキルを整備しているかを説明しています。インテル IT部門は、インテルの各ビジネスグループと協力して、マルウェアの検出、半導体設計の検証、マーケット・インテリジェンス、レコメンデーション・システムなど、ビッグデータ・プラットフォームに関する概念実証を実施しています。http://www.intel.co.jp/content/www/jp/ja/it-management/intel-it-best-practices/mining-big-data-In-the-enterprise-for-better-business-intelligence.html

『Evaluating Apache Hadoop* Software for Big Data ETL Functions』 このホワイトペーパーは、インテル IT部門がどのようにしてHadoop*のETL機能を評価し、そこから最大の効果を得るための環境を特定したかを説明しています。http://www.intel.com/content/www/us/en/it-management/intel-it-best-practices/evaluating-apache-hadoop-software-for-big-data-etl-functions-paper.html(英語)

『How Intel IT Successfully Migrated to Cloudera Apache Hadoop*』インテル IT部門が作成したこのホワイトペーパーは、Cloudera*ディストリビューションのApache* Hadoop*(CDH)へと移行することのメリットと成功事例について説明しています。http://www.intel.com/content/www/us/en/it-management/how-intel-it-successfully-migrated-to-cloudera-apache-hadoop-paper.html(英語)

関連資料

16 インテル ITセンター プランニング・ガイド | ビッグデータ分析への着手 | 2015年4月

『Leading Advances in the Utilization of Big Data in the Healthcare Industry』このホワイトペーパーは、日本の医療業界におけるビッグデータ普及の現状を示すとともに、ビッグデータの基幹テクノロジーを支えるMicrosoftとインテルの医療ソリューションについて説明しています。http://www.intel.co.jp/content/www/jp/ja/healthcare-it/big-data-healthcare-tokyo-paper.html(英語)

『One Big Data Strategy, Three Massively Parallel Processing Platforms (MPP)』このビジネスレビューは、エンタープライズ・データ・ウェアハウス(EDW)、Apache* Hadoop*、超並列処理(MPP)プラットフォームなど、インテル IT部門が展開するビッグデータ・プラットフォーム戦略について解説しています。http://www.intel.com/content/www/us/en/it-management/intel-it/it-business-review-big-data-strategy-chandhu-yalla.html(英語)

『Predictive Analytics: Use All Your Data to Compete and Win』ビッグデータは、それ自体も重要ですが、その分析方法もまた重要です。このソリューション概要は、記述的分析、インタラク ティブ・クエリー、予測分析のための大規模なビッグデータ・プラットフォームの実装において、高い費用対効果を実現する方法について説明しています。http://software.intel.com/sites/default/files/article/486773/sb-use-all-your-data-to-compete-and-win.pdf(英語)

『Turn Big Data into Big Value: A Practical Strategy』 IC、システム、ソフトウェアの分野におけるインテルのイノベーションは、3つの利用モデル(Apache* Hadoop*ソフトウェアを用いたETL、インタラクティブ・クエリー、Hadoop*プラットフォームでの予測分析)、およびその他のビッグデータ・ソリューションを、最適な性能、コスト、電力効率で導入することを支援します。 http://software.intel.com/sites/default/files/article/402150/turn-big-data-into-big-value.pdf(英語)

インテルのパートナー・ソリューション関連インテルのパートナーから、ソリューション解説が中心のコンテンツも提供されています。詳しくは、インテル ITセンターの 『可能性を開く新中核』ページをお読みください。

http://www.intel.co.jp/centerofpossibility/

『Amazon Web Services*』 このソリューション概要は、インテル ® Xeon® プロセッサーを搭載したサーバーとAmazon Web Services*プラットフォームを使って、費用対効果の高いビッグデータ・エンジンをクラウド上で開発する方法について説明しています。 http://www.intel.co.jp/content/www/jp/ja/big-data/cloud-analytics-aws-product-brief.html(英語)

『Dell* In-Memory Appliance for Cloudera* Enterprise』このソリューション概要は、インテル ® Xeon® プロセッサー E7を搭載したサーバー上で稼動し、Cloudera* EnterpriseとApache Spark*をリアルタイム分析に使用する、導入が簡単なDellのインメモリー・アプライアンス・ソリューションについて説明しています。http://www.intel.co.jp/content/www/jp/ja/big-data/xeon-hadoop-dell-cloudera-brief.html(英語)

『SAP HANA* Platform』インテル ® Xeon® プロセッサー E7ファミリーを搭載したサーバー上で稼動するインメモリー・データベース、SAP HANA*を 使って、レイテンシーを抑えながらリアルタイム分析を可能にする方法を解説しています。http://www.intel.co.jp/content/www/jp/ja/big-data/real-time-analysis-sap-product-brief.html(英語)

17 インテル ITセンター プランニング・ガイド | ビッグデータ分析への着手 | 2015年4月

1. 『Connections Counter: The Internet of Everything in Motion』(英語)(Cisco、2013年 7月) http://newsroom.cisco.com/

feature-content?type=webcontent&articleId=1208342

2. IoTは、2020年には260億台ものインストール・ベースを持つと予測されています。加えて、その時点で使用されているスマートフォン、タブレット、PCの数は73億台に達すると見られています。つまり、2020年には合計で330億台を超える デバイスが IoTに接続することになります。出展:『Gartner Says the Internet of Things Installed Base Will Grow to 26 Billion Units By 2020』(英語)(Gartner、2013年12月12日) http://gartner.com/newsroom/id/2636073

3. ティモ・エリオット『Why In-Memory Computing Is Cheaper and Changes Everything』(英語)(同氏のブログ「Business Analytics」の2013年4月17日の記事) http://timoelliott.com/blog/2013/04/why-in-memor y-computing-is-cheaper-and-changes-everything.html

4. インテル ® テクノロジーの機能と利点はシステム構成によって異なり、対応するハードウェアやソフトウェア、またはサービスの有効化が必要となる場合があります。実際の性能は システム構成によって異なります。詳細については、各シス テムメーカーまたは販売店にお問い合わせいただくか、 http://intel.co.jp/を参照してください。

5. 性能に関するテストに使用されるソフトウェアとワークロードは、性能がインテル ® マイクロプロセッサー用に最適化されていることがあります。SYSmark* や MobileMark* などの性能テストは、特定のコンピューター・システム、コンポーネント、ソフトウェア、操作、機能に基づいて行ったものです。結果はこれらの要素によって異なります。製品の購入を検討される場合は、他の製品と組み合わせた場合の本製品の性能など、 ほかの情報や性能テストも参考にして、パフォーマンスを総合的に評価することをお勧めします。

6. インテル ® テクノロジーの機能と利点はシステム構成によって異なり、対応するハードウェアやソフトウェア、またはサービスの有効化が必要となる場合があります。実際の性能はシステム構成によって異なります。絶対的なセキュリティーを提供できるコンピューター・システムはありません。詳細については、各システムメーカーまたは販売店にお問い合わせいただくか、http://intel.co.jp/を参照してください。

7. 結果はインテル社内での分析に基づいて推定されており、情報提供のみを目的としています。システム・ハードウェア、 ソフトウェアの設計、構成などの違いにより、実際の性能は 掲載された性能テストや評価とは異なる場合があります。

8. 2012年12月にインテルが実施したTeraSortベンチマーク。次のカスタム設定を使用:mapred.reduce.tasks=100、mapred.job.reuse.jvm.num.tasks=-1。詳細については、 http://hadoop.apache.org/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.htmlを参照してください。

9. クラスター設定:ヘッドノードx1(ネームノード、ジョブトラッカー)、ワーカー x10(データノード、タスクトラッカー)、Cisco Nexus* 5020 10ギガビットスイッチ。

ベースラインとなるワーカーノード:2基のインテル ® Xeon® プロセッサー X5690 シリーズ 3.47 GHz、48 GB RAM、700 GB 7,200 RPM SATAハードドライブ、インテル ® イーサ ネット・サーバー・アダプター I350-T2、Apache* Hadoop* 1.0.3、Red Hat* Enterprise Linux* 6.3、Oracle* Java* 1.7.0_05を搭載した Supermicro* SYS-1026T-URF 1U サーバー。

アップグレードしたプロセッサー、およびワーカーノードの基本システム:2基のインテル ® Xeon® プロセッサー E5-2690 製品ファミリー 2.90 GHz、128 GB RAMを搭載したDell* PowerEdge* R720 2U サーバー。

アップグレードしたワーカーノードのストレージ:インテル ® Solid-State Drive 520 シリーズ。

アップグレードしたワーカーノードのソフトウェア:Apache* Hadoop* 2.1.1向けインテル ® ディストリビューション。

10. Huang、Shengsheng、Jie Huang、Jinquan Dai、Tao Xie、 Bo Huang。『The HiBench Benchmark Suite: Characterization of the MapReduce-Based Data Analysis』(英語)(IEEE、2010年3月)

後 注

インテルの ITセンターについて『プランニング・ガイド:ビッグデータ分析への着手』は、インテル ITセンターが提供しているものです。インテル IT センターは、インテルのテクノロジーについて、明確かつ簡潔な情報を提供することで、仮想化、データセンターの設計、ビッグデータ、クラウド、クライアント /インフラストラクチャーのセキュリティーなどの戦略的プロジェクトに携わる IT担当者を支援します。以下の情報については、インテル ITセンターのWebサイトを参照してください。

• データセンターに関する見解のリーダーシップ、イノベーションに関するビジネス・クライアントの動向と全体像

• 重要なプロジェクトを遂行する際に役立つプランニング・ガイド、ケーススタディー、ソリューション・スポット ライトなど

• クラウド、仮想化、セキュリティーの実装など、インテルの IT部門が自ら行っている戦略的な取り組みに関する情報

• インテルの製品エキスパートやインテルの IT担当者からアドバイスを受けられるイベントに関する情報

詳細については、http://www.intel.co.jp/ITCenter/を参照してください。

この文書は情報提供のみを目的としています。この文書は現状のまま提供され、いかなる保証もいたしません。ここにいう保証には、商品適格性、他者の権利の非侵害性、特定目的への適合性、また、あらゆる提案書、仕様書、見本から生じる保証を含みますが、これらに限定されるものではありません。インテルはこの情報の使用に関する財産権の侵害を含む、いかなる責任も負いません。また、明示されているか否かにかかわらず、また禁反言によるとよらずにかかわらず、いかなる知的財産権のライセンスも許諾するものではありません。

Intel、インテル、Intelロゴ、Experience What�s Inside、Experience What�s Insideロゴ、Xeonは、アメリカ合衆国および /またはその他の国における Intel Corporationの商標です。

Microsoft、およびWindowsは、米国Microsoft Corporationの、米国およびその他の国における登録商標または商標です。

* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。

インテル株式会社〒100-0005 東京都千代田区丸の内3-1-1http://www.intel.co.jp/

©2016 Intel Corporation.  無断での引用、転載を禁じます。2016年1月

330278-001JAJPN/1601/PDF/SDL/MKTG/IA