Hadoop　基礎

Hadoop 基礎編

Hideaki Honda

Hadoop(ハドゥープ)とは

また、誤解されやすいが、リレーショナルデータベースや

ファイルシステム、検索エンジン等ではない。

一言でいえば、

大規模データを処理するための

並列分散処理ソフトウェア基盤である。

並列分散処理とは、１つの処理を複数のサーバで同時並列に処理させること。

概要

・オープンソースソフトウェアである

・ Apache Software Foundationが開発・公開している

・Javaを使って開発されている

・登場した背景にGoogleが深く関わっている

・ペタバイトクラスの大規模データを処理するのが得意である

・特殊なサーバやストレージは必要ない

登場した背景 (1)

Googleが、Webサイトの検索エンジンの開発に着手。

が、大規模なデータ故に、従来のファイルシステムやデータベースでは実現が難しい。

そこでGoogleは、実現出来るためのソフトウェアを内部で開発し、それを利用した。

その技術の一部を論文として公表する。2003年「The Google File System」http://static.googleusercontent.com/media/research.google.com/ja//archive/ _gfs-sosp2003.pdf

2004年「 MapReduce: Simplified Data Processing on Large Clusters 」http://static.googleusercontent.com/media/research.google.com/ja//archive/ _mapreduce-osdi04.pdf

登場した背景 (2)

この論文に着想を得て、ASFがHadoopプロジェクトをスタートさせ、オープンソースとして実装された。

・ブログ、SNS、Twitterなど個人が情報を発信出来る時代になり、大規模データを扱う必要性が生まれてきている

・元々大規模データがあり活用したかったが既存のテクノロジーでは手段が無かったり、制約(HW、SW面で)や金額の面で難しい

これらの問題点を解決できるソフトウェアとして非常に注目度が高い。

HadoopプロジェクトとGoogle

Googleの技術とHadoopプロジェクトの関係

処理 Google Hadoop

分散フゔルシステム GFS(Google File System)

HDFS(Hadoop Distributed File System)

分散処理フレームワーク MapReduce Hadoop MapReduce

KV型データストゕ BigTable HBase

成り立ちからも分かる通り、

Hadoopプロジェクトは、Googleの影響を強く受けている。

環境まわり

・特殊なサーバやストレージは必要ない。

・複数のOSで動作可能だが、Linuxが一般的。

・バージョン1.6以上のJava実行環境が必要。

Hadoop自体はあくまで基盤なので、処理の実装は

開発者が行う。Javaでの実装は当然できるが、

「Hadoop Streaming」という仕組みを使えば、

任意のプログラミング言語でも実装が可能である。

提供の形式

Hadoopには

・コミュニテゖ版

・デゖストリビューション版

の２つが存在する。

ベンダー製品名

Cloudera CDH

Microsoft Windows Azure HDInsight

MapR MapR

主なディストリビューション

他にはンテルなども。

Hadoopの構成要素(1)

Hadoopの構成要素でキモとなるのが以下の２つ。

これらが連携することで高スループットなデータ処理を実現。

1.HDFS

2.MapReduce

画像の引用元：並列分散処理の常識をHadoopフゔミリから学ぶhttp://www.atmarkit.co.jp/ait/articles/1202/08/news138.html

[Hadoopとその関連図]

Hadoopの構成要素(2)

１．HDFS(Hadoop Distributed File System)

分散ファイルシステム

大容量のデータを複数のサーバに格納する仕組み。

複数のサーバを組み合わせて、ひとつの大きな

フゔルシステムを提供する。

２．MapReduce

並列分散処理を実現するフレームワーク

ひとつの大きな処理(ジョブ)を複数の単位(タスク)に

分割して並列実行する仕組み。

性能まわり(1)

Hadoopでは、サーバをスケールゕウトすることで

性能ゕップを図る。これに対してRDBでは、

サーバ間で更新データの整合性を保つのが難しくなるため、

スケールゕップで対応するのが一般的である。

クラスタを構成するサーバ台数を追加することで、

データ容量を拡張したり、分散処理の性能を向上させる。

逆に言うと、2、3台ほどのクラスタでは性能は引き出せない。

ちなみに、米Yahoo!では4000台ほどのクラスタを組んでいる。

性能まわり(2)

大規模データを処理する場合で解決すべき問題は多い。

その１つに、デゖスクI/Oのスループットがある。

CPU性能の進化、搭載メモリの大容量化に比べて

デゖスクI/Oのスループットは、それほど向上していない。

Hadoopでは、複数のサーバを組み合わせて全体(クラスタ)

として機能を提供するため、デゖスクI/Oが

ボトルネックになりにくいと言われている。

Hadoop　基礎

Technology

Node.js基礎の基礎 - Miyazaki.js vol.2

光の基礎知識 - Optigate146 光の基礎知識光の基礎知識 147 光の基礎知識光の基礎知識光ファイバ／ケーブルの基礎知識光ファイバ／ケーブルの基礎知識

法改正も基礎も基礎講座なら網羅！講師レジュメ法改正も基礎も基礎講座なら網羅！ ―リアリスティック一発合格松本基礎講座ガイダンス―

コンピュータ基礎 AB ガイダンス

R8C タイマの基礎

DB パフォーマンスチューニングの基礎

第2章トランスフォーマーの基礎granite.phys.s.u-tokyo.ac.jp/tsubono/hiramatsu_seminar/...21 第2章トランスフォーマーの基礎 2-1インダクタンスの基礎

OFFICE EXCEL 基礎篇

NET micro FrameWork for TOPPERS （.NET基礎）@基礎勉強会

クラウドセキュリティ基礎 #seccamp

電子回路基礎電子回路の基礎 - mech.hirosaki-u ...sagawa/class/2009/mechatronics_parts.… · 電子回路基礎電子回路の基礎抵抗器コンデンサコイル

Hadoopを用いた分散画像処理の基礎検討 - …...3 第2章研究背景 2.1 Hadoopの概要 Apache Hadoopプロジェクトでは，信頼性の高いスケーラブルな分散コンピューティ

初心者がハマったWindows Azureの基礎の基礎

ソフトウェアプラットフォームと RTOSの基礎dev.toppers.jp/trac_user/ev3pf/raw-attachment/wiki... · 基礎1・（新）基礎2・（新）基礎3実装セミナー教材

コンピュータ基礎 ( 5 )

コンピュータ基礎 (8)

Cloudera - 恆逸教育訓練中心...課程內容 1. Hadoop導論 2. Hadoop動機 3. Hadoop：基礎概論及HDFS(Hadoop分散式檔案系統) 4. MapReduce導論 5. Hadoop叢集及Hadoop生態系統

基礎分野 - takasaki.hosp.go.jp · 4回基礎理論③ 基礎③「連言・選言」、接続語②、演習③ 講義・演習・報告 5回基礎理論④ 基礎④「条件法」、要点・報告、演習④

testharness.js の基礎

Linux 基礎應用