Talend Open Studio for Big Data - 入門ガイドdownload-mirror1.talend.com/tosbd/user-guide-download/V563/Tale… · Talend Open Studio for Big Data Getting Started Guide 1.Talendビッグデータソリューションへの⼊⾨

Talend Open Studiofor Big Data⼊⾨ガイド

5.6.3

Talend Open Studio for Big Data

v5.6.3に対応しており、以前のリリースの更新版となります。

発⾏⽇ 2016年2⽉2⽇

Copyleft

本書は、クリエイティブコモンズパブリックライセンス(CCPL)の条件に基づいて提供されています。

CCPLに準拠した許可事項および禁⽌事項の詳細は、http://creativecommons.org/licenses/by-nc-sa/2.0/を参照してください。

商標について

すべてのブランド、商品名、会社名、商標、およびサービスマークは各所有者に帰属します。

ライセンス契約

このドキュメントに記述されているソフトウェアは、Apache License、バージョン2.0 (以下「本ライセンス」という)の下でライセンスされています。本ライセンスを遵守せずに、このソフトウェアを使⽤することはできません。ライセンスのコピーは、http://www.apache.org/licenses/LICENSE-2.0.htmlで取得できます。当該の法律による要求または書⾯での同意がない限り、本ライセンスの下で配布されるソフトウェアは、「現状どおり」に、明⽰または暗⽰にかかわらず、あらゆる保証あるいは条件なしで配布されます。ライセンスの下で許可および制限を適⽤する特定の⾔語のライセンスを参照してください。

この製品には、以下で開発されたソフトウェアが含まれます。AOP Alliance (Java/J2EEAOP standards)、ASM、Amazon、AntlR、Apache ActiveMQ、Apache Ant、ApacheAvro、Apache Axiom、Apache Axis、Apache Axis 2、Apache Batik、Apache CXF、ApacheCassandra、Apache Chemistry、Apache Common Http Client、Apache Common HttpCore、Apache Commons、Apache Commons Bcel、Apache Commons JxPath、ApacheCommons Lang、Apache Datafu、Apache Derby Database Engine and Embedded JDBCDriver、Apache Geronimo、Apache HCatalog、Apache Hadoop、Apache Hbase、ApacheHive、Apache HttpClient、Apache HttpComponents Client、Apache JAMES、ApacheLog4j、Apache Lucene Core、Apache Neethi、Apache Oozie、Apache POI、ApacheParquet、Apache Pig、Apache PiggyBank、Apache ServiceMix、Apache Sqoop、ApacheThrift、Apache Tomcat、Apache Velocity、Apache WSS4J、Apache WebServices CommonUtilities、Apache Xml-RPC、Apache Zookeeper、Box Java SDK (V2)、CSV Tools、ClouderaHTrace、ConcurrentLinkedHashMap for Java、Couchbase Client、DataNucleus、DataStaxJava Driver for Apache Cassandra、Ehcache、Ezmorph、Ganymed SSH-2 for Java、GoogleAPIs Client Library for Java、Google Gson、Groovy、Guava:GoogleのJava向けコアライブラリ、H2 Embedded Database and JDBC Driver、Hector:Apache CassandraのハイレベルJavaクライアント、Hibernate BeanValidation API、Hibernate Validator、HighScaleLib、HsqlDB、Ini4j、JClouds、JDO-API、JLine、JSON、JSR 305:Javaソフトウェア⽋陥検出⽤アノテーション、JUnit、Jackson Java JSON-processor、Java API for RESTful Services、JavaAgent for Memory Measurements、Jaxb、Jaxen、JetS3T、Jettison、Jetty、Joda-Time、Json Simple、LZ4:超⾼速圧縮アルゴリズム、LightCouch、MetaStuff、MetricsAPI、Metrics Reporter Config、Microsoft Azure SDK for Java、Mondrian、MongoDB JavaDriver、Netty、Ning Compression codec for LZF encoding、OpenSAML、Paraccel JDBCDriver、Parboiled、PostgreSQL JDBC Driver、Protocol Buffers - Google's data interchangeformat、Resty:Java向けシンプルHTTP RESTクライアント、Riak Client、Rocoto、SDSU JavaLibrary、SL4J:Simple Logging Facade for Java、SQLite JDBC Driver、Scala Lang、Simple APIfor CSS、Snappy for Java a fast compressor/decompresser、SpyMemCached、SshJ、StAXAPI、StAXON - JSON via StAX、Super SCV、The Castor Project、The Legion of the BouncyCastle、Twitter4J、Uuid、W3C、Windows Azure Storage libraries for Java、Woden、Woodstox:⾼性能XMLプロセッサー、Xalan-J、Xerces2、XmlBeans、XmlSchema Core、Xmlsec - ApacheSantuario、YAML parser and emitter for Java、Zip4J、atinject、dropbox-sdk-java:DropboxコアAPI向けJavaライブラリ、google-guice。各ライセンスの下でライセンスされています。

http://creativecommons.org/licenses/by-nc-sa/2.0/

http://creativecommons.org/licenses/by-nc-sa/2.0/

http://www.apache.org/licenses/LICENSE-2.0.html

http://www.apache.org/licenses/LICENSE-2.0.html

Talend Open Studio for Big Data Getting Started Guide

⽬次序⽂ .................................................................................................................. v

1. ⼀般情報 ............................................................................................................. v1.1. ⽬的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v1.2. 対象読者 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v1.3. 表記⽅法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v

2. フィードバックとサポート ........................................................................................ v1. Talendビッグデータソリューションへの⼊⾨ ...................................................... 1

1.1. HadoopとTalend Studio ...................................................................................... 21.2. Talendビッグデータソリューションの機能的なアーキテクチャ .......................................... 2

2. デモプロジェクトを使ったTalendビッグデータの⼊⾨ .......................................... 52.1. ビッグデータのデモプロジェクトの概要 ..................................................................... 6

2.1.1. Hortonworks_Sandbox_Samples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.1.2. NoSQL_Examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2. デモジョブを実⾏するための環境のセットアップ ........................................................... 82.2.1. Hortonworks Sandboxのインストール .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.2.2. デモプロジェクトで使⽤しているコンテキスト変数の理解 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3. Talend Studioでのジョブの処理 ..................................................................... 133.1. Oozieを経由したジョブの実⾏⽅法 .......................................................................... 14

3.1.1. HDFS接続の詳細の設定⽅法 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.1.2. HDFSサーバー上でジョブを実⾏する⽅法 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.1.3. ジョブの実⾏のスケジュール⽅法 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.1.4. ジョブの実⾏ステータスの監視⽅法 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4. Sparkプロセスのデザイン .............................................................................. 234.1. Sparkシステムの活⽤ ......................................................................................... 244.2. Sparkジョブの定義 ............................................................................................ 24

5. ビッグデータのフローマッピング ..................................................................... 275.1. tPigMapのインターフェイス ................................................................................. 285.2. tPigMap操作 .................................................................................................... 29

5.2.1. 結合操作の設定 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295.2.2. 却下レコードのキャッシュ .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305.2.3. 式の編集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315.2.4. Pigユーザー定義関数のセットアップ .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345.2.5. UDFパネルを使⽤したPig UDFの定義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

6. Talendビッグデータのメタデータの管理 .......................................................... 376.1. NoSQLメタデータの管理 ...................................................................................... 38

6.1.1. Cassandraメタデータの⼀元管理 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386.1.2. MongoDBメタデータの⼀元管理 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446.1.3. Neo4jメタデータの⼀元管理 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6.2. Hadoopメタデータの管理 .................................................................................... 546.2.1. Hadoop接続の⼀元化 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.2.2. HBaseメタデータの⼀元化 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626.2.3. HCatalogメタデータの⼀元化 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 696.2.4. HDFSメタデータの⼀元化 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 746.2.5. Hiveメタデータの⼀元化 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 806.2.6. Oozie接続の⼀元化 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 876.2.7. 再利⽤可能なHadoopプロパティの設定 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

付録 A. ビッグデータのジョブの例 ....................................................................... 95A.1. Hadoopを使⽤したWebトラフィック情報の収集 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

A.1.1. 前提条件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96A.1.2. シナリオ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96A.1.3. シナリオからジョブへの変換 .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97



序⽂

1. ⼀般情報

1.1. ⽬的特に明記しない限り、このガイドで「Talend Studio」または「Studio」という表記は、ビッグデータ機能を持つすべてのTalend Studio製品を指します。

この⼊⾨ガイドは、通常の操作状況で Talend Studioのビッグデータ専⽤機能を管理する⽅法について説明します。

このドキュメントに記載されている情報は、Talend Studio5.6.3に該当します。

1.2. 対象読者このガイドはTalend Studioのユーザーと管理者を対象としています。

このドキュメントに含まれているGUI画⾯のレイアウトは、実際のGUIと多少異なる場合があります。

1.3. 表記⽅法このガイドでは、次の表記⽅法を採⽤しています。

• bold (太字)のテキスト: ウィンドウおよびダイアログボックスのボタンとフィールド、キーボードのキー、メニュー、メニューのオプション

• [bold] (太字)のテキスト: ウィンドウ、ウィザード、およびダイアログボックスのタイトル

• courier のテキスト: ユーザーが⼊⼒するシステムパラメーター

• italics (斜体)のテキスト:ファイル、スキーマ、列、⾏、および変数名

• アイコンは、重要な点について追加情報を提供するアイテムを⽰します。また、表や図に関するコメントを追加する場合にも使⽤されます。

• アイコンは、実⾏要件や推奨タイプに関する情報を提供するメッセージを⽰します。また、エンドユーザーが特に注意を払う必要がある状況や情報を⽰す場合にも使⽤されます。

2. フィードバックとサポートお客様からのフィードバックは⼤変貴重です。本ドキュメントや本製品に関するご意⾒、ご提案、ご要望や、Talendチームのサポートにつきましては、Talendフォーラムの次のWebサイトをご覧ください。

フィードバックとサポート

vi Talend Open Studio for Big Data Getting Started Guide

http://talendforge.org/forum

http://talendforge.org/forum


1.Talendビッグデータソリューションへの⼊⾨組織が収集するデータが、ますます肥⼤し複雑さを増す傾向にあるのは、今に始まったことではありません。特にインターネットの時代では、従来のようなあり合わせの情報管理ツールを使ってこのように肥⼤化・複雑化したデータを処理することは、よりいっそう難しくなってきています。このような難問を克服するために、「ビッグデータ」ツールの新しいプラットフォームが登場しました。Apache Hadoop Big Data Platformは、⼤量のデータを処理するために特別にデザインされたプラットフォームです。

Talendのデータ統合ソリューションを基礎とするTalendのビッグデータソリューションは、Apache Hadoop Big Data Platformを活⽤してユーザーがビッグデータへのアクセス、変換、移動、同期を⾏ったり、Hadoopプラットフォームをごく⼿軽に使うことができるパワフルなツールセットです。

このガイドでは、Talend Studioのビッグデータに関連するフィーチャーと機能のみを説明しています。そのため、Studioを使ってビッグデータのジョブを処理する場合は、先にユーザーガイドを読んでStudioの使い⽅を確認してください。

HadoopとTalend Studio

2 Talend Open Studio for Big Data Getting Started Guide

1.1. HadoopとTalend Studio通常、ITスペシャリストが'ビッグデータ'と呼ぶのは、従来のデータ管理ツールでは処理できない膨⼤で複雑なデータセットのことを指します。このように膨⼤なデータが⽣じるのには、さまざまな理由があります。たとえば、⾃動的に⽣成されたデータストリーム(レポート、ログ、カメラフッテージなど)や、顧客の動向を詳しく分析した結果(消費データ)、科学的な調査(該当する例としては⼤型ハドロン衝突型加速器などが挙げられる)、またはさまざまなデータソースの結合などが挙げられます。

これらのデータリポジトリはペタバイトやエクサバイト規模に肥⼤化することが多く、従来のデータベースシステムは処理能⼒が限られているため分析を⾏うのは困難です。ビッグデータの分析を⾏うには、演算能⼒を数千台規模のコンピューターに分散し、分析した結果を中央のコンピューターに転送する膨⼤な並列環境が必要です。

Hadoopのオープンソースプラットフォームは、ビッグデータの分析を⾏う主要なフレームワークとして登場しました。この分散ファイルシステムでは、情報をいくつかのデータブロックに分割し、ネットワーク内の複数のシステム(Hadoopクラスター)で処理します。Hadoopは、演算能⼒を分散化することで、可⽤性と冗⻑性も⾼まります。「マスターノード」では、ファイルストレージと要求を処理します。

Hadoopは、ビッグデータを処理するうえで⾮常に強⼒なコンピューティングプラットフォームです。外部の要求を受け⼊れ、クラスターの中にある個々のコンピューターに分散化し、個々のノードで並列実⾏することができます。その結果は、中央に送り返して分析することができます。

ただし、データアナリストがHadoopの利点を活⽤するには、データをHadoopにロードし、その後、このオープンソースシステムからデータを抽出するための⽅法が必要です。その⽅法を提供するのが、Talend Studioです。

Talend Studioは、Talendのデータ統合ソリューションに基づいて設計されているので、ユーザーはHadoopやそのデータベースをはじめ、HBase、HCatalog、HDFS、Hive、Oozie、Pigなどのテクノロジーを活⽤してビッグデータを簡単に処理することができます。

Talend Studioはグラフィカル開発環境で簡単に使えるため、複雑なコードの習得や記述を⾏わずにビッグデータのソースとターゲットとのインタラクションが可能になります。ビッグデータの接続を設定すると、基盤となるコードが⾃動的に⽣成され、サービスや実⾏可能なジョブ、またはスタンドアロンのジョブとしてデプロイし、HDFS、Pig、HCatalog、HBase、Sqoop、Hiveなどビッグデータのクラスター上でネイティブに実⾏することができます。

Talendのビッグデータソリューションは、すべての主要なビッグデータプラットフォームへの包括的なサポートを提供しています。Talendのビッグデータコンポーネントは、主流のビッグデータのHadoopディストリビューションであるCloudera、Greenplum、Hortonworks、MapRなどと連携して動作します。さらにTalendでは、Greenplum、Netezza、Teradata、Verticaなどの主流のアプライアンスベンダーの多様なビッグデータプラットフォームをネイティブサポートしています。

1.2. Talendビッグデータソリューションの機能的なアーキテクチャTalendビッグデータソリューションの機能的なアーキテクチャとは、Talendビッグデータソリューションの機能、インタラクション、該当するITのニーズを特定するアーキテクチャモデルを指します。全体的なアーキテクチャについては、それぞれの機能ブロックごとで機能を特定して説明しています。

次の図は、Studioでのビッグデータの処理に関連するアーキテクチャ上の主な機能ブロックを⽰しています。

Talendビッグデータソリューションの機能的なアーキテクチャ

Talend Open Studio for Big Data Getting Started Guide 3

3つの異なるタイプの機能ブロックが定義されています。

• 少なくとも1つのStudio。ここでは、Apache Hadoopプラットフォームを活⽤して、⼤量のデータセットを処理するビッグデータジョブを設計します。これらのジョブはローカルで実⾏することもできますが、Studio内に統合されたOozieワークフローのスケジューラーシステムを通じて、Hadoopグリッド上にデプロイ、スケジュール、実⾏することもできます。

• Studio内に統合されたワークフローのスケジューラーシステムを通じて、Hadoopグリッド上にビッグデータジョブをデプロイ、スケジュール、実⾏し、ジョブの実⾏ステータスや結果を監視することができます。

• Talendシステムから独⽴したHadoopグリッドでは、⼤量のデータセットを処理します。



2.デモプロジェクトを使ったTalendビッグデータの⼊⾨この章は、デモプロジェクトに含まれているサンプルジョブについて簡単に説明し、Hadoopプラットフォームでサンプルジョブを実⾏するために必要な準備作業を紹介します。デモプロジェクトのインポート⽅法については、『Talend Studioユーザーガイド』のデモプロジェクトのインポートのセクションを参照してください。

Studioでの作業を始める前に、GUI (グラフィカルユーザーインターフェイス)に慣れておく必要があります。詳細は、『Talend Studioユーザーガイド』のGUIに関する付録を参照してください。

ビッグデータのデモプロジェクトの概要


2.1. ビッグデータのデモプロジェクトの概要Talendでは、ビッグデータのデモプロジェクトを提供しています。このプロジェクトには、簡単に使えるサンプルジョブが多数含まれています。このデモプロジェクトをTalend Studioにインポートし、Talend Studioの使い⽅を習得したり、Talendコンポーネントのさまざまなフィーチャーや関数についての理解を深めることができます。

デモプロジェクトの⼀部のジョブには、他社のJavaライブラリやデータベースドライバー(.jarファイル)が必要なTalendコンポーネントが含まれていますが、ライセンスに互換性がないため、Talend Studioにはこれらの.jarファイルが同梱されていません。そのようなコンポーネントが含まれているジョブを実⾏する前に、これらの.jarファイル(外部モジュール)をダウンロードしてインストールしてください。Talend Studioには、外部モジュールをすばやく簡単にインストールするためのウィザードがあります。このウィザードは、ジョブを実⾏しようとしたときに、必要な外部モジュールが不⾜していることをStudioが検出した場合に⾃動的に表⽰されます。このウィザードは、1つまたは複数の必須外部モジュールが不⾜しているコンポーネントの[Basicsettings] (基本設定)または[Advanced settings] (詳細設定)ビューの上部で [Install] (インストール)をクリックした場合にも表⽰されます。

他社モジュールのインストール⽅法について詳しくは、『Talendインストレーションガイド』の外部モジュールの識別・インストール⽅法についてのセクションを参照してください。

ビッグデータのデモプロジェクトをインポートして、Talend Studioで開くと、プロジェクトに含まれているすべてのサンプルジョブが[Repository] (リポジトリ)ツリービューの[Job Designs] (ジョブデザイン)ノードの下のさまざまなフォルダーから使⽤できるようになります。

次のセクションでは、メインフォルダーの下の各サブフォルダーに含まれているジョブについて簡単に説明します。

2.1.1. Hortonworks_Sandbox_SamplesStandard Jobs (標準ジョブ)サブノードの下にあるHortonworks_Sandbox_SamplesHadoopプラットフォームでのデータの処理⽅法を紹介する標準的なTalendジョブが集められています。

Hortonworks_Sandbox_Samples


フォルダーサブフォルダー説明Advanced_Examples Advanced_Examplesフォルダーには、いくつかの使⽤例

が含まれています。たとえば、TalendのApache WeblogやHCatalogコンポーネントおよびPigコンポーネントを使⽤したApache Weblogの処理例や、Hiveクエリを使った⽶国政府の歳出データの計算例、MySQLデータベースからデータを抽出する例、テーブルからすべてのデータを動的にロードする例などがあります。

これらの例を実⾏するために複数の⼿順が必要な場合は、「Step_1」、「Step_2」などの名前が付いています。

ApacheWebLog このフォルダーには、Apache WeblogをHCatalogやHDFSにロードしたり、特定のコードを抽出する、従来のWeblogファイルプロセスが含まれています。⼀意のIPアドレスやWebコードの数を計算する例は2つあります。これらの例では、PigスクリプトとHCatalogロードを使⽤しています。

この例には6つの⼿順があり、ジョブ名の順序に従って各⼿順が実⾏されます。

この例について詳しくは、サンプルジョブの作成・設定⽅法をステップバイステップで説明している付録A ビッグデータのジョブの例の「Hadoopを使用したWebトラフィック情報の収集」を参照してください。

Gov_Spending_Analysis この例では、⽶国政府の歳出サンプルデータをHCatalogにロードし、政府機関ごとの歳出総額をHiveクエリを使って計算する2つの⼿順のプロセスを紹介しています。また、追加のData Integrationジョブでは、http://usaspending.gov/dataのWebサイトからファイルをダウンロードし、HCatalogにデータをロードするジョブのための⼊⼒データを準備します。[tFixedFlowInput]コンポーネントを⼊⼒ファイルに置き換える必要があります。

この例には2つの⼿順があり、ジョブ名の順序に従って各⼿順が実⾏されます。

RDBMS_Migration_SQOOP これは、MySQLスキーマからデータを読み取り、HDFSにロードする2つの⼿順のプロセスです。データベースには、MySQL5.5以降のバージョンが使⽤できます。スキーマには、テーブルを必要な数だけ含めることができます。「SQOOP_SCENARIO_CONTEXT」というラベルが付いたコンテキスト変数にデータベースとスキーマを設定すると、1つ⽬のジョブが動的にスキーマを読み取り、テーブルをリストしたファイルが2つ作成されます。1つ⽬のファイルには、プライマリーキーのあるテーブルが含まれ、HCatalogまたはHiveが使⽤されている場合はパーティションで区切られます。2つ⽬のファイルには、プライマリーキーのないテーブルが含まれます。2つ⽬の⼿順では、この2つのファイルを使ってスキーマのMySQLテーブルからすべてのデータをHDFSにロードします。テーブルごとに1つのファイルが作成されます。

Sandboxのシングルノードの仮想マシンを使っている場合は処理能⼒が⼗分にないため、このプロセスを実⾏するときに⼤容量のスキーマを選択しないようにしてください。Sandboxのシングルノードの仮想マシンを使った場合の処理について詳しくは、「Hortonworks Sandboxのインストール」を参照してください。

E2E_hCat_2_Hive このフォルダーには⾮常にシンプルなプロセスが含まれています。このプロセスでは、最初の⼿順でHCatalogにサンプルデータをロードし、次の⼿順でどのようにHiveコンポーネントを使ってデータへのアクセスや処理ができるかを⽰しています。

HBASE このフォルダーには、HBaseへのデータのロードと読み取りの⽅法を⽰す、シンプルな例が含まれています。

http://usaspending.gov/data

http://usaspending.gov/data

NoSQL_Examples


フォルダーサブフォルダー説明HCATALOG HCatalogには、2つの例があります。1つ⽬の例は、ファ

イルをHDFSに直接取り込み、メタストアとともに情報をHCatalogにロードします。2つ⽬の例は、データストリーミングをHCatalogの定義済みのパーティションに直接ロードします。

HDFS このフォルダーの例は、Get、Put、Streamingのロードなど、基本的なHDFSオペレーションを⽰しています。

HIVE このフォルダーには、3つの例が含まれています。1つ⽬のジョブは、Hiveコンポーネントを使ってHive上でデータベースの作成、テーブルの作成、テーブルへのデータのロードなど、基本的なオペレーションを⾏う⽅法を⽰しています。あとの2つのジョブは、まず1つ⽬の⼿順でHiveに2つのテーブルをロードし、それを使って2つ⽬の⼿順でELTをHiveで実⾏する⽅法を⽰しています。

PIG このフォルダーには、Pigコンポーネントを使って主な関数を実⾏する⽅法を⽰す例が数多く含まれています。これには、集計やフィルタリングなどの関数や、Pig Codeの使い⽅を⽰す例などがあります。

2.1.2. NoSQL_ExamplesメインフォルダーのNoSQL_Examplesには、NoSQLデータベースでデータがどのように処理されるかを⽰すためのジョブが集められています。フォルダー説明Cassandra これは、Cassandraデータベースへの基本的な書き込み・読み取りを⾏う⽅法を⽰し

たもう1つの例で、Cassandra NoSQLデータベースをすぐに使い始めることができます。

MongoDB このフォルダーには、ブログエントリからオープンテキストの⾮構造データをすばやく簡単にキーワードで検索できるMongoDBの使い⽅を⽰した例が含まれています。

2.2. デモジョブを実⾏するための環境のセットアップビッグデータのデモプロジェクトは、Talendのビッグデータソリューションの数多くの基本的な機能を紹介することを⽬的とした⼿軽で実践的な例です。デモプロジェクトに含まれているデモジョブを実⾏するには、Hadoopプラットフォームを起動する必要があります。また、想定されているHortonworks Sandboxの仮想アプライアンスを使⽤しない場合は、デモプロジェクトに定義されているコンテキスト変数を設定したり、関連するコンポーネントを直接設定する必要もあります。

2.2.1. Hortonworks SandboxのインストールHadoopプラットフォームをすばやく簡単に起動するには、Hadoopディストリビューションのトップベンダーの仮想アプライアンスを選ぶ⽅法があります。Hortonworksでは、Sandboxという名前の仮想アプライアンス・仮想マシン(VM)を提供しており、すばやく簡単にセットアップができます。デモプロジェクトのHortonworks_Sandbox_Samplesフォルダー内にあるサンプルジョブは、Hortonworks Sandbox VMで機能するようにコンテキスト変数を使⽤して設定されています。

下記に、Hortonworksが推奨するOracle VirtualBox上に、Hortonworks Sandboxの仮想マシンをセットアップする⼿順を⼿短に紹介します。詳しくは、該当するベンダーのドキュメンテーションを参照してください。

デモプロジェクトで使⽤しているコンテキスト変数の理解


1. Oracle VirtualBoxの推奨バージョンをhttps://www.virtualbox.org/からダウンロードします。また、VirtualBoxのSandboxのイメージをhttp://hortonworks.com/products/hortonworks-sandbox/からダウンロードします。

2. Oracle VirtualBoxのドキュメンテーションに従ってOracle VirtualBoxのインストールとセットアップを⾏います。

3. Hortonworks Sandboxの指⽰に従って、Oracle VirtualBox上にHortonworks Sandboxの仮想アプライアンスをインストールします。

4. [Oracle VM VirtualBox Manager] (Oracle VM VirtualBoxマネージャー)ウィンドウで[Network](ネットワーク)をクリックし、[Adapter 1] (アダプター1)タブを選択して、[Attached to](接続先)リストボックスから[Bridged Adapter] (ブリッジアダプター)を選択します。さらに、[Name] (名前)リストボックスから使⽤する物理ネットワークアダプターを選択します。

5. Hortonworks Sandboxの仮想アプライアンスを起動し、Hadoopプラットフォームを実⾏します。次に、Sandboxの仮想アプライアンスに割り当てられたIPアドレスがPing可能であることを確認します。

次に、デモジョブを起動する前に、sandboxというホスト名を解決するため、hostsファイルにIPドメインのマッピングエントリを追加します。このエントリは、このデモプロジェクトでSandbox仮想マシンのIPアドレスを使う代わりに、2つのコンテキスト変数の値として定義されています。これにより、設定されたコンテキスト変数を変更する⼿間を省くことができます。

デモプロジェクトで使⽤しているコンテキスト変数について詳しくは、「デモプロジェクトで使用しているコンテキスト変数の理解」を参照してください。

2.2.2. デモプロジェクトで使⽤しているコンテキスト変数の理解Talend Studioでは、プロジェクトのリポジトリでコンテキスト変数を⼀度定義しておけば、多数のジョブで再利⽤できます。通常は、さまざまなジョブやプロセスで共通している接続やその他の設定を繰り返し⾏う⼿間を省くことを⽬的としています。そのメリットは明⽩でしょう。たとえば、コン

https://www.virtualbox.org/

http://hortonworks.com/products/hortonworks-sandbox/

http://hortonworks.com/products/hortonworks-sandbox/



テキスト変数にネームノードのIPアドレスを定義して、その変数を使⽤する50個のジョブを作成し、その後、ネームノードのIPアドレスを変更する場合は、コンテキスト変数をアップデートするだけで済みます。Studioはこのアップデートにより影響が及ぶすべてのジョブについて通知し、⼀括して変更します。

リポジトリに保存されたコンテキスト変数は、[Repository] (リポジトリ)ツリービューの[Contexts] (コンテキスト)ノードの下にグループ化されます。ビッグデータのデモプロジェクトでは、リポジトリレベルのコンテキスト変数が[Repository] (リポジトリ)の[HDP]と[SQOOP_SCENARIO_CONTEXT]という2つのグループに定義されています。

1つのグループの中にあるコンテキスト変数の設定を表⽰・編集するには、[Repository] (リポジトリ)ツリービューの中でグループ名をダブルクリックし、[Create / Edit a context group] (コンテキストグループの作成/編集)ウィザードを開き、⼿順2に進みます。

[HDP]グループのコンテキスト変数は、Hortonworks_Sandbox_Samplesフォルダーのすべてのデモサンプルで使⽤されています。これらの変数の値は、必要に応じて変更できます。たとえば、sandboxというホスト名の代わりに、Sandbox Platform VMのIPアドレスを使⽤する場合は、ホスト名の変数の値をIPアドレスに変更します。Sandbox VMのデフォルト設定を変更した場合は、デモサンプルが想定通りに実⾏できるように、コンテキスト設定も適切に変更する必要があります。

変数名説明デフォルト値namenode_host ネームノードのホスト名 sandbox



変数名説明デフォルト値namenode_port ネームノードのポート 8020user Hadoopシステムに接続するユーザー名 sandboxtempleton_host HCatalogサーバーのホスト名 sandboxtempleton_port HCatalogサーバーのポート 50111hive_host Hiveメタデータのホスト名 sandboxhive_port Hiveメタストアのポート 9083jobtracker_host ジョブトラッカーのホスト名 sandboxjobtracker_port ジョブトラッカーのポート 50300mysql_host HiveメタストアのSandboxのホスト sandboxmysql_port Hiveメタストアのポート 3306mysql_user Hiveメタストアに接続するユーザー名 hepmysql_passed Hiveメタストアに接続するパスワード hepmysql_testes Hiveメタストアのテストデータベースの名前 testeshbase_host HBaseのホスト名 sandboxhbase_port HBaseのポート 2181

[SQOOP_SCENARIO_CONTEXT]グループのコンテキスト変数は、RDBMS_Migration_SQOOP のデモサンプルのみに使⽤されています。RDBMS_Migration_SQOOP デモを使⽤する場合は、ローカルのMySQL接続で使⽤するSandbox VMに応じて、次のコンテキスト変数をアップデートする必要があります。

変数名説明デフォルト値KEY_LOGS_DIRECTORY テーブルファイルが保存されており、Studioから

フルアクセスが可能なローカルマシン上のディレクトリ

C:/Talend/BigData/

MYSQL_DBNAME_TO_MIGRATE HDFSに移⾏するMySQLデータベースの名前 dstar_crmMYSQL_HOST_or_IP MySQLデータベースのホスト名またはIPアドレス 192.168.56.1MYSQL_PORT MySQLデータベースのポート 3306MYSQL_USERNAME MySQLデータベースに接続するユーザー名 tisadminMYSQL_PWD MySQLデータベースに接続するパスワードHDFS_LOCATION_TARGET データをロードするSandbox HDFS上の場所 /user/hdp/sqoop/

リポジトリに保存されたコンテキスト変数をジョブで使⽤するには、まず[Contexts] (コンテキスト)ビューでボタンをクリックしてジョブにインポートしておく必要があります。また、ジョブの[Contexts] (コンテキスト)ビューでコンテキスト変数を定義することもできます。これらの変数は、そのジョブだけに有効な組み込み変数になります。

[Contexts] (コンテキスト)ビューには、ジョブに定義した組み込み型のコンテキスト変数と、ジョブにインポートしたリポジトリに保存されたコンテキスト変数が表⽰されます。



変数を定義すると、コンポーネントの設定で参照されます。次の例は、デモプロジェクトのPigジョブにあるtHDFSConnectionコンポーネントの設定で使⽤されているコンテキスト変数です。

HortonWorks Sandboxの設定をこれらの変数に反映させれば、ほとんど⼲渉せずにサンプルジョブをスムーズに実⾏できます。これらのサンプルのコア機能のいくつかは、あなたのビッグデータのプロジェクトにも実装できることでしょう。

コンテキスト変数の定義・使⽤⽅法について詳しくは、『Talend Studioユーザーガイド』のコンテキストや変数の使⽤に関するセクションを参照してください。

[Run] (実⾏)コンソールからジョブを実⾏する⽅法については、『Talend Studioユーザーガイド』のジョブの実⾏⽅法に関するセクションを参照してください。

[Oozie scheduler] (Oozieスケジューラー)ビューからジョブを実⾏する⽅法については、「Oozieを経由したジョブの実行方法」を参照してください。


3.Talend Studioでのジョブの処理この章では、Hadoopのビッグデータプラットフォームを活⽤したTalend Studioで、⼤量のデータセットを持つジョブの処理⽅法について説明します。Talendデータの統合ジョブの⼀般的なデザイン、実⾏、管理の⽅法については、Talend Studioに付属しているユーザーガイドを参照してください。

Studioでジョブの作業を始める前に、GUI (グラフィカルユーザーインターフェイス)に慣れておく必要があります。詳細は、ユーザーガイドのGUIに関する付録を参照してください。

Oozieを経由したジョブの実⾏⽅法


3.1. Oozieを経由したジョブの実⾏⽅法Talend StudioにはOozieスケジューラーが付属しています。これは、作成したジョブの実⾏をスケジュールしたり、リモートのHDFS (Hadoop Distributed File System)サーバーで直ちに実⾏したり、ジョブの実⾏ステータスを監視したりすることができるフィーチャーです。Apache OozieとHadoopについて詳しくは、http://oozie.apache.org/およびhttp://hadoop.apache.org/を参照してください。

[Oozie scheduler] (Oozieスケジューラー)ビューが表⽰されていない場合は、[Window] (ウィンドウ) >[Show view] (ビューの表⽰)をクリックし、[Show View] (ビューの表⽰)ダイアログボックスから[TalendOozie]を選択して設定タブのエリアに表⽰します。

3.1.1. HDFS接続の詳細の設定⽅法Talend Oozieでは、Studioで作成したジョブの実⾏スケジュールを設定することができます。

HDFSサーバー上でジョブを実⾏したり、実⾏スケジュールを設定する前に、HDFS接続の設定を定義する必要があります。これには、[Oozie scheduler] (Oozieスケジューラー)ビューまたはStudioの環境設定を使って、ジョブのデプロイ先のパスを指定します。

3.1.1.1. OozieスケジューラービューでのHDFS接続の詳細の定義

HDFS接続の詳細を[Oozie scheduler] (Oozieスケジューラー)ビューで定義するには、次の⼿順を実⾏します。

1. デザインワークスペースの下にある[Oozie scheduler] (Oozieスケジューラー)ビューをクリックします。

2. [Setting] (設定)をクリックして、接続のセットアップダイアログボックスを開きます。

http://oozie.apache.org/

http://hadoop.apache.org/

HDFS接続の詳細の設定⽅法


上記に示した接続の設定はあくまでも一例です。

3. 必要な情報を該当するフィールドに⼊⼒し、[OK]をクリックしてダイアログボックスを閉じます。

フィールド/オプション説明Property Type (プロパティタイプ)

リストには次の2つのオプションがあります。

• from preference (環境設定から):このオプションは、[Preferences] (環境設定)で定義したOozieの設定を再利⽤する場合に選択します。関連項⽬: 「環境設定でのHDFS接続の詳細の定義(非推奨)」

このオプションは使⽤可能ですが、推奨されなくなりました。from repository(リポジトリから)オプションを使⽤することをお勧めします。

• from repository (リポジトリから):このオプションは、[Repository] (リポジトリ)で定義したOozieの設定を再利⽤する場合に選択します。そうするには、[...]ボタンをクリックして[Repository Content] (リポジトリのコンテンツ)ダイアログボックスを開き、[Hadoop Cluster] (Hadoopクラスター)ノードの下で必要なOozie接続を選択します。



フィールド/オプション説明このオプションを選択すると、[Hadoop Properties] (Hadoopプロパティ)を除く[Oozie Settings] (Oozieの設定)ダイアログボックスのすべてのフィールドが読み取り専⽤になります。

関連トピック: 「Oozie接続の一元化」

Hadoop distribution(Hadoopディストリビューション)

接続先のHadoopディストリビューションです。このディストリビューションは、使⽤するHDFSファイルシステムをホストします。カスタムのHadoopディストリビューションに接続するには、[Custom] (カスタム)を選択し、[...]ボタンをクリックして[Import custom definition] (カスタム定義のインポート)ダイアログボックスを開き、このダイアログボックスでカスタムディストリビューションに必要なjarファイルをインポートします。

詳細は、「カスタムHadoopディストリビューションへの接続」を参照してください。

Hadoop version (Hadoopのバージョン)

接続先のHadoopディストリビューションのバージョンです。このリストは、[Hadoop distribution] (Hadoopディストリビューション)リストで[Custom](カスタム)を選択した場合は表⽰されません。

Enable Kerberos security(ケルベロスセキュリティの有効化)

ケルベロスセキュリティを実⾏しているHadoopクラスターにアクセスする場合は、このチェックボックスをオンにし、表⽰されるフィールドにネームノードとしてケルベロスのプリンシパル名を⼊⼒します。これにより、ユーザー名がケルベロスに保存されている認証情報に照合されます。

このチェックボックスは、接続しているHadoopのディストリビューションによっては、表⽰されないこともあります。

User name (ユーザー名) ログイン⽤のユーザー名です。Name node end point(ネームノードのエンドポイント)

ネームノードのURIです。これは、HDFSファイルシステムで最も重要な要素です。

Job tracker end point(ジョブトラッカーのエンドポイント)

ジョブトラッカーノードのURLです。これにより、MapReduceタスクをクラスター内の特定のノードに委託します。

Oozie end point (Oozieのエンドポイント)

OozieのWebコンソールのURIで、ジョブの実⾏を監視します。

Hadoop Properties(Hadoopのプロパティ)

対象のHadoopでカスタム設定を使⽤する必要がある場合は、このテーブルでカスタマイズするプロパティを設定します。その後、実⾏時にStudioがHadoopのエンジンに使⽤するデフォルトのプロパティが、カスタマイズした設定に上書きされます。

Hadoopで必要なプロパティについて詳しくは、http://hadoop.apache.orgに記載されているApacheのHadoopについてのドキュメンテーションを参照するか、使⽤するHadoopディストリビューションのドキュメンテーションを参照してください。

このテーブルで定義した設定は、ジョブごとに有効になります。

[Oozie scheduler] (Oozieスケジューラー)ビューで定義したHadoopのディストリビューション、バージョン、接続の詳細は、[Preferences] (環境設定)ウィンドウにも⾃動的に反映されます。また、その逆も同様です。Oozieの環境設定について詳しくは、「環境設定でのHDFS接続の詳細の定義(非推奨)」を参照してください。

いったん、[Oozie scheduler] (Oozieスケジューラー)ビューでデプロイメントパスを定義すれば、HDFSサーバー上でジョブをすぐに実⾏したり、実⾏スケジュールを設定することができます。

3.1.1.2. 環境設定でのHDFS接続の詳細の定義(⾮推奨)

このオプションは使⽤可能ですが、推奨されなくなりました。from repository (リポジトリから)オプションを使⽤することをお勧めします。

http://hadoop.apache.org



Studioの環境設定でHDFS接続の詳細を定義するには、次の⼿順を実⾏します。

1. メニューバーで、[Window] (ウィンドウ) > [Preferences] (環境設定)をクリックし、[Preferences] (環境設定)ウィンドウを開きます。

2. [Talend]ノードを展開し、[Oozie]をクリックしてOozieの環境設定ビューを表⽰します。

上記に示したOozieの設定はあくまでも一例です。

3. 必要な情報を該当するフィールドに⼊⼒します。

フィールド/オプション説明Hadoop distribution(Hadoopディストリビューション)

接続先のHadoopディストリビューションです。このディストリビューションは、使⽤するHDFSファイルシステムをホストします。カスタムのHadoopディストリ

ビューションに接続するには、[Custom] (カスタム)を選択し、ボタンをクリックして[Import custom definition] (カスタム定義のインポート)ダイアログボックスを開き、このダイアログボックスでカスタムディストリビューションに必要なjarファイルをインポートします。

詳細は、「カスタムHadoopディストリビューションへの接続」を参照してください。

Hadoop version (Hadoopのバージョン)

接続先のHadoopディストリビューションのバージョンです。このリストは、[Hadoop distribution] (Hadoopディストリビューション)リストで[Custom](カスタム)を選択した場合は表⽰されません。

Enable Kerberos security(ケルベロスセキュリティの有効化)

ケルベロスセキュリティを実⾏しているHadoopクラスターにアクセスする場合は、このチェックボックスをオンにし、表⽰されるフィールドにネームノードとしてケルベロスのプリンシパル名を⼊⼒します。これにより、ユーザー名がケルベロスに保存されている認証情報に照合されます。

このチェックボックスは、接続しているHadoopのディストリビューションによっては、表⽰されないこともあります。

User name (ユーザー名) ログイン⽤のユーザー名です。

HDFSサーバー上でジョブを実⾏する⽅法


フィールド/オプション説明Name node end point(ネームノードのエンドポイント)

ネームノードのURIです。これは、HDFSファイルシステムで最も重要な要素です。

Job tracker end point(ジョブトラッカーのエンドポイント)

ジョブトラッカーノードのURLです。これにより、MapReduceタスクをクラスター内の特定のノードに委託します。

Oozie end point (Oozieのエンドポイント)

OozieのWebコンソールのURIで、ジョブの実⾏を監視します。

[Preferences] (環境設定)ウィンドウで定義したHadoopのディストリビューション、バージョン、接続の詳細は、[Oozie scheduler] (Oozieスケジューラー)ビューにも⾃動的に反映されます。また、その逆も同様です。[Oozie scheduler] (Oozieスケジューラー)ビューについて詳しくは、「Oozieを経由したジョブの実行方法」を参照してください。

3.1.2. HDFSサーバー上でジョブを実⾏する⽅法HDFSサーバー上でジョブを実⾏するには、次の⼿順を実⾏します。

1. [Oozie scheduler] (Oozieスケジューラー)タブの[Path] (パス)フィールドに、HDFSサーバー上でジョブをデプロイするパスを⼊⼒します。

2. [Run] (実⾏)ボタンをクリックして、ジョブのデプロイメントを開始し、HDFSサーバー上で実⾏します。

ジョブのデータはZIPに圧縮され、HDFSサーバー上にデプロイされます。これはサーバーの接続設定に基づいて⾃動的に実⾏されます。接続状況によっては、時間がかかる場合もあります。コンソールには、ジョブのデプロイメントと実⾏ステータスが表⽰されます。

ジョブの実⾏が完了する前に中断する場合は、[Kill] (停⽌)ボタンをクリックします。

3.1.3. ジョブの実⾏のスケジュール⽅法HDFSサーバー上でジョブの実⾏のスケジュールを設定するには、Talend Studioに統合されているOozieスケジューラー機能を使います。定義した期間内の頻度に応じてジョブが実⾏されます。ジョブのスケジュールを設定するには、次のように⾏います。

1. デプロイメントパスがまだ定義されていない場合は、ジョブをデプロイするHDFSサーバー上のパスをOozieスケジューラーの[Path] (パス)フィールドに、⼊⼒します。

ジョブの実⾏のスケジュール⽅法


2. [Oozie scheduler] (Oozieスケジューラー)タブの[Schedule] (スケジュール)ボタンをクリックして、スケジューリングの設定ダイアログボックスを開きます。

3. [Frequency] (頻度)フィールドに整数を⼊⼒し、[Time Unit] (時間単位)リストから時間の単位を選択して、ジョブの実⾏の頻度を定義します。

4. [Start Time] (開始時間)フィールドの横にある[...]ボタンをクリックして、[Select Date &Time] (⽇時の選択)ダイアログボックスを開き、ジョブの実⾏を開始する⽇、時、分、秒の値を選択して[OK]をクリックします。同様に、ジョブの実⾏の終了⽇時も設定します。

5. [OK]をクリックしてダイアログボックスを閉じ、スケジュールを設定したジョブの実⾏を開始します。

ジョブは、定義したスケジュールのパラメーターに従って⾃動的に実⾏されます。ジョブを停⽌するには、[Kill] (停⽌)をクリックします。

ジョブの実⾏ステータスの監視⽅法


3.1.4. ジョブの実⾏ステータスの監視⽅法ジョブの実⾏ステータスや結果を監視するには、[Oozie scheduler] (Oozieスケジューラー)タブの[Monitor] (監視)ボタンをクリックします。OozieのエンドポイントのURIがWebブラウザに開き、HDFSサーバー上でのジョブの実⾏に関する情報が表⽰されます。

特定のジョブの詳細情報を表⽰するには、ジョブのいずれかのフィールドをクリックして別のページを開きます。そのページにジョブの詳細が表⽰されます。

ジョブの実⾏ステータスの監視⽅法




4.SparkプロセスのデザインTalend Studioでは、グラフィカルなSparkプロセスをデザインして、RDD (Resilient DistributedDatasets)をローカルで、あるいは特定のSpark対応のクラスター(⼀般的には、Hadoopクラスター)の最上位で処理できます。

Sparkシステムの活⽤


4.1. Sparkシステムの活⽤Sparkを活⽤してResilient Distributed Datasetsを作成し、それらを指定されたアクションと並⾏して実⾏する専⽤のコンポーネントを使⽤することができます。

StudioはSpark固有のコンポーネントのグループとともに提供されます。このコンポーネントにより、Sparkの実⾏に必要なモードを選択できるほか、データに対して実⾏できるさまざまな操作を定義することもできます。

Sparkの実⾏に使⽤できるモードは次のとおりです。

• [Local] (ローカル): 組み込みSparkライブラリを使⽤して、Studio内でSparkを実⾏します。ジョブを実⾏するマシンのコアは、Sparkワーカーとして使⽤されます。

• [Standalone] (スタンドアロン): StudioはSpark対応のクラスターに接続してジョブを実⾏します。

• [Yarn client] (Yarnクライアント): StudioはSparkドライバーを実⾏してジョブの実⾏⽅法をオーケストレーションし、特定のHadoopクラスターのYarnサービスにそのオーケストレーションを送信して、そのYarnサービスのリソースマネージャーが適宜実⾏リソースを要求できるようにします。

これらのSparkコンポーネントはSparkのストリーミング機能もネイティブでサポートしており、他のTalendジョブを使⽤するように、簡単でグラフィカルにストリーミング処理を実⾏することができます。

4.2. Sparkジョブの定義Sparkジョブは専⽤のSparkコンポーネントを使⽤しますが、それ以外は他のTalendジョブと同様にデザインします。また、コンポーネントを使⽤する単純なテンプレートに従う必要があります。

このセクションの以降の部分では、Sparkジョブの作成に必要な⼀連の処理について説明し、このテンプレートの詳細を解説します。

1. Studioを起動すると、Integration (統合)パースペクティブから空のジョブを作成する必要があります。空のジョブの作成⽅法の詳細は、『Talend Studioユーザーガイド』を参照してください。

2. ワークスペースで、「tSparkConnection」と⼊⼒すると、コンテキストコンポーネントリストにそれが表⽰されるので選択します。

tSparkConnectionコンポーネントはSparkジョブで必要です。これを使⽤して、接続するクラスター、Sparkの実⾏に使⽤するモード、およびこのSparkジョブをストリーミングアプリケーションとして実⾏するかどうかを定義することができます。

3. tSparkLoadコンポーネントを追加する場合も同様に⾏います。

このコンポーネントは必須です。これは指定されたストレージシステムからデータを読み取り、それをSpark対応のResilient Distributed Dataset (RDD)に変換します。

4. [Trigger] (トリガー) > [On Subjob Ok] (サブジョブがOKの場合)を使⽤して、tSparkConnectionをtSparkLoadに接続します。

5. その他のSparkコンポーネントを追加して、ジョブで実⾏する操作に応じてデータセットを処理します。[Row] (⾏) > [Spark combine] (Sparkの組み合わせ)リンクを使⽤してそれらを接続し、RDDフローに渡します。

Sparkジョブの定義


6. ビルドするSparkプロセスの最後に、tSparkStoreコンポーネントまたはtSparkLogコンポーネントを追加します。

• tSparkStoreコンポーネントは、RDDをテキスト形式に変換してそのデータを指定されたシステムに書き込みます。

• tSparkLogコンポーネントは、ファイルシステムへの書き込みは⾏いません。実⾏結果がStudioの[Run] (実⾏)ビューのコンソールに出⼒されます。

次の図は、作成されたデモ⽤のSparkジョブを⽰します。

それぞれのSparkコンポーネントについての詳細は、『Talend Open StudioコンポーネントReferenceGuide』の関連するセクションを参照してください

Sparkジョブを実⾏する詳細なシナリオについては、『Talend Open StudioコンポーネントReference Guide』のtKafkaInputのセクションを参照してください。



5.ビッグデータのフローマッピングビッグデータのETLプロセスを開発するときは、1つまたは複数のデータソースから⽬的のシステムに保管されているデータにマッピングを⾏うのが⼀般的です。Hadoopには、ビッグデータの変換やルートプロセスの開発を容易にするスクリプト⾔語(Pig Latin)とプログラミングモデル(Map/Reduce)がありますが、これらを学び理解するためには⼤量のコーディングが必要です。

TalendのマッピングコンポーネントはHadoopの環境に最適化されており、データフローの⼊出⼒を視覚的にマッピングすることができます。

例としてtPigMapを挙げると、この章ではこれらのマッピングコンポーネントをでどのように使⽤できるかについての理論を説明しています。コンポーネントの使い⽅については、『Talend OpenStudioコンポーネント Reference Guide』の実践的な例を参照してください。

データ統合プロセスを始める前に、StudioのGUI (グラフィカルユーザーインターフェイス)に慣れておく必要があります。詳細は、『Talend Studioユーザーガイド』のGUIに関する付録を参照してください。

tPigMapのインターフェイス


5.1. tPigMapのインターフェイスPigとは、スクリプト⾔語を使ってデータフローを表現したプラットフォームです。Pigは、Pig Latinという⾔語を使って、データを変換するステップバイステップのオペレーションをプログラミングします。

tPigMapは、Pigプロセスで処理する⼊出⼒フローをマッピングする、⾼度なコンポーネント(Pigコンポーネントのアレイ)です。そのため、ソースシステムからデータを読み込むためのtPigLoadと、指定した対象にデータを書き込むためのtPigStoreResultが必要になります。tPigLoad、tPigMap、tPigStoreResultから構成される基本的なデザインから始め、その他のさまざまなPigコンポーネントをtPigMapに追加していくことで、複雑度の異なるPigプロセスを視覚的に構築することができます。Pigコードはこれらのコンポーネントから⽣成されるため、Hadoop環境に最適なジョブが作成できます。

tPigMapの設定には、マップエディターを使います。[Map Editor] (マップエディター)はオールインワンのツールです。この便利なグラフィカルインターフェイスを使って、データフローのマッピング、変換、ルートなどを⾏うあらゆるパラメーターを定義することができます。

[Map Editor] (マップエディター)は最⼩化したり元のサイズに戻したりすることができるほか、[Map Editor] (マップエディター)のすべてのテーブルはウィンドウアイコンを使⽤しています。

[Map Editor] (マップエディター)には、次のように複数のパネルがあります。

• [Input panel] (⼊⼒パネル)は、エディターの左上のパネルです。これはすべて(メインおよびルックアップ)の⼊⼒側データフローをグラフィカルに表現したものです。このデータは⼊⼒テーブルのさまざまなカラムに集められます。テーブル名は、デザインワークスペースのジョブデザインでのメインまたはルックアップの⾏を反映しています。

• [Output panel] (出⼒パネル)はエディターの右上にあり、⼊⼒テーブルのデータやフィールドを適切な出⼒⾏にマッピングします。

• [Search panel] (検索パネル)は上部中央にあります。このパネルでは、[Find] (検索)フィールドに⽂字列を⼊⼒してエディターにある列や式を検索することができます。

tPigMap操作


• 検索パネルの下にある[UDF panel] (UDFパネル)を使⽤して、接続された⼊⼒コンポーネントによってロードされ、特定の出⼒データに適⽤されるPigユーザー定義関数を定義することができます。詳細は、「UDFパネルを使用したPig UDFの定義」を参照してください。

• 下部のパネルはいずれも、⼊⼒と出⼒のスキーマの記述です。[Schema editor] (スキーマエディター)タブには、該当するパネルで選択した⼊出⼒テーブルのすべての列のスキーマが表⽰されます。

• [Expression editor] (式エディター)は、⼊出⼒データやフィルター条件式のすべてのキーを編集できるツールです。

[Map Editor] (マップエディター)の⼊出⼒テーブルの名前は、⼊出⼒フローの名前を反映しています(⾏の接続)。

この[Map Editor] (マップエディター)のデザインと使い⽅は、tMapなど、従来のTalendのマッピングコンポーネント⽤のマップエディターと同じです。そのため、従来のマッピングコンポーネントを⼗分に理解するために、Talend Studioでデータフローがどのようにマッピングされるかを説明した『Talend Studioユーザーガイド』の章を読むことをお勧めします。

5.2. tPigMap操作データフローのマッピングは、tPigMapの[Input panel] (⼊⼒パネル)から[Output panel] (出⼒パネル)に列をドラッグアンドドロップするだけで簡単に⾏うことができます。⼀⽅で、フィルターを編集したり、結合を設定したり、ユーザー定義の関数をPigで使⽤するなど、より⾼度な操作が必要になることもよくあるでしょう。そのために、tPigMapにはさまざまなオプションセットが豊富に⽤意されており、必要に応じて該当するPigコードを⽣成することができます。

次のセクションでは、これらのオプションについて説明しています。

5.2.1. 結合操作の設定

⼊⼒側では、適切なテーブルのボタンをクリックすると、結合オプションの設定を⾏うパネルが表⽰されます。

ルックアッププロパティ値Join Model Inner Join

却下レコードのキャッシュ


ルックアッププロパティ値Left Outer Join

Right Outer Join

Full Outer Join

結合オプションのデフォルトは、Left Outer Joinです。これは、このオプション設定パネルを表⽰していないときの状態です。これらのオプションは、2つまたはそれ以上のフローを共通のフィールド値で結合します。

複数のルックアップテーブルを結合しなければならない場合は、メインの⼊⼒フローが1つ⽬のルックアップフローから結合を開始し、その結果に基づいて残りのフローを順に結合していきます。

Join Optimization None

Replicated

Skewed

Merge

結合オプションのデフォルトは、Noneです。これは、このオプション設定パネルを表⽰していないときの状態です。これらのオプションは、より効果的な結合操作を⾏う場合に使⽤します。たとえば、複数のReduceタスクの並列処理を使⽤するときは、処理するデータにかなりのずれが⽣じている場合に、Skewed結合を使って負荷分散の問題を是正します。

これらのオプションはいずれも、Apacheのドキュメンテーションで説明しているPig Latinに関する制約を受けます。

Custom Partitioner 中間のマップ出⼒のキーのパーティションを制御するためのHadoopパーティショナーを⼊⼒します。たとえば、SimpleCustomPartitionerというパーティショナーを使⽤する場合は、

org.apache.pig.test.utils.SimpleCustomPartitioner

を⼆重引⽤符で囲んで⼊⼒します。このパーティショナーのjarファイルは、Register jarテーブルに登録されている必要があります。このテーブルは、tPigLoadの[Advanced settings] (詳細設定)ビューで、使⽤するtPigMapコンポーネントにリンクされています。

このSimpleCustomPartitionerのコードについて詳しくは、PigLatinに関するApacheのドキュメンテーションを参照してください。

Increase Parallelism Pigが⽣成したHadoopのMap/Reduceタスクのうちの、Reduceタスクの数を⼊⼒します。Reduceタスクの並列処理について詳しくは、Pig Latinに関するApacheのドキュメンテーションを参照してください。

5.2.2. 却下レコードのキャッシュ

出⼒側では、適切なテーブルのボタンをクリックして、出⼒オプションの設定に使⽤するパネルを表⽰すると、次のようなオプションが使⽤できます。

式の編集


出⼒プロパティ値Catch Output Reject True

False

このオプションをアクティブにすると、適切なエリアに定義したフィルターで、リジェクトされたレコードを捕捉することができます。

Catch Lookup Inner Join Reject True

False

このオプションをアクティブにすると、⼊⼒フローで実⾏した内部結合操作で、リジェクトされたレコードを捕捉することができます。

5.2.3. 式の編集⼊⼒と出⼒のいずれの側でも、Pig Latinを使って⼊出⼒データやフィルター条件式のすべてのキーを編集できます。このため、これらの条件に基づいて関係をフィルターしたり分割したりすることができます。Pig LatinとPigの関係について詳しくは、『Pig Latin Basics』や『Pig Latin ReferenceManual』など、Pigに関するApacheのドキュメンテーションを参照してください。

データの変換に必要な式は、[Expression editor](式エディター)ビューの下部で直接記述することができます。または、[Expression Builder](式ビルダー)ダイアログボックスを開いて、データの変換式を記述することもできます。

[Expression builder](式ビルダー)ダイアログボックスを開くには、開く式のとなりのボタンをクリックします。このボタンは、[Map Editor] (マップエディター)のルックアップフローまたは出⼒フローを⽰す表形式のパネルにあります。

式の編集


選択した式で[Expression Builder] (式ビルダー)ダイアログボックスが開きます。

StudioでPigのユーザー定義関数(Pig UDF)を作成した場合は、[Pig UDF Functions] (Pig UDF関数)オプションが[Categories] (カテゴリー)リストに⾃動的に表⽰されます。これを選択して、使⽤するマッピング式を編集することができます。

Pig UDF関数を作成するには、[Repository] (リポジトリ)ツリーの[Code] (コード)ノードの下にある[Pig UDF]アイテムを使う必要があります。Pig Latinを使ったPig関数の記述⽅法は習得しなければなりませんが、Pig UDF関数の作成⽅法はTalendのルーチンと同様です。

式の編集


[Repository] (リポジトリ)の表⽰は、使⽤するライセンスによって上記の図と異なる場合があります。

ルーチンについて詳しくは、ユーザーガイドのルーチンの管理⽅法に関する章を参照してください。

[Expression editor] (式エディター)ビューを開くには、次の⼿順を実⾏します。

1. エディターの下半分で、[Expression editor] (式エディター)タブをクリックして、該当するビューを開きます。

2. 式を設定する列をクリックし、[Expression editor] (式エディター)ビューで式を編集します。

⼊出⼒フローのフィルター条件を設定する必要がある場合は、ボタンをクリックして表⽰されたエリアで式を編集するか、[Expression editor] (式エディター)ビューまたは[Expression Builder](式ビルダー)ダイアログボックスを使⽤します。

Pigユーザー定義関数のセットアップ


5.2.4. Pigユーザー定義関数のセットアップ上記のセクションで説明したように、Pigユーザー定義関数(Pig UDF)を作成すると、⾃動的に[Expression Builder] (式ビルダー)ビューの[Category] (カテゴリー)リストに追加されます。

1. [Repository] (リポジトリ)ツリーの[Code] (コード)ノードの下にある[Pig UDF]サブノードを右クリックし、コンテキストメニューから[Create Pig UDF] (Pig UDFの作成)を選択します。

[Create New Pig UDF] (Pig UDFの新規作成)ウィザードが表⽰されます。

UDFパネルを使⽤したPig UDFの定義


2. [Template] (テンプレート)リストから、作成するPig UDF関数の種類を選択します。選択した種類に基づいて、該当するPig UDFのテンプレートがStudioから提供されます。

3. ウィザードのその他のフィールドを⼊⼒します。

4. [Finish] (完了)をクリックして変更を確定すると、ワークスペースにPig UDFのテンプレートが開きます。

5. テンプレートにコードを書き込みます。

書き終わったら、このPig UDFが⾃動的にtPigMapの[Expression Builder] (式ビルダー)ビューにある[Categories] (カテゴリー)リストに表⽰され、使⽤可能になります。

5.2.5. UDFパネルを使⽤したPig UDFの定義tPigMapのUDFパネルを使⽤して、特に⼊⼒データでロードされる⼀部のApache DataFu Pig関数などのエイリアスが必要なPig UDFを容易に定義することができます。

1. [Map Editor] (マップエディター)の[Define functions] (関数の定義)テーブルでボタンをクリックして⾏を追加します。[Node] (ノード)および[Alias] (エイリアス)フィールドには、⾃動的にデフォルト設定が⼊⼒されます。

2. 必要に応じて、[Node] (ノード)フィールドをクリックして、定義するUDFのロードに使⽤するtPigLoadコンポーネントをドロップダウンリストから選択します。

3. 提⽰されたエイリアス以外のUDFが必要な場合、[Alias] (エイリアス)フィールドにエイリアスを⼆重引⽤符で囲んで⼊⼒します。

4. [UDF function] (UDF関数)フィールドをクリックして表⽰されたボタンをクリックすると、[Expression Builder] (式ビルダー)ダイアログボックスが開きます。

5. [Categories] (カテゴリ)リストからUDFのカテゴリを選択します。[Functions] (関数)リストには、選択したカテゴリで使⽤できるすべての関数が表⽰されます。

6. [Functions] (関数)リストで⽬的の関数をダブルクリックして、[Expression] (式)エリアに追加し、[OK]をクリックしてダイアログボックスを閉じます。

UDFパネルを使⽤したPig UDFの定義


[UDF function] (UDF関数)フィールドに選択した関数が表⽰されます。

このテーブルでUDFを定義すると、指定されたtPigLoadコンポーネントの[Define functions] (関数の定義)テーブルが⾃動的に同期されます。同様に、接続されたtPigLoadコンポーネントでUDFを定義すると、テーブルは⾃動的に同期されます。

UDFパネルを使⽤してUDFを定義すると、式の中で以下の⽅法でこれを使⽤することができます。

• そのエイリアスをターゲット式フィールドにドラッグアンドドロップして、必要に応じてその式を編集する。または、

• 「式の編集」で説明されているように[Expression Builder] (式ビルダー)ダイアログボックスを開き、[Category] (カテゴリ)リストで[User Defined] (ユーザー定義)を選択し、[Functions] (関数)リストでUDFのエイリアスをダブルクリックして式としてそれを追加し、必要に応じてその式を編集する。

完了すると、関数の代わりにエイリアスが式に表⽰されます。


6.Talendビッグデータのメタデータの管理Studioのメタデータとは、Studioで管理している情報やそのほかのデータについて説明する定義データです。

メタデータ管理プロセスを始める前に、StudioのGUI (グラフィカルユーザーインターフェイス)に慣れておく必要があります。詳細は、StudioのユーザーガイドのGUIに関する付録を参照してください。

StudioのIntegration (統合)パースペクティブの[Metadata] (メタデータ)フォルダーには、ジョブの作成に必要なファイル、データベース、システムなどに再利⽤が可能な情報が保管されます。

これらの情報はさまざまなウィザードで保管することができ、該当する⼊出⼒コンポーネントの接続パラメーターを設定するために使⽤できます。また、「スキーマ」と呼ばれるデータの記述もStudioに保管することができます。

ウィザードの使い⽅は、接続の種類によって多少異なります。

この章では、ビッグデータジョブのデザインに使⽤できるさまざまなメタデータアイテムを作成および管理するための関連ウィザードの使⽤⽅法について説明します。

• NoSQLデータベース接続の設定⽅法は、「NoSQLメタデータの管理」を参照してください。

• Hadoop接続の設定⽅法は、「Hadoopメタデータの管理」を参照してください。

その他の種類のメタデータウィザードについては、『Talend Studioユーザーガイド』のメタデータの管理の章を参照してください。

NoSQLメタデータの管理


6.1. NoSQLメタデータの管理[Repository] (リポジトリ)ツリービューでは、[Metadata] (メタデータ)フォルダーの[NoSQLConnections] (NoSQL接続)ノードに、Cassandra、MongoDB、Neo4jなど、NoSQLデータベースへの接続のメタデータがグループ化されます。これにより、設定した接続プロパティを⼀元化し、NoSQLデータベースコンポーネント- Cassandra、MongoDB、およびNeo4jコンポーネントを含むジョブデザインでそれらを再利⽤することができます。

[Repository] (リポジトリ)ツリービューの[Metadata] (メタデータ)をクリックして、該当するフォルダーを展開します。各接続ノードにセットアップした各種接続およびスキーマが集約されます。これらの接続ノードの中に、[NoSQL Connections] (NoSQL接続)ノードがあります。

次のセクションでは、[NoSQL Connections] (NoSQL接続)ノードを使って下記をセットアップする⽅法について詳しく説明します。

• Cassandra接続

• MongoDB接続

• Neo4j接続

6.1.1. Cassandraメタデータの⼀元管理Cassandraデータベースのデータを頻繁に処理する場合、Cassandraデータベースへの接続とスキーマの詳細を[Repository] (リポジトリ)ツリービューの[Metadata] (メタデータ)フォルダーで⼀元管理することができます。

Cassandraメタデータのセットアップ⼿順は密接に関連する2つのタスクから成り⽴っています:

Cassandraメタデータの⼀元管理


1. Cassandraデータベースへの接続の作成。

2. ⽬的のCassandraスキーマの取得。

前提条件:

• ライセンスの制限によりTalend Studioに存在しない必要なすべての外部モジュールがインストールされていること。詳細は、『Talendインストレーションガイド』を参照してください。

6.1.1.1. Cassandraデータベースへの接続の作成

1. [Repository] (リポジトリ)ツリービューで[Metadata] (メタデータ)ノードを展開し、[NoSQLConnection] (NoSQL接続)を右クリックして、コンテキストメニューから[Create Connection](接続の作成)を選択します。接続ウィザードが開きます。

2. 接続ウィザードで、[Name] (名前)、[Purpose] (⽬的)、[Description] (説明)など、作成に必要な接続の⼀般的なプロパティを⼊⼒します。

[Description] (説明)フィールドに⼊⼒した情報は、接続にマウスのポインターを移動すると、ツールヒントとして表⽰されます。

完了したら、[Next] (次へ)をクリックして次の⼿順に進みます。

3. [DB Type] (DBタイプ)リストから[Cassandra]を選択して、[DB Version] (DBバージョン)リストから接続先のデータベースのCassandraのバージョンを選択して、以下の詳細を指定します:



• [Server] (サーバー)フィールドにCassandraサーバーのホスト名またはIPアドレスを⼊⼒します。

• [Port] (ポート)フィールドにCassandraサーバーのポート番号を⼊⼒します。

ウィザードにより、ポートを指定することなくCassandraデータベースに接続できます。ここで指定したポートは、この⼀元化された接続からデザインワークスペースにドロップするCassandraコンポーネントでのみ使⽤されるものです。

• Cassandra接続を特定のキースペースのみに制限する場合、[Keyspace] (キースペース)フィールドにキースペースを⼊⼒します。

このフィールドをブランクのままにすると、スキーマを取得する際にウィザードは接続されたデータベースの既存の全キースペースの列ファミリーをリストします。

• Cassandraサーバーでデータベースアクセスの認証が必要な場合、[Require authentication](認証を使⽤)チェックボックスをオンにして、対応するフィールドにユーザー名とパスワードを⼊⼒します。

4. [Check] (チェック)ボタンをクリックして、接続が機能していることを確認します。

5. [Finish] (終了)をクリックして設定を確定します。



[Repository] (リポジトリ) ツリービューの[NoSQL connections] (NoSQL接続)ノードの下に新しく作成したCassandraデータベース接続が表⽰されます。ここでこれをCassandraコンポーネントとしてデザインワークスペースにドロップすることはできますが、必要に応じてスキーマ情報を定義する必要があります。

次に、接続⽤にスキーマを1つ以上取得する必要があります。

6.1.1.2. スキーマの取得

この⼿順では、接続したCassandraデータベースから対象のテーブルスキーマを取得します。

1. [Repository] (リポジトリ)ビューで、新しく作成した接続を右クリックし、コンテキストメニューで[Retrieve Schema] (スキーマの取得)を選択します。

ウィザードには新しいビューが開き、指定されたキースペースの利⽤可能なすべての列ファミリがリストされます。前の⼿順で何も指定しなかった場合は、すべての使⽤可能なキースペースがリストされます。

2. この例の前の⼿順でキースペースを指定しなかった場合は⽬的のキースペースを展開して、⽬的の列ファミリを選択します。



3. [Next] (次へ)をクリックし、ウィザードの次の⼿順に進みます。ここでは、⽣成されたスキーマを編集できます。

デフォルトでは、⽣成されたそれぞれのスキーマはベースとなる列ファミリーに基づいて名前が付けられます。



[Schema] (スキーマ)パネルからスキーマを選択すると、その詳細が右側に表⽰されるので、必要に応じてスキーマを修正します。[Schema] (スキーマ)エリアでは、必要に応じてスキーマの名前を変更したり、スキーマの構造をカスタマイズすることができます。

ツールバーを使うと、使⽤するスキーマでカラムを追加、削除、移動し、スキーマをXMLファイルで定義されたスキーマに置き換えることができます。

スキーマのベースを別の列ファミリに変更するには、[Schema] (スキーマ)パネルでスキーマ名を選択し、[Based on Column Family] (ベースとなる列ファミリー)リストから新しい列ファミリーを選択して、[Guess Schema] (スキーマの推定)ボタンをクリックしてスキーマを選択した列ファミリーのスキーマで上書きします。更新ボタンをクリックして、列ファミリーのリストを更新する必要がある場合があります。

新しいスキーマを追加するには、[Schema] (スキーマ)パネルで[Add Schema] (スキーマの追加)ボタンをクリックします。すると、空のスキーマが作成され、ここで定義を⾏います。

スキーマを削除するには、[Schema] (スキーマ)パネルでスキーマ名を選択して、[RemoveSchema] (スキーマの削除)ボタンをクリックします。

デフォルトのスキーマを使って、選択したスキーマへの変更を上書きする場合は、[Guessschema] (スキーマの推定)をクリックします。このボタンをクリックすると、スキーマへの変更はすべて失われます。

4. [Finish] (終了)をクリックしてスキーマの作成を完了します。結果のスキーマは、[Repository](リポジトリ)ビューのCassandra接続の下に表⽰されます。これで接続またはその下の任意のス

MongoDBメタデータの⼀元管理


キーマノードをCassandraコンポーネントとして、すべてのメタデータ情報が⾃動的に⼊⼒された状態でデザインワークスペースにドロップできます。

さらにスキーマを編集する必要がある場合は、コンテキストメニューから[Edit Schema] (スキーマの編集)を選択し、このウィザードをもう⼀度開いて変更を⾏います。

スキーマを変更した場合は、[Type] (タイプ)列のデータタイプが正しく定義されていることを確認してください。

6.1.2. MongoDBメタデータの⼀元管理MongoDBデータベースのデータを頻繁に処理する場合、データベースへの接続とスキーマの詳細を[Repository] (リポジトリ)ツリービューの[Metadata] (メタデータ)フォルダーで⼀元管理することができます。

MongoDBメタデータのセットアップ⼿順は密接に関連する2つのタスクから成り⽴っています:

1. MongoDBデータベースへの接続の作成。

2. ⽬的のMongoDBスキーマの取得。

前提条件:


6.1.2.1. MongoDBデータベースへの接続の作成







3. [DB Type] (DBタイプ)リストから[MongoDB]を選択して、[DB Version] (DBバージョン)リストから接続先のデータベースのMongoDBのバージョンを選択して、以下の詳細を指定します:

• 対応するフィールドにMongoDBサーバーのホスト名またはIPアドレスとポート番号を⼊⼒します。

接続先のデータベースがレプリカセットの別のホストに複製されている場合、[Use replicaset address] (レプリカセットのアドレスを使⽤)チェックボックスをオンにして、[Replicaset address] (レプリカセットのアドレス)テーブルにホスト名またはIPアドレスとそれぞれのポートを指定します。これにより、データハンドリングの信頼性およびパフォーマンスが向上します。

• MongoDB接続を特定のデータベースのみに制限する場合、[Database] (データベース)フィールドにそのデータベース名を⼊⼒します。

このフィールドをブランクのままにすると、スキーマを取得する際にウィザードは接続されたサーバーに存在するすべてのデータベースのコレクションをリストします。

• MongoDBサーバーでデータベースアクセスの認証が必要な場合、[Require authentication](認証を使⽤)チェックボックスをオンにして、対応するフィールドにユーザー名とパスワードを⼊⼒します。





[Repository] (リポジトリ) ツリービューの[NoSQL connections] (NoSQL接続)ノードの下に新しく作成したMongoDBデータベース接続が表⽰されます。ここでこれをMongoDBコンポーネントとしてデザインワークスペースにドロップできますが、必要に応じてスキーマ情報を定義する必要があります。



この⼿順では、接続したMongoDBデータベースから対象のテーブルスキーマを取得します。




ウィザードには新しいビューが開き、指定されたデータベースの利⽤可能なすべてのコレクションがリストされます。前の⼿順で何も指定しなかった場合は、すべての使⽤可能なデータベースがリストされます。

2. この例の前の⼿順でデータベースを指定しなかった場合は⽬的のデータベースを展開して、⽬的のコレクションを選択します。


デフォルトでは、⽣成されたそれぞれのスキーマはベースとなるコレクションに基づいて名前が付けられます。



[Schema] (スキーマ)パネルからスキーマを選択すると、その詳細が右側に表⽰されるので、必要に応じてスキーマを修正します。[Schema] (スキーマ)エリアでは、必要に応じてスキーマの名前を変更したり、スキーマの構造をカスタマイズすることができます。


スキーマのベースを別のコレクションに変更するには、[Schema] (スキーマ)パネルでスキーマ名を選択し、[Based on Collection] (ベースとなるコレクション)リストから新しいコレクションを選択して、[Guess Schema] (スキーマの推定)ボタンをクリックしてスキーマを選択したコレクションのスキーマで上書きします。更新ボタンをクリックして、コレクションのリストを更新する必要がある場合があります。



デフォルトのスキーマを使って、選択したスキーマへの変更を上書きする場合は、[Guessschema] (スキーマの推定)をクリックします。このボタンをクリックすると、スキーマへの変更はすべて失われます。

4. [Finish] (終了)をクリックしてスキーマの作成を完了します。結果のスキーマは、[Repository](リポジトリ)ビューのMongoDB接続の下に表⽰されます。これで接続またはその下の任意のスキーマノードをMongoDBコンポーネントとして、すべてのメタデータ情報が⾃動的に⼊⼒された状態でデザインワークスペースにドロップできます。

Neo4jメタデータの⼀元管理




6.1.3. Neo4jメタデータの⼀元管理Neo4jデータベースのデータを頻繁に処理する場合、Neo4jデータベースへの接続とスキーマの詳細を[Repository] (リポジトリ)ツリービューの[Metadata] (メタデータ)フォルダーで⼀元管理することができます。

Neo4jメタデータのセットアップ⼿順は、以下の密接に関連しているものの別個の2種類のタスクで構成されます:

1. Neo4jデータベースへの接続の作成。

2. ⽬的のNeo4jスキーマの取得。

前提条件:


• Neo4jのデータの読み込みに使⽤するCypherクエリに精通していること。

• リモートモードでNeo4jデータベースに接続する必要がある場合、Neo4jサーバーが稼働していること。

6.1.3.1. Neo4jデータベースへの接続の作成







3. [DB Type] (DBタイプ)リストから[Neo4j]を選択して、接続の詳細を指定します。

• ローカルモード(組み込みモード)でNeo4jデータベースに接続する場合、[Local] (ローカル)オプションを選択してNeo4jデータファイルが格納されているディレクトリを指定します。

• リモートモード(RESTモード)でNeo4jデータベースに接続する場合、[Remote] (リモート)オプションを選択してNeo4jサーバーのURLを⼊⼒します。

この例では、Neo4jデータベースはリモートモードでアクセス可能であり、Neo4jサーバーのURLはウィザードで提⽰されたデフォルトのURLになります。





[Repository] (リポジトリ)ツリービューの[NoSQL connections] (NoSQL接続)ノードの下に新しく作成したNeo4jデータベース接続が表⽰されます。ここでこれをNeo4jコンポーネントとしてデザインワークスペースにドロップすることはできますが、必要に応じてスキーマ情報を定義する必要があります。



この⼿順では、接続したNeo4jデータベースから対象のテーブルスキーマを取得します。




ウィザードには、Cypherクエリに基づくスキーマ⽣成⽤の新しいビューが開きます。

2. [Cypher]フィールドに、ノードをマッチングして⽬的のプロパティを取得するためのCypherクエリを⼊⼒します。

Cypherクエリに文字列が含まれる場合、文字列は二重引用符でなく一重引用符で囲みます。二重引用符を使用すると、一元化されたメタデータからドロップされたNeo4jコンポーネントでエラーが発生します。

この例では、次のクエリを使⽤してEmployeesというラベルのノードとマッチングを⾏い、スキーマ列としてID、Name、HireDate、Salary、ManagerIDプロパティを取得します。

MATCH (n:Employees) RETURN n.ID, n.Name, n.HireDate, n.Salary, n.ManagerID;

この例のEmployeesというラベルのすべてのプロパティを取得する場合は、以下のようにクエリを⼊⼒します。

MATCH (n:Employees) RETURN n;

または:



MATCH (n:Employees) RETURN *;


必要に応じてスキーマを編集します。[Schema] (スキーマ)エリアでは、必要に応じてスキーマの名前を変更したり、スキーマの構造をカスタマイズすることができます。




4. [Finish] (終了)をクリックしてスキーマの作成を完了します。結果のスキーマは、[Repository](リポジトリ)ビューのNeo4j接続の下に表⽰されます。これで接続またはその下の任意のスキーマノードをNeo4jコンポーネントとして、すべてのメタデータ情報が⾃動的に⼊⼒された状態でデザインワークスペースにドロップできます。



Hadoopメタデータの管理


6.2. Hadoopメタデータの管理[Repository] (リポジトリ)ツリービューでは、[Metadata] (メタデータ)フォルダーの[Hadoopcluster] (Hadoopクラスター)ノードの下に、HDFS、Hive、HBaseなど、Hadoopモジュールへの接続のメタデータがグループ化されます。これにより、特定のHadoopディストリビューションに設定した接続プロパティを⼀元化し、それらのプロパティを再利⽤してHadoopの各モジュールに個別の接続を作成することができます。

[Repository] (リポジトリ)ツリービューの[Metadata] (メタデータ)をクリックして、該当するフォルダーを展開します。接続ノードはそれぞれ、セットアップしたさまざまな接続やスキーマを収集します。これらの接続ノードの中に、[Hadoop cluster] (Hadoopクラスター)ノードがあります。

次のセクションでは、[Hadoop cluster] (Hadoopクラスター)ノードを使って下記をセットアップする⽅法について詳しく説明します。

• HBase接続

• HCatalog接続

• HDFSファイルスキーマ

• Hive接続

• Oozie接続

Hadoop接続の⼀元化


Clouderaの分析データベース、Impalaへの接続を作成する必要がある場合、[Repository] (リポジトリ)の[Metadata] (メタデータ)ノードの下にある[DB connection] (DB接続)ノードを使⽤する必要があります。その設定はHive接続の設定と似ていますが、Hive接続より複雑ではありません。

この[DB connection] (DB接続)ノードの詳細は、『Talend Studioユーザーガイド』のメタデータの管理について説明されている章を参照してください。

6.2.1. Hadoop接続の⼀元化特定のHadoopディストリミングビューションへの接続を[Repository] (リポジトリ)でセットアップすると、同じHadoopディストリビューションを使⽤するたびに接続を設定する必要がなくなります。

[Hadoop cluster] (Hadoopクラスター)ノードからHDFS、Hive、OozieなどHadoopの個々のモジュールへの接続を作成する前に、Hadoopの接続を定義する必要があります。

前提条件:

次の⼿順に従ってHadoopの接続を設定する前に、接続先のHadoopディストリビューションへのアクセス権があることを確認します。

StudioからMapRに接続する場合は、Studioと同じマシンにMapRクライアントがインストールされており、MapRクライアントのライブラリがそのマシンのPATH変数に追加されていることを確認します。MapRのドキュメンテーションによると、各OSバージョンに対応するMapRクライアントのライブラリは、MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\nativeにあるとされています。たとえば、Windows版のライブラリは、\lib\native\MapRClient.dllにあるMapRクライアントのjarファイルにあります。詳細は、MapRからhttp://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-maprを参照してください。

[Repository] (リポジトリ)でHadoop接続を作成するには、次の⼿順を実⾏します。

1. Studioの[Repository] (リポジトリ)ツリービューで、[Metadata] (メタデータ)を展開し、[Hadoop cluster] (Hadoopクラスター)を右クリックします。

2. コンテキストメニューから[Create Hadoop cluster] (Hadoopクラスターの作成)を選択し、[Hadoop cluster connection] (Hadoopクラスターの接続)ウィザードを開きます。

3. [Name] (名前)や[Description] (説明)など、この接続の⼀般的な情報を⼊⼒し、[Next] (次へ)をクリックしてウィザードの新しいビューを開きます。

4. [Version] (バージョン)エリアで使⽤するHadoopディストリビューションとそのバージョンを選択します。

Distribution (ディストリビューション)リストで[Custom] (カスタム)を選択すると、Studioで正規にサポートされていないHadoopディストリビューションに接続することもできます。[Custom] (カスタム)オプションの使⽤例については、「カスタムHadoopディストリビューションへの接続」を参照してください。

[Custom] (カスタム)オプションを選択すると、[Authentication] (認証)リストが表⽰されます。接続先のHadoopディストリビューションに必要な認証モードを選択します。

5. 選択したバージョンによってアクティブになったフィールドに情報を⼊⼒します。これらのフィールドの中の、[NameNode URI]および[JobTracker URI] (ジョブトラッカーURI)フィールド(または[Resource Manager] (リソースマネージャー)フィールド)には、選択したディストリビューションに対応するデフォルトの構⽂とポート番号が⾃動的に⼊⼒されています。使⽤するHadoopの設定に応じて必要な部分のみを更新する必要があります。各種⼊⼒フィールドの詳細については、以下のリストを参照してください。

http://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-mapr

http://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-mapr



これらのフィールドには、次のようなものがあります。

• [NameNode URI] (ネームノードURI)

使⽤するHadoopディストリビューションのネームノードとして使⽤するマシンのURIを⼊⼒します。

ネームノードは、Hadoopシステムのマスターノードです。たとえば、Apache Hadoopディストリビューションのネームノードとして「machine1」という名前のマシンを選択した場合、URIはhdfs://machine1:portnumberとなります。

MapRディストリビューションを使⽤する場合は、このフィールドのmaprfs:///をそのままにしておくだけで、MapRクライアントが接続の作成時に残りの部分を処理します。ただし、MapRクライアントが正しくインストールされている必要があります。MapRクライアントのセットアップ⽅法について詳しくは、http://doc.mapr.com/display/MapR/Setting+Up+the+ClientにあるMapRのドキュメンテーションを参照してください。

• [JobTracker URI] (ジョブトラッカーURI)

使⽤するHadoopディストリビューションのジョブトラッカーとして使⽤するマシンのURIを⼊⼒します。

http://doc.mapr.com/display/MapR/Setting+Up+the+Client

http://doc.mapr.com/display/MapR/Setting+Up+the+Client



ジョブトラッカーの「ジョブ」とは、Talendのジョブではなく、Hadoopのジョブのことをいいます。MR (MapReduce)ジョブについては、Hadoopに関するApacheのドキュメンテーションhttp://hadoop.apache.orgで説明されています。

ジョブトラッカーは、Map/Reduceタスクをディストリビューションの特定のノードに送ります。たとえば、ジョブトラッカーとして「machine2」という名前のマシンを選択した場合は、場所はmachine2:portnumberとなります。

使⽤しているディストリビューションがYARN (たとえば、CDH4 YARNやHortonworksData Platform V2.0.0など)の場合は、ジョブトラッカーではなく、Resource Manager (リソースマネージャー)の場所を設定する必要があります。この接続をtHiveConnectionなどビッグデータに関連するコンポーネントに使⽤すると、[Basic settings] (基本設定)ビューで[Resourcemanager scheduler] (リソースマネージャースケジューラー)のアドレスなど関連するサービスのアドレスを詳細に設定するか、[Advanced settings] (詳細設定)ビューでMap/Reduceの計算やYARNのApplicationMaster (アプリケーションマスター)にメモリを割り当てることができます。リソースマネージャーやそのスケジューラーとアプリケーションマスターについて詳しくは、次のようなYARNのドキュメンテーションを参照してください。

http://hortonworks.com/blog/apache-hadoop-yarn-concepts-and-applications/

Hadoopサーバーのホスト名をクライアントやホストのコンピューターで識別可能にするには、クライアントとホストのコンピューターの関連するhostsファイルにそのホスト名でIPアドレスとホスト名のマッピングエントリを追加する必要があります。たとえば、Hadoopサーバーのホスト名がtalend-all-hdpで、IPアドレスが192.168.x.xの場合、マッピングエントリは192.168.x.x talend-all-hdpとなります。Windowsシステムでは、このエントリをC:\WINDOWS\system32\drivers\etc\hostsに追加します(WindowsがCドライブにインストールされている場合)。Linuxシステムでは、このエントリを/etc/hostsのファイルに追加します。

• [Enable Kerberos security] (ケルベロスセキュリティの有効化)

ケルベロスセキュリティを実⾏しているHadoopディストリビューションにアクセスする場合は、このチェックボックスをオンにし、表⽰されるフィールドにネームノードとしてケルベロスのプリンシパル名を⼊⼒します。これにより、ユーザー名がケルベロスに保存されている認証情報に照合されます。

また、このコンポーネントはMap/Reduceの計算を実⾏するため、対応するフィールドのディストリビューションに応じてジョブ履歴サーバーやリソースマネージャーまたはジョブトラッカーなど関連するサービスを認証する必要があります。これらのプリンシパルはディストリビューションの設定ファイルの中にあります。たとえば、CDH4ディストリビューションでは、リソースマネージャーのプリンシパルはyarn-site.xmlファイルで設定され、ジョブ履歴のプリンシパルはmapred-site.xmlファイルで設定されています。

ログインにkeytabファイルが必要な場合は、[Use a keytab to authenticate] (認証にkeytabを使⽤)チェックボックスをオンにします。keytabファイルには、ケルベロスのプリンシパルと暗号化したキーのペアが含まれています。使⽤するプリンシパルを[Principal] (プリンシパル)フィールドに⼊⼒し、keytabファイルへのパスを[Keytab]フィールドに⼊⼒します。

keytabが有効なジョブは、プリンシパルに任命されたユーザーでなくても実⾏できますが、使⽤するkeytabファイルの読み取り権限が必要です。たとえば、user1というユーザー名でジョブを実⾏し、使⽤するプリンシパルがguestの場合、user1に使⽤するkeytabファイルの読み取り権限があることを確認してください。

• [User name] (ユーザー名)

使⽤するHadoopディストリビューションのユーザー認証名を⼊⼒します。

このフィールドを空⽩のままにすると、Studioはクライアントへのログインに使⽤している名前を使ってHadoopディストリビューションにアクセスします。たとえば、「Company」

http://hadoop.apache.org

http://hortonworks.com/blog/apache-hadoop-yarn-concepts-and-applications/



という名前でログインしているWindowsマシンでStudioを使⽤している場合、実⾏時にも「Company」という認証名が使⽤されます。

• [Group] (グループ)

認証されたユーザーが所属するグループ名を⼊⼒します。

このフィールドは、使⽤しているHadoopのディストリビューションによっては、利⽤できないこともあります。

• [Hadoop properties] (Hadoopのプロパティ):

使⽤するHadoopディストリビューションの設定をカスタマイズする必要がある場合は、[...]ボタンをクリックしてプロパティテーブルを開き、カスタマイズするプロパティを追加します。その後、実⾏時にStudioがHadoopのエンジンに使⽤するデフォルトのプロパティが、カスタマイズした設定に上書きされます。

このテーブルで設定されたプロパティは、現在のHadoop接続をベースに作成できる⼦接続に継承され再利⽤されます。

Hadoopのプロパティについて詳しくは、http://hadoop.apache.org/docs/current/に記載されているApacheのHadoopについてのドキュメンテーションを参照するか、使⽤するHadoopディストリビューションのドキュメンテーションを参照してください。たとえば、次のページにはデフォルトのHadoopプロパティの⼀部がリストされています:https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml。

このプロパティテーブルの活⽤⽅法の詳細については、「再利用可能なHadoopプロパティの設定」を参照してください。

• ディストリビューションにMicrosoft HD Insightを使⽤する場合、前述のパラメーターの代わりに[WebHCat configuration] (WebHCat設定)、[HDInsight configuration] (HDInsight設定)および[Window Azure Storage] (Window Azureストレージ)の設定を⾏う必要があります。これらの設定エリアの⼊⼒に必要な認証情報とは別に、以下のパラメーターも設定する必要があります。

• [Job result folder] (ジョブ結果保存フォルダー)フィールドに、使⽤するAzure StorageでのTalendジョブの実⾏結果を保存する場所を⼊⼒します。

• [Deployment Blob] (デプロイメントBlob)フィールドに、このAzure StorageアカウントでTalendジョブとその依存ライブラリを保存する場所を⼊⼒します。

この接続の設定⽅法に関するデモンストレーションビデオは、以下のリンクで⼊⼿できます:https://www.youtube.com/watch?v=A3QTT6VsNoM。

6. [Check services (サービスの確認)ボタンをクリックして、このウィザードで指定したNameNodeおよびJobTrackerまたはResourceManagerにStudioから接続できることを確認します。

プロセスの確認と接続状態を⽰すダイアログボックスが表⽰されます。ここで接続失敗と表⽰される場合、接続ウィザードで定義した接続情報を再確認して更新する必要があります。

7. [Finish] (終了) をクリックして、変更を確定しウィザードを閉じます。

新しくセットアップしたHadoopの接続は、[Repository] (リポジトリ)ツリービューのHadoopclusterフォルダーの下に表⽰されます。この接続には、同じHadoopディストリビューションの下にあるモジュールに接続を作成しない限り、サブフォルダーはありません。

http://hadoop.apache.org/docs/current/

https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml


https://www.youtube.com/watch?v=A3QTT6VsNoM



6.2.1.1. カスタムHadoopディストリビューションへの接続

前述の[Distribution] (ディストリビューション)ドロップダウンリストから[Custom] (カスタム)オプションを選択すると、Studioから提供される[Distribution] (ディストリビューション)リストにはないHadoopディストリビューションに接続します。

[Custom] (カスタム)オプションを選択したあとで、ボタンをクリックすると、[Import customdefinition] (カスタム定義のインポート)ダイアログボックスが表⽰されます。ここで、次の⼿順を実⾏します。

1. 必要に応じて、[Import from existing version] (既存のバージョンからインポート)と[Importfrom zip] (ZIPからインポート)のいずれかを選択して、接続するカスタムHadoopディストリビューションを設定します。

• 接続先のカスタムHadoopディストリビューションの設定⽤ZIPファイルがある場合は、[Import from zip] (ZIPからインポート)を選択します。これらのZIPファイルはTalendコミュニティが提供しており、http://www.talendforge.org/exchange/index.phpからダウンロードできます。

このzipファイルは単に設定ファイルであり、Talend Exchangeからは直接インストールできません。Talend Exchangeについての詳細は、『Talend Studioユーザーガイド』を参照してください。

• それ以外は、[Import from existing version](既存のバージョンからインポート)を選択して、公式にサポートされているHadoopディストリビューションをインポートし、これをベースとして次のウィザードでカスタマイズします。このアプローチを採⽤するには、使⽤するHadoopディストリビューションの設定についての知識が必要です。

http://www.talendforge.org/exchange/index.php



このウィザードのチェックボックスを使って、インポートするHadoopのモジュールを選択します。接続を作成するときの状況によって、これらすべてのチェックボックスがウィザードに表⽰されないこともあります。たとえば、Oozieの接続を作成するときは、[Oozie]チェックボックスだけが表⽰されます。

2. [Import from existing version] (既存のバージョンからインポート)と[Import from zip] (ZIPからインポート)のどちらを選択した場合でも、インポートするHadoopのモジュールのチェックボックスをそれぞれオンにしてください。

3. [OK]をクリックすると、ポップアップ警告が表⽰されます。前に実装したjarファイルのカスタムセットアップを上書きする場合は、[Yes] (はい)をクリックします。

完了すると、[Custom Hadoop version definition] (カスタムHadoopバージョンの定義)ダイアログボックスがアクティブになります。



このダイアログボックスには、インポートするHadoopのモジュールとそのjarファイルがリストされます。

4. [Import from zip] (ZIPからインポート)を選択した場合は、[OK]をクリックしてインポートの設定を確定します。

[Import from existing version](既存のバージョンからインポート)を選択した場合は、jarファイルを追加してバージョンをカスタマイズします。カスタマイズするHadoopのモジュールのタブ(たとえば[HDFS/HCatalog/Oozie]タブなど)で[+]ボタンをクリックし、[Select libraries](ライブラリの選択)ダイアログボックスを開きます。

5. [External libraries] (外部ライブラリ)オプションを選択して、ビューを表⽰します。

6. インポートするjarファイルを参照して選択します。

7. [OK]をクリックして変更を確定し、[Select libraries] (ライブラリの選択)ダイアログボックスを閉じます。

完了すると、設定したHadoopの要素のタブのリストに、選択したjarファイルが表⽰されます。

カスタムHadoopセットアップを別のStudioと共有する必要がある場合は、ボタンを使って、このカスタム接続を[Custom Hadoop version definition] (カスタムHadoopバージョンの定義)ウィンドウからエクスポートすることができます。

HBaseメタデータの⼀元化


8. [Custom Hadoop version definition] (カスタムHadoopバージョンの定義)ダイアログボックスで[OK]をクリックして設定のカスタマイズを確定します。これで、[Custom] (カスタム)オプションを選択した設定ビューに戻ります。

カスタムHadoopバージョンの設定を完了し、Hadoopの接続設定ビューに戻ったら、その接続に必要なその他のパラメーターを引き続き⼊⼒することができます。

接続先のカスタムHadoopバージョンにYARNが含まれており、それを使⽤する場合は、[Distribution] (ディストリビューション)リストの横にある[Use YARN] (YARNを使⽤する)チェックボックスをオンにします。

6.2.2. HBaseメタデータの⼀元化HBaseのデータベーステーブルを頻繁に使う場合は、HBaseデータベースへの接続情報とテーブルスキーマの詳細を[Repository] (リポジトリ)ツリービューの[Metadata] (メタデータ)フォルダーに⼀元化することができます。

DB connection (DB接続)モードでも同じことができますが、[Hadoop cluster] (Hadoopクラスター)ノードを使うことで特定のHadoopディストリビューションへの⼀元化された接続プロパティを効果的に使うことができます。

前提条件:

• 使⽤するHadoopディストリビューションを起動し、ディストリビューションとHBaseへの適切なアクセス権があるかどうかを確認します。

• [Hadoop cluster] (Hadoopクラスター)ノードからHadoopディストリビューションへの接続を作成します。詳細は、「Hadoop接続の一元化」を参照してください。

6.2.2.1. HBaseへの接続の作成

1. [Repository] (リポジトリ)ツリーで、[Metadata] (メタデータ)ノードの下の[Hadoop cluster](Hadoopクラスター)ノードを展開し、使⽤するHadoop接続を右クリックし、コンテキストメニューから[Create HBase] (HBaseの作成)を選択します。

2. 接続ウィザードが表⽰されます。ここで、[Name] (名前)、[Purpose] (⽬的)、[Description](説明)など、⼀般的なプロパティを⼊⼒します。[Status] (ステータス)フィールドは、[File](ファイル) > [Edit project properties] (プロジェクトプロパティの編集)で定義することができます。



3. [Next] (次へ)をクリックして次の⼿順に進みます。ここでは、HBaseの接続情報を⼊⼒します。このうち、[DB Type] (DBの種類)、[Hadoop cluster] (Hadoopクラスター)、[Distribution](ディストリビューション)、[HBase version] (HBaseのバージョン)、[Server] (サーバー)は、前の⼿順で選択したHadoop接続から継承されたプロパティが⾃動的に⼊⼒されます。

[Hadoop cluster] (Hadoopクラスター)リストから[None] (なし)を選択すると、⼿動モードに切り替わり、継承されたプロパティが破棄されるので、すべてのプロパティを⼿動で⼊⼒しなければなりません。作成された接続は、[Db connection] (Db接続)ノードの下だけに表⽰されます。



4. [Port] (ポート)フィールドには、接続するHBaseデータベースのポート番号を⼊⼒します。

Hadoopサーバーのホスト名をクライアントやホストのコンピューターで識別可能にするには、クライアントとホストのコンピューターの関連するhostsファイルにそのホスト名でIPアドレスとホスト名のマッピングエントリを追加する必要があります。たとえば、Hadoopサーバーのホスト名がtalend-all-hdpで、IPアドレスが192.168.x.xの場合、マッピングエントリは192.168.x.x talend-all-hdpとなります。Windowsシステムでは、このエントリをC:\WINDOWS\system32\drivers\etc\hostsに追加します(WindowsがCドライブにインストールされている場合)。Linuxシステムでは、このエントリを/etc/hostsに追加します。

5. 列をフィルターしたい場合は、[Column family] (列ファミリー)フィールドに列ファミリーを⼊⼒し、[Check] (チェック)をクリックして接続を確認します。

6. ケルベロスセキュリティを実⾏しているHadoopディストリビューションにアクセスする場合は、このチェックボックスをオンにし、表⽰されるフィールドにネームノードとしてケルベロスのプリンシパル名を⼊⼒します。これにより、ユーザー名がケルベロスに保存されている認証情報に照合されます。

ログインにkeytabファイルが必要な場合は、[Use a keytab to authenticate] (認証にkeytabを使⽤)チェックボックスをオンにします。keytabファイルには、ケルベロスのプリンシパルと暗号化したキーのペアが含まれています。使⽤するプリンシパルを[Principal] (プリンシパル)フィールドに⼊⼒し、keytabファイルへのパスを[Keytab]フィールドに⼊⼒します。



keytabが有効なジョブは、プリンシパルに任命されたユーザーでなくても実⾏できますが、使⽤するkeytabファイルの読み取り権限が必要です。たとえば、user1というユーザー名でジョブを実⾏し、使⽤するプリンシパルがguestの場合、user1に使⽤するkeytabファイルの読み取り権限があることを確認してください。

7. 使⽤するHadoopまたはHBaseディストリビューションの設定をカスタマイズする必要がある場合は、[Hadoop properties] (Hadoopプロパティ)のとなりの[...]ボタンをクリックしてプロパティテーブルを開き、カスタマイズするプロパティを追加します。その後、実⾏時にStudioがHadoopのエンジンに使⽤するデフォルトのプロパティが、カスタマイズした設定に上書きされます。

[Parent Hadoop properties] (親Hadoopプロパティ)テーブルは、現在編集中のプロパティテーブルの上に表⽰されます。この親テーブルは読み取り専⽤で、現在のHBase接続のベースとなる親Hadoop接続のウィザードで定義されたHadoopプロパティがリストされます。

Hadoopのプロパティについて詳しくは、http://hadoop.apache.org/docs/current/に記載されているApacheのHadoopについてのドキュメンテーションを参照するか、使⽤するHadoopディストリビューションのドキュメンテーションを参照してください。たとえば、次のページにはデフォルトのHadoopプロパティの⼀部がリストされています: https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml。

HBaseのプロパティの詳細については、HBaseに関するApacheのドキュメンテーションを参照してください。たとえば、次のページにはHBaseの設定プロパティについていくつか説明されています: http://hbase.apache.org/book.html#_configuration_files。


8. [Finish] (完了)をクリックして、変更を確定します。

新しく作成したHBase接続は、[Repository] (リポジトリ)ツリーの[Hadoop cluster] (Hadoopクラスター)ノードの下に表⽰されます。また、HBase接続はデータベース接続のため、この接続は[Db connections] (Db接続)ノードの下にも表⽰されます。




http://hbase.apache.org/book.html#_configuration_files



この[Repository] (リポジトリ)ビューは、使⽤しているStudioのエディションによって異なる場合があります。

6.2.2.2. テーブルスキーマの取得

この⼿順では、接続したHBaseデータベースから対象のテーブルスキーマを取得します。

1. [Repository] (リポジトリ)ビューで、新しく作成した接続を右クリックし、コンテキストメニューから[Retrieve schema] (スキーマの取得)を選択して、表⽰されたウィザードの[Next](次へ)をクリックしてHBaseデータベースのテーブルにフィルターをかけます。



2. 該当するデータベーステーブルや列ファミリーのノードを展開して対象の列を選択し、[Next](次へ)をクリックしてウィザードで新しいビューを開きます。このビューには、選択したテーブルスキーマがリストされます。ウィザードの右側にある[Schema] (スキーマ)エリアでスキーマを選択すると、その詳細が表⽰されます。



ソースデータベーステーブルに文字列ではなく関数または式であるデフォルト値が含まれる場合、最終スキーマを使用したデータベーステーブルの作成時に予期せぬ結果になるのを回避するため、最終スキーマ内のデフォルト値を囲む一重引用符(ある場合)は必ず削除してください。

詳細については、https://help.talend.com/display/KB/Verifying+default+values+in+a+retrieved+schemaを参照してください。

3. 必要に応じて、選択したスキーマを変更します。[Schema] (スキーマ)エリアでは、必要に応じてスキーマの名前を変更したり、スキーマの構造をカスタマイズすることができます。

ツールバーを使って、スキーマに列を追加したり、削除や移動を⾏うこともできます。

デフォルトのスキーマを使って、選択したスキーマへの変更を上書きする場合は、[Retrieveschema] (スキーマの取得)をクリックします。このボタンをクリックすると、スキーマへの変更はすべて失われます。

4. HBaseテーブルスキーマの作成を完了するには、[Finish] (完了)をクリックします。取得したスキーマはすべて[Repository] (リポジトリ)ビューの関連するHBase接続の下に表⽰されます。


https://help.talend.com/display/KB/Verifying+default+values+in+a+retrieved+schema

HCatalogメタデータの⼀元化



前述したように、[Hadoop cluster] (Hadoopクラスター)ノードを使⽤する代わりに、HBase接続を作成し、[Db connection] (Db接続)ノードからスキーマを取得することもできます。いずれの場合も、特定のHBase接続のプロパティを定義する必要があります。ここでは、次のケースが考えられます。

• [Hadoop cluster] (Hadoopクラスター)リストから[Repository] (リポジトリ)オプションを選択し、確⽴されたHadoop接続の詳細を再利⽤して作成されたHBase接続は、[Hadoop cluster](Hadoopクラスター)ノードと[Db connection] (Db接続)ノードの両⽅に分類されます。

• [Hadoop cluster] (Hadoopクラスター)リストから[None] (なし)オプションを選択し、Hadoop接続のプロパティを⼿動で⼊⼒して作成されたHBase接続は、[Db connection] (Db接続)ノードにのみ表⽰されます。

6.2.3. HCatalogメタデータの⼀元化HCatalogのテーブルや、Hadoopのテーブルおよびストレージ管理レイヤーを頻繁に使う場合は、特定のHCatalogとテーブルスキーマの詳細を[Repository] (リポジトリ)ツリービューの[Metadata](メタデータ)フォルダーに⼀元化することができます。

前提条件:

• 使⽤するHortonWorks Hadoopディストリビューションを起動し、そのディストリビューションとHCatalogへの適切なアクセス権があることを確認します。


6.2.3.1. HCatalogへの接続の作成

1. [Repository] (リポジトリ)ツリーで、[Metadata] (メタデータ)ノードの下の[Hadoop cluster](Hadoopクラスター)ノードを展開し、使⽤するHadoop接続を右クリックしてコンテキストメニューから[Create HCatalog] (HCatalogの作成)を選択します。




3. 完了したら、[Next] (次へ)をクリックします。次の⼿順では、HCatalogの接続データを⼊⼒します。このうち、[Host name] (ホスト名)には、前の⼿順で選択したHadoop接続から継承された値が⾃動的に⼊⼒されます。Templetonの[Port] (ポート)と[Database] (データベース)は、デフォルトの値を使⽤します。

このデータベースはHiveデータベースで、TempletonはHCatalogでコマンドを発⾏するために、RESTに類似したWeb APIとして使⽤します。Templetonについて詳しくは、http://people.apache.org/~thejas/templeton_doc_latest/index.htmlにあるApacheのドキュメンテーションを参照してください。

http://people.apache.org/~thejas/templeton_doc_latest/index.html

http://people.apache.org/~thejas/templeton_doc_latest/index.html



[KRB principal] (KRBプリンシパル)フィールドと[KRB realm] (KRB領域)フィールドは、使⽤しているHadoop接続でケルベロスセキュリティが有効な場合にのみ表⽰されます。これらのフィールドは、ケルベロスでHCatalogクライアントとHCatalogサーバーを相互に認証するために必要なプロパティです。

Hadoopサーバーのホスト名をクライアントやホストのコンピューターで識別可能にするには、クライアントとホストのコンピューターの関連するhostsファイルにそのホスト名でIPアドレスとホスト名のマッピングエントリを追加する必要があります。たとえば、Hadoopサーバーのホスト名がtalend-all-hdpで、IPアドレスが192.168.x.xの場合、マッピングエントリは192.168.x.x talend-all-hdpとなります。Windowsシステムでは、このエントリをC:\WINDOWS\system32\drivers\etc\hostsに追加します(WindowsがCドライブにインストールされている場合)。Linuxシステムでは、このエントリを/etc/hostsのファイルに追加します。

4. 必要に応じて、これらのデフォルト値を接続先のHCatalogで使⽤しているポートとデータベースに変更します。

5. [KRB principal] (KRBプリンシパル)と[KRB realm] (KRB領域)のプロパティも必要に応じて⼊⼒します。

6. 使⽤するHadoopまたはHCatalogディストリビューションの設定をカスタマイズする必要がある場合は、[Hadoop properties] (Hadoopプロパティ)のとなりの[...]ボタンをクリックしてプロパティテーブルを開き、カスタマイズするプロパティを追加します。その後、実⾏時にStudioが



Hadoopのエンジンに使⽤するデフォルトのプロパティが、カスタマイズした設定に上書きされます。

[Parent Hadoop properties] (親Hadoopプロパティ)テーブルは、現在編集中のプロパティテーブルの上に表⽰されます。この親テーブルは読み取り専⽤で、現在のHCatalog接続のベースとなる親Hadoop接続のウィザードで定義されたHadoopプロパティがリストされます。


HCatalogのプロパティの詳細については、HCatalogに関するApacheのドキュメンテーションを参照してください。たとえば、次のページにはHCatalogの設定プロパティについていくつか説明されています: https://cwiki.apache.org/confluence/display/Hive/HCatalog+Config+Properties。


7. [Check] (チェック)をクリックして、定義した接続をテストしてみます。正しく接続できたかどうかを⽰すメッセージが表⽰されます。


作成したHCatalogの接続は、[Repository] (リポジトリ)ツリービューの[Hadoop cluster](Hadoopクラスター)ノードの下に表⽰されます。


9. 新しく作成した接続を右クリックし、ドロップダウンリストから[Retrieve schema] (スキーマの取得)を選択して、⽬的のテーブルスキーマを確⽴した接続からロードします。




https://cwiki.apache.org/confluence/display/Hive/HCatalog+Config+Properties

https://cwiki.apache.org/confluence/display/Hive/HCatalog+Config+Properties



6.2.3.2. テーブルスキーマの取得

1. [Retrieve Schema] (スキーマの取得)をクリックするとウィザードが表⽰されます。ここで、HCatalogのさまざまなテーブルを表⽰したり、フィルターをかけることができます。

2. テーブルを検索するには、[Name filter] (名前フィルター)フィールドにテーブルの名前を⼊⼒します。

また、スキーマを取得するテーブルを直接⾒つけて選択することもできます。

選択したテーブルからスキーマを取得するごとに、そのテーブルの[Creation status] (作成ステータス)が[Success] (成功)に変わります。

3. [Next] (次へ)をクリックしてウィザードで新しいビューを開きます。このビューには、選択したテーブルスキーマがリストされます。[Schema] (スキーマ)エリアでスキーマを選択すると、その詳細が表⽰されます。

HDFSメタデータの⼀元化




デフォルトのスキーマを使って、選択したスキーマへの変更を上書きする場合は、[Retrieveschema] (スキーマの取得)をクリックします。上書きすると、カスタマイズした編集はすべて失われます。

5. HCatalogテーブルスキーマの作成を完了するには、[Finish] (完了)をクリックします。取得したスキーマはすべて[Repository] (リポジトリ)ビューの関連するHCatalog接続ノードの下に表⽰されます。

その後もスキーマを編集する必要がある場合は、[Repository] (リポジトリ)ビューで関連するHCatalog接続ノードの下からスキーマを右クリックし、コンテキストメニューから[EditSchema] (スキーマの編集)を選択してもう⼀度このウィザードを開いて変更を⾏います。


6.2.4. HDFSメタデータの⼀元化HDFS (Hadoop Distributed File System)のファイルスキーマを頻繁に使う場合は、HDFSへの接続情報とスキーマの詳細を[Repository] (リポジトリ)ツリービューの[Metadata] (メタデータ)フォルダーに⼀元化することができます。

前提条件:

• 使⽤するHadoopディストリビューションを起動し、ディストリビューションとHDFSへの適切なアクセス権があるかどうかを確認します。




6.2.4.1. HDFSへの接続の作成

1. [Repository] (リポジトリ)ツリービューで、[Metadata] (メタデータ)ノードの下の[Hadoopcluster] (Hadoopクラスター)ノードを展開し、使⽤するHadoop接続を右クリックしてコンテキストメニューから[Create HDFS] (HDFSの作成)を選択します。


3. 完了したら、[Next] (次へ)をクリックします。次の⼿順では、HDFSの接続データを⼊⼒します。[User name] (ユーザー名)プロパティには、前の⼿順で選択したHadoop接続から継承された値が⾃動的に⼊⼒されます。

[Row separator] (⾏区切り)と[Field separator] (フィールド区切り)のプロパティには、デフォルトの値を使⽤します。



使⽤しているHadoop接続でケルベロスセキュリティが有効な場合は、[User name] (ユーザー名)フィールドが⾃動的に無効になります。

4. アクセス先のHDFSのデータに、無視したいヘッダーメッセージが含まれている場合は、[Header] (ヘッダー)チェックボックスをオンにして、無視するヘッダー⾏の番号を⼊⼒します。

5. アクセスするデータの列名を定義する必要がある場合は、[Set heading row as columnnames] (⾒出し⾏を列名に設定する)チェックボックスをオンにします。これにより、Studioは無視した最後の⾏を選択し、データの列名として使⽤します。

たとえば、このチェックボックスをオンにして、[Header] (ヘッダー)フィールドに「1」と⼊⼒すると、使⽤するデータのスキーマを取得するときに、データの最初の⾏がデータ本体としては無視され、データの列名として使⽤されます。

6. 使⽤するHadoopディストリビューションのHDFSの設定をカスタマイズする必要がある場合は、[Hadoop properties] (Hadoopプロパティ)のとなりの[...]ボタンをクリックして対応するプロパティテーブルを開き、カスタマイズするプロパティを追加します。その後、実⾏時にStudioがHadoopのエンジンに使⽤するデフォルトのプロパティが、カスタマイズした設定に上書きされます。

[Parent Hadoop properties] (親Hadoopプロパティ)テーブルは、現在編集中のプロパティテーブルの上に表⽰されます。この親テーブルは読み取り専⽤で、現在のHDFS接続のベースとなる親Hadoop接続のウィザードで定義されたHadoopプロパティがリストされます。



HadoopのHDFS関連のプロパティについて詳しくは、http://hadoop.apache.org/docs/current/に記載されているApacheのHadoopについてのドキュメンテーションを参照するか、使⽤するHadoopディストリビューションのドキュメンテーションを参照してください。たとえば、次のページにはデフォルトのHDFS関連のHadoopプロパティの⼀部がリストされています: http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml。


7. 必要に応じてデフォルトの区切り⽂字を変更し、[Check] (チェック)をクリックして接続を確認します。

正しく接続できたかどうかを⽰すメッセージが表⽰されます。


作成したHDFSの接続は、[Repository] (リポジトリ)ツリービューの[Hadoop cluster] (Hadoopクラスター)ノードの下に表⽰されます。


9. 作成した接続を右クリックし、ドロップダウンリストから[Retrieve schema] (スキーマの取得)を選択して、⽬的のテーブルスキーマを確⽴した接続からロードします。

6.2.4.2. ファイルスキーマの取得

1. [Retrieve Schema] (スキーマの取得)をクリックすると新しいウィザードが表⽰されます。ここで、HDFSのさまざまなオブジェクト(Avroファイルなど)を表⽰するか、フィルターをかけることができます。



http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml



2. ファイルを検索するには、[Name filter] (名前フィルター)フィールドにファイルの名前を⼊⼒します。

また、このウィザードにリストされているフォルダーのチェックボックスを選択して展開し、スキーマを取得するファイルを直接選択することもできます。

選択したファイルからスキーマを取得するごとに、そのファイルの[Creation status] (作成ステータス)が[Success] (成功)に変わります。

3. [Next] (次へ)をクリックしてウィザードで新しいビューを開きます。このビューには、選択したファイルスキーマがリストされます。[Schema] (スキーマ)エリアでスキーマを選択すると、その詳細が表⽰されます。





デフォルトのスキーマを使って、選択したスキーマへの変更を上書きする場合は、[Retrieveschema] (スキーマの取得)をクリックします。上書きすると、カスタマイズした編集はすべて失われます。

5. HDFSファイルスキーマの作成を完了するには、[Finish] (完了)をクリックします。取得したスキーマはすべて[Repository] (リポジトリ)ビューの関連するHDFS接続ノードの下に表⽰されます。

その後もスキーマを編集する必要がある場合は、[Repository] (リポジトリ)ビューで関連するHDFS接続ノードの下からスキーマを右クリックし、コンテキストメニューから[Edit Schema](スキーマの編集)を選択してもう⼀度このウィザードを開いて変更を⾏います。


Hiveメタデータの⼀元化


6.2.5. Hiveメタデータの⼀元化Hiveのデータベーステーブルを頻繁に使う場合は、Hiveデータベースへの接続情報とテーブルスキーマの詳細を[Repository] (リポジトリ)ツリービューの[Metadata] (メタデータ)フォルダーに⼀元化することができます。

DB connection (DB接続)モードでも同じことができますが、[Hadoop cluster] (Hadoopクラスター)ノードを使うことで特定のHadoopディストリビューションへの⼀元化された接続プロパティを効果的に使うことができます。

前提条件:

• 使⽤するHadoopディストリビューションを起動し、ディストリビューションとHiveデータベースへの適切なアクセス権があるかどうかを確認します。


ディストリビューションにMapRを使⽤し、HiveのバージョンがMapR 2.0.0またはMapR 2.1.2の場合は、Hive接続をセットアップする前に次の作業を⾏ってください。

1. MapRのクライアントパスを、Talend Studioの対応する.ini ファイル(たとえば、Talend-Studio-win-x86_64.ini)に追加します。このパスは使⽤しているオペレーティングシステムによって異なり、Windowsの場合は-Djava.library.path=maprclientpath\lib\native\Windows_7-

amd64-64となります。

2. MapR 2.0.0の場合は、maprfs-0.1.jarというモジュールをインストールします。

MapR 2.1.2の場合は、maprfs-0.20.2-2.1.2.jarおよびmaprfs-jni-0.20.2-2.1.2.jarというモジュールをインストールします。

3. その後、Studioを再起動して変更を確定します。

モジュールのインストール⽅法について詳しくは、『Talendインストレーションガイド』の外部モジュールの識別・インストール⽅法についての説明を参照してください。

6.2.5.1. Hiveへの接続の作成

1. [Repository] (リポジトリ)ツリーで、[Metadata] (メタデータ)ノードの下の[Hadoop cluster](Hadoopクラスター)ノードを展開し、使⽤するHadoop接続を右クリックしてコンテキストメニューから[Create Hive] (Hiveの作成)を選択します。


3. [Next] (次へ)をクリックして次の⼿順に進みます。ここでは、Hiveの接続情報を⼊⼒します。このうち、[DB Type] (DBの種類)、[Hadoop cluster] (Hadoopクラスター)、[Distribution](ディストリビューション)、[Version] (バージョン)、[Server] (サーバー)、[NameNode URL](ネームノードURL)、[JobTracker URL] (ジョブトラッカーURL)は、前の⼿順で選択したHadoop接続から継承されたプロパティが⾃動的に⼊⼒されます。

[Hadoop cluster] (Hadoopクラスター)リストから[None] (なし)を選択すると、⼿動モードに切り替わり、継承されたプロパティが破棄されるので、すべてのプロパティを⼿動で⼊⼒しなければなりません。作成された接続は、[Db connection] (Db接続)ノードの下だけに表⽰されます。



設定するプロパティは、接続しているHadoopのディストリビューションによって異なります。

4. [Version info] (バージョン情報)エリアで、接続するHiveデータベースのモデルを選択します。Hadoopの⼀部のディストリビューションでは、[Embedded] (組み込み)モデルと[Standalone] (スタンドアロン)モデルのどちらかを選択することができますが、いずれか⼀⽅しかないものもあります。



選択したディストリビューションによっては、[Hive Server version] (Hiveサーバーのバージョン)リストから[Hive Server2]を選択できる場合もあります。このバージョンは、複数のクライアントへの同時接続のサポートがHive Server1よりも優れています。Hive Server2について詳しくは、https://cwiki.apache.org/confluence/display/Hive/Setting+up+HiveServer2を参照してください。

5. 選択したHiveモデルによって表⽰されるフィールドに情報を⼊⼒します。

[Database] (データベース)フィールドを空⽩にしたまま、[Embedded] (組み込み)モデルを選択すると、StudioはHiveにあるすべてのデータベースに⾃動的に接続します。また、[Standalone] (スタンドアロン)モデルを選択すると、デフォルトのHiveデータベースのみに接続します。

6. ケルベロスセキュリティを実⾏しているHadoopディストリビューションにアクセスする場合は、[Use Kerberos authentication] (ケルベロス認証の使⽤)チェックボックスをオンにします。Hiveサーバー側の設定に基づいて次のようなフィールドに値を⼊⼒します。

• [Hive principal] (Hiveプリンシパル)フィールドが表⽰されたら、ケルベロスのプリンシパル名を⼊⼒します。

• [Metastore URL] (メタストアURL)フィールドに、メタストアデータベースのURLを⼊⼒します。

• [Driver jar] (ドライバーのjar)フィールドの横にある[...]ボタンをクリックし、メタストアデータベースのドライバーJARファイルを参照します。

• [Driver class] (ドライバーのクラス)フィールドの横にある[...]ボタンをクリックし、適切なクラスを選択します。

• [Username] (ユーザー名)フィールドと[Password] (パスワード)フィールドに、ユーザー名とパスワードを⼊⼒します。

ログインにkeytabファイルが必要な場合は、[Use a keytab to authenticate] (認証にkeytabを使⽤)チェックボックスをオンにし、使⽤するプリンシパルを[Principal] (プリンシパル)フィールドに⼊⼒し、keytabファイルへのパスを[Keytab]フィールドに⼊⼒します。

keytabファイルには、ケルベロスのプリンシパルと暗号化したキーのペアが含まれています。keytabが有効なジョブは、プリンシパルに任命されたユーザーでなくても実⾏できますが、使⽤するkeytabファイルの読み取り権限が必要です。たとえば、user1というユーザー名でジョブを実⾏し、使⽤するプリンシパルがguestの場合、user1に使⽤するkeytabファイルの読み取り権限があることを確認してください。

https://cwiki.apache.org/confluence/display/Hive/Setting+up+HiveServer2



7. 使⽤するHadoopまたはHiveディストリビューションの設定をカスタマイズする必要がある場合は、[Hadoop properties] (Hadoopプロパティ)または[Hive Properties] (Hiveプロパティ)のとなりの[...]ボタンをクリックして対応するプロパティテーブルを開き、カスタマイズするプロパティを追加します。その後、実⾏時にStudioがHadoopのエンジンに使⽤するデフォルトのプロパティが、カスタマイズした設定に上書きされます。


Hiveのプロパティの詳細については、Hiveに関するApacheのドキュメンテーションを参照してください。たとえば、次のページにはいくつかのHiveの設定プロパティについて説明されています: https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties。

これらのプロパティテーブルの活⽤⽅法の詳細については、「再利用可能なHadoopプロパティの設定」を参照してください。

8. [Check] (チェック)ボタンをクリックして、正しく接続できるかどうかを確認します。

9. 必要に応じて、[Database Properties] (データベースのプロパティ)エリアでデータベースプロパティに該当するフィールドを設定します。

10. [Finish] (完了)をクリックして変更を確定し、ウィザードを閉じます。




https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties



特定のHiveデータベースに作成した接続は、[Repository] (リポジトリ)ツリービューの[DBConnections] (DB接続)フォルダーの下に表⽰されます。この接続には4つのサブフォルダーがあり、そのうちの[Table schema] (テーブルスキーマ)には、この接続に関連するすべてのスキーマをグループ化することができます。

11. 作成したHive接続を右クリックし、[Retrieve Schema] (スキーマの取得)を選択して、定義したHiveデータベースのすべてのスキーマを取得します。

6.2.5.2. Hiveテーブルスキーマの取得

この⼿順では、接続したHiveデータベースから対象のテーブルスキーマを取得します。

1. [Repository] (リポジトリ)ビューで、⽬的のHive接続を右クリックし、コンテキストメニューから[Retrieve schema] (スキーマの取得)を選択して、表⽰されたウィザードの[Next] (次へ)をクリックしてHiveデータベースのテーブルにフィルターをかけます。



2. 使⽤するデータベーステーブルのノードを展開して取得する列を選択し、[Next] (次へ)をクリックしてウィザードで新しいビューを開きます。このビューには、選択したテーブルスキーマがリストされます。ウィザードの右側にある[Schema] (スキーマ)エリアでスキーマを選択すると、その詳細が表⽰されます。



ソースデータベーステーブルに文字列ではなく関数または式であるデフォルト値が含まれる場合、最終スキーマを使用したデータベーステーブルの作成時に予期せぬ結果になるのを回避するため、最終スキーマ内のデフォルト値を囲む一重引用符(ある場合)は必ず削除してください。

詳細については、https://help.talend.com/display/KB/Verifying+default+values+in+a+retrieved+schemaを参照してください。



デフォルトのスキーマを使って、選択したスキーマへの変更を上書きする場合は、[Retrieveschema] (スキーマの取得)をクリックします。このボタンをクリックすると、スキーマへの変更はすべて失われます。

4. Hiveテーブルスキーマの取得を完了するには、[Finish] (完了)をクリックします。取得したスキーマはすべて[Repository] (リポジトリ)ビューの関連するHive接続の下に表⽰されます。



前述したように、[Hadoop cluster] (Hadoopクラスター)ノードを使⽤するほか、[Db connection](Db接続)ノードから開始してHive接続を作成し、スキーマを取得することもできます。いずれの場合

https://help.talend.com/display/KB/Verifying+default+values+in+a+retrieved+schema

Oozie接続の⼀元化


も、特定のHive接続のプロパティを定義する必要があります。ここでは、次のケースが考えられます。

• [Hadoop cluster] (Hadoopクラスター)リストから[Repository] (リポジトリ)オプションを選択し、確⽴されたHadoop接続の詳細を再利⽤して作成されたHive接続は、[Hadoop cluster](Hadoopクラスター)ノードと[Db connection] (Db接続)ノードの両⽅に分類されます。

• [Hadoop cluster] (Hadoopクラスター)リストから[None] (なし)オプションを選択し、Hadoop接続のプロパティを⼿動で⼊⼒して作成されたHive接続は、[Db connection] (Db接続)ノードにのみ表⽰されます。

6.2.6. Oozie接続の⼀元化Oozie scheduler (Oozieスケジューラー)を使⽤してHadoop上のジョブの実⾏・監視を頻繁に⾏う場合は、Oozieの設定を[Repository] (リポジトリ)ツリービューの[Metadata] (メタデータ)フォルダーに⼀元化することができます。

前提条件:

• 使⽤するHadoopディストリビューションを起動し、ディストリビューションとOozieへの適切なアクセス権があるかどうかを確認します。


Oozie scheduler (Oozieスケジューラー)は、ジョブの実⾏スケジュールを⽴てたり、HDFS上でジョブをデプロイ・実⾏したり、実⾏を監視するために使います。Oozie接続を作成するには、次の⼿順を実⾏します。

1. [Repository] (リポジトリ)ツリービューで、[Metadata] (メタデータ)ノードの下の[Hadoopcluster] (Hadoopクラスター)ノードを展開し、使⽤するHadoop接続を右クリックしてコンテキストメニューから[Create Oozie] (Oozieの作成)を選択します。




3. 完了したら、[Next] (次へ)をクリックします。次の⼿順では、Oozieの接続データを⼊⼒します。[End Point] (エンドポイント)フィールドには、使⽤するHadoop接続のネームノードのホスト名とOozieのポート番号に基づいて⽣成された、OozieのWebアプリケーションのURLが⾃動的に⼊⼒されます。このWebアプリケーションは、WebブラウザでOozie Web Console(Oozie Webコンソール)を使ってスケジュールしたジョブの実⾏ステータスを確認するためにも使⽤できます。

選択したHadoopディストリビューションでケルベロスセキュリティを有効にすると、[Username] (ユーザー名)フィールドが無効になります。

このOozie URLは必要に応じて変更することができます。



4. 使⽤するHadoopディストリビューションの設定をカスタマイズする必要がある場合は、[Hadoop properties] (Hadoopプロパティ)のとなりの[...]ボタンをクリックして対応するプロパティテーブルを開き、カスタマイズするプロパティを追加します。その後、実⾏時にStudioがHadoopのエンジンに使⽤するデフォルトのプロパティが、カスタマイズした設定に上書きされます。

[Parent Hadoop properties] (親Hadoopプロパティ)テーブルは、現在編集中のプロパティテーブルの上に表⽰されます。この親テーブルは読み取り専⽤で、現在のOozie接続のベースとなる親Hadoop接続のウィザードで定義されたHadoopプロパティがリストされます。

HadoopのOozie関連のプロパティについて詳しくは、https://oozie.apache.org/docsに記載されているOozieについてのApacheのHadoopのドキュメンテーションを参照するか、使⽤するHadoopディストリビューションのドキュメンテーションを参照してください。たとえば、次のページにはOozie関連のHadoopプロパティの⼀部がリストされています: https://oozie.apache.org/docs/4.1.0/AG_HadoopConfiguration.html。


5. [User name] (ユーザー名)フィールドに、Oozieにログインするためのユーザー名を⼊⼒します。このフィールドを空⽩にすると、クライアントマシンへのユーザー名を使った匿名アクセスが可能になります。

6. [Check] (チェック)をクリックして、接続を確認します。

正しく接続できたかどうかを⽰すメッセージが表⽰されます。


https://oozie.apache.org/docs

https://oozie.apache.org/docs/4.1.0/AG_HadoopConfiguration.html

https://oozie.apache.org/docs/4.1.0/AG_HadoopConfiguration.html

再利⽤可能なHadoopプロパティの設定


作成したOozieの接続は、[Repository] (リポジトリ)ツリービューの[Hadoop cluster](Hadoopクラスター)ノードの下に表⽰されます。


[Oozie scheduler] (Oozieスケジューラー)ビューで[Oozie scheduler] (Oozieスケジューラー)を使ってジョブのスケジュールを設定するときに、[Property type] (プロパティタイプ)リストから[From Repository] (リポジトリから)オプションを選択し、⼀元化したOozieの設定を再利⽤することができます。

[Oozie scheduler] (Oozieスケジューラー)でジョブのスケジュールを設定する⽅法について詳しくは、「Oozieを経由したジョブの実行方法」を参照してください。

6.2.7. 再利⽤可能なHadoopプロパティの設定Hadoop接続を設定する場合、Hive、HDFS、HBaseなどのHadoopの個々のモジュールへの⼦接続に再利⽤される⼀般的なHadoopプロパティのセットを定義できます。

たとえば、Hadoopクラスターを使⽤する場合、hdfs-site.xmlファイルでHDFS⾼可⽤性(HighAvailability: HA)機能を定義してから、接続ウィザードで対応するプロパティを設定し、Studioの⾼可⽤性機能を有効にする必要があります。これらのプロパティは特定のHadoop関連のコンポーネントで設定することもでき、実⾏⽅法については次の記事で説明しています。https://help.talend.com/display/KB/Enabling+the+HDFS+High+Availability+feature+in+the+Studioこのセクションでは、接続ウィザードのアプローチについてのみ説明します。

前提条件

• 使⽤するHadoopディストリビューションを起動し、ディストリビューションとOozieへの適切なアクセス権があるかどうかを確認します。

• Studioで設定される⾼可⽤性プロパティは、使⽤するクラスターのhdfs-site.xmlファイルで定義されています。

この例では、⾼可⽤性プロパティは以下のとおりです:

<property>

https://help.talend.com/display/KB/Enabling+the+HDFS+High+Availability+feature+in+the+Studio

https://help.talend.com/display/KB/Enabling+the+HDFS+High+Availability+feature+in+the+Studio



<name>dfs.nameservices</name> <value>nameservice1</value></property><property> <name>dfs.client.failover.proxy.provider.nameservice1</name> <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value></property><property> <name>dfs.ha.namenodes.nameservice1</name> <value>namenode90,namenode96</value></property><property> <name>dfs.namenode.rpc-address.nameservice1.namenode90</name> <value>hdp-ha:8020</value></property><property> <name>dfs.namenode.rpc-address.nameservice1.namenode96</name> <value>hdp-ha2:8020</value></property>

これらのプロパティの値は、デモンストレーションの⽬的でのみ使⽤されます。

Hadoop接続のこれらのプロパティを設定するには、[Repository] (リポジトリ)の[Hadoop cluster](Hadoopクラスター)ノードから[Hadoop Cluster Connection] (Hadoopクラスター接続)ウィザードを開きます。このウィザードへのアクセス⽅法の詳細については、「Hadoop接続の一元化」を参照してください。

1. 使⽤するHadoopクラスターに対する接続を設定していない場合は、前のセクションで説明されているようにここで設定してください。

2. [Hadoop properties] (Hadoopプロパティ)のとなりの[...]ボタンをクリックし、[Hadoopproperties] (Hadoopプロパティ)テーブルを開きます。



3. 上でリストされている⾼可⽤性プロパティをこのテーブルに追加します。

4. [OK]をクリックして、変更を確定します。すると、これらのプロパティは[...]ボタンのとなりに表⽰されます。

5. [Check services] (サービスのチェック)ボタンをクリックして、接続を確認します。



プロセスの確認と接続状態を⽰すダイアログボックスが表⽰されます。ここで接続失敗と表⽰される場合、接続ウィザードで定義した接続情報を再確認して更新する必要があります。

6. [Finish] (終了)をクリックして接続を確定します。

ここで、たとえば、このHadoop接続からHiveへの⼦接続を作成するとすると、これらの⾼可⽤性プロパティは読み取り専⽤の親プロパティとして継承されます。

このように、これらのプロパティはその⼦Hadoop接続によって⾃動的に再利⽤することができます。

上の図は、Hive接続ウィザードで継承されたプロパティを⽰しています。このセクションで説明されているHive接続ウィザードへのアクセス⽅法の詳細については、「Hiveメタデータの一元化」を参照してください。



付録A ビッグデータのジョブの例この章は、Talendビッグデータソリューションのユーザーに実際の使⽤例を⽰し、製品を⾃在に活⽤いただくたことを⽬的としています。この章は、『Talend Open Studioコンポーネント ReferenceGuide』を捕捉するものです。

Hadoopを使⽤したWebトラフィック情報の収集


A.1. Hadoopを使⽤したWebトラフィック情報の収集顧客やユーザーの傾向やプロファイルに基づいて、ターゲットを絞ったマーケティングキャンペーンを実施するには、ユーザーがあなたのWebサイトでどのような傾向や⾏動を⽰しているかについてデータをフェッチし、ユーザーごとのプロファイルを作成して特定のユーザーに適した広告を送ることができます。

Talend Studioに付属しているビッグデータのデモプロジェクトのApacheWebLogフォルダーには、Apache HTTPサーバーへのアクセスログファイルの膨⼤なレコードの中からWebサイトを最も頻繁に訪れたユーザーのIPアドレスをソートし、それらのユーザーのWebサイトでの⾏動をさらに詳しく分析するサンプルが含まれています。このセクションでは、このサンプルを実装するジョブの作成・設定⽅法について説明します。ビッグデータのデモプロジェクトについて詳しくは、2章デモプロジェクトを使ったTalendビッグデータの入門を参照してください。

A.1.1. 前提条件この例に従ってジョブを作成する前に、次の作業を⾏う必要があります。

• デモプロジェクトをインポートし、この例で使⽤する⼊⼒アクセスログファイルを取得するために、デモプロジェクトに付属しているGenerateWebLogFileというジョブを実⾏します。

• Hortonworks Sandboxの仮想アプライアンスを「Hortonworks Sandboxのインストール」に従ってインストール・開始します。これは、デモプロジェクトが連係して動作するように設計されています。

• hostsファイルにホスト名のマッピングエントリへのIPを追加します。これは、「sandbox」というホスト名を解決するためです。

A.1.2. シナリオこの例では、Talendの特定のビッグデータコンポーネントを使⽤して、ビッグデータの処理に適しているHadoopのオープンソースプラットフォームのメリットを活⽤します。このシナリオでは、次の6つのジョブを使⽤します。

• 1つ⽬のジョブは、HDFSにHCatalogデータベース、テーブル、パーティションをセットアップします。

• 2つ⽬のジョブは、HDFSファイルシステムに分析するアクセスログファイルをアップロードします。

• 3つ⽬のジョブは、HCatalogデータベースに接続し、コンソールにアップロードしたファイルの内容を表⽰します。

• 4つ⽬のジョブは、アップロードしたアクセスログファイルを解析します。これには、「404」エラーのレコードの削除、Webサイトでサービスを正しく呼び出したコード数のカウント、結果のデータのソートとHDFSファイルシステムへの保存が含まれます。

• 5つ⽬のジョブは、アップロードしたアクセスログファイルを解析します。これには、「404」エラーのレコードの削除、Webサイトでサービスを正しく呼び出したIPアドレス数のカウント、結果のデータのソートとHDFSファイルシステムへの保存が含まれます。

シナリオからジョブへの変換


• 最後のジョブは、結果データをHDFSから読み取り、サービスを正しく呼び出したIPアドレスとWebサイトへの訪問回数を、標準のシステムコンソールに表⽰します。

A.1.3. シナリオからジョブへの変換このセクションでは、サンプルジョブで使⽤する接続メタデータのセットアップ⽅法と、このシナリオで想定している結果が得られるようにジョブを作成・設定・実⾏する⽅法について説明します。

A.1.3.1. ジョブで使⽤する接続メタデータのセットアップ

このシナリオでは、HDFS接続とHCatalog接続を異なるジョブで繰り返し使⽤します。コンポーネントの設定を簡易化するため、これらの接続を再利⽤できるように、[Repository] (リポジトリ)ビューのHadoopクラスター接続に⼀元化しておくことができます。

Hadoopクラスター接続のセットアップ

1. [Repository] (リポジトリ)ツリービューで、[Metadata] (メタデータ)ノードの下にある[Hadoop cluster] (Hadoopクラスター)を右クリックし、コンテキストメニューから[CreateHadoop] (Hadoopの作成)を選択して接続のセットアップウィザードを開きます。この例では、クラスター接続に「Hadoop_Sandbox」という名前を付け、[Next] (次へ)をクリックします。

2. Hadoopクラスター接続を設定します。



• Hadoopディストリビューションとそのバージョンを選択します。このデモサンプルは、Hortonworks Data Platform V1.0.0と連係して動作するように設計されています。

• [NameNode URI] (ネームノードURI)と[JobTracker URI] (ジョブトラッカーURI)を指定します。この例では、「sandbox」というホスト名を使⽤します。この名前は、ネームノードとジョブトラッカーとも、Sandbox仮想マシンに割り当てたIPアドレスにマッピングされており、デフォルトのポート番号はそれぞれ8020と50300です。

• この例では、Hadoop認証のユーザー名を「sandbox」に指定します。

3. [Finish] (完了)をクリックします。Hadoopクラスターの接続は、[Repository] (リポジトリ)ビューの[Hadoop cluster] (Hadoopクラスター)ノードの下に表⽰されます。

HDFS接続のセットアップ

1. 作成したHadoopクラスターの接続を右クリックし、コンテキストメニューから[Create HDFS](HDFSの作成)を選択して、接続セットアップウィザードを開きます。この例では、HDFS接続に「HDFS_Sandbox」という名前を付け、[Next] (次へ)をクリックします。



2. 必要に応じてHDFS接続の設定をカスタマイズし、接続を確認します。サンプルジョブはすべての候補設定で動作するため、[Check] (チェック)をクリックして接続を確認します。



3. [Finish] (完了)をクリックします。HDFS接続がHadoopクラスター接続の下に表⽰されます。



HCatalog接続のセットアップ

1. 作成したHadoopクラスターの接続を右クリックし、コンテキストメニューから[CreateHCatalog] (HCatalogの作成)を選択して、接続セットアップウィザードを開きます。この例では、HCatalog接続に「HCatalog_Sandbox」という名前を付け、[Next] (次へ)をクリックします。



2. [Database] (データベース)フィールドに使⽤するデータベースの名前を⼊⼒します。この例では、「talend」と⼊⼒し、[Check] (チェック)をクリックして接続を確認します。



3. [Finish] (完了)をクリックします。HCatalog接続がHadoopクラスター接続の下に表⽰されます。



これで、⼀元化したメタデータアイテムを使⽤して、さまざまなコンポーネントやジョブの接続の詳細をセットアップできるようになりました。これらの接続にはテーブルスキーマは定義されていません。あとでサンプルジョブを設定する際に、汎⽤スキーマを別に作成します。

[Repository] (リポジトリ)でビッグデータに特有のメタデータを⼀元化することについて詳しくは、6章Talendビッグデータのメタデータの管理を参照してください。その他の種類のメタデータの⼀元化については、『Talend Studioユーザーガイド』のメタデータの管理についての章を参照してください。

A.1.3.2. サンプルジョブの作成

このセクションでは、デモジョブのApacheWebLogの例を実装する6つのジョブを作成します。

1つ⽬のジョブの作成

次の⼿順に従って1つ⽬のジョブを作成します。このジョブは、分析するアクセスログファイルを管理するためのHCatalogデータベースをセットアップします。

1. [Repository] (リポジトリ)ツリービューで、[Job Designs] (ジョブのデザイン)を右クリックして、[Create folder] (フォルダーの作成)を選択します。このフォルダーに、これから作成するジョブをグループ化します。

作成したフォルダーを右クリックし、[Create job] (ジョブの作成)を選択して1つ⽬のジョブを作成します。サンプルジョブの役割と実⾏順序を指定するために、このジョブに「A_HCatalog_Create」という名前を付けます。ジョブに短い説明を追加することもできます。この説明は、ジョブの上にマウスポインターを当てたときにツールチップとして表⽰されます。



2. [Palette] (パレット)からデザインワークスペースに[tHDFSDelete]コンポーネントと2つの[tHCatalogOperation]コンポーネントをドロップします。

3. これらの3つのコンポーネントを[Trigger] (トリガー) > [On Subjob Ok] (サブジョブがOKの場合)接続でリンクします。HDFSサブジョブは、ジョブの実⾏エラーを防ぐために、このデモサンプルから以前の結果がある場合はそれを削除します。2つのHCatalogサブジョブは、HCatalogデータベースを作成し、それぞれHCatalogテーブルとそのパーティションをセットアップするために使⽤されます。

4. これらのコンポーネントの機能を特定するためのラベルを付けます。

2つ⽬のジョブの作成次の⼿順に従って2つ⽬のジョブを作成します。このジョブは、アクセスログファイルをHCatalogにアップロードします。

1. サンプルジョブの役割と実⾏順序を指定するために、このジョブに「B_HCatalog_Load」という名前を付けます。

2. [Palette] (パレット)からデザインワークスペースに、[tApacheLogInput]、[tFilterRow]、[tHCatalogOutput]、[tLogRow]のコンポーネントをドロップします。

3. [tApacheLogInput]コンポーネントと[tFilterRow]コンポーネントを[Row] (⾏) > [Main] (メイン)接続でリンクします。次に、[tFilterRow]コンポーネントと[tHCatalogOutput]コンポーネントを[Row] (⾏) > [Filter] (フィルター)接続でリンクします。このデータフローによって、分析するログファイルが「301」というエラーコードが削除されたレコードとともにHCatalogデータベースにロードされます。

4. [tFilterRow]コンポーネントと[tLogRow]コンポーネントを[Row] (⾏) > [Reject] (拒否)接続でリンクします。このフローによって、コンソールでレコードに「301」というエラーコードがプリントされます。


3つ⽬のジョブの作成次の⼿順に従って3つ⽬のジョブを作成します。このジョブは、アップロードしたファイルの内容を表⽰します。



1. サンプルジョブの役割と実⾏順序を指定するために、このジョブに「C_HCatalog_Read」という名前を付けます。

2. [Palette] (パレット)からデザインワークスペースに、[tHCatalogInput]コンポーネントと[tLogRow]コンポーネントをドロップし、[Row] (⾏) > [Main] (メイン)の接続でリンクします。



次の⼿順に従って4つ⽬のジョブを作成します。このジョブは、アップロードしたログファイルを分析し、Webサイトにサービスを正しく呼び出したコード数をカウントします。

1. サンプルジョブの役割と実⾏順序を指定するために、このジョブに「D_Pig_Count_Codes」という名前を付けます。

2. [Palette] (パレット)からデザインワークスペースに次のコンポーネントをドロップします。

• tPigLoadコンポーネント: 分析するデータをロードします。

• tPigFilterRowコンポーネント: ⼊⼒フローから「404」エラーのレコードを削除します。

• tPigFilterColumnsコンポーネント: 結果のデータに含める列を選択します。

• tPigAggregateコンポーネント: Webサイトへの訪問数をカウントします。

• tPigSortコンポーネント: 結果のデータをソートします。

• tPigStoreResultコンポーネント: 結果をHDFSに保存します。

3. [Row] (⾏) > [Pig Combine] (Pigの結合)接続を使ってこれらのコンポーネントをリンクしてPigチェーンを作成し、それぞれのコンポーネントの機能を特定するためのラベルを付けます。


次の⼿順に従って5つ⽬のジョブを作成します。このジョブは、アップロードしたログファイルを分析し、Webサイトにサービスを正しく呼び出したIP数をカウントします。

1. [Repository] (リポジトリ)ツリービューで前のジョブを右クリックし、[Duplicate] (複製)を選択します。



2. 開いたダイアログボックスで、サンプルジョブの役割と実⾏順序を指定するために、このジョブに「E_Pig_Count_IPs」という名前を付けます。

3. ジョブの役割を指定するために、[tPigFilterColumns]コンポーネントのラベルを変更します。


次の⼿順に従って最後のジョブを作成します。このジョブは、アクセスログの分析結果を表⽰します。

1. サンプルジョブの役割と実⾏順序を指定するために、このジョブに「F_Read_Results」という名前を付けます。

2. [Palette] (パレット)からデザインワークスペースに、[tHDFSInput]コンポーネントと[tLogRow]コンポーネントをそれぞれ2つずつドロップします。

3. [Row] (⾏) > [Main] (メイン)接続を使⽤して、1つ⽬の[tHDFSInput]コンポーネントを1つ⽬の[tLogRow]に、2つ⽬の[tHDFSInput]コンポーネントを2つ⽬の[tLogRow]にリンクします。

[Trigger] (トリガー) > [OnSubjobOk] (サブジョブがOKの場合)接続を使⽤して、1つ⽬の[tHDFSInput]コンポーネントを2つ⽬の[tHDFSInput]コンポーネントにリンクします。

これらのコンポーネントの機能を特定するためのラベルを付けます。

A.1.3.3. ジョブの設定で再利⽤するためにアクセスログファイルのスキーマを⼀元化

分析するアクセスログファイルをHadoopシステムで処理するには、該当するコンポーネントに適切なスキーマを定義する必要があります。設定を簡易化するため、ジョブの設定を開始する前



に、[tApacheLogInput]コンポーネントの読み取り専⽤スキーマを、複数のジョブで再利⽤できる汎⽤スキーマとして保存できます。

1. B_HCatalog_Readジョブで、[tApacheLogInput]コンポーネントをダブルクリックし、[Basicsettings] (基本設定)ビューを開きます。

2. [Edit schema] (スキーマの編集)の横にある[...]ボタンをクリックし、[Schema] (スキーマ)ダイアログボックスを開きます。

3. ボタンをクリックして、[Select folder] (フォルダーの選択) ダイアログボックスを開きます。この例では、まだ[Generic schemas] (汎⽤スキーマ)ノードの下にフォルダーを作成していないので、[OK]をクリックしてダイアログボックスを閉じ、汎⽤スキーマの設定ウィザードを開きます。

4. この例では、汎⽤スキーマに「access_log」という名前を付け、[Finish] (完了)をクリックしてウィザードを閉じ、スキーマを保存します。

5. [OK]をクリックして[Schema] (スキーマ)ダイアログボックスを閉じます。汎⽤スキーマが[Repository] (リポジトリ)ビューの[Generic schemas] (汎⽤スキーマ)ノードに表⽰され、ジョブの設定で必要な場合はいつでも使⽤できるようになりました。



A.1.3.4. ジョブの設定

このセクションでは、作成したそれぞれのサンプルジョブを設定します。

1つ⽬のジョブの設定

この⼿順では、1つ⽬のジョブであるA_HCatalog_Createを設定し、アクセスログファイルを処理するためにHCatalogシステムをセットアップします。

HCatalogデータベースのセットアップ

1. この例では、「HDFS_ClearResults」というラベルが付いている[tHDFSDelete]コンポーネントをダブルクリックし、[Component] (コンポーネント)タブで[Basic settings] (基本設定)ビューを開きます。



2. ⼀元化したHDFS接続を使⽤する場合は、[Property Type] (プロパティのタイプ)リストボックスをクリックして[Repository] (リポジトリ)を選択します。次に、[...]ボタンをクリックして[Repository Content] (リポジトリのコンテンツ)ダイアログボックスを開きます。HDFSシステムへの接続に定義されているHDFS接続を選択し、[OK]をクリックします。該当するフィールドに接続の詳細設定がすべて⾃動的に⼊⼒されます。

3. [File or Directory Path] (ファイルまたはディレクトリパス)フィールドに、HDFS上でアクセスログファイルが保管されるディレクトリを指定します。この例では、 /user/hdp/weblogです。

4. この例では、「HCatalog_Create_DB」というラベルが付いている1つ⽬の[tHCatalogOperation]コンポーネントをダブルクリックし、[Component] (コンポーネント)タブで[Basic settings] (基本設定)ビューを開きます。



5. ⼀元化したHCatalog接続を使⽤する場合は、[Property Type] (プロパティのタイプ)リストボックスをクリックし、[Repository] (リポジトリ)を選択します。次に、[...]ボタンをクリックして[Repository Content] (リポジトリのコンテンツ)ダイアログボックスを開きます。HCatalogデータベースへの接続に定義されているHCatalog接続を選択し、[OK]をクリックします。該当するフィールドに接続の詳細設定がすべて⾃動的に⼊⼒されます。

6. [Operation on] (オペレーション先)リストで[Database] (データベース)を選択し、[Operation] (オペレーション)リストで[Drop if exist and create] (既存する場合はドロップして作成)を選択します。

7. [Drop configuration] (ドロップ設定)エリアの[Option] (オプション)リストで、[Cascade] (カスケード)を選択します。

8. [Database location] (データベースの場所)フィールドに、HDFS上でデータベースファイルを作成する場所を⼊⼒します。この例では、「/user/hdp/weblog/weblogdb」です。



HCatalogテーブルとパーティションのセットアップ

1. この例では、「HCatalog_CreateTable」というラベルが付いている2つ⽬の[tHCatalogOperation]コンポーネントをダブルクリックし、[Component] (コンポーネント)タブで[Basic settings] (基本設定)ビューを開きます。

2. 1つ⽬の[tHCatalogOperation]コンポーネントと同じ⼿順で、HCatalogの接続の詳細情報を定義します。

3. [Schema] (スキーマ)リストボックスをクリックし、[Repository] (リポジトリ)を選択します。次に、フィールドの横に表⽰される[...]ボタンをクリックして[Repository Content] (リポジトリのコンテンツ)ダイアログボックスを開き、[Metadata] (メタデータ) > [Generic schemas](汎⽤スキーマ) > [access_log]を展開してスキーマを選択します。[OK]をクリックして選択したオプションを確定し、ダイアログボックスを閉じます。access_logの汎⽤スキーマは、コンポーネントに⾃動的に適⽤されます。

また、[Repository] (リポジトリ)ツリービューで[access_log]の汎⽤スキーマを直接選択し、このコンポーネントにドラッグアンドドロップして適⽤することもできます。

4. [Operation on] (オペレーション先)リストで[Table] (テーブル)を選択し、[Operation] (オペレーション)リストで[Drop if exist and create] (既存する場合はドロップして作成)を選択します。

5. [Table] (テーブル)フィールドに作成するテーブルの名前を⼊⼒します。この例では、「weblog」と⼊⼒します。

6. [Set partitions] (パーティションの設定)チェックボックスをオンにし、[Edit schema] (スキーマの編集)の横にある[...]ボタンをクリックして、パーティションとパーティションスキーマを設定します。パーティションスキーマには、テーブルスキーマで定義した列名を使⽤できません。この例では、パーティションスキーマの列名は「ipaddresses」と定義されています。

このコンポーネントの設定が終わったら、Ctrl+Sキーを押してジョブの設定を保存します。




この⼿順では、2つ⽬のジョブであるB_HCatalog_Loadを設定し、アクセスログファイルをHadoopシステムにアップロードします。

アクセスログファイルのHCatalogへのアップロード

1. [tApacheLogInput]コンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、[File Name] (ファイル名)フィールドにアップロードするアクセスログファイルのパスを指定します。この例では、access_logという名前のログファイルをC:/Talend/BigDataというディレクトリに保存します。

2. [tFilterRow]コンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。

3. [Logical operator used to combine conditions] (条件の結合に使⽤する論理演算⼦)リストボックスから[AND]を選択します。

4. [+]ボタンをクリックして[Filter configuration] (フィルターの設定)テーブルに⾏を追加し、「301」というコードを持つレコードをRejectフローに送り、残りのレコードをFilterフローに渡すためのフィルターパラメーターを設定します。

• [InputColumn] (⼊⼒カラム)フィールドに、スキーマの[code] (コード)列を選択します。

• [Operator] (演算⼦)フィールドで、[Not equal to] (と等しくない)を選択します。

• [Value] (値)フィールドに、「301」と⼊⼒します。

5. [tHCatalogOutput]コンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。




7. [...]ボタンをクリックして、スキーマが先⾏のコンポーネントから正しく伝播されることを確認します。必要に応じて、[Sync columns] (列の同期)をクリックして、スキーマを取得します。

8. [Action] (アクション)リストから[Create] (作成)を選択してファイルを作成します。または、ファイルが既存する場合は、[Overwrite] (上書き)を選択します。



9. [Partition] (パーティション)フィールドに、パーティションの名前と値のペアを⼆重引⽤符に囲んで⼊⼒します。この例では、「ipaddresses='192.168.1.15'」と⼊⼒します。

10. [File location] (ファイルの場所)フィールドに、データを保存する場所のパスを⼊⼒します。この例では、「/user/hdp/weblog/access_log」とします。

11. [tLogRow]コンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、[Vertical] (縦)オプションを選択して出⼒コンテンツを読みやすくするために各⾏をリストに表⽰します。



この⼿順では、3つ⽬のジョブであるC_HCatalog_Readを設定し、HCatalogにアップロードしたログのコンテンツを確認します。

1. [tHCatalogInput]コンポーネントをダブルクリックして、[Component] (コンポーネント)タブに[Basic settings] (基本設定)ビューを開きます。




3. [Schema] (スキーマ)リストボックスをクリックし、[Repository] (リポジトリ)を選択します。次に、フィールドのとなりに表⽰される[...]ボタンをクリックして[Repository Content](リポジトリのコンテンツ)ダイアログボックスを開き、[Metadata] (メタデータ) > [Genericschemas] (汎⽤スキーマ) > [access_log]を展開してスキーマを選択します。[OK]をクリックして選択したオプションを確定し、ダイアログボックスを閉じます。access_logの汎⽤スキーマは、コンポーネントに⾃動的に適⽤されます。

また、[Repository] (リポジトリ)ツリービューで[access_log]の汎⽤スキーマを直接選択し、このコンポーネントにドラッグアンドドロップして適⽤することもできます。

4. [tLogRow]コンポーネントの[Basic settings] (基本設定)ビューで、[Vertical] (縦)モードを選択してジョブを実⾏した際に各⾏にキーと値を表⽰します。



この⼿順では、4つ⽬のジョブであるD_Pig_Count_Codesを設定し、Pigチェーンを使ってアップロードしたアクセスログファイルを分析し、成功したサービス呼び出しのコードとWebサイトへの訪問数をカウントします。

Pigチェーンを通じて分析するログファイルの読み取り

1. [tPigLoad]コンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。




3. [Repository] (リポジトリ)ツリービューで[access_log]の汎⽤スキーマを選択し、このコンポーネントにスキーマをドラッグアンドドロップして適⽤します。

4. [Load function] (関数のロード)リストから[PigStorage]を選択し、[Input file URI] (⼊⼒ファイルのURI)フィールドに前のジョブで定義したファイルパスを⼊⼒します。この例では、「/user/hdp/weblog/access_log/out.log」です。

ログファイルの分析と結果の保存

1. [tPigFilterRow]コンポーネントの[Basic settings] (基本設定)ビューで、[+]ボタンをクリックして[Filter configuration] (フィルターの設定)テーブルに⾏を追加し、「404」というコードを



持つレコードを削除し、残りのレコードを出⼒フローに渡すためのフィルターパラメーターを設定します。

• [Logical] (論理)フィールドで、[AND]を選択します。

• [Column] (列)フィールドで、スキーマの[code] (コード)列を選択します。

• [NOT]チェックボックスを選択します。

• [Operator] (演算⼦)フィールドで、[equal] (と等しい)を選択します。

• [Value] (値)フィールドに、「404」と⼊⼒します。

2. [tPigFilterColumns]コンポーネントの[Basic settings] (基本設定)ビューで[...]ボタンをクリックし、[Schema] (スキーマ)ダイアログボックスを開きます。[Input] (⼊⼒)パネルで[code](コード)列を選択し、⽮印ボタンをクリックして列を[Output] (出⼒)パネルにコピーします。これにより、[code] (コード)列の情報が出⼒フローに渡されます。[OK]をクリックして出⼒スキーマの設定を確定し、ダイアログボックスを閉じます。

3. [tPigAggregate]コンポーネントの[Basic settings] (基本設定)ビューで、[Sync columns] (列の同期)をクリックして先⾏コンポーネントからスキーマを取得し、スキーマを次のコンポーネントに伝播します。

4. [Edit schema] (スキーマの編集)の横にある[...]ボタンをクリックし、[Schema] (スキーマ)ダイアログボックスを開いて新しい[count] (カウント)列を追加します。この列には、成功したサービス呼び出しの各コードが保存されます。



5. 各コードの数をカウントするため、次のパラメーターを設定します。

• [Group by] (グループ化)エリアで[+]ボタンをクリックしてテーブルに⾏を追加し、[Column](列)フィールドで[count] (カウント)列を選択します。

• [Operations] (オペレーション)エリアで[+]ボタンをクリックしてテーブルに⾏を追加し、[Additional Output Column] (追加の出⼒列)フィールドで[count] (カウント)列を選択します。さらに、[Function] (関数)フィールドで[count] (カウント)を選択し、[Input Column](⼊⼒列)で[code] (コード)列を選択します。

6. [tPigSort]コンポーネントの[Basic settings] (基本設定)ビューで、渡すデータをソートするためのパラメーターを設定します。

• [+]ボタンをクリックして、[Sort key] (ソートキー)テーブルに⾏を追加します。

• [Column] (列)フィールドで[count] (カウント)を選択して、[count] (カウント)列をキーとして設定します。

• [Order] (順序)フィールドで[DESC] (降順)を選択して、データを降順でソートします。



7. [tPigStoreResult]コンポーネントの[Basic settings] (基本設定)ビューで、Hadoopシステム上の指定した場所に結果データをアップロードするためのコンポーネントプロパティを設定します。

• [Sync columns] (列の同期)をクリックして、先⾏のコンポーネントからスキーマを取得します。

• [Result file URI] (結果ファイルのURI)フィールドに、結果ファイルのパスを⼊⼒します。この例では、「/user/hdp/weblog/apache_code_cnt」です。

• [Store function] (格納関数)リストから[PigStorage]を選択します。

• 必要に応じて、[Remove result directory if exists] (結果ディレクトリがある場合は削除する)チェックボックスをオンにします。

8. このコンポーネントのスキーマを汎⽤スキーマとして[Repository] (リポジトリ)に保存します。これで、「ジョブの設定で再利用するためにアクセスログファイルのスキーマを一元化」で⾏ったように、このスキーマを最後のジョブでも再利⽤できるようになります。この汎⽤スキーマに「code_count」という名前を付けます。



この⼿順では、5つ⽬のジョブであるE_Pig_Count_IPsを設定し、前のジョブと同様のPigチェーンを使ってアップロードしたアクセスログファイルを分析し、成功したサービス呼び出しのIPアドレスとWebサイトへの訪問数をカウントします。

前のジョブのコンポーネント設定を使⽤して、次の変更を加えます。

• [tPigFilterColumns]コンポーネントの[Schema] (スキーマ)ダイアログボックスで、[code] (コード)ではなく[host] (ホスト)列を[Input] (⼊⼒)パネルから[Output](出⼒)パネルにコピーします。



• [tPigAggregate]コンポーネントで、[Group by] (グループ化)テーブルの[Column] (列)フィールド、および[Operations] (オペレーション)テーブルの[Input Column] (⼊⼒列)フィールドにある[host] (ホスト)列をそれぞれ選択します。

• [tPigStoreResult]コンポーネントで、[Result file URI](結果ファイルのURI)フィールドに「/user/hdp/weblog/apache_ip_cnt」と⼊⼒します。

• [tPigStoreResult]コンポーネントのスキーマを「ip_count」という名前の汎⽤スキーマとして[Repository] (リポジトリ)に保存します。これで、このスキーマを最後のジョブでも再利⽤できるようになります。




最後のジョブの設定

この⼿順では、最後のジョブであるF_Read_Resultsを設定し、Hadoopから結果のデータを読み取って、標準のシステムコンソールに表⽰します。

1. 1つ⽬の[tHDFSInput]コンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。


3. 汎⽤スキーマの「ip_count」をこのコンポーネントに適⽤します。このスキーマには、「host」(ホスト、50字の⽂字列)と「count」(カウント、5字の整数)の2列があります。

4. [File Name] (ファイル名)フィールドに、HDFSでの結果ファイルのパスを⼊⼒します。この例では、「/user/hdp/weblog/apache_ip_cnt/part-r-00000」です。



5. [Type] (タイプ)リストで、読み取るファイルのタイプを選択します。この例では、[Text File] (テキストファイル)を選択します。

6. [tLogRow]コンポーネントの[Basic settings] (基本設定)ビューで、読みやすくするために[Table] (テーブル)オプションを選択します。

7. 他のサブジョブも同様に設定します。ただし、2つ⽬の[tHDFSInput]コンポーネントは次のように設定します。

• 「code_count」という汎⽤スキーマを適⽤するか、「code」(コード、5字の整数)と「count」(カウント、5字の整数)という2つの列を持つスキーマをこのコンポーネントに⼿動で設定します。

• [File Name] (ファイル名)フィールドに「/user/hdp/weblog/apache_code_cnt/part-r-00000」と⼊⼒します。


A.1.3.5. ジョブの実⾏6つのジョブを正しくセットアップ・設定したら、[Run] (実⾏)タブにある[Run] (実⾏)ボタンをクリックするか、F6キーを押して、ジョブをアルファベット順に1つずつ実⾏し、各ジョブのコンソールに実⾏結果を表⽰します。

最後のジョブが正しく実⾏されると、成功したサービス呼び出しのIPアドレスとコード、およびその数がシステムコンソールに表⽰されます。

⼀回クリックするだけで、すべてのジョブを必要な順序で実⾏することができます。そのためには、次の⼿順を実⾏します。

1. [tRunJob]コンポーネントを1つ⽬のジョブのデザインワークスペースにドロップします。この例では、A_HCatalog_Createです。このコンポーネントはサブジョブとして表⽰されます。



2. 先⾏するサブジョブを[tRunJob]コンポーネントに[Trigger] (トリガー) > [On Subjob Ok] (サブジョブがOKの場合)接続でリンクします。

3. [tRunJob]コンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。

4. [Job] (ジョブ)フィールドの横にある[...]ボタンをクリックし、[Repository Content] (リポジトリのコンテンツ)ダイアログボックスを開きます。現在のジョブが正しく実⾏した後にトリガーするジョブを選択し、[OK]をクリックしてダイアログボックスを閉じます。次に実⾏されるジョブが[Job] (ジョブ)フィールドに表⽰されます。

5. もう⼀度[tRunJob]コンポーネントをダブルクリックし、次のジョブを開きます。[tRunJob]コンポーネントで上記の⼿順を繰り返し、E_Pig_Count_IPsジョブが最後のF_Read_Resultsジョブをトリガーするまで設定します。

6. 1つ⽬のジョブを実⾏します。

各ジョブが正しく実⾏されると次のジョブがトリガーされ、最後のジョブがすべて実⾏されるとその結果が1つ⽬のジョブのコンソールに表⽰されます。

Documents

Talend Open Studio for Big Data - 入門ガイドdownload-mirror1.talend.com/tosbd/user-guide-download/V563/Tale… · Talend Open Studio for Big Data Getting Started Guide 1.Talendビッグデータソリューションへの⼊⾨