20100930 sig startups

Hadoop/Hiveを用いたデータ解析基盤の構築

株式会社サイバーエージェント新規開発局福田一郎

2株式会社サイバーエージェント

自己紹介

名前：福田一郎（フクダイチロー）

所属：株式会社サイバーエージェント新規開発局

略歴：２００８年新卒入社

AmebaVision → NinjaTrick → Pigg

→ Patriot（ログ解析基盤）

Twitter ：＠toutou，はてなID ： id:ICHIRO


アジェンダ

• ログ解析基盤 Patriot• Patriot概要• システム構成• 開発にあたっての思い

• Hive• Hiveとは• HiveQL

ログ解析基盤 Patriot


Amebaサービス

ブログ

なう

Pigg


目的

Amebaサービス全体の現状把握と未来予測


理由

課金系サービス増加（Pigg，モバイルゲーム）

PV，UUではユーザの定着率は測れない

ユーザに満足してもらえるサービスに


方法

ログを収集・集積

ログの構造化

構造化データの解析

ユーザデータとの突き合わせ


開発体制

システム２名

ICHIRO SUZUKI

インフラ

課金系統括


システム構成（１）

【NN，JT，SNN】２CoreCPU，16GB RAM各1台

【DN，TT】４CoreCPU，16GB RAM1TB HDD×4 （RAIDなし），全18台


システム構成（２）

【Utilサーバ】４CoreCPU，16GB RAM1TB HDD×4 （RAID1）全２台サマリDB，Web/APサーバ


システム構成（３）

【Webアプリ】Ruby1.8.7，Rails2.3.8Ext JS3.2.1HUE1.0.1

【Hadoop関連】CDH3 （Hadoop0.20，Hive0.5）Puppet，Nagios，Ganglia


解析フロー

UtilHadoopクラスタ

ログ整形Hiveインポート

Hive Job各サービス

サマリDB（MySQL）

サマリデータ

View


バッチ処理（１）Ruby DSL

import {service "mypage_uu_mobile"backup_dir "/log2/mypage_uu_mobile"

data { ← ログデータの場所type "scp"servers ["xxx.yyy.zzz.1", "xxx.yyy.zzz.2"]user "cy_batch"path "/usr/local/tomcat/logs/login/login_amebaId.#{$dt}"

}（つづく）


バッチ処理（２）Ruby DSL

cleaning { ← Map/Reduceを用いたログ整形mapper "#{$home}/lib/mypage_uu_mapper.rb"reducer "#{$home}/lib/unique_key_reducer.rb"

}hive_import { ← Hiveインポートmypage_uu {regexp "^([^¥¥t]*)¥¥t$"output "$1"partition "dt" => "#{$dt}", "dev" => "mobile"

}}

}


バッチ処理（３）

• Pigg行動ログ• ２GB/day （gzipファイル）

• 会員データ• プロフィールデータ

• １０００万レコード以上


ユーザインタフェース（１）

デイリーサマリマンスリーサマリ定着率レポートカスタムレポート


ユーザインタフェース（２）

【HUE】HiveQLをWEB UIから直接叩ける


分析の習慣化

• 全サービスの状況を共有• データ抽出依頼を減らす（無くす）• プロデューサもHiveQLを書く• データ解析の啓蒙（Rなど）


今後の改善

• ワークフロー（依存関係）• ログ収集の簡易化

• Flume，Scribe，Syslog• 詳細分析

Hive


Hiveとは

• Hadoopのサブプロジェクト• Facebookで開発されていた• SQLライクな言語でMap/Redを記述• 同様の試みにPig（スクリプト言語）


データモデル

• Primitive• int，float，double，String

• Complex• map＜key-type，value-type＞• list＜element-type＞• struct＜field-name：field-type＞


SerDe（１）

• Serialization/Deserialization• カラムの区切り文字などを定義CREATE TABLE test(c1 string, c2 int)

ROW FORMAT DELIMITEDFIELDS TERMINATED BY '¥t'LINES TERMINATED BY '¥n';

ichiro[tab]16suzuki[tab]51

c1

ichiro

suzuki

c2

16

51


SerDe（２）【Apacheログ】add jar 'hive_contrib.jar'

CREATE TABLE apachelog (host STRING, identity STRING, user STRING,

time STRING, method STRING, resource STRING,

proto STRING, status STRING, size STRING, referer STRING,

agent STRING, proctime STRING)

ROW FORMAT SERDE

'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'

WITH SERDEPROPERTIES

("input.regex" = "^(.*?) (.*?) (.*?) ¥¥[(.*?)¥¥]

¥"(¥¥S+?)(?: +(.*?) +(¥¥S*?))?¥" (.*?) (.*?)

¥"(.*?)¥" ¥"(.*?)¥" (.*?)$",

"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s

%8$s %9$s %10$s %11$s %12$s");


メタストア

• Hiveの設定やテーブル情報• デフォルトはDerby• PatriotではMySQLを使用


データストア

• テーブル： HDFS上のディレクトリ• Partition ：テーブルのサブディレクトリ• Bucket ：テーブル内のファイル


Partition（１）

• Daily，Hourlyでログが分割されている時などに便利

CREATE TABLE test_part(id string)PARTITIONED BY(date string, dev string);


Partition（２）

LOAD DATA LOCAL INPATH'/tmp/login_2010-09-30_mb.log'

INTO TABLE test_partPARTITION(

date='2010-09-30',dev='mobile');


Bucket

• サンプリングに便利• Map側JOINで効率が良くなる

CREATE TABLE bucket_test(id string) CLUSTERED BY(id) INTO 32 BUCKETS


データストアまとめ

login

テーブル Partition

date=2010-10-02

dev=pc

dev=mb

date=2010-10-01

Bucket


ファイルフォーマット

• TextFile• SequenceFile• （RCFile）

CREATE TABLE t1(key int, value string)STORED AS SEQUENCEFILE;


HiveQL（１）

• JOIN• GROUP BY• UNION ALLなど

SELECT * FROM t1JOIN t2 ON(t1.a2 = t2.b2);


HiveQL（２）

INSERT OVERWRITE TABLE t1SELECT * FROM t2;

※ INSERT INTOは存在しない


HiveQL（３）

• 集計関数SELECT count(1), sum(c1) FROM t1;

•パーセント点percentile(col, p)

（参考）

http://wiki.apache.org/hadoop/Hive/LanguageManual/UDF


HiveQL（４）

• UDF，UDAF

add jar hive-test-1.0-SNAPSHOT.jar;

CREATE TEMPORARY FUNCTION md AS 'jp.ameba.patriot.hive.udf.UDFMessageDigest';

SELECT md(id) FROM login;


UDFの作り方public class UDFMessageDigest extends UDF {

private static final String DEFAULT_ALGORITHM = "SHA-1";public String evaluate(String s, String algo, boolean upper) {try {

StringBuilder builder = new StringBuilder();MessageDigest md = MessageDigest.getInstance(algo);byte[] digest = md.digest(s.getBytes("ASCII"));・・・return builder.toString();} catch (・・・)

}public String evaluate(String s, String algo) {

return evaluate(s, algo, false);}

}


ファイルフォーマットの検討

圧縮形式：gzip，bzip2，LZOフォーマット：TextFile，SeqenceFile

圧縮率：bzip2＞gzip＞LZOインポート時間：LZO＞無圧縮＞gzip＞bzip2計算時間：無圧縮＞LZO＞gzip＞bzip2

※シーケンスファイルより丸ごと圧縮の方が圧縮率は高いがスプリットできない分計算速度で不利


構築しての感想

• スケールする安心感• Hiveは結構速い（生Hadoopと遜色ない）• 気軽にいろいろやってみたくなる• 解析の重要性を啓蒙

→ 作って終わりではない

質疑応答

ありがとうございました

Technology

20100930 sig startups