マルチビッグデータの活用を支える DWHの作り方

Preview:

Citation preview

マルチビッグデータの活用を支えるDWHの作り方

ヤフー株式会社データプラットフォーム本部

櫻井 史彦

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.

自己紹介

データプラットフォーム本部DWHチーム櫻井 史彦(さくらい ふみひこ)

2008年にヤフーに入社 8年目DWHの構築とデータ整備を担当

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 1

アジェンダ

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.

1. Yahoo! JAPANのビッグデータ

2. データプラットフォームの全体像

3. DWHの将来像

4. 最後に

2

アジェンダ

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.

1. Yahoo! JAPANのビッグデータ

2. データプラットフォームの全体像

3. DWHの将来像

4. 最後に

3

ヤフーのビッグデータ?

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 4

5http://www.statista.com/statistics/277483/market-value-of-the-largest-internet-companies-worldwide/

0

50

100

150

200

250

300

350

400

bilion U.S. dollars

15th Largest Internet Company in market capas of May 2015

6

Extensive Reach to a Wide Range of Users

80 %

80% of all Japanese Internet users use Yahoo! JAPAN

Nielsen NetView June 2015 : Data by Brands. Access from home and work using PCs (excl. internet applications)

強力なサービス

Media

US

Search Video Answer Mail

JP

US

JP

Membership C2C Payment C2C EC B2C EC Local

Search Knowledge searchNews

YAHUOKU!Premium Wallet Loco

Mail

膨大なデータボリューム

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 8

68 Billion PV

PC + Tablet

33.6B PV

Smart Device

34.5B PV

ヤフーは多数のビッグデータを抱えたマルチビッグデータカンパニー

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 9

1. Yahoo! JAPANのビッグデータ

2. データプラットフォームの全体像

3. DWHの将来像

4. 最後に

アジェンダ

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 10

全体像

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 11

NoSQLObject

StorageDWH

Hadoop

RDB

全体像

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 12

NoSQLObject

StorageDWH

Hadoop

RDB

6000 node

150 PB

800DBs

300,000Query/day

1500nodes

2000nodes

Phase1 2002-2008

Phase2 2009-2015

Phase3 2016-

主要サービスのデータを格納限られた利用者のみで使用

より多くの種類かつ大量なデータを格納多くの利用者に開放

Teradata以外のデータソースも統合する“logical DWH”構想

ヤフーのDWH

Teradata 5255Teradata 5255+5350

Teradata 5500Teradata 5500+5600Teradata 6690

Teradata 6690 & 2800Unified Data Architecture

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 13

1. Yahoo! JAPANのビッグデータ

2. データプラットフォームの全体像

3. DWHの将来像

4. 最後に

アジェンダ

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 14

SQLだけでなく様々な分析クエリーを実行したい

構造化、非構造化データをつなげて分析したい

複数データソースにまたがって分析したい

全部、一箇所で…。

利用者のニーズ

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 15

Logic

al D

WH

Teradata

構造化、非構造化データをつなげて分析できる

様々な分析クエリを実行で

きる

複数データソースにまたがって分析できる

Teradata

現在 1年後

今後のDWH

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 16

Logic

al D

WH

Teradata

QueryGrid, PrestoInformatica

HadoopRDB

NoSQLS3 Storage

Presto

Teradata

現在 1年後

具体的なコンポーネント

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 17

Logical DWH

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.18

Data Sources RDB RDB

Informatica

Exadata Hadoop

Hadoop RDB

QueryGridTDCH

Teradata RDBNoSQL

Low concurrency, large volumebatch queries

High concurrency, small volumeinteractive queries and small batches

Presto

S3-compatible Storage

Logical DWH

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.19

Data Sources RDB RDB

Informatica

Exadata Hadoop

Hadoop RDB

QueryGridTDCH

Teradata RDBNoSQL

Low concurrency, large volumebatch queries

High concurrency, small volumeinteractive queries and small batches

Presto

S3-compatible Storage

Prestoへの期待

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 20

Prestoとは

Facebook発のOSSプロジェクト

メモリベースの高速なクエリーエンジン

様々なデータソースにつながる技術

Teradata, Hive, MySQL, Cassandra, S3, etc.

※Teradata社も開発に積極参加Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 21

RDB NoSQL Hadoop DWHPresto

従来のクエリーのエントリーポイント

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 22

RDB NoSQL Hadoop DWHPresto

新しいクエリーのエントリーポイント

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 23

QueryGridとPrestoの関係

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 24Copyright (C) 2016 Teradata Japan, Ltd. All Rights Reserved.

どんな用途が考えられるか?

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 25

CustomerAttributes

Shopping Membership

Cassandra

ExecutiveDashboard

PersonalizationAnalysisReportsTargeting list

BrowsingWeb/click

Settlement

Teradata

・・・

Presto

Use Case – deliver personalization data

INSERT tableB@CassandraSELECT user_id FROM tableAWHERE segment_code = 1;

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 26

S3-compatible Storage Teradata

Service B

Service A

small data

small data

Presto

REST

REST

SELECT

SELECT

INSERT

INSERT

Use Case – small batches from storage

INSERT tableASELECT * FROM filename@S3storageWHERE log_date = date - 1;

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 27

Yahoo!スケールでの課題

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 28

課題

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 29

TBクラスのデータJOINを可能にする

push-down機能の強化

メモリーに乗り切らないデータの処理改善

ワークロード管理

重たいクエリーも、軽いクエリーもバランスよく

複数データソースに対して統一的なアクセスなど、

次世代データ分析基盤に必要な機能の共同開発

テラデータの最新技術とヤフーが持つ多様なユース

ケース及びビッグデータを用いた先行的な共同検証

UDA Product Advisory Councilに加盟。ビッグ

データ関連の課題を討議しフィードバック

Teradata Labsと協力

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 30

1. Yahoo! JAPANのビッグデータ

2. データプラットフォームの全体像

3. DWHの将来像

4. 最後に

アジェンダ

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 31

Data Sources RDB RDB

Informatica

Exadata Hadoop

Hadoop RDB

QueryGridTDCH

Teradata RDBNoSQL

Low concurrency, large volumebatch queries

High concurrency, small volumeinteractive queries and small batches

Presto

S3-compatible Storage

DWHの将来像

32

求む DWHエンジニア!!!

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 33

大規模DWHの構築。膨大なデータ量&クエリ数と

格闘して経験値UP!

新しいコンセプトのDWHを作り上げるチャンス

経験できること

http://hr.yahoo.co.jp/job-info/career/0157/

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 34

ヤフー プラットフォーム開発エンジニア 検索

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 35

Recommended