「Data Infrastructure at Scale 」#yjdsw4

Preview:

Citation preview

Data Infrastructure at Scale

角田 直行

ヤフー株式会社データ&サイエンスソリューション統括本部

角田 直行(かくだ なおゆき)2005〜 ヤフー株式会社に中途入社

2012〜 データソリューション領域に従事

地図、路線、検索などのサービスや

検索エンジン、検索PFなどの

バックエンド開発を経験

自己紹介

現在、テクニカルディレクターとして統括本部全体の技術統括を務める

Agenda

• Yahoo! JAPAN の規模

• 支えるデータインフラ

• これからの挑戦

>3000万MAU

>5億 DUB

>100 services

1.8億商品数

82%of PC users

74%of smartphone users

No.1App publisher

Logging Data pipeline Processing

S3 Compatible

Object Storage

Yahoo! ID

Keyed Database

Data Store for Apps

Big Data

15000

125

nodes

TB/day

>7000 nodes

>100 PB

ロギング対象ホスト:

回収データ量:

Hadoop:

総データキャパシティ:

課題

Data Power

(Exponential growth)

レガシーからモダンへ

Legacy Pipeline

No.1企業とのタッグ

オープンソースへの貢献

※ ajisakaa.blogspot.jp/2016/01/the-activities-of-apache-hadoop.html

オープンハードウェア

海外データセンター

※写真はイメージです

まとめ

• サービスやデータの規模は日本最大級

• 指数関数的に増加する課題に対し、

ソフト&ハード両面でアプローチ

• オープンかつ最先端の技術を積極的に取り入れ、

データの価値を最大化させていく

Recommended