17
ATL におけ るBigData への取り組み 株式会社リクルートテクノロジーズ 伊藤 敬彦 1

ATLにおけるBigDataへの取り組み

Embed Size (px)

DESCRIPTION

ATLにおけるBigDataへの取り組みを紹介。

Citation preview

Page 1: ATLにおけるBigDataへの取り組み

ATL におけるBigData

への取り組み株式会社リクルートテクノロジーズ

伊藤 敬彦

1

Page 2: ATLにおけるBigDataへの取り組み

自己紹介所属:株式会社リクルートテクノロジーズ ATL

研究(工学博士):

トピック:グラフ解析

ビックデータ活動:

Hadoop を利用したレコメンドエンジン等の OSS ツールを作成

2

Page 3: ATLにおけるBigDataへの取り組み

リクルートテクノロジーズ?リクルートホールディングス参加の機能会社

ホールディングス傘下の事業会社にテクノロジーを届ける役目

3

Page 4: ATLにおけるBigDataへの取り組み

ATL?正式名称:Advanced Technology Lab

リクルートテクノロジーズにおける R&D 組織

技術のネタをいかに上手く探し(創り)、試し、 ソリューションに仕立てるか?を追求する

4

Page 5: ATLにおけるBigDataへの取り組み

ATLとOSSATL ではビックデータ用途を含め多くの OSS プロジェクトを活用

OSS プロジェクトについて三つの活動(検証,貢献,公開)を行っている

本発表では,OSS に関する三つの活動の具体例を紹介する

5

Page 6: ATLにおけるBigDataへの取り組み

事例:ATL におけるビックデータの取り組み検証:Jubatus, Storm, ElasticSearch etc..

コミット:Apache Spark

公開:ビルドパイプラインツール

6

Page 7: ATLにおけるBigDataへの取り組み

事例:ATL におけるビックデータの取り組み検証:Jubatus, Storm, ElasticSearch etc..

コミット:Apache Spark

公開:ビルドパイプラインツール

7

Page 8: ATLにおけるBigDataへの取り組み

事例:検証多様な BigData 系 OSS を検証

Kafka, Storm, Jubatus etc…

いくつかは導入に本格導入に成功

Hadoop, Solr の配備

最近 Elasticsearch を検証した後,検索プラットフォームを構築

8

Page 9: ATLにおけるBigDataへの取り組み

事例:ATL におけるビックデータの取り組み検証:Jubatus, Storm, Kafka, ElasticSearch etc..

コミット:Apache Spark

公開:ビルドパイプラインツール

9

Page 10: ATLにおけるBigDataへの取り組み

Apache Spark?大規模データ処理を行うフレームワーク

Hadoop に比べて 10~100倍高速な処理

Scala で記述

10

Page 11: ATLにおけるBigDataへの取り組み

Apache Spark エコシステムSpark Core の上にいくつものフレームワークが存在する.

ATL は MLib とよばれるコンポーネントに貢献.

11

Page 12: ATLにおけるBigDataへの取り組み

MLlibSpark 上で動作する機械学習ライブラリ

分類: Logistic Regression, Naive Bayes

クラスタリング: K-means

レコメンド: ALS

12

Page 13: ATLにおけるBigDataへの取り組み

MLlib へのコミット様々な手法を実装しマージされる

• 階層型クラスタリング

• 距離関数群

• KNN

• Canopy Clustering

13

Page 14: ATLにおけるBigDataへの取り組み

事例:ATL におけるビックデータの取り組み検証:Jubatus, Storm, ElasticSearch etc..

コミット:Apache Spark

公開:ビルドパイプラインツール

14

Page 15: ATLにおけるBigDataへの取り組み

作成の動機

ビルド,配備の流れが Jenkins (デプロイプラグイン)に保存されてしまいポータビリティがない.

UI を利用して設定をしないといけない

並列化してデプロイ処理を高速化したい

特に分散して動作するソフトウェア

15

Page 16: ATLにおけるBigDataへの取り組み

ビルドパイプラインツール Walter!

シンプルなビルドパイプラインを作成

ビルド,デプロイ設定を YAML 形式で記述

記述言語:Go

GitHub 上で公開: https://github.com/walter-cd/walter

16

Page 17: ATLにおけるBigDataへの取り組み