ATLにおけるBigDataへの取り組み

Preview:

DESCRIPTION

ATLにおけるBigDataへの取り組みを紹介。

Citation preview

ATL におけるBigData

への取り組み株式会社リクルートテクノロジーズ

伊藤 敬彦

1

自己紹介所属:株式会社リクルートテクノロジーズ ATL

研究(工学博士):

トピック:グラフ解析

ビックデータ活動:

Hadoop を利用したレコメンドエンジン等の OSS ツールを作成

2

リクルートテクノロジーズ?リクルートホールディングス参加の機能会社

ホールディングス傘下の事業会社にテクノロジーを届ける役目

3

ATL?正式名称:Advanced Technology Lab

リクルートテクノロジーズにおける R&D 組織

技術のネタをいかに上手く探し(創り)、試し、 ソリューションに仕立てるか?を追求する

4

ATLとOSSATL ではビックデータ用途を含め多くの OSS プロジェクトを活用

OSS プロジェクトについて三つの活動(検証,貢献,公開)を行っている

本発表では,OSS に関する三つの活動の具体例を紹介する

5

事例:ATL におけるビックデータの取り組み検証:Jubatus, Storm, ElasticSearch etc..

コミット:Apache Spark

公開:ビルドパイプラインツール

6

事例:ATL におけるビックデータの取り組み検証:Jubatus, Storm, ElasticSearch etc..

コミット:Apache Spark

公開:ビルドパイプラインツール

7

事例:検証多様な BigData 系 OSS を検証

Kafka, Storm, Jubatus etc…

いくつかは導入に本格導入に成功

Hadoop, Solr の配備

最近 Elasticsearch を検証した後,検索プラットフォームを構築

8

事例:ATL におけるビックデータの取り組み検証:Jubatus, Storm, Kafka, ElasticSearch etc..

コミット:Apache Spark

公開:ビルドパイプラインツール

9

Apache Spark?大規模データ処理を行うフレームワーク

Hadoop に比べて 10~100倍高速な処理

Scala で記述

10

Apache Spark エコシステムSpark Core の上にいくつものフレームワークが存在する.

ATL は MLib とよばれるコンポーネントに貢献.

11

MLlibSpark 上で動作する機械学習ライブラリ

分類: Logistic Regression, Naive Bayes

クラスタリング: K-means

レコメンド: ALS

12

MLlib へのコミット様々な手法を実装しマージされる

• 階層型クラスタリング

• 距離関数群

• KNN

• Canopy Clustering

13

事例:ATL におけるビックデータの取り組み検証:Jubatus, Storm, ElasticSearch etc..

コミット:Apache Spark

公開:ビルドパイプラインツール

14

作成の動機

ビルド,配備の流れが Jenkins (デプロイプラグイン)に保存されてしまいポータビリティがない.

UI を利用して設定をしないといけない

並列化してデプロイ処理を高速化したい

特に分散して動作するソフトウェア

15

ビルドパイプラインツール Walter!

シンプルなビルドパイプラインを作成

ビルド,デプロイ設定を YAML 形式で記述

記述言語:Go

GitHub 上で公開: https://github.com/walter-cd/walter

16