ATLにおけるBigDataへの取り組み

ATL におけるBigData

への取り組み株式会社リクルートテクノロジーズ

伊藤敬彦

自己紹介所属：株式会社リクルートテクノロジーズ ATL

研究（工学博士）：

トピック：グラフ解析

ビックデータ活動：

Hadoop を利用したレコメンドエンジン等の OSS ツールを作成

リクルートテクノロジーズ?リクルートホールディングス参加の機能会社

ホールディングス傘下の事業会社にテクノロジーを届ける役目

ATL？正式名称：Advanced Technology Lab

リクルートテクノロジーズにおける R&D 組織

技術のネタをいかに上手く探し（創り）、試し、ソリューションに仕立てるか？を追求する

ATLとOSSATL ではビックデータ用途を含め多くの OSS プロジェクトを活用

OSS プロジェクトについて三つの活動（検証，貢献，公開）を行っている

本発表では，OSS に関する三つの活動の具体例を紹介する

事例：ATL におけるビックデータの取り組み検証：Jubatus, Storm, ElasticSearch etc..

コミット：Apache Spark

公開：ビルドパイプラインツール

事例：検証多様な BigData 系 OSS を検証

Kafka, Storm, Jubatus etc…

いくつかは導入に本格導入に成功

Hadoop, Solr の配備

最近 Elasticsearch を検証した後，検索プラットフォームを構築

事例：ATL におけるビックデータの取り組み検証：Jubatus, Storm, Kafka, ElasticSearch etc..

Apache Spark?大規模データ処理を行うフレームワーク

Hadoop に比べて 10~100倍高速な処理

Scala で記述

Apache Spark エコシステムSpark Core の上にいくつものフレームワークが存在する．

ATL は MLib とよばれるコンポーネントに貢献．

MLlibSpark 上で動作する機械学習ライブラリ

分類: Logistic Regression, Naive Bayes

クラスタリング: K-means

レコメンド: ALS

MLlib へのコミット様々な手法を実装しマージされる

• 階層型クラスタリング

• 距離関数群

• KNN

• Canopy Clustering

作成の動機

ビルド，配備の流れが Jenkins （デプロイプラグイン）に保存されてしまいポータビリティがない．

UI を利用して設定をしないといけない

並列化してデプロイ処理を高速化したい

特に分散して動作するソフトウェア

ビルドパイプラインツール Walter!

シンプルなビルドパイプラインを作成

ビルド，デプロイ設定を YAML 形式で記述

記述言語：Go

GitHub 上で公開: https://github.com/walter-cd/walter

ATLにおけるBigDataへの取り組み

Engineering

TDC2016SP - Trilha BigData

Bigdata != Integritet

Bigdata Vs. Privacy

BigData for Dummies

17 bigdata

Bigdata Retail

Shashkin grushinskaya15 bigdata

Mysql Bigdata

Datenvisualisierung (BigData-Seminar)

Bigdata bizoppor

Bigdata & Hadoop

Bigdata gameverse

Spring “BigData”

Sécurité BigData

BigData MapReduce

BigData - ElasticSearch + PHP

BigData IBM

Presentación bigdata

BigData Monthly Vol 16. November 2015 · BigData Monthly Vol 16. November 2015 2 세계 속의 빅데이터 BigData World Report 2015 Bigdata 수요 기업 Trends 지난 한 해 동안

BigData - NoSQL