View
458
Download
11
Category
Preview:
DESCRIPTION
ATLにおけるBigDataへの取り組みを紹介。
Citation preview
ATL におけるBigData
への取り組み株式会社リクルートテクノロジーズ
伊藤 敬彦
1
自己紹介所属:株式会社リクルートテクノロジーズ ATL
研究(工学博士):
トピック:グラフ解析
ビックデータ活動:
Hadoop を利用したレコメンドエンジン等の OSS ツールを作成
2
リクルートテクノロジーズ?リクルートホールディングス参加の機能会社
ホールディングス傘下の事業会社にテクノロジーを届ける役目
3
ATL?正式名称:Advanced Technology Lab
リクルートテクノロジーズにおける R&D 組織
技術のネタをいかに上手く探し(創り)、試し、 ソリューションに仕立てるか?を追求する
4
ATLとOSSATL ではビックデータ用途を含め多くの OSS プロジェクトを活用
OSS プロジェクトについて三つの活動(検証,貢献,公開)を行っている
本発表では,OSS に関する三つの活動の具体例を紹介する
5
事例:ATL におけるビックデータの取り組み検証:Jubatus, Storm, ElasticSearch etc..
コミット:Apache Spark
公開:ビルドパイプラインツール
6
事例:ATL におけるビックデータの取り組み検証:Jubatus, Storm, ElasticSearch etc..
コミット:Apache Spark
公開:ビルドパイプラインツール
7
事例:検証多様な BigData 系 OSS を検証
Kafka, Storm, Jubatus etc…
いくつかは導入に本格導入に成功
Hadoop, Solr の配備
最近 Elasticsearch を検証した後,検索プラットフォームを構築
8
事例:ATL におけるビックデータの取り組み検証:Jubatus, Storm, Kafka, ElasticSearch etc..
コミット:Apache Spark
公開:ビルドパイプラインツール
9
Apache Spark?大規模データ処理を行うフレームワーク
Hadoop に比べて 10~100倍高速な処理
Scala で記述
10
Apache Spark エコシステムSpark Core の上にいくつものフレームワークが存在する.
ATL は MLib とよばれるコンポーネントに貢献.
11
MLlibSpark 上で動作する機械学習ライブラリ
分類: Logistic Regression, Naive Bayes
クラスタリング: K-means
レコメンド: ALS
…
12
MLlib へのコミット様々な手法を実装しマージされる
• 階層型クラスタリング
• 距離関数群
• KNN
• Canopy Clustering
13
事例:ATL におけるビックデータの取り組み検証:Jubatus, Storm, ElasticSearch etc..
コミット:Apache Spark
公開:ビルドパイプラインツール
14
作成の動機
ビルド,配備の流れが Jenkins (デプロイプラグイン)に保存されてしまいポータビリティがない.
UI を利用して設定をしないといけない
並列化してデプロイ処理を高速化したい
特に分散して動作するソフトウェア
15
ビルドパイプラインツール Walter!
シンプルなビルドパイプラインを作成
ビルド,デプロイ設定を YAML 形式で記述
記述言語:Go
GitHub 上で公開: https://github.com/walter-cd/walter
16
Recommended