48
A3RT The details and actual use cases of “Analytics & Artificial intelligence API via Recruit technologies" 株式会社リクルートテクノロジーズ ITソリューション統括部 ビッグデータプロダクト開発グループ グループマネージャー 石川 信行 石川 信行 Nobuyuki Ishikawa

A3RT -The details and actual use cases of“Analytics & Artificial intelligence API via Recruit technologies"

Embed Size (px)

Citation preview

A3RT The details and actual use cases of

“Analytics & Artificial intelligence API via Recruit technologies"

株式会社リクルートテクノロジーズITソリューション統括部 ビッグデータプロダクト開発グループ

グループマネージャー石川 信行

石川 信行

NobuyukiIshikawa

2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

諸注意

本セッションにはHadoop関連のお話はほとんど出てきません。

Hadoopを中心としたデータソース

GPU環境を中心としたモデリング層

API環境を中心としてWEBインターフェース層

事業システム A 事業システム B 事業システム C

ここの話

3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

1

2 A3RT概要

3

4 その他R&Dについて

A3RTを支えるインフラ・運用技術

本日の内容

プロダクトとそのユースケース

5

はじめに

まとめと今後6

4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

はじめに

5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

趣味etc

学歴

略歴

所属 リクルートテクノロジーズ ITソリューション統括部ビッグデータプロダクト開発G グループマネージャー兼アドバンスドテクノロジーラボ

株式会社ミラセンシズ 代表取締役 CEO

神戸大学大学院農学研究科害虫制御学専攻

リクルート新卒入社8年目。カーセンサー.netで営業研修、Javaを用いたシステム開発に参加し、その後Hadoopの導入検証に従事。主要事業にHadoopを導入したのちビッグデータGに合流。現事業対応リーダー、画像解析など技術開発に従事。シニアアーキテクトとしてプロフェッショナル職になった後に、現職。

海水魚飼育外国産昆虫飼育スキューバダイビング

自己紹介

6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

ビッグデータ解析部門の組織体制

6

ITソリューション統括部

・・・

ビッグデータビジネスコンサルティンググループ

ビッグデータ人材領域グループ

ビッグデータ販促・バイト領域グループ

ソリューションを軸とした予測、BI、競

合分析

人材領域を軸とした各種レコメンドの開

販促・バイトを軸とした各種レコメンド

の開発

ビッグデータID・ポイント領域グループ

IDポイントを軸とした各種レコメンドの

開発

ビッグデータプロダクト開発グループ

ビッグデータインフラグループ

IDポイントビッグデータシステムグループ

ソリューションを軸とした各種R&D系プロダクトの開発

ビックデータ基盤の構築・運用

ビックデータ部

IDポイントPRJの基盤の

構築・運用

7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

A3RT概要

8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

ご紹介

9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

A3RTの導入

リクルートテクノロジーズでは社内での機械学習並びにDeep Learningなどに代表

されるロジックとそのAPIを同一ブランドで統一・整備をし、社内に展開している。

10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

構築にいたった理由

フルスクラッチ開発

一番自由度が高く最適な機能が作れる。一方、一から検討・開発するため、どうしても時間・コストがかかるので、全てのケースに対応できない

他社のAPI群

一部は活用すべきだが、リクルートグループでの活用にそのまま使える機能が不足

【効果的な機能】リクルートグループ特化による効果的なソリューションの開発

【導入しやすさ】リクルート汎用的な機能についてはAPI化

導入の迅速化/低コスト化

【最新技術】 バックエンドのアルゴリズム、インフラ環境も常に最新かつ適切なものが適用できるよう継続的に検証

【効率など付加価値】オペレーション部分にも最新技術を適応

精度/運用効率向上に向けた取り組みを継続的に実施

(DeepLearningの自動パラメータチューニング機能他)

リクルートグループにおいて機械学習によるソリューション活用の敷居はまだまだ高く、活用をスピー

ドアップ・拡大するためには設計~開発~運用に工数が多くかかっていた。

データ活用・ロジック作成に気を取られ、ビジネス活用まで考えがいたらない状況。

11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

A3RTサービス一覧

A3RTでは現在、下記のようなAPIサービスを整備・開発。

これまでデータ活用が数多く進んでいるカスタマーサイドだけではなく、クライアントサイド、営業

シーン、制作業務などでの利用を想定し、開発を進めている。

レコメンド

バナーターゲティング

OCR 画像解析

原稿サジェスト

文章校閲文章要約

文章分類 音声テキスト化

屋内位置測位

12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

API化による効率化

リクルート内サービス

モデル化

API

API

API

モデル・技術共有

コール

再学習

13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

プロダクトとそのユースケース

14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

今回ご紹介するプロダクト

レコメンド

画像解析

原稿サジェスト

文章校閲

屋内位置測位

15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

motiv8r-誰でも簡単に利用できるレコメンド用WebAPI

ヒアリングシートに記入するだけで、迅速・簡単・低コストで利用可能なレコメンドAPI

リクルートオリジナルのリアルタイムレコメンドロジックのほか、Word2Vecを用いた

レコメンドなどを実装

motiv8rを使って実現できること motiv8r利用の特徴

レコメンド機能をWebAPI形式でお手軽・簡単に実装可能

簡単なヒアリングシート記入で、レコメンド機能を実装

リアルタイムレコメンドアルゴリズム、Word2Vecを選択できる。

ユーザの閲覧・CVがあるたびAPIにリクエストを送るだけでリアルタイムにレコメンド内容が変化

差配を重視したアルゴリズムにより、人気アイテムに偏ることのないパーソナライズドなレコメンドを実現可能

要件定義にヒアリングシートを送信、Webサイト側の実装を実施してするだけで利用可能

気軽にリアルタイムレコメンド

差配によるパーソナライズ

開発工数低

1

2

3

16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

RETiMOアルゴリズム

閲覧/応募ログ

レコメンドデータ

アイテムアソシエーション

INPUT

エリア属性スコア

駅属性スコア

職種属性スコア

アソシエーション分析

閲覧/応募スコア算出

×

アソシエーション分析

閲覧/応募スコア算出

×

アソシエーション分析

閲覧/応募スコア算出

×

アソシエーション分析

バッチ処理 バッチ処理

リアルタイム処理

スコア更新閲覧済原稿削除

UPDATEAPI

Dailyで作成

即更新

17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

motiv8r-事例

複数の人材系事業で導入およびその検討が進行中

レコメンドエンジンは、コールドスタートに対応したReTiMOを採用

概要 成果

• 事業サイドの工数を最小限にした手軽な導入を実現

• それまで利用していたレコメンドツールよりCVR / CTRが大幅に向上

CVR

ReTiMOをレコメンドエンジンとして活用し、探している仕事と似ている仕事のレコメンドを実装

約6倍

18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

word2vecとは

各単語を表現するベクトルを学習

単語から文書中でその単語の前後に現れる単語を予測できるような表現を学習

単語を表す1-of-k表現のベクトルを入力とし、その単語の前後にある単語の出現確率を出力とするニューラルネットを学習させ、その中間層の値を単語を表現するベクトルとして用いる

w(t)

w(t-1)

w(t+1)

w(t+2)

w(t-2)

INPUT PROJECTION OUTPUT

INPUT:単語の1-of-k表現

PROJECTION:単語

線形変換階層的

soft-max

OUTPUT: 前後の単語の出現確率

𝑝(𝑤(𝑡+𝑖)|𝑤(𝑡))

目的関数

19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

word2vecとは

While expanding its channel for distribution information from paper publication to the net and mobile, the company has been pushing for a shift of their revenue from … … …

while(0.1, 0.4, 0.3, 0.7, …)

expanding(0.2, 0.5, 0.7, 0.7, …)

its(0.1, 0.1, 0.9, 0.6, …)

channel(0.6, 0.4, 0.9, 0.5, …)

for(0.5, 0.8, 0.2, 0.1, …)

distribution(0.8, 0.4, 0.1, 0.2, …)

information(0.3, 0.7, 0.3, 0.6, …)

文書データ ベクトルデータ

word2vec

文書データを元に単語毎のベクトルデータを生成する

20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

word2vecのアウトプットデータ

アクション

ログデータ

word2vec

itemベクトル

データ

item類似度

データ

cos類似度

user1 item-A item-B item-C…

user2 item-D item-E item-F…

user3 item-G item-Q item-X…

user4 item-L item-K item-V…

… … …

item-A (0.1, 0.9, 0.6, 0.4, ……)

item-B (0.2, 0.5, 0.1, 0.8, ……)

item-C (0.7, 0.3, 0.3, 0.4, ……)

item-D (0.5, 0.9, 0.8, 0.2, ……)

… … …

item-A, item-B, 0.976

item-A, item-C, 0.329

item-A, item-D, 0.743

item-A, item-E, 0.552

… … …

21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

motiv8r Architecture

BigData Team HadoopService Database

S3 EMR DynamoDB

22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

Image Paradise-画像解析処理API

Image Paradiseを使って実現できることの一例 Image Paradiseのメイン技術

画像解析処理、主に物体認識をAPIサービスとして提供

画像ベースレコメンドや不適切画像検出、タグ付与などのサービスを提供

画像に何が映っているかを自動で判別することで、人力でのタグ付与作業負荷を軽減

今まで付与できなかった新たなタグを振ることで、よりリッチな検索を実現

1

2

画像から得られる情報(映る物の判別結果や色)を利用し、画像軸でのレコメンドを実現

不適切画像を定義し、サービスにアップロードされる前や直後に検出

3

4

画像を学習し、未知の画像に何が写っているかを判定

・・・

②判別モデル作成

・・・

・・・

③未知の画像をモデルに投入

猫確率:30%

犬確率:10%

虎確率:60%

④虎が映っているらしいと認識

①学習用データ用意

画像解析に特化したDeep Learningの手法の一種であるCNN1)を活用

1) Convolutional Neural Network の略

23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

Image Paradise-事例①(ギャザリー 不適切画像検知)

ギャザリーは、キュレーションメディアであり、カスタマーが自由に記事を作成でき、自身の意思で画像も投稿することが可能

エロ/グロなどの不適切な画像の検閲を人目で全て行うのは工数が膨大にかかるため、これを機械で代替する

1) Convolutional Neural Network の略

技術概要 実現方法

DeepLearningを活用し、画像を定量化するロジックを用いて、Safe/Sexual/Glotesqueをラベル分け

2段階の判別を採用。最初の判別でラベルの想定結果を重み付けする機能※により、精度が約95%まで向上※…二段階の想定結果重み付けロジックは、現在特許出願中

3万300枚/時以上の速度で、画像のラベル分けが可能

① 大量のエロ/グロ/ノーマル画像を収集

・・・

② 判別モデル作成

③ 未知の画像をモデルに通し、エロ/グロ確率を算出

グロ確率 89% !!

この画像は優先して

チェックしてください!

24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

Image Paradise-事例② カーセンサー 色タグ付与

• カーセンサーでは、一物件につき、20枚くらいの画像が存在

• これに外装・トランク・ダッシュボード・内装・その他などラベルを振り、内装判別用のモデルを作成

内装の確率が一番高い

画像を探索

色を抽出して、最も広範囲に利用される色をシートの色として判別

範囲が多い順に

・ライトブルー

・黒

・・・

→シート色のタグとして、

「ライトブルー」を付与!

学習データ収集 内装画像探索 内装色判別

内装判別をするための学習データ収集

1 2 3

「メディアで不足・もっと見たかったクルマの情報」を調査したところ、1位が「クルマの内装の写真」であること、

また、約 35%の回答者が、中古車の「内装」を重視してクルマ選びをしていることが判明

一方で既存メディアには内装色で検索という機能が存在しない

25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

Image Paradise-事例③ 自動車車種判定

自動車を良く知らない初心者の人間にとって、車種や自動車メーカーの名前を知ることは難しく、

より直感的に自動車を探すことができるインターフェースが必要と想定

画像判別により車種を判別できる機能を開発し、初心者フレンドリーなインターフェースを実現

判別精度は人気車種上位30種類において90%以上にものぼる

既存の検索導線へ

26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

neon-リクルート保持の原稿からテキストを自動生成するシステム

リクルートが保持している原稿をDeepLearning(DeepLSTM)を使って学習し、原稿を生成するシステム

原稿を書いている時に書き方がわからない、次に何を書けばいいか詰まってしまった、という場合など人の思考補助を行う意味合いでの利用を想定

neonを使って実現できること 機能イメージ

サンプル原稿を自動で作成する機能

ライティング中に次に何を書けばいいのか教えてくれるサジェスト機能

1

2

過去数年分の事業のクライアント原稿をインプットとしてモデルを作り、例えば職種やエリアを指定して送ればそれにあうベストな原稿を自動で生成して返してくれる機能

原稿作成時にフォーム上に入力した文字列をAjax通信で送ると次の一語/フレーズ/文章を推薦してくれるサジェスト機能

27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

neonのデモ

28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

ArGON-ルールベースと機械学習のハイブリッドで校閲支援API

リクルートにおける「原稿」は商品そのもの。これに間違いがあると大きな機会損失となる

ルールベースによる校閲機能だけでなく、ルールのカスタマイズや最新の機械学習技術も実装しているた

め、使えば使うほど賢く校閲を実施できる

ルールベースによる校閲機能

機械学習による校閲機能

ルールカスタマイズ

機能

ArGONを使って実現できること ArGONの機能

原稿の中の、誤字脱字、NGワードなどを自動で検出

大量の原稿全てに対するチェックを自動化

• 入稿者、校閲者の負担軽減/コスト削減• 本当に人間の目が必要となるところに

パワーを割くことが可能に

汎用性の高い校閲ルール例)・住所の間違い判定・郵便番号の存在チェック・電話番号の桁数チェック・NGワードの検出

ルールベースで実現出来ない部分を補う機械学習例)・誤字脱字の検出・差別表現の判定・NGとなりそうなワードの組み合わせサジェスト

管理画面から独自のルール登録が可能

誰でも簡単にルールを追加

29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

校閲支援API ArGONのロジック

誤字脱字検知のロジック

- Gated Recurrent UnitsというDeep Learning技術を使用

- Residual Learningの要素を取り入れ、精度は85%-90%

正しい文章を大量に学習させ、異常検知的に誤字脱字を検出する

30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

ArGonのデモ

31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

その他R&Dについて

32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

Video Analysis-動画の解析API

これまでの画像、テキストの解析技術を生かし、動画中の人や物を認識しタグ付けするAPIを開発

将来的に、動画コンテンツが増加していくことを見込んでの先行開発

Video Analysisを使って実現できること Video Analysisイメージ

動画中の人物の表情の変化(喜怒哀楽)を可視化

• タグだけではなく、各物体の特徴量も同時に抽出できるため、動画の分類やクラスタリングも行うことも検討

• また動画を静止画像の集合とみなし、それぞれのコマ・シーンごとにタグ付けなども検討

面接動画の解析や、動画による求人広告の作成などへの活用も考えられる

動画にどんな物体が映っているかを認識

動画中の人物の表情の変化(喜怒哀楽)をタグ付け

1

2

33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

R&Dによるデータ解析活用ポリシー

etc

内製開発、ロジック作成やオープンソース利用のみが、技術によるビジネス貢献ではない 常に情報を探り、集め、あらゆる手段でデータ解析をビジネス貢献の手段として確立させるようベストを尽くす必要がある

Etc…

34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

スタートアップ協業シリーズ

海外出張によって訪問した現地(イスラエル・US)の先進スタートアップ企業とディスカッション。 プロダクト利用だけではなく、協働検証・開発なども行っている。

目的

インフラオペレーションAI

類似画像アフィリエイト

屋内位置情報測位

説明会などイベントでの流量分析想定

ビッグデータ部内部Hadoop環境での利用

画像を生かした媒体間のクロスユース

屋内位置情報取得によるカスタマー情報リッチ化

社内インフラ運用のモニタリングを

知見習得?

インターネット中の画像を集客元に

社内検証

35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

Cotori –屋内位置測位

GPSではできない屋内の測位を正確に行うSDK 屋内でGPSと同じようにトラッキングをしたり、非常に小さいジオフェンスを貼ることが可能

またwifiや地磁気の情報を使用するため非常に省電力で動くことが特徴

オフラインイベントなどでの解析に利用できないかを検討中

×

36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

A3RTを支えるインフラ・運用技術

37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

共通インフラ機能

グループ内の共通機能を集約し、個別運用による構築負荷/運用負荷・インフラコストを削減

構成イメージ 監視画面イメージ

RAFTEL

・・・・・

ProductA ProductZ

Cloud API

worker1 worker2

API

Cloud API

worker1 worker2

API

Batch

proxy

AuthA3RT AdminPlatform

認証

monitor

バッチ処理

38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

A3RTのAPI基盤

Why AppEngine?

• スケーラビリティ• A/Bテスト基盤• NoOps• BigQuery連携

• 共通API Endopoint

LogStorage

39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

半教師有り学習による精度向上

• VATを用いた半教師有り学習

• 半教師有り学習:少量の教師付きデータと大量の教師なしデータを用いて、比較的高精度のモデル作成する手法。

mnist[0~9の手書きデータ]を利用し、

以下を検証。

・60000万枚の画像を学習に使った精度

・各枚数を学習に利用した時の精度

・各枚数を教師有り、残りを教師なしと

して学習した精度

教師有りを600枚使っただけで、ほぼ

60000枚全て利用した時と同様の精度が

得られていることがわかる。学習利用枚数

誤差率(%

)

大量の画像全てに正解ラベルを付与しなくても良い。

よって、学習データの収集コストが大幅に下がることが期待できる。

40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

自動ハイパーパラメータチューニングによる工数削減

• DFO[Derivative Free Optimization]を用いたパラメータチューニング

• DFO:目的関数を直接微分不可能なパラメータに対し、その値をずらして誤差率が下がる方向へパラメータを調整して最適解を得る手法

誤差率をクロスエントロピーで求める場合、右の式となる。

ykは、W,Bから求められるため、WやBでの微分は可能。

ただし、それ以外の学習率などといったパラメータでの

微分は不可。これらのパラメータを少しずつずらし、誤差率の極小値を探索する方法。

41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

まとめと今後

42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

データ解析の利用シーン拡大

customerClient

Attracting customers

Select Action Effect Informationpublished

Targetclient

Matching

cross tabulation

Recommendation

Image search

Advertising expenses optimization

Ad Targeting

Manuscript reviewer

Auto review

Article creation support

Sales support

Competitive analysis

43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

Diversified data analysis

In addition to recommendation and report, there are more and more new genre data analysis solutions of "human work alternative"

Profit contribution Cost reduction

Recommendation Report

Indicator/Purpose

CVR maximization

CPA optimization

Indicator/Purpose

Optimization

Next year’s strategy making

Indicator/Purpose

Reduction of waste

Reduction of man hours

Having people be more creative

Work alternative(AI domain)

44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

ブレイン・マーケット構想

特徴・パターン抽出

モデル

判断

・推薦

・予測

・分類

etc

営業の優良クライアント判断モデル

会社独自の人材採用判断モデル

良い原稿制作モデル

etc

これまで人が判断してきた正解データ

45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

イノベーションコミュニティの形成

技術力

施策接続

コミット力

情報力

46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

大切にしたいこと

データの活用周りの商品(エンタープライズ、オープンソース問わず)、ロジック、活用事例などの最新情報をなるべくキャッチしておく。

どんなデータでも扱えるように知見を集約しておく、難しい技術や課題にも積極的にチャレンジしていく。

コードのオープンソース化が進み、競合優位要因が「コード保有」から「データ保有」「施策接続力」にパラダイムシフト。ビジネスの感覚も忘れずに、事業と二人三脚で案件を進める。

2

3

47Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

ビジネス利用をとことん見据え泥臭くかつアグレッシブに分析・エンジニアリングができる方。

ご連絡ください。

右腕探しています。

石川 信行

NobuyukiIshikawa

Yes, We Are Hiring!

ご静聴ありがとうございました

リクルートテクノロジーズ