24
NLP若手の会 (YANS) 12回シンポジウム 株式会社メルカリ 工藤 啓朗 メルカリにおける 自然言語処理・機械学習の活用について

メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

Embed Size (px)

Citation preview

Page 1: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

NLP若手の会 (YANS) 第12回シンポジウム

株式会社メルカリ

工藤 啓朗

メルカリにおける自然言語処理・機械学習の活用について

Page 2: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

■ 工藤 啓朗(くどう ひろあき)

- 株式会社メルカリ Software Engineer (ML/NLP)

■ 経歴

- 大学 : 物理学科 (Black Hole, Inflation)- クラウドERPサービスを提供している企業

- プログラマ, 見積りデータ等を活用した業務改善や分析

- 転職サービスを提供している企業

- データ分析基盤の開発・運用, 機械学習等の技術を活用したチームの立ち上げ

- レコメンドエンジンの開発

- ニュースキュレーションアプリを提供している企業

- データ分析やアルゴリズムの開発・改善

自己紹介

Page 3: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

アジェンダ

1. メルカリのご紹介

2. 機械学習・自然言語処理の活用のご紹介

3. 今後の取り組みについて

Page 4: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

アジェンダ

1. メルカリのご紹介

2. 機械学習・自然言語処理の活用のご紹介

3. 今後の取り組みについて

Page 5: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

株式会社メルカリ 概要■ 会社設立日: 2013年2月1日✓ サービスローンチ:

• 日本:2013年7月• 米国:2014年9月• 英国:2017年3月

■ オフィス : 東京、仙台、福岡、

     San Francisco、Portland、London■ 従業員数:約500名✓ 半数以上の従業員はカスタマーサポート

5

N

Page 6: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

フリマアプリ「メルカリ」とは

● 日本最大のフリマアプリ○ フリマアプリ利用者中約9割がメルカリを利用○ 月間の流通額100億円超○ 1日あたり100万出品○ アプリダウンロード数 (日本5,000万、アメリカ2,500万)

● 安心安全の決済○ エスクロー○ お金のやり取りは当社が間に介在

● 3分で簡単出品○ 写真を撮る○ 商品情報を記入○ 出品ボタンを押すだけ

6※「フリマアプリの利用に関するアンケート調査期間: 2015年10月14日〜10月19日」よりジャストシステム「ファストアスク」調べ

Page 7: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

メルカリのデータ

7

● 出品データ○ 100万出品 / 日○ 商品画像○ 商品名○ 商品説明○ 商品状態○ 商品価格○ カテゴリ○ ブランド○ サイズ○ 配送方法

● サポートコミュニティ○ Q&Aデータ

● お客さまの行動データ○ 商品検索○ 商品タップ○ 商品への「いいね」○ 商品へのコメント○ 価格交渉○ 商品購入○ 商品出品○ 取引メッセージ○ 問い合わせ○ 商品通報

● ライブフリマ○ 動画データ

メルカリチャンネル

ライブ配信で売ったり買ったりを

楽しめるライブフリマの

動画データ

画像 / 動画 / テキスト / 行動ログなど、多岐にわたる大量のデータ

Page 8: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

アジェンダ

1. メルカリのご紹介

2. 機械学習・自然言語処理の活用のご紹介

3. 今後の取り組みについて

Page 9: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

メルカリでの応用範囲の例

● 情報検索,情報推薦

○ 検索精度の改善,タイムラインのパーソナライズ,レコメンド

● 文書分類,単語分割,状態空間モデル

○ 取引メッセージからお客様が困っていそうなケースを検知

○ 不適切な商品の検知

● 統計モデリング,ランキング学習

○ 出品時に売却されやすい価格の推薦

Page 10: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

検索精度の改善

10

同じ検索ワードでも検索したいものは人それぞれ

● 検索の意図を推定○ 面白い○ 効果ありそう○ 行動ログから推定できそう

● 検索ワードのサジェストの改善○ カテゴリフィルタの追加○ 検索→タップログから集計

● 検索アルゴリズムの改善

Page 11: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

検索精度の改善

11

同じ検索ワードでも検索したいものは人それぞれ

● 検索の意図を推定○ 面白い○ 効果ありそう○ 行動ログから推定できそう

● 検索ワードのサジェストの改善○ カテゴリフィルタの追加○ 検索→タップログから集計

● 検索アルゴリズムの改善○ 本体 / 付属品問題

■ 本体が欲しいのに付属品ばかり・・・■ パソコン / スマートフォン / ゲーム機

Page 12: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

メルカリのデータ

12

● 出品データ○ 100万出品 / 日○ 商品画像○ 商品名○ 商品説明○ 商品状態○ 商品価格○ カテゴリ○ ブランド○ サイズ○ 配送方法

● サポートコミュニティ○ Q&Aデータ

● お客さまの行動データ○ 商品検索○ 商品タップ○ 商品への「いいね」○ 商品へのコメント○ 価格交渉○ 商品購入○ 商品出品○ 取引メッセージ○ 問い合わせ○ 商品通報

● ライブフリマ○ 動画データ

メルカリチャンネル

ライブ配信で売ったり買ったりを

楽しめるライブフリマの

動画データ

画像 / 動画 / テキスト / 行動ログなど、多岐にわたる大量のデータ

Page 13: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

デモグラフィック情報 / 趣味嗜好の推定

13

よりよいユーザ体験を提供するために

● タイムラインの出しわけ○ デモグラフィック情報の推定○ タップされた商品のタイトルを連結○ TF-IDF + ナイーブベイズ分類器

● 趣味嗜好の推定 女性向け 男性向け

columbia ショルダーバッグ mont-bell モンベル ショルダー バッグ、ノース

フェイス、コロンビア☆ Columbia ウエストポーチ ショルダーバッグ Columbia・ショルダーバッグ ショルダーバック コロンビア

Page 14: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

デモグラフィック情報 / 趣味嗜好の推定

14

よりよいユーザ体験を提供するために

● タイムラインの出しわけ○ デモグラフィック情報の推定○ タップされた商品のタイトルを連結○ TF-IDF + ナイーブベイズ分類器

● 趣味嗜好の推定○ タップ履歴に基づくユーザクラスタリング○ タップされた商品のタイトルを連結○ TF-IDF + k-means○ 例えば、プッシュ通知の文言の出しわけ

インテリア好き

スマホもおしゃれにしたい女子高生

小物まで気を遣うオシャレ男子

Page 15: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

関連ワード / 関連カテゴリ / 関連ブランドの抽出

15

商品名

ダナキャラン 黒 半袖 シャツ カットソー トップス

リフレクト アール

ユー カットソー2枚トップス

トミーヒルフィガー ロンT

☆新品☆ CROON A SONG トップス

シンプリシテェ 美品 黒 カットソー

カテゴリTシャツ/カットソー

(半袖/袖なし) (119)Tシャツ/カットソー

(半袖/袖なし) (119)トップス (291)

Tシャツ/カットソー

(半袖/袖なし) (119)Tシャツ/カットソー

(七分/長袖) (120)Tシャツ/カットソー

(七分/長袖) (120)

ブランドDonna Karan New York (763)

ReFLEcT (1309) ofuon (392)TOMMY HILFIGER (840)

CROON A SONG (503)

Simplicite (7227)

TAP TAP TAP TAP TAP

ダナキャラン 黒 半袖 シャツ カットソー トップス リフレクト アールユー カットソー2枚 トップス トミーヒルフィガー ロン

T ☆新品☆ CROON A SONG トップス シンプリシテェ 美品 黒 カットソー

119 119 291 119 120 120

763 1309 392 840 503 7227

商品名、カテゴリID、ブランドIDをタップ順に単純にそれぞれ連結

Word2Vecで、単語やIDのベクトル表現を抽出し、類似するものを見てみると:

● 関連ワード

○ (ワンワン, うーたん), (ダウン, ダウンジャケット)● 関連カテゴリ

○ (ショルダーバッグ, トートバッグ, ハンドバッグ), (ひざ丈スカート, ミニワンピース, ひざ丈ワンピース)● 関連ブランド

○ (Gap, Old Navy, Nirvana), (IBM, CybertronPC, Dell), (Coach, Lauren Merkin, Michael Kors)

検索精度の改善や、関連商品の列挙に応用可能

Page 16: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

メルカリのデータ

16

● 出品データ○ 100万出品 / 日○ 商品画像○ 商品名○ 商品説明○ 商品状態○ 商品価格○ カテゴリ○ ブランド○ サイズ○ 配送方法

● サポートコミュニティ○ Q&Aデータ

● お客さまの行動データ○ 商品検索○ 商品タップ○ 商品への「いいね」○ 商品へのコメント○ 価格交渉○ 商品購入○ 商品出品○ 取引メッセージ○ 問い合わせ○ 商品通報

● ライブフリマ○ 動画データ

メルカリチャンネル

ライブ配信で売ったり買ったりを

楽しめるライブフリマの

動画データ

画像 / 動画 / テキスト / 行動ログなど、多岐にわたる大量のデータ

Page 17: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

カスタマーサポートへの機械学習の適用 (商品通報)

17

不適切な商品に対する

報告(商品通報)機能

● カスタマーサポートスタッフによる巡回

● お客さまによる商品通報によって市場を健全化

● 商品通報は基本的には人手で全て確認

● 誤操作によるものや、問い合わせ感覚の通報も含まれる

● 商品情報や出品者情報などを利用した業務効率化を進行中

○ 商品通報の人手による分類結果をそのまま学習できる

Page 18: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

カスタマーサポートへの機械学習の適用 (プロアクティブサポート)

18

問い合わせの内容は様々

● 取引手順に関するもの

● 商品が届かない

● 商品が思っていたものと違った

● 間違った評価をしてしまった

● 発送方法がわからない

問い合わせがなくても、お客さまをサポートしたい

● 取引メッセージ等からサポート対象を抽出

○ USでの特定の対象について進行中

● カスタマーサポートスタッフからメッセージを送信

● プロアクティブなサポートの履歴が溜まれば自動化も視野に入れる

Page 19: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

メルカリのデータ

19

● 出品データ○ 100万出品 / 日○ 商品画像○ 商品名○ 商品説明○ 商品状態○ 商品価格○ カテゴリ○ ブランド○ サイズ○ 配送方法

● サポートコミュニティ○ Q&Aデータ

● お客さまの行動データ○ 商品検索○ 商品タップ○ 商品への「いいね」○ 商品へのコメント○ 価格交渉○ 商品購入○ 商品出品○ 取引メッセージ○ 問い合わせ○ 商品通報

● ライブフリマ○ 動画データ

メルカリチャンネル

ライブ配信で売ったり買ったりを

楽しめるライブフリマの

動画データ

画像 / 動画 / テキスト / 行動ログなど、多岐にわたる大量のデータ

Page 20: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

売却される価格の推定(US Mercari にて)

20

よりよいユーザ体験を提供するために

● いくらくらいで売れるのかわからない

○ 過去の購買データよりどのくらいの金額になるかをモデリングする

○ 出品されるタイミングで,

■ カテゴリ情報

■ ブランド情報

■ 商品名や商品説明文

■ 商品の状態,... など

○ より価格の推定を行い,お客様へサジェストする

より良い出品/購買の体験を提供するために改善中

Page 21: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

アジェンダ

1. メルカリのご紹介

2. 機械学習・自然言語処理の活用のご紹介

3. 今後の取り組みについて

Page 22: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017
Page 23: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

今後の取り組み

1. データは豊富にあります !!

a. まだまだ出来ること,取り組みたいことがたくさんあります

b. メンバーとインターンを含めて約10名の体制

i. Bg. 画像処理,自然言語処理,機械学習,物理,ロボット系, ...

2. Kaggle に US Mercariのテーマを掲載(近日公開予定)

3. 機械学習や自然言語処理のエンジニアのインターン募集中です

a. 2017/08 中は,初めてサマーインターンも開催されました

Page 24: メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017