Upload
hiroaki-kudo
View
1.594
Download
0
Embed Size (px)
Citation preview
NLP若手の会 (YANS) 第12回シンポジウム
株式会社メルカリ
工藤 啓朗
メルカリにおける自然言語処理・機械学習の活用について
■ 工藤 啓朗(くどう ひろあき)
- 株式会社メルカリ Software Engineer (ML/NLP)
■ 経歴
- 大学 : 物理学科 (Black Hole, Inflation)- クラウドERPサービスを提供している企業
- プログラマ, 見積りデータ等を活用した業務改善や分析
- 転職サービスを提供している企業
- データ分析基盤の開発・運用, 機械学習等の技術を活用したチームの立ち上げ
- レコメンドエンジンの開発
- ニュースキュレーションアプリを提供している企業
- データ分析やアルゴリズムの開発・改善
自己紹介
アジェンダ
1. メルカリのご紹介
2. 機械学習・自然言語処理の活用のご紹介
3. 今後の取り組みについて
アジェンダ
1. メルカリのご紹介
2. 機械学習・自然言語処理の活用のご紹介
3. 今後の取り組みについて
株式会社メルカリ 概要■ 会社設立日: 2013年2月1日✓ サービスローンチ:
• 日本:2013年7月• 米国:2014年9月• 英国:2017年3月
■ オフィス : 東京、仙台、福岡、
San Francisco、Portland、London■ 従業員数:約500名✓ 半数以上の従業員はカスタマーサポート
5
N
フリマアプリ「メルカリ」とは
● 日本最大のフリマアプリ○ フリマアプリ利用者中約9割がメルカリを利用○ 月間の流通額100億円超○ 1日あたり100万出品○ アプリダウンロード数 (日本5,000万、アメリカ2,500万)
● 安心安全の決済○ エスクロー○ お金のやり取りは当社が間に介在
● 3分で簡単出品○ 写真を撮る○ 商品情報を記入○ 出品ボタンを押すだけ
6※「フリマアプリの利用に関するアンケート調査期間: 2015年10月14日〜10月19日」よりジャストシステム「ファストアスク」調べ
メルカリのデータ
7
● 出品データ○ 100万出品 / 日○ 商品画像○ 商品名○ 商品説明○ 商品状態○ 商品価格○ カテゴリ○ ブランド○ サイズ○ 配送方法
● サポートコミュニティ○ Q&Aデータ
● お客さまの行動データ○ 商品検索○ 商品タップ○ 商品への「いいね」○ 商品へのコメント○ 価格交渉○ 商品購入○ 商品出品○ 取引メッセージ○ 問い合わせ○ 商品通報
● ライブフリマ○ 動画データ
メルカリチャンネル
ライブ配信で売ったり買ったりを
楽しめるライブフリマの
動画データ
画像 / 動画 / テキスト / 行動ログなど、多岐にわたる大量のデータ
アジェンダ
1. メルカリのご紹介
2. 機械学習・自然言語処理の活用のご紹介
3. 今後の取り組みについて
メルカリでの応用範囲の例
● 情報検索,情報推薦
○ 検索精度の改善,タイムラインのパーソナライズ,レコメンド
● 文書分類,単語分割,状態空間モデル
○ 取引メッセージからお客様が困っていそうなケースを検知
○ 不適切な商品の検知
● 統計モデリング,ランキング学習
○ 出品時に売却されやすい価格の推薦
検索精度の改善
10
同じ検索ワードでも検索したいものは人それぞれ
● 検索の意図を推定○ 面白い○ 効果ありそう○ 行動ログから推定できそう
● 検索ワードのサジェストの改善○ カテゴリフィルタの追加○ 検索→タップログから集計
● 検索アルゴリズムの改善
検索精度の改善
11
同じ検索ワードでも検索したいものは人それぞれ
● 検索の意図を推定○ 面白い○ 効果ありそう○ 行動ログから推定できそう
● 検索ワードのサジェストの改善○ カテゴリフィルタの追加○ 検索→タップログから集計
● 検索アルゴリズムの改善○ 本体 / 付属品問題
■ 本体が欲しいのに付属品ばかり・・・■ パソコン / スマートフォン / ゲーム機
メルカリのデータ
12
● 出品データ○ 100万出品 / 日○ 商品画像○ 商品名○ 商品説明○ 商品状態○ 商品価格○ カテゴリ○ ブランド○ サイズ○ 配送方法
● サポートコミュニティ○ Q&Aデータ
● お客さまの行動データ○ 商品検索○ 商品タップ○ 商品への「いいね」○ 商品へのコメント○ 価格交渉○ 商品購入○ 商品出品○ 取引メッセージ○ 問い合わせ○ 商品通報
● ライブフリマ○ 動画データ
メルカリチャンネル
ライブ配信で売ったり買ったりを
楽しめるライブフリマの
動画データ
画像 / 動画 / テキスト / 行動ログなど、多岐にわたる大量のデータ
デモグラフィック情報 / 趣味嗜好の推定
13
よりよいユーザ体験を提供するために
● タイムラインの出しわけ○ デモグラフィック情報の推定○ タップされた商品のタイトルを連結○ TF-IDF + ナイーブベイズ分類器
● 趣味嗜好の推定 女性向け 男性向け
columbia ショルダーバッグ mont-bell モンベル ショルダー バッグ、ノース
フェイス、コロンビア☆ Columbia ウエストポーチ ショルダーバッグ Columbia・ショルダーバッグ ショルダーバック コロンビア
デモグラフィック情報 / 趣味嗜好の推定
14
よりよいユーザ体験を提供するために
● タイムラインの出しわけ○ デモグラフィック情報の推定○ タップされた商品のタイトルを連結○ TF-IDF + ナイーブベイズ分類器
● 趣味嗜好の推定○ タップ履歴に基づくユーザクラスタリング○ タップされた商品のタイトルを連結○ TF-IDF + k-means○ 例えば、プッシュ通知の文言の出しわけ
インテリア好き
スマホもおしゃれにしたい女子高生
小物まで気を遣うオシャレ男子
関連ワード / 関連カテゴリ / 関連ブランドの抽出
15
商品名
ダナキャラン 黒 半袖 シャツ カットソー トップス
リフレクト アール
ユー カットソー2枚トップス
トミーヒルフィガー ロンT
☆新品☆ CROON A SONG トップス
シンプリシテェ 美品 黒 カットソー
カテゴリTシャツ/カットソー
(半袖/袖なし) (119)Tシャツ/カットソー
(半袖/袖なし) (119)トップス (291)
Tシャツ/カットソー
(半袖/袖なし) (119)Tシャツ/カットソー
(七分/長袖) (120)Tシャツ/カットソー
(七分/長袖) (120)
ブランドDonna Karan New York (763)
ReFLEcT (1309) ofuon (392)TOMMY HILFIGER (840)
CROON A SONG (503)
Simplicite (7227)
TAP TAP TAP TAP TAP
ダナキャラン 黒 半袖 シャツ カットソー トップス リフレクト アールユー カットソー2枚 トップス トミーヒルフィガー ロン
T ☆新品☆ CROON A SONG トップス シンプリシテェ 美品 黒 カットソー
119 119 291 119 120 120
763 1309 392 840 503 7227
商品名、カテゴリID、ブランドIDをタップ順に単純にそれぞれ連結
Word2Vecで、単語やIDのベクトル表現を抽出し、類似するものを見てみると:
● 関連ワード
○ (ワンワン, うーたん), (ダウン, ダウンジャケット)● 関連カテゴリ
○ (ショルダーバッグ, トートバッグ, ハンドバッグ), (ひざ丈スカート, ミニワンピース, ひざ丈ワンピース)● 関連ブランド
○ (Gap, Old Navy, Nirvana), (IBM, CybertronPC, Dell), (Coach, Lauren Merkin, Michael Kors)
検索精度の改善や、関連商品の列挙に応用可能
メルカリのデータ
16
● 出品データ○ 100万出品 / 日○ 商品画像○ 商品名○ 商品説明○ 商品状態○ 商品価格○ カテゴリ○ ブランド○ サイズ○ 配送方法
● サポートコミュニティ○ Q&Aデータ
● お客さまの行動データ○ 商品検索○ 商品タップ○ 商品への「いいね」○ 商品へのコメント○ 価格交渉○ 商品購入○ 商品出品○ 取引メッセージ○ 問い合わせ○ 商品通報
● ライブフリマ○ 動画データ
メルカリチャンネル
ライブ配信で売ったり買ったりを
楽しめるライブフリマの
動画データ
画像 / 動画 / テキスト / 行動ログなど、多岐にわたる大量のデータ
カスタマーサポートへの機械学習の適用 (商品通報)
17
不適切な商品に対する
報告(商品通報)機能
● カスタマーサポートスタッフによる巡回
● お客さまによる商品通報によって市場を健全化
● 商品通報は基本的には人手で全て確認
● 誤操作によるものや、問い合わせ感覚の通報も含まれる
● 商品情報や出品者情報などを利用した業務効率化を進行中
○ 商品通報の人手による分類結果をそのまま学習できる
カスタマーサポートへの機械学習の適用 (プロアクティブサポート)
18
問い合わせの内容は様々
● 取引手順に関するもの
● 商品が届かない
● 商品が思っていたものと違った
● 間違った評価をしてしまった
● 発送方法がわからない
問い合わせがなくても、お客さまをサポートしたい
● 取引メッセージ等からサポート対象を抽出
○ USでの特定の対象について進行中
● カスタマーサポートスタッフからメッセージを送信
● プロアクティブなサポートの履歴が溜まれば自動化も視野に入れる
メルカリのデータ
19
● 出品データ○ 100万出品 / 日○ 商品画像○ 商品名○ 商品説明○ 商品状態○ 商品価格○ カテゴリ○ ブランド○ サイズ○ 配送方法
● サポートコミュニティ○ Q&Aデータ
● お客さまの行動データ○ 商品検索○ 商品タップ○ 商品への「いいね」○ 商品へのコメント○ 価格交渉○ 商品購入○ 商品出品○ 取引メッセージ○ 問い合わせ○ 商品通報
● ライブフリマ○ 動画データ
メルカリチャンネル
ライブ配信で売ったり買ったりを
楽しめるライブフリマの
動画データ
画像 / 動画 / テキスト / 行動ログなど、多岐にわたる大量のデータ
売却される価格の推定(US Mercari にて)
20
よりよいユーザ体験を提供するために
● いくらくらいで売れるのかわからない
○ 過去の購買データよりどのくらいの金額になるかをモデリングする
○ 出品されるタイミングで,
■ カテゴリ情報
■ ブランド情報
■ 商品名や商品説明文
■ 商品の状態,... など
○ より価格の推定を行い,お客様へサジェストする
より良い出品/購買の体験を提供するために改善中
アジェンダ
1. メルカリのご紹介
2. 機械学習・自然言語処理の活用のご紹介
3. 今後の取り組みについて
今後の取り組み
1. データは豊富にあります !!
a. まだまだ出来ること,取り組みたいことがたくさんあります
b. メンバーとインターンを含めて約10名の体制
i. Bg. 画像処理,自然言語処理,機械学習,物理,ロボット系, ...
2. Kaggle に US Mercariのテーマを掲載(近日公開予定)
3. 機械学習や自然言語処理のエンジニアのインターン募集中です
a. 2017/08 中は,初めてサマーインターンも開催されました