View
91
Download
0
Category
Preview:
Citation preview
「リクルートデータセット」~ 公開までの道のりとこれから ~
IDRユーザフォーラム 2016パネルセッション
♥
自己紹介
櫻井 一貴 Kazutaka Sakurai
株式会社リクルートテクノロジーズ経営企画部 経営企画グループ兼 アドバンスドテクノロジーラボ
情報処理学会 DBS研究会 幹事関西学院大学 社会情報学研究センター 客員研究員
アジェンダ
1 リクルートとリクルートテクノロジーズ
2 公開したデータセットの概要
3 公開する目的
4 データ公開に向けて感じた悩み
5 今後にむけて
1-1 リクルートについて
私たちは、誰かと誰かを結ぶ「場」を提供しています
1-1 リクルートについて
主なビジネスドメイン
1-1 リクルートについて
主なビジネスドメインと代表的なサービス
1-2 リクルートテクノロジーズについて
Solutions (IT & Internet marketing)
SEO
Marketing SupportDevelopment
Infrastructure
Service Design Impact Analysis
Smart Device
Big Data Solution
PC & N/W Support R&D
事業横断でデータを取り扱うことができるポジション
2 公開したデータセットの概要
2 公開したデータセットの概要(枠組み:事業向け説明資料より)
RLS
RTC NII B大学RMP
RSC
RCA
・・・
RAD A大学
C大学
D大学
・・・
NII:国立情報学研究所www.nii.ac.jp/National Institute of Informatics
情報学という新しい研究分野での「未来価値創成」を目指す国内唯一の学術総合研究所。ネットワーク、ソフトウェア、コンテンツなどの情報関連分野の新しい理論・方法論から応用展開までの研究開発を総合的に推進する
情報提供に関する包括的契約
RTC⇔NII契約内容の確認
データ提供
学術研究を目的としたデータ利用(@各研究室)
情報利用に関する包括的契約
契約とりまとめ、データ加工など
2 公開したデータセットの概要(利用状況)
申請総数:20
(国公立大学:6)
(私立大学:12)
(その他:2)
2 公開したデータセットの概要(実際の活用状況、抜粋)
主な活用状況
ご意見・感想
・論文「感情極性値を用いたレビューの有用性自動評価」・論文「価値観ベース協調フィルタリングのユーザ特性解析による
推薦性能向上に関する研究」(修士論文)・口コミデータを使った時系列分析、計量テキスト分析・自作自演の印象を与える口コミにどのような特徴があるかの分析
・たくさんの種類のデータがあって、さまざまな角度から分析できる・データの形式がそろっていない部分があり、扱いにくい・肯定的なレビューの数の方が圧倒的に多く、学習時などその偏りを
どう克服するかが大変だった・売上データなどもわかると分析の幅が広がるためありがたい
3 公開する目的
① CSRの観点
② 新しい技術やアイディアの獲得
③ プレゼンス向上
:研究レベル向上のために民間企業として資することのできる余地?
:最先端の研究結果をビジネスに接続できないか?
:分析しがいのあるデータを保有する企業であることを訴求
4 データ公開に向けて感じた悩み
① リスクテイク( パーミッション済みとはいえ”最悪のシナリオ”をどう捉えるか)
② 機能組織ならではの悩み(「データにアクセスできる」↔「データを取り扱う権限を持つ」)
③ ROI?(公開準備タスクもろもろ ↔ [CSR/技術獲得/プレゼンス])
4 データ公開に向けて感じた悩み
① リスクテイク( パーミッション済みとはいえ”最悪のシナリオ”をどう捉えるか)
「公開をするとどんなリスクがあるのか、万一発生したら問題ないのか」※クライアント、カスタマーのデータを活用するため、事業は慎重にならざるをえない
↓・想定範囲(学術利用)外に流出する可能性が極めて低いことを説明・想定される「最もよくないシナリオ」を列挙、事業に共有をした
(例) USBメモリの置き忘れ等でデータが流出したら?(例) 利用者がデータを商用利用したら?
4 データ公開に向けて感じた悩み
② 機能組織ならではの悩み(「データにアクセスできる」⇔「データを取り扱う権限を持つ」)
4 データ公開に向けて感じた悩み
③ ROI?(公開準備タスクもろもろ ↔ [CSR/技術獲得/プレゼンス])
1)協力(賛同)を得られるサービスを探す >工数割いてまで…リスク…
2)公開対象データの選定 >個人情報含まず、パーミッション済み…
3)データの取得 >自社内securityレベルも高まり、意外と手間
4)データ整形 >マスキング、カラム除外、暗号化…
5)受け渡し
↑ここまで辿り着くのに実は数ヶ月以上も・・・
5 今後にむけて ~とはいえ前向きにデータ公開を推進するために
① 自社コントロールで活用(ハッカソン他)
② データの多様化(ビッグデータの “3V”)
③ 公開までのタスクの簡素化、効果の可視化
① 自社コントロールで活用(ハッカソン他)
今期も開催します!絶賛エントリー受付中!
(2017/3/27-31)
タスクの設定データからの発想事業からのF/B
② データの多様化(ビッグデータの “3V”)
Variety
Verocity
Volume
② データの多様化(ビッグデータの “3V”)
② データの多様化(ビッグデータの “3V”)
③ 公開までのタスクの簡素化、効果の可視化
(タスク簡素化)→手間・ステップをシンプルにできればより多くのデータ
公開をスピーディに展開できる。ROIも向上する
(効果の可視化)→「どれだけ世の役に立っているか」に加え、具体的な
ビジネス面での成果が生まれる&可視化されると、事業のメリットに繋がる
今後に向けて
「いかに高いROIを担保できるか」を意識しつつ、Variety を豊富にできないか、検討していきたい
(大事なことなのでもう一度!)
今期も開催します!絶賛エントリー受付中!
(2017/3/27-31)
ご清聴ありがとうございました
Recommended