Upload
yoshinori-matsumoto
View
346
Download
1
Embed Size (px)
DESCRIPTION
社内の有志が集まって行った合宿の成果発表
Citation preview
合宿成果発表
Yoshinori Matsumoto2013年5月4日
合宿成果発表 2013年5月4日 @ym405nm
合宿とは?
•社内有志が集まって合宿•海鮮あり、ラーメンあり、ビールあり、滝あり、加古川ありの楽しい開発合宿
合宿成果発表 2013年5月4日 @ym405nm
今回つくったもの
•動画配信サイトで好みの動画を機械学習を用いて自動的に分析する「俺得 動画自動判断」を動作させ理想の嫁の動画をみつける
•たまたま旅館がネット回線がなかったため、開発には工夫が必要(旅館内ネットX, e-mobile X, WiMAX X, au LTE X, au 3G X)
合宿成果発表 2013年5月4日 @ym405nm
前回までつくっていたもの
•某動画サイトにアップロードされたカテゴリ「XXXXXX(自主規制)」動画からコメントを取得し、機械学習で分析し、好みの分野かどうかを取得
•使用したもの -> MeCab, ベイズ理論
合宿成果発表 2013年5月4日 @ym405nm
今回つくってみたもの
•事前に好みのタグを入力しておいて、あらかじめ用意した動画の中に含まれているかどうかを調べる
•調べた結果によって教師データを作成する•任意の動画を入力して計算をすることで、それが自分にとって向いているかを計算する
•使用したもの -> Jubatus
合宿成果発表 2013年5月4日 @ym405nm
(参考) Jubatusとは
•オンライン機械学習向け分散処理フレームワーク
•株式会社Preferred InfrastructureとNTTソフトウェアイノベーションセンタが開発
•オープンソースソフトウエアで、LGPL v2.1 のライセンスで配布されている
合宿成果発表 2013年5月4日 @ym405nm
使用データ
•たまたま持っていた、某動画サイトにアップロードされた2012年12月ごろの動画 1,626 件のタグ情報 15,079 個 (タグは重複を含む) ※動画情報はAPIから取得参考 -> http://goo.gl/u70B3
合宿成果発表 2013年5月4日 @ym405nm
動作
•好みのワードをカンマ区切りで指定し、テキストデータとして保存しておく
•好みのワードがタグとして含まれている動画を「Good」、そうでない動画を「Bad」として入力
•他の動画を入力して「Good」か「Bad」かを判断する
合宿成果発表 2013年5月4日 @ym405nm
結果 / 考察
•定量的な確認はしていないが、正しくスコアが計算されていたことを確認
•事前に入力したデータが少なかった、判断基準がタグだけであったことから、機械学習を活用するにはまだまだ不十分な点が多い
• Jubatus はインストールしてしまえれば、サーバ・クライアント通信として楽に使える
合宿成果発表 2013年5月4日 @ym405nm
今後の課題
• MeCab, re2 等のプラグインを入れて活用したい• 計算されたデータの正当性の確認• 教師データとなる要素を増やしたい(可能であればコメントとかソーシャル系の反応とかもまとめたい)
• 継続的な処理として動作させる• 分散処理(ぇ