Upload
akio-kondo
View
1.536
Download
0
Embed Size (px)
Citation preview
1 05/03/2023
シンギュラリティ株式会社
賢くなる自動フィードアグリゲータの制作 9月号
TensorFlow 勉強会 第 5 回
Singularity Copyright 2016 Singularity Inc. All rights reserved
Singularity 株式会社 代表取締役近藤 昭雄
2 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
自己紹介
3 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
居酒屋出身の組み込みエンジニア
4 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
Android の SDK がリリースされてから人生が変わった
5 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
Android SDKが発表された当日にAndroid情報まとめ wiki開設
6 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
2008/02/05Armadillo-500に Androidをポーティング、
Youtubeにビデオ公開
7 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
2009/12/01開発に携わった Androidアプリスポットメッセージ」が ADC2のソーシャル部門で入賞
8 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
2010年Android温泉グループ創設、
Androidなんとか部をいっぱい作る
9 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
Androidなんとか部
10 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
2010/09/04執筆、取りまとめをした
「 Android Hacks」がオライリー社より出版
11 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
2016/07/15「死ぬ前に後悔したくない」
Singularity株式会社設立
12 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
本題
13
概要 動機 賢くなる自動フィードアグリゲータとは 要素技術
トピックモデル LDA Word2Vec 、 Doc2Vec RSS Slack スマホアプリ
実装 今後の展望
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
14
動機
最近、情報収集が面倒になってきてませんか?
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
15
動機• 以前の情報収集方法
• Yahoo Pipes があった
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
16
動機• 現在の (個人的な )情報収集方法
• はてブニュース• RSS に全文がない
• Google Alert• SNS(Twitter 、 Facebook)• 某巨大掲示板とても面倒な上に情報キャッチまでがとても遅い!新しい情報はすぐに知りたい!
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
17
動機• そもそもネット上の情報量が増えた
http://www.nikkei.com/article/DGXNASDD070EU_X00C13A6TJ0000/
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
18
動機• そもそもネット上の情報量が増えた
喜連川優「情報爆発のこれまでとこれから」 , 電子情報通信学会誌 ,Vol.94,No8,2011
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
19
動機• そもそもネット上の情報量が増えた
• 2012 年の調査では 2012 年に作成および複製されるデータは 2.8 ゼッタバイトに達する• 5 エクサバイト
• 今まで人間によって話されたすべての言葉• 175 エクサバイト
• 2010 年の 1 年間にインターネットに流れたデータの量※http://www.amy.hi-ho.ne.jp/kido/howmuchinfo.htm
喜連川優「情報爆発のこれまでとこれから」 , 電子情報通信学会誌 ,Vol.94,No8,2011
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
20
動機
自分だけで情報をフィルタするのはもはや限界!!!
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
21
動機• 巡回するだけで1日が終わってしまう• 自動で巡回して欲しい情報を勝手にピックアップしてプッシュ通知して欲しい• 読んだ後に評価 (いいね!、イマイチ )をして、ピックアップする記事を学習して質を高めて欲しい
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
22
動機• もう SmartNewsとが Gunosyがあるやん?
• 欲しい情報だけは取れない• ジャンルも多くて見るの大変• 自分が欲しいキーワードの最新情報は取れない
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
23
動機• Googleのニュースアプリでキーワード設定できるよ
• 一致する単語が出てこないと引っかからない• おそらく Google Alert と同じ実装
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
24
動機• そのものズバリのキーワードが入った記事だけじゃなくて、好みを学習して関連語も拾って欲しい
• 例)「 Singularity 」のキーワードを設定すると「人工知能」「 AI 」「 AGI 」「汎用人工知能」「ナノテク」「不老不死」「サイボーグ」「ロボット」「攻殻機動隊」 とかも拾ってきたり。05/03/2023
Singularity Copyright 2016 Singularity Inc. All rights reserved
25
動機
何故か世の中にまだ存在しない (公開されていない? )
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
26
動機
「未来を予測する最善の方法は、それを発明してしまうことだ」
By. Alan Curtis Kay
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
27
賢くなる自動フィードアグリゲータとは• キーワードと RSSフィード (複数 )を入力• 関連語も含めて記事を収集し RSSを生成• 新着記事をプッシュ通知
• アプリ、 Slack など• 読んだ記事の評価による学習
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
28
要素技術• RSSの整形、生成、記事の全文の取得• 文書の分類、トピックの抽出• 文書の関連度を測定• Push通知• 学習
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
29
要素技術• トピックモデル
• 文書集合からトピックを抽出、推定する
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
岩田具治 著「トピックモデル」より
30
要素技術• LDA(Latent Dirichlet Allocation)
• 文書中の単語の「トピック」を確率的に求める言語モデル• 教師なしで文書のトピックを推定• 決めた分割数で文書を分類する
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
31
要素技術• BoW(Bag Of Words)
• 文書の構造は考えずにひたすら単語をカウントする• 文書の特徴をベクトル化する
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
あの壺はいい物だあの 壺 は いい 物 だ
あの その あれ … 壺 … いい 悪い … 物1 0 0 1 1 0 1
32
要素技術• Word2Vec
• 文書中の単語の意味構造をベクトル化• 単語が類似度を算出可能
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
33
要素技術• Doc2Vec
• 文書の類似度が算出可能
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
34
要素技術• RSSの整形、生成、記事の全文の取得
• Plagger• 文書の分類、トピックの抽出• 文書の関連度を測定
• Word2Vec 、 Doc2Vec• Push通知
• 何とでもなる• 学習
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
35
実装• RSSの整形、生成、記事の全文の取得
• Plagger• 「それ Plagger でできるよ」で一世風靡• RSS が存在しないサイトも RSS 化• 最近全然更新されていない• 環境構築だけでひと苦労• 最近の記事がほとんどない• perlbrew を使って何とか環境は構築できた
• そもそも RSS で全文吐いて欲しい!• 誰か扱いやすいもの知りませんか?
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
36
実装• 文書の分類、トピックの抽出
• gensim• LDA も Word2Vec も比較的簡単に扱える• 試しに Wikipedia でコーパス作成• 英語 Wikipedia のデータだけで 13GB• データの前処理だけで3時間以上かかって中断 (昨日 :9/26 の夕方 )
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
37
実装• 文書の分類、トピックの抽出
• トピックモデル、 BoW• RSS で取ってきたデータのカテゴリ分けを実験
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
38
実装
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
39
実装• RSSの整形、生成、記事の全文の取得• 文書の分類、トピックの抽出→イマココ
• トピックの関連度を測定• Push通知• 学習
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
40
今後の展望• 俺得ローカルサービスから一般公開を目指す• 個人が育てて賢くなった RSSを他人も使えるようにする• 生成した RSSをさらに入力データにして、どんどん賢くする• カッコいい名前をつける• 次の開催までにはプロトタイプを
05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
41 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved
ご静聴ありがとうございました!
42
お問い合わせご興味のある企業・団体・個人様は、以下までお問い合わせくださ
い。
シンギュラリティ株式会社
http://snglrty.net東京都港区浜松町 2-7-15 三電舎ビル 6F
Tel 03-5425-2545代表取締役 近藤昭雄
E-mail: [email protected]/03/2023
Singularity Copyright 2016 Singularity Inc. All rights reserved