Upload
shogo-okamoto
View
5.156
Download
10
Embed Size (px)
DESCRIPTION
Crawling and scraping tool to retrieve information from website.
Citation preview
Webスクレイピング勉強会
2014/10/26
私が開発してるhappyou.infoに
ついて
岡本将吾 @shogookamoto
フリーランス
今回はRSSフィードに偏り
自己紹介
FeedBeatera
Feed43
myrss.jp
RSSクリエイター
gooRSS生成
XpathFeed
Feedity.com
Page2FeedAPI
Page2RSS
Google Reader track change
はてなアンテナ
なんでもRSS
Needlebase
Open-dapper
Kimonolabs
Import.io
ScraperWiki
OutWit Hub
Grepsr
Mozenda
●a.k.a web scraping, web wrapper.
マニュアル指定型(XPath, マウス指定) オートマチック(差分、繰り返し、日付、リンク)
様々なスクレイピングツール
RSSリーダーを使って好みのサイトを読むレベルではオートマでもいい。
マニュアル指定 サイトごとに手作業
が発生。規模拡大できない。
オートマティック 結果の精度が低い
。結局人間が読まなければならない。
スクレイピングは大変
高精度
低精度
マニュアル指定 自動抽出
Page2FeedAPI
なんでもRSS
Page2RSS
Google Reader track change
FeedBeater
Feed43
myrss.jp
XpathFeed
Needlebase
Open-dapper
Kimonolabs
Import.io
ScraperWiki
OutWit Hub
スクレイピングは大変
ウェブからマシンリーダブルな情報を抽出するのに、人手が必要
現状の人類の限界
●はなしをおおきく
高精度
低精度
マニュアル指定 自動抽出
Page2FeedAPI
はてなアンテナ
Page2RSS
Google Reader track change
FeedBeater
Feed43
myrss.jp
XpathFeed
scrapingHub
80legs
Kimonolabs
Import.io
ScraperWiki
OutWit Hub Final Scraper
スクレイピングは大変
Final Scraperのウェブ版
実際の自動スクレイピング(1)
●http://www.happyou.info/fs/ja/sample.php
実際の自動スクレイピング(2)
●http://www.happyou.info/fs/ja/sample.php
●政府機関はリストがなくコンプリートできない。地方自治体は出来る。
政府機関と全上場企業をスクレイピングhttp://www.happyou.info/ja/site/fps
タグをつけて分類WebAPIhttps://zaisoft.sakura.ne.jp/happyou/webappv1/index.php
Happyou.infoとは何か
最後までお聞きいただきありがとうございました
もしご興味があれば使ってください
happyou.info
●まだ完全にできてない