Upload
shingo-mori
View
1.681
Download
2
Embed Size (px)
Citation preview
Wikipediaで位置情報のテキストマインニングっぽいことをやってみた
Prototyping for Experimental Rapid implementedversion of Location information application
はてな id:babydaemonsTwitter @babydaemons
Self Introduction:・ブラック系ITベンダの切り込み隊長・つい最近までプロジェクトが4スレッド並行稼働・Nagoya.pmしか活動してない。orz・妻一人、息子一人
・はてな id:babydaemons・Twitter @babydaemons・その他 http://www.google.com/?q=babydaemons
今日のお題:
https://github.com/babydaemons/p5-MediaWiki-DumpFile-Parse/
Agenda:
・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
Agenda:
・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
jawiki-latest-pages-articles
.xml.bz2
*.xml.bz2 1.6GB*.xml 8.0GB
EmacsやVimで開くのは
神業!
Memory 16GB MacBook Pro所有の大先生
Agenda:
・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
Perlでは
MediaWiki::DumpFile::Pages
On CPAN
Rubyでは
https://github.com/yohasebe/wp2txt/
Faculty of Global Communications, Doshisha University
貧民業では?
Memory 4GB MacBook Air所有の大貧民
https://github.com/babydaemons/wikipedia-scipts/
Agenda:
・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
その対象:緯度・経度
住所(日本語のみ)
Agenda:
・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
概要はテレビCMで!!
某社の位置情報DBとWikipedia記事の紐付け
Released onガラケー!!
PC/スマホ?お察し下さい
orz
ちなみにプロダクトコードは
Java
Perlはprototyping
Javaでプロトタイプ出来ないんですか?
関数型言語クラスタとテストクラスタの大家
Agenda:
・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
まとめ:
・Wikipediaのダンプ超デカっ!・MySQL取り込み鬼門!・生データなら楽チン!・正規表現最強!・詳細は夜の部で聞いてね!・だれかMakefile.PMの書き方 教えてください。m(_ _)m