12
http://pixabay.com/ja/%E3%82%A2%E3%83%AB %E3%83%95%E3%82%A1%E3%83%99%E3%83%83%E3%83%88-%E3%83%AA %E3%83%86%E3%83%A9%E3%82%B7%E3%83%BC-%E6%96%87%E5%AD%97-%E8%AA%AD %E3%81%BF%E5%8F%96%E3%82%8A-%E3%82%A2%E3%83%AB %E3%83%95%E3%82%A1%E3%83%99%E3%83%83%E3%83%88%E9%A0%86-99374/ 第 1 第 Web 第第第第第第第第第第 @ 第第 # 第第第第第第第第第第第第第第第第第第第第 第第第第第 / 第第第第第第第第第第第第第 @ nezuq

渡る世間は自然言語ばかり #東京スクラッパー

  • Upload
    nezuq

  • View
    1.689

  • Download
    0

Embed Size (px)

DESCRIPTION

第1回Webスクレイピング勉強会@東京の発表資料。

Citation preview

Page 1: 渡る世間は自然言語ばかり #東京スクラッパー

http://pixabay.com/ja/%E3%82%A2%E3%83%AB%E3%83%95%E3%82%A1%E3%83%99%E3%83%83%E3%83%88-%E3%83%AA%E3%83%86%E3%83%A9%E3%82%B7%E3%83%BC-%E6%96%87%E5%AD%97-%E8%AA%AD%E3%81%BF%E5%8F%96%E3%82%8A-%E3%82%A2%E3%83%AB%E3%83%95%E3%82%A1%E3%83%99%E3%83%83%E3%83%88%E9%A0%86-99374/

第 1 回 Web スクレイピング勉強会 @ 東京( # 東京スクラッパー)

渡る世間は自然言語ばかり〜単語分割 /品詞特定で獲得データ量倍増!〜

@nezuq

Page 2: 渡る世間は自然言語ばかり #東京スクラッパー

Web データは、構造化されていない……というか、自然言語( ex. 普通の会話文)ばかり……

Python - PDF PDFMiner PDF - Qiitahttp://qiita.com/nezuq/items/75e8366d68c66e徹底攻略 オープンデータ。 で始める テキスト分析。56ff53

Page 3: 渡る世間は自然言語ばかり #東京スクラッパー

これ /を /構造 /化 /でき /たら /、 /データ量 /倍増 /な /のに /なぁ /!

Page 4: 渡る世間は自然言語ばかり #東京スクラッパー

感情分析とかもできちゃうのになぁ!

Good

・嫌い

・暗い・辛い・気持ち悪い

・悪魔・バカ     ……

・好き

・明るい・楽しい・気持ちいい

・天使・天才     ……

ミクさんマジ天使!

Bad

Page 5: 渡る世間は自然言語ばかり #東京スクラッパー

できます!

Page 6: 渡る世間は自然言語ばかり #東京スクラッパー

ツールはいっぱいある。代表的なツールとして、3つを紹介!

・ MicrosoftOffice Word ( Word-VBA )・ Yahoo API (日本語形態素解析 API )・ MeCab

Page 7: 渡る世間は自然言語ばかり #東京スクラッパー

MicrosoftOffice Word

WordVBA の Document.words プロパティで、文書内の単語を配列として取得できる。

※ただし、候補が2つ以上の場合は、両方とも取得される。

Sub 分かち書き () Set doc = Documents.Add For Each wrd In ThisDocument.Words doc.Content.InsertAfter wrd & "/" NextEnd Sub

ミク / さん /マジ / 天使 / ! /

参考:WordVBAで分かち書き - Qiita

Page 8: 渡る世間は自然言語ばかり #東京スクラッパー

Yahoo API

日本語形態素解析 API で、文書内の単語を品詞付き XML として取得できる。

※ただし、使用回数と文章量に限界がある。

http://jlp.yahooapis.jp/MAService/V1/parse?appid=< あなたのアプリケーションID>&results=ma,uniq&uniq_filter=9%7C10&sentence= ミクさんマジ天使!

<word><surface> ミク </surface><reading> みく </reading><pos> 名詞 </pos><baseform> ミク </baseform></word> ……

参考:テキスト解析:日本語形態素解析API - Yahoo!デベロッパーネットワーク

Page 9: 渡る世間は自然言語ばかり #東京スクラッパー

MeCab

オープンソースの形態素解析エンジンで、文書内の単語を品詞付き CSV として取得できる。

※使用回数に限界はなく、長文も対応できる。

$ mecabミクさんマジ天使!

ミク 名詞 , 固有名詞 , 人名 , 名 ,*,*, ミク , ミク , ミクさん 名詞 , 接尾 , 人名 ,*,*,*, さん , サン , サンマジ 名詞 , 一般 ,*,*,*,*, マジ , マジ , マジ , ニコニコ大百科天使 名詞 , 一般 ,*,*,*,*, 天使 , テンシ , テンシ , ニコニコ大百科! 記号 , 一般 ,*,*,*,*, ! , ! , !

参考:MeCab: Yet Another Part-of-Speech and Morphological Analyzer

Page 10: 渡る世間は自然言語ばかり #東京スクラッパー

ただし、 MeCab は新語・俗語に弱い。

Page 11: 渡る世間は自然言語ばかり #東京スクラッパー

辞書を拡張する。代表的なデータ元として、3つを紹介!

実際の追加方法は「 < サイト名 > mecab 辞書」でググる。

・ Wikipedia・はてなキーワード・ニコニコ大百科

Page 12: 渡る世間は自然言語ばかり #東京スクラッパー

自然言語処理を楽しもう!

自然言語 名詞 , 固有名詞 ,*,*,*,*, 自然言語 ,*,*,wikipedia_word,処理 名詞 , サ変接続 ,*,*,*,*, 処理 , ショリ , ショリを 助詞 , 格助詞 , 一般 ,*,*,*, を , ヲ , ヲ楽しも 動詞 , 自立 ,*,*, 五段・マ行 , 未然ウ接続 , 楽しむ , タノシモ , タノシモう 助動詞 ,*,*,*, 不変化型 , 基本形 , う , ウ , ウEOS