34
前回までのLTのサマリー

Creators'night#8今井

Embed Size (px)

Citation preview

前回までのLTのサマリー

これまで、 加藤さんの写真に 頼りすぎだった。

父ちゃん、母ちゃん 俺、ゲームクリエイターになる!

※「俺」も「父ちゃん」も「母ちゃん」も普段使いません。

「マッチ3ゲーム」 同じ絵柄を3つ以上揃え消す シンプルなゲームルール

つくってみた

スマホアプリ作るまで続く 長期連載シリーズ

を、1回お休みしまして、

~ 「兆し」って見つけられんの? ~

今更あらためて 形態素解析使ってみた

ネットプライスドットコム NPLab. いまい大すけ

経緯

大ちゃん、 まとめサイトで 「話題の」って

見つけられないかな

なるほどそれは確かに一理ある

ちょっと 調べてみます

クローリング ↓

形態素解析 ↓

その後考えてみる

とは言え、 今さらクローラー 書くのもなぁ。

「Webstemmer」http://www.unixuser.org/~euske/python/

webstemmer/index-j.html

Webstemmer

Pythonで書かれたオープンソースのクローラー。 webクーローラ「textcrawler.py」 レイアウト解析「analyze.py」 テキスト抽出「extract.py」 の3本からなるプログラム

あら、面白そう。 サイトから仕組みを抜粋。

1. あるサイトのページを異なるレイアウトごとに分類

2. 同一レイアウトのページを並べる

3. 共通する部分を削除し、残ったものを記事本文とする

編集距離 (あるいはレーベンシュタイン距離)とクラスタリング

早速使ってみましょう

対象サイト

出力例!MATCHED: 201207200111/www.netprice.co.jp/netprice/library/goods/582817/ PATTERN: 201207200111/www.netprice.co.jp/netprice/library/goods/582476/ SUB-0: 【1缶約53円】これからの季節に♪三ツ矢サイダー缶250ml 60缶 | ネットプライス 582817 TITLE: 【1缶約53円】これからの季節に♪三ツ矢サイダー缶250ml 60缶 SUB-4: 【1缶約53円】これからの季節に♪三ツ矢サイダー缶250ml 60缶 SUB-10: 128年の歴史!やっぱりこれでしょう。日本の国民的サイダー MAIN-11: サイダーと言ったら、この時期から本当に飲みたくなる人気ドリンク♪やはり、この時期から需要が高まる日本人に愛され続けてきた“三ツ矢サイダー”は、歴史が違います! SUB-12: アサヒ飲料がこだわりる約束! MAIN-13: ああ、この味、この味!って思える、ついつい帰りたくなっちゃう味のヒミツは、水・香り・非加熱製法にこだわりがあるからなんだって。甘過ぎず、炭酸のバランスもちょうどいいし、飲みごごちスッキリ。ちなみに数ある炭酸飲料の中でイチバンクセがないのがこの三ツ矢サイダー! MAIN-13: ■水:濾過を重ねた安心安全な磨かれた水を使用。 MAIN-13: ■香り:果実などから集めた香りにより独自の美味しさが生まれます。 MAIN-13: ■製法:熱を加えていないので爽やかな味わいが引き立ちます。 MAIN-13: ■保存料不使用:保存料を一切使用していません! SUB-14: 今回は、需要気のため前々から交渉して特価条件が実現! MAIN-15: お安いワケは…特にナシ!賞味期限もたっぷりです♪仕入先との交渉で実現した60缶セット希望小売価格5,418円(税込)→3,150円(税込)というオフプライス。1缶あたり約53円のこの機会に、まとめ買いをぜひどうぞ!冷蔵庫にガンガン詰めて、家族全員でグビグビ飲んじゃって下さいね♪ SUB-20: 【1缶約53円】これからの季節に♪三ツ矢サイダー缶250ml 60缶

実行してみる

$ textclawler.py -c shift_jis -m 2 -o netprice http://www.netprice.co.jp →2階層目まで拾ってくる(ここで大体30分)

$ analyze.py -c shift_jis netprice.201207xxxxxx.zip > netprice.pat →レイアウト分析(ここで2時間以上)

$ extract.py -c shift_jis -C utf-8 netprice.pat netprice.201207xxxxxx.zip > netprice.txt →元のクローリングしてきたデータからテキスト抽出(やっぱり1時間くらい)

ちょ、今日の夕方に 間に合わないんじゃね?

案の定、naver終わんなかった…

とりあえず、 netprice.co.jpのデータを

形態素解析かけて

定番「mecab」 辞書はipa辞書で。

netprice.co.jpのデータ全体からの名詞の抽出:14954 タイトルからの名詞の抽出:2343 サブタイトル空の名詞の抽出:7411 本文からの名詞の抽出:12016

全体からの形容詞の抽出:554 全体からの形容動詞の抽出:481 全体からの動詞の抽出:3091

名詞の例3284 お 2830 ( 2689 ) 2642 使用 2299 1 2173 円 2146 ご 1849 商品 1664 価格 1590 2 1519 cm 1447 の 1337 こと 1261 本 1229 等 1225 . 1221 , 1175 ん 1165 税込 1100 もの 1092 3 1090 場合

1037 サイズ 1035 5 975 セット 961 さ 945 さん 883 希望 880 感 799 方 790 肌 771 : 753 中 752 % 705 水 688 名 667 小売 656 者 653 プライス 650 ♪ 648 個 648 / 637 /( 637 時

635 これ 631 4 624 モニター 615 ~ 611 酸 607 日 603 よう 588 24 579 カラー 567 エキス 558 色 556 - 553 生産 547 国 544 g 526 個人 524 10 520 大 514 手 502 参考 493 夏 477 6

474 お客様 473 品 463 ブランド 463 日本 454 用 453 味 440 全て 436 内容 428 後 426 今 423 当社 414 枚 409 オープン 406 バリュー 405 100 404 成分 401 種類 399 ため 382 剤 381 上 373 人 371 人気

形容詞の例 314 いい 240 ない 181 高 180 なく 175 高い 170 やすい 158 多い 153 にくい 119 長 102 なし 99 欲しい 91 おいしい 91 強い 90 問題 89 良い 85 安い 83 やすく 75 間違い 75 可愛い 74 ほしい 72 嬉しい 71 イイ

64 厚 61 安く 57 美味しい 57 よい 54 ほし 53 長く 50 らしい 50 すごい 48 良 46 軽く 45 やさしく 45 うれしい 45 甘 43 良く 42 優しい 41 すごく 41 暑い 40 著しく 40 新しい 40 小さい 39 小さく 39 にくく

39 早い 39 な 38 やさしい 38 美しい 38 早く 38 よし 37 濃い 35 柔らかい 35 おいしく 35 涼しい 35 冷たい 33 難しい 33 多く 32 弱い 31 楽しく 31 っぽい 31 軽い 30 細かい 30 白く 30 暑 29 明るく 29 大きく

28 美味しく 28 涼しく 28 優しく 28 強く 27 少ない 27 古い 25 近い 25 白い 25 らし 25 粘 24 少なく 24 なかっ 23 美しく 23 高く 23 大き 22 かわいい 22 さりげ 22 甘い 22 熱い 22 悪い 22 やす 22 ぽ

形容動詞の例 322 的 216 異常 213 可能 182 大人気 161 高級 141 健康 137 必要 134 簡単 109 クール 102 キレイ 99 爽やか 99 便利 89 手軽 84 柔軟 80 おしゃれ 76 シンプル 76 自然 74 みたい 74 好き 72 がち 71 きれい 69 有名

69 普通 69 快適 65 大丈夫 61 特別 60 お洒落 58 豊富 58 大切 56 特殊 55 キュート 55 有効 53 細か 51 上品 49 オシャレ 47 元気 46 確か 45 強力 45 安定 41 贅沢 41 安全 40 清潔 38 面倒 38 重要

38 不要 37 大変 36 十分 35 透明 34 ラフ 33 絶妙 32 なめらか 32 詳細 31 コンパクト 30 大量 29 独自 28 適度 28 苦手 28 独特 28 濃厚 28 気軽 28 丁寧 28 楽 27 自由 27 破格 27 優秀 26 圧倒的

26 敏感 25 大好き 25 綺麗 25 ダメ 24 華やか 24 非常 24 貴重 24 完全 24 上質 23 豊か 22 デリケート 22 繊細 22 幸せ 21 正直 21 様々 21 個別 20 素敵 20 危険 19 ぴったり 19 均一 19 不正 19 丈夫

これだけでは アレなので…。

matome.naver.jpのデータ(ちょっと版)

全体からの名詞の抽出:6505 全体からの形容詞の抽出:208 全体からの形容動詞の抽出:481 全体からの動詞の抽出:1159

出現率

両サイト合計の名詞:17171 両サイトともに出現した名詞:2093 ネプラにおける出現率:13.9% naverにおける出現率:32.2%

ご清聴 ありがとうございました。