Upload
moai-kids
View
694
Download
0
Embed Size (px)
DESCRIPTION
Citation preview
Keyword Trackerで抽出したsplogリストについて
2009年7月30日木曜日
はじめに
✓Keywrod Trackerで収集したブログデータを元に、spamブログ(splog)の抽出、解析を行いました。
✓本日はその結果ならびに傾向をご報告いたします。
2009年7月30日木曜日
アジェンダ
✓はじめに
✓背景
✓splogの定義
✓splog抽出結果と傾向
✓今後の展開について
2009年7月30日木曜日
Keyword Tracker日々投稿されるブログ記事を用いて、その日の話題のワードや、ワードのトレンドを解析するアプリケーション
大手13ブログサービスの新着ブログ記事をクローリングして取得
http://kt.nd-ilab.jp/
2009年7月30日木曜日
ランキング
2009年7月30日木曜日
ワード詳細
出現数の推移
係り受け関係にある動詞/形容詞等
共起語
2009年7月30日木曜日
属性情報ブログサービス別の
投稿比率
性別/世代別/地域別
2009年7月30日木曜日
Keyword Tracker1日あたりのクローリング記事数→約80万~90万記事
意外とspamブログ(以降splogで統一)記事が多いため、splogの記事内容にワードの解析結果が影響を受ける。→splog対策が必要 ノイズとなる記事エントリーを除去することで Keyword Trackerの精度も向上
2009年7月30日木曜日
アジェンダ
✓はじめに
✓背景
✓splogの定義
✓splog抽出結果と傾向
✓今後の展開について
2009年7月30日木曜日
spamの定義
ここでは「自らの利益のために、不
特定多数に対し利益誘導に
つながる行為を行うこと」
とする
2009年7月30日木曜日
splogの種別splogは大別して以下の4種に分類されます。※1
※1『ユーザ適応型Splog フィルタリングのためのユーザ固有Splog 空間の分析』より分類種別を参考
種別 内容 目的
アフィリエイト型記事本文中にアフィリエイト対象の商品サイトへのリンクを大量に貼付
アフィリエイトリンクのクリック、商品購入。
コピー&ペースト型話題のワード、時事ニュース記事などを含む文章を他サイトから大量に引用(無断借用)し貼付
SEO効果。副次的に広告やサイドバー貼付のアフィリエイトリンクなどのクリックを期待
ワードサラダ型話題のワードを元に、文法的に自然文に見えるが人目では違和感のある文章を貼付
SEO効果。副次的に広告やサイドバー貼付のアフィリエイトリンクなどのクリックを期待
アダルト型アダルトコンテンツを貼付 コンテンツの購入。広告やアフィ
リエイトリンクのクリック。
2009年7月30日木曜日
アフィリエイト型
2009年7月30日木曜日
ワードサラダ+コピペ型
2009年7月30日木曜日
アダルト型
自粛2009年7月30日木曜日
アジェンダ
✓はじめに
✓背景
✓splogの定義
✓splog抽出結果と傾向
✓今後の展開について
2009年7月30日木曜日
今回採用したアルゴリズム✓リストマッチ(ブラックリスト)
- リンク先に特定のURLが含まれている場合spamと判定- 「利益誘導につながる行為」✓類似文章投稿
- 短期間に、類似内容のブログ記事を複数回投稿した場合にspamと判定。準完全一致検索。
- 「不特定多数に~」✓Bayesian Filter
- 過去にspam判定されたブログ記事と内容が類似している場合にspam判定。いわゆるベイズ推定による判定。
2009年7月30日木曜日
ブラックリスト✓特定の情報商材系サイト、アダルトサイト、buzzプロモーションサイト等のURLをブラックリスト化。✓ブラックリストURLに合致するリンクが存在する文書を
splog判定
✓Keyword Trackerでクロールした記事をHadoopで解析して、出現頻度が高いURLを目視確認し、悪質なものをブラックリスト化しています。
2009年7月30日木曜日
類似文章投稿✓ある期間内に投稿されたブログのうち、内容が類似している文章が複数有る場合splog判定を行う。✓類似検索にはPrefix Filterの手法を適用
- Prefix Filterについては研究レポートを見てください。http://www.slideshare.net/moaikids/prefix-filter-1126120
2009年7月30日木曜日
Bayesian Filter✓過去にブラックリスト、類似文章投稿判定によりsplog判定された記事データを学習データとして、ベイズ推定によりsplog判定を行う。✓今回は多項ナイーブベイズを用いています。✓ベイズについては先月もやったので割愛。
2009年7月30日木曜日
採用しなかったアルゴリズム✓リンク構造の解析
- 間に合わなかった✓ユーザのネットワーク性、グラフ構造の解析
- 間に合わなかった
✓複数のBayesian Filterルールを組み合わせてのAdaBoostingによる判定- 間に合わなかった
2009年7月30日木曜日
splogの種別との対応
種別 ブラックリスト 類似文章 ベイズ
アフィリエイト型 ○ - -
コピー&ペースト型 △ ○ △(辞書による)
ワードサラダ型 - ○ △(辞書による)
アダルト型 △ - △(辞書による)
2009年7月30日木曜日
2009/07/24~7/26のデータを元に算出
今回抽出できたsplogの比率
1.15%
98.85%
通常 splog
全クロール記事の1%強をsplog判定抽出ルールには ブラックリスト/類似文章投稿/Bayesian Filterを使用
2009年7月30日木曜日
サービスごとのsplog比率2009/07/24~7/26のデータを元に各サービスのspam数/spam比率を算出
0%
3.00%
6.00%
9.00%
12.00%
15.00%
ameblo fc2 yahoo livedoor jugem seesaa yaplogcocolog goo0
3,000
6,000
9,000
12,000
15,000
比率 spam数1%以上
2009年7月30日木曜日
2009/07/24~7/26のデータを元に算出
抽出アルゴリズム別の件数
5%
50%46%
ブラックリスト類似文章ベイズ
ブラックリスト/類似文章での抽出がそれぞれ半数程度。spam記事は日々対象の話題を変えてるので、過去のsplogで使用されたワードとの類似性(ベイズ)では抽出比率が低い?
2009年7月30日木曜日
抽出アルゴリズム別の精度
類似文章の精度が低い(60%強)。他はほぼ100%。
2009/07/24~7/26のデータを元に数百件のデータを無作為に抽出。目視確認によりsplogかそうでないかを判定。
0%
20.00%
40.00%
60.00%
80.00%
100.00%
ブラックリスト 類似文章 ベイズ0
3,000
6,000
9,000
12,000
15,000
精度spam数
2009年7月30日木曜日
類似文章の精度が低い理由✓ユーザの操作ミスにより悪意無く同一の文章が複数回投稿されるケースがある。✓テンプレート化された文章の投稿
2009年7月30日木曜日
ヒューリスティックアプローチによる改善案
✓類似文章の投稿回数に閾値を設ける。- 例:30分以内に類似文章をn件以上投稿したらsplog判定する
✓短すぎる文章は評価しない
2009年7月30日木曜日
ヒューリスティックアプローチによる改善案
2009/07/27のデータを元に算出閾値を2~4に変更して測定
0%
18.00%
36.00%
54.00%
72.00%
90.00%
2 3 40
140
280
420
560
700
精度件数
閾値を上げれば精度は向上するが抽出件数は減るF値も下がる。あまり改善になってない。
2009年7月30日木曜日
Keyword Trackerでの結論✓悪意有無に関わらず、類似の文章を複数回投稿することはノイズとなるので、splog判定を行う事にする。✓該当文書の削除、ブログの削除など厳しい措置が伴う場合は、再現率、F値より適合率(精度)を優先させた方がよい。
✓短すぎる文章は評価しないようにする。
2009年7月30日木曜日
各ブログでの比較アメブロ、fc2、seesaa、yaplog、livedoor、yahoo、yaplogを比較
0%
20.00%
40.00%
60.00%
80.00%
100.00%
ブラックリスト 類似文章投稿 ベイズ(×10)
アメブロ全体平均FC2seesaalivedooryahooyaplog
splogが多いと思われるブログはブラックリストやベイズフィルターでの検出率が高い。
2009年7月30日木曜日
まとめ✓類似文章投稿
- ブログ投稿の性質などから精度は低いが、学習データ無しにノイズを抽出するのには有効な手法
- 類似文章数の閾値により精度の調整は可✓Bayesian Filter
- 学習データの質が高ければ精度も高くなる。- 日々話題の傾向が変わるため、メンテナンスをしないとデータが形骸化する可能性がある。
2009年7月30日木曜日
まとめ✓ブログごとの傾向
- FC2とseesaaはなかなかのレベル- amebloは記事数に比してspamの比率が少ない(絶対数は多い)
- yahooが優秀。ブラックリスト、ベイジアンフィルターではほとんど検知されない
✓もっとspamは多いはずなので、引き続き精度高く多くのsplogを検知したい- でも「日本のブログの30%はspam」というのは言い過ぎだと思う。
2009年7月30日木曜日
アジェンダ
✓はじめに
✓背景
✓splogの定義
✓splog抽出結果と傾向
✓今後の展開について
2009年7月30日木曜日
splog判定APIの公開✓Google App Engine for java(GAE/J)上にsplog判定を行う
APIを公開中。- http://splogapi.appspot.com/splog/(URL)
GETリクエスト時のHTTPステータスコードにより判定- 200:splog- 404:splogではない
- 現在データ蓄積中。ドキュメント作成中。http://splogapi.appspot.com/
2009年7月30日木曜日
splog api
2009年7月30日木曜日
GAE/J
2009年7月30日木曜日
APIを用いたマッシュアップ✓検索結果からsplogと思われる記事を消す/隠す
- greasemonkeyスクリプトで試作予定。- 主なブログ検索サイトを対象にする予定です。- 現在作成中。完成したら公開します。✓他に何かアイデアがあれば教えてください。もしくは何か作ってください。
2009年7月30日木曜日
greasemonkey
2009年7月30日木曜日
splog判定の精度向上✓引き続きがんばります
2009年7月30日木曜日
ご清聴ありがとうございました。
2009年7月30日木曜日