Phishingsite is ggrks

フィッシングサイト判定はググレカスウェブテキストマイニング応用編

自己紹介• ところてん• @tokoroten

• 中島飛行機跡地勤務• 不発弾処理係り

• 大学でセキュリティとかやってました• 今回はこの辺のお話

フィッシングサイトを見てみよう• Phishtank

• http://www.phishtank.com/

• フィッシング詐欺サイト情報• http://www.rbl.jp/phishing/

• 注意• マルウェア感染の可能性があるので、

リンク先には飛ばないで下さい• 見るなら VM の中で

http://www.phishtank.com/phish_search.php?valid=y&active=y&Search=Search

http://www.phishtank.com/

http://www.phishtank.com/

http://www.rbl.jp/phishing/

http://www.rbl.jp/phishing/




私の元に届いた Twitter のフィッシングサイト

背景• フィッシングサイトやばい• 一ヶ月に新規に３万件• 平均寿命２時間

• 平均寿命２時間にはブラックリストは対応不能• ヒューリスティックに判定するしかない

フィッシングサイト件数

http://www.antiphishing.org/reports/apwg_report_h2_2010.pdf



フィッシングサイトの寿命

http://ceas.cc/2009/papers/ceas2009-paper-32.pdf



ブラックリストによる検知率




フィッシングサイトに対して情強はどうするか？• 怪しいウェブサイトが届く• ウェブページの中のブランド名でググる• ググって出てきたサイトとドメインを比較

怪しいウェブサイト

正規サイトググる

ドメインを比較

ブランド名

情強エミュレーションによるヒューリスティック検知• フィッシングサイトは正規サイトのコピー• フィッシングサイトには正規サイトと

同じ語が含まれる

• フィッシングサイトは検索エンジンのスコアが低い• 同じ語で検索しても正規サイトのほうが上位• できたばかり、他からのリンクがない• 正規サイトは長期間存続、他からリンク

情強エミュレーションの実装

怪しいウェブサイト

特徴語特徴語特徴語特徴語正規

サイトググる

検査対象とドメインを比較

ドメインが等しい：正規サイトドメインが不一致：フィッシングサイト

TF-IDF

CANTINA: A Content-Based Approach to Detecting Phishing Web Siteshttp://www2007.org/papers/paper557.pdf

http://www2007.org/papers/paper557.pdf

性能• フィッシングサイト検知率 97.1%

• ブラックリストよりも格段に高い性能• フィッシングサイト製作者が追記した部分を

特徴語として選択してしまうと、特徴語が本家に含まれないので検索に失敗する

• 正規サイト誤検知率 14.0%

• False positive が多すぎて使いモノにならない• 原因は特徴語抽出の失敗

模倣コンテンツの特性に基づくフィッシング検知方式の誤検知防止http://www.yoshiura.hc.uec.ac.jp/cgi-bin/wiki/wiki.cgi?action=ATTACH&page=%B8%A6%B5%E6%BC%BC%2F%A5%E1%A5%F3%A5%D0%A1%BC%2F2006%2F%C3%E6%BB%B3%BF%B4%C2%C0&file=css2008.pdf

http://www.bookpark.ne.jp/cm/ipsj/search.asp?flag=6&keyword=IPSJ-JNL5009010&mode=PRT

http://www.yoshiura.hc.uec.ac.jp/cgi-bin/wiki/wiki.cgi?action=ATTACH&page=%B8%A6%B5%E6%BC%BC%2F%A5%E1%A5%F3%A5%D0%A1%BC%2F2006%2F%C3%E6%BB%B3%BF%B4%C2%C0&file=css2008.pdf

http://www.yoshiura.hc.uec.ac.jp/cgi-bin/wiki/wiki.cgi?action=ATTACH&page=%B8%A6%B5%E6%BC%BC%2F%A5%E1%A5%F3%A5%D0%A1%BC%2F2006%2F%C3%E6%BB%B3%BF%B4%C2%C0&file=css2008.pdf



特徴語抽出失敗の原因• 動的コンテンツを特徴語として選択すると検索不能• 時間的に変動するコンテンツは捨てたい• 新着ニュース、アクセスカウンタ、 EC サイ

ト、 etc

• ウェブページに固有の特徴語を拾ってしまう• 一般語を特徴語に拾ってしまう可能性• ウェブサイトに固有の特徴語を拾いたい

動的コンテンツの厄介さ• 例）動的コンテンツを拾うと Amazon は検索できない

時間軸方向の特徴語選定• Internet Archive を使って時間的に変動する要素を捨て

る

現在半年前一年前二年前

共通要素を抽出共通要素を抽出

ウェブページの特徴語を拾ってしまう• 一般的な語を特徴語として拾ってしまう• ウェブサイトに特徴な語ではないので、

自分自身が検索できない

• ウェブサイト全体を見てキーワードを選定する必要

空間方向の特徴語選定• 同一ドメインのリンク先のページを見て、

共通している特徴語に重み付け• W = TF × IDF× LDF

• LDF = { ある単語が出現するリンク先の数 }

検査対象

リンク先 A

リンク先 B

キーワード拡張の結果• 時間方向の特徴語選定、空間方向の特徴語選定を実装• 誤検知率が 14.0% から 7.6 ％に改善

• それでもまだ誤検知率が高い• 別のヒューリスティクスと組み合わせる必要• ドメインの登録からの経過期間• URL の長さ• etc…

まとめ• フィッシングサイトの検知はググレカス

• 情強の挙動をエミュレーション• 電通大と JPCERT/CC が共同で評価、研究中

• 私が大学に残してきたコードが使われてるっぽい

• 正規サイトの誤検知率が高い、特徴語検出に課題• 時間方向に拡張した特徴語抽出• 空間方向に拡張した特徴語抽出• 多少は改善

http://www.antiphishing.jp/report/other/content_based_phishing_detection_2011.html




最近のフィッシングサイトの動向• JavaScript で難読化

• 特徴語抽出がマジきつい

• 携帯向けフィッシングサイトの増加• 凝ったデザインのサイトが少ないため、

フルスクラッチでフィッシングサイトが作られる• 正規サイトに存在しない言葉がふんだんに盛り込まれる• URL を確認する習慣、手段が PC に比べて乏しい

• 画像や FLASH でできたサイト• 純粋なテキストマイニングは無理• OCR や、コンテンツの解析が必要

泥臭い実装とパラメータチューニング• 英語のページの場合• Tree Tagger で名詞だけを抜き出す• TF-IDF の上位 10 件をぐぐる

• 日本語のページの場合• 文字コードを修正• Mecab で名詞だけを抜き出す• TF-IDF の上位 5 件でぐぐる

ぐぐるためのタグ除去とか• Google 先生は form の option タグの中身は検索対象にし

ないので、 option タグの中身は捨てる• 記号などが特徴語として選ばれても、 google 先生は受

け付けてくれないので捨てる• Script タグの中の JS は当然検索対象外• タグは除去するけど、 meta タグの keyword は欲しい• 重み付けに DOM の重みを使いたかったが未評価• Title や H1 を重くするとかやりたかった

コーパスを持たない IDF の計算方法• 検索エンジンによる IDF の代替計算• IDF=log( コーパスの文書数 / ある単語が出現した文書

数 )

• IDF=log( サーチエンジンのインデックス数 /ある単語で検索したときのヒット数 )

• サーチエンジンのインデックス数は非公開なので、適当に 100億～ 1兆くらいの数字をいれてチューニング

http://chalow.net/2005-10-12-1.html



ASP やめて、まじやめてどうみてもフィッシングです本等に (ry

• 京都銀行• http://www.kyotobank.co.jp

• 京都銀行のオンラインバンク• https://www2.paweb.anser.or.jp/BS?CCT0080=0158

• 常陽銀行• http://www.joyobank.co.jp

• 常陽銀行のオンラインバンク• https://www.inb.joyobank.chance.co.jp/int/banking?

_TRANID=INBLGNLGN001_001

Technology

Phishingsite is ggrks