25
フフフフフフフフフフフフフフフフフ フフフフフフフフフフフフフフフ

Phishingsite is ggrks

Embed Size (px)

DESCRIPTION

第五回さくテキ発表用資料http://atnd.org/events/20140

Citation preview

Page 1: Phishingsite is ggrks

フィッシングサイト判定はググレカスウェブテキストマイニング応用編

Page 2: Phishingsite is ggrks

自己紹介• ところてん• @tokoroten

• 中島飛行機跡地勤務• 不発弾処理係り

• 大学でセキュリティとかやってました• 今回はこの辺のお話

Page 3: Phishingsite is ggrks

フィッシングサイトを見てみよう• Phishtank

• http://www.phishtank.com/

• フィッシング詐欺サイト情報• http://www.rbl.jp/phishing/

• 注意• マルウェア感染の可能性があるので、

リンク先には飛ばないで下さい• 見るなら VM の中で

http://www.phishtank.com/phish_search.php?valid=y&active=y&Search=Search

Page 4: Phishingsite is ggrks

私の元に届いた Twitter のフィッシングサイト

Page 5: Phishingsite is ggrks

背景• フィッシングサイトやばい• 一ヶ月に新規に3万件• 平均寿命2時間

• 平均寿命2時間にはブラックリストは対応不能• ヒューリスティックに判定するしかない

Page 6: Phishingsite is ggrks

フィッシングサイト件数

http://www.antiphishing.org/reports/apwg_report_h2_2010.pdf

Page 7: Phishingsite is ggrks

フィッシングサイトの寿命

http://ceas.cc/2009/papers/ceas2009-paper-32.pdf

Page 8: Phishingsite is ggrks

ブラックリストによる検知率

http://ceas.cc/2009/papers/ceas2009-paper-32.pdf

Page 9: Phishingsite is ggrks

フィッシングサイトに対して情強はどうするか?• 怪しいウェブサイトが届く• ウェブページの中のブランド名でググる• ググって出てきたサイトとドメインを比較

怪しいウェブサイト

正規サイトググる

ドメインを比較

ブランド名

Page 10: Phishingsite is ggrks

情強エミュレーションによるヒューリスティック検知• フィッシングサイトは正規サイトのコピー• フィッシングサイトには正規サイトと

同じ語が含まれる

• フィッシングサイトは検索エンジンのスコアが低い• 同じ語で検索しても正規サイトのほうが上位• できたばかり、他からのリンクがない• 正規サイトは長期間存続、他からリンク

Page 11: Phishingsite is ggrks

情強エミュレーションの実装

怪しいウェブサイト

特徴語特徴語特徴語特徴語正規

サイトググる

検査対象とドメインを比較

ドメインが等しい:正規サイトドメインが不一致:フィッシングサイト

TF-IDF

CANTINA: A Content-Based Approach to Detecting Phishing Web Siteshttp://www2007.org/papers/paper557.pdf

Page 12: Phishingsite is ggrks

性能• フィッシングサイト検知率 97.1%

• ブラックリストよりも格段に高い性能• フィッシングサイト製作者が追記した部分を

特徴語として選択してしまうと、特徴語が本家に含まれないので検索に失敗する

• 正規サイト誤検知率 14.0%

• False positive が多すぎて使いモノにならない• 原因は特徴語抽出の失敗

模倣コンテンツの特性に基づくフィッシング検知方式の誤検知防止http://www.yoshiura.hc.uec.ac.jp/cgi-bin/wiki/wiki.cgi?action=ATTACH&page=%B8%A6%B5%E6%BC%BC%2F%A5%E1%A5%F3%A5%D0%A1%BC%2F2006%2F%C3%E6%BB%B3%BF%B4%C2%C0&file=css2008.pdf

http://www.bookpark.ne.jp/cm/ipsj/search.asp?flag=6&keyword=IPSJ-JNL5009010&mode=PRT

Page 13: Phishingsite is ggrks

特徴語抽出失敗の原因• 動的コンテンツを特徴語として選択すると検索不能• 時間的に変動するコンテンツは捨てたい• 新着ニュース、アクセスカウンタ、 EC サイ

ト、 etc

• ウェブページに固有の特徴語を拾ってしまう• 一般語を特徴語に拾ってしまう可能性• ウェブサイトに固有の特徴語を拾いたい

Page 14: Phishingsite is ggrks

動的コンテンツの厄介さ• 例)動的コンテンツを拾うと Amazon は検索できない

Page 15: Phishingsite is ggrks

時間軸方向の特徴語選定• Internet Archive を使って時間的に変動する要素を捨て

現在半年前一年前二年前

共通要素を抽出共通要素を抽出

Page 16: Phishingsite is ggrks

ウェブページの特徴語を拾ってしまう• 一般的な語を特徴語として拾ってしまう• ウェブサイトに特徴な語ではないので、

自分自身が検索できない

• ウェブサイト全体を見てキーワードを選定する必要

Page 17: Phishingsite is ggrks

空間方向の特徴語選定• 同一ドメインのリンク先のページを見て、

共通している特徴語に重み付け• W = TF × IDF× LDF

• LDF = { ある単語が出現するリンク先の数 }

検査対象

リンク先 A

リンク先 B

Page 18: Phishingsite is ggrks

キーワード拡張の結果• 時間方向の特徴語選定、空間方向の特徴語選定を実装• 誤検知率が 14.0% から 7.6 %に改善

• それでもまだ誤検知率が高い• 別のヒューリスティクスと組み合わせる必要• ドメインの登録からの経過期間• URL の長さ• etc…

Page 19: Phishingsite is ggrks

まとめ• フィッシングサイトの検知はググレカス

• 情強の挙動をエミュレーション• 電通大と JPCERT/CC が共同で評価、研究中

• 私が大学に残してきたコードが使われてるっぽい

• 正規サイトの誤検知率が高い、特徴語検出に課題• 時間方向に拡張した特徴語抽出• 空間方向に拡張した特徴語抽出• 多少は改善

http://www.antiphishing.jp/report/other/content_based_phishing_detection_2011.html

Page 20: Phishingsite is ggrks

最近のフィッシングサイトの動向• JavaScript で難読化

• 特徴語抽出がマジきつい

• 携帯向けフィッシングサイトの増加• 凝ったデザインのサイトが少ないため、

フルスクラッチでフィッシングサイトが作られる• 正規サイトに存在しない言葉がふんだんに盛り込まれる• URL を確認する習慣、手段が PC に比べて乏しい

• 画像や FLASH でできたサイト• 純粋なテキストマイニングは無理• OCR や、コンテンツの解析が必要

Page 21: Phishingsite is ggrks
Page 22: Phishingsite is ggrks

泥臭い実装とパラメータチューニング• 英語のページの場合• Tree Tagger で名詞だけを抜き出す• TF-IDF の上位 10 件をぐぐる

• 日本語のページの場合• 文字コードを修正• Mecab で名詞だけを抜き出す• TF-IDF の上位 5 件でぐぐる

Page 23: Phishingsite is ggrks

ぐぐるためのタグ除去とか• Google 先生は form の option タグの中身は検索対象にし

ないので、 option タグの中身は捨てる• 記号などが特徴語として選ばれても、 google 先生は受

け付けてくれないので捨てる• Script タグの中の JS は当然検索対象外• タグは除去するけど、 meta タグの keyword は欲しい• 重み付けに DOM の重みを使いたかったが未評価• Title や H1 を重くするとかやりたかった

Page 24: Phishingsite is ggrks

コーパスを持たない IDF の計算方法• 検索エンジンによる IDF の代替計算• IDF=log( コーパスの文書数 / ある単語が出現した文書

数 )

• IDF=log( サーチエンジンのインデックス数 /ある単語で検索したときのヒット数 )

• サーチエンジンのインデックス数は非公開なので、適当に 100億~ 1兆くらいの数字をいれてチューニング

http://chalow.net/2005-10-12-1.html

Page 25: Phishingsite is ggrks

ASP やめて、まじやめてどうみてもフィッシングです本等に (ry

• 京都銀行• http://www.kyotobank.co.jp

• 京都銀行のオンラインバンク• https://www2.paweb.anser.or.jp/BS?CCT0080=0158

• 常陽銀行• http://www.joyobank.co.jp

• 常陽銀行のオンラインバンク• https://www.inb.joyobank.chance.co.jp/int/banking?

_TRANID=INBLGNLGN001_001