36
Web Spam: manipulált tartalom a Világhálón Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport

Web Spam: manipulált tartalom a Világhálón

  • Upload
    denise

  • View
    21

  • Download
    0

Embed Size (px)

DESCRIPTION

Web Spam: manipulált tartalom a Világhálón. Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport. Miről lesz szó. Web spam: gép megtévesztése. Web Spam és E-mail Spam. - PowerPoint PPT Presentation

Citation preview

Page 1: Web Spam: manipulált tartalom a Világhálón

Web Spam: manipulált tartalom a Világhálón

Pereszlényi AttilaBenczúr András, Bíró István, Fekete

Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint

MTA SZTAKIAdatbányászat és Webkeresés

Kutatócsoport

Page 2: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Miről lesz szó

Page 3: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Web spam: gép megtévesztése

Page 4: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Web Spam és E-mail Spam

• Cél nem (feltétlenül) a végfelhasználóPl. Javítsuk a Google pozícióját egy „ügyfél”

oldalának

• Szűrés nem a kliensnélKeresőrendszer központilag szűrNem lehet letölteni és tesztelni a spam

szűrőt

• Spammer dolga nehezebbEredmény megjelenése lassú folyamat(Robot megtalálja, index frissül)

Page 5: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

• Kereső top találat forgalmat, bevételt jelent•Manipuláció, “Search Engine Optimization”•Tartalom spam

Kulcsszavak, népszerű kifejezések, elírások•Link spam

„Farmok”: sűrűn linkelt, redirect-elt site-ok• Bevétel gyakran indirekt

•„Affiliate” programok, Google AdSense•Reklámok megjelenítése, forgalom

továbbterelése

A spammer célpontja a Google

Page 6: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

A Web Spammer célja

• Kereső felhasználási tapasztalat:

• Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg

Page 7: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Keresési találati pozíció hatása

Talá

lati

pozí

ció n

ézé

sével tö

ltött

id

ő

Talá

lath

oz

érk

ezé

s id

eje

„spam industry had a revenue potential of $4.5 billion in year 2004 if they

had been able to completely fool all search

engines on all commercially viable

queries”[Amitay 2004]

[Granka,Joachims,Gay 2004]

Page 8: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

A Web Spammer célja

• Kereső felhasználási tapasztalat:

• Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg

• Jó rangsor – Search Engine Optimization célpontja

• Mitől függ a rangsor?

• Szóelőfordulás, HTML elemekkel (cím, fejléc, méret, stb.) súlyozva

• Hivatkozó (anchor) szöveg, domén, URL szavai – legjobb!

• URL hossza, könyvtárszint mélysége

• Rámutató hivatkozások száma, PageRank

Page 9: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Web spam

• Spam szűrés nélkül egy keresőrendszer ma csak spamet találna

Page 10: Web Spam: manipulált tartalom a Világhálón

Web Spam Taxonómia 1.

Tartalom spam

Page 11: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Kulcsszó értéke

Google AdWords Competition

10k10th wedding anniversary128mb, 1950s, …abc, abercrombie, …b2b, baby, bad credit, …digital cameraearn big money, easy, …f1, family, flower, fantasygameboy, gates, girl, …hair, harry potter, …ibiza, import car, …james bond, janet jacksonkarate, konica, kostenloseladies, lesbian, lingerie, ……

Page 12: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Tartalom modellezés példa

Nemsp téma 4

Nemsp téma 10

club (0.035) music (0.022)

team (0.012) band (0.012)

league (0.009)

film (0.011)

win (0.009) festival (0.009)

Spam téma 7

loan (0.080)

unsecured (0.026)

credit (0.024)

home (0.022)

Példa 20 spam és 50 nemspam generatív téma modellből [Bíró, Szabó, Benczúr 2008]

Page 13: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Spammelt rangsor-elemek

• Domén név adjustableloanmortgagemastersonline.compay.dahannusaprima.co.ukbuy-canon-rebel-20d-lens-case.camerasx.com

• Anchor szöveg (title, H1, stb)<a href=“target.html”>free, great deals, cheap, inexpensive, cheap, free</a>

• Meta keywords – nem érdemes<meta name="keywords" content="UK Swingers, UK,

swingers, swinging, genuine, adult contacts, connect4fun, sex, … >

Page 14: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Parkoló domén

<div style="position:absolute; top:20px; width:600px; height:90px; overflow:hidden;"><font size=-1>atangledweb.co.uk currently offline<br>atangledweb.co.uk back soon<br></font><br><br><a href="http://www.atangledweb.co.uk"><font size=-1>atangledweb.co.uk</font></a><br><br><br>Soundbridge HomeMusic WiFi Media Play<a class=l href="http://www.atangledweb.co.uk/index01.html">-</a>>... SanDisk Sansa e250 - 2GB MP3 Player -<a class=l href="http://www.atangledweb.co.uk/index02.html">-</a>>... AIGO F820+ 1GB Beach inspired MP3 Pla<a class=l href="http://www.atangledweb.co.uk/index03.html">-</a>>... Targus I-Pod Mini Sound Enhancer<a class=l href="http://www.atangledweb.co.uk/index04.html">-</a>>... Sony NWA806FP.CE7 4GB video WALKMAN <a class=l href="http://www.atangledweb.co.uk/index05.html">-</a>>... Ministry of Sound 512MB MP3 player<a class=l href="http://www.mp3roze.co.uk/cat7000.html">-</a>>... Nokia 6125 - Fold Design - 1.3 Megapi<a class=l href="http://www.mp3roze.co.uk/cat7001.html">-</a>>... Samsung E350 - Camera Phone With Flas<a class=l

Page 15: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Kulcsszó zsúfolás, másolatok

Page 16: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Google hirdetések

Page 17: Web Spam: manipulált tartalom a Világhálón

Web Spam Taxonómia 2.

Hivatkozás spam

Page 18: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

“hyperlink structure contains an enormous amount of latent human annotation that can be extremely valuable for automatically inferring notions of authority.” (Chakrabarti et. al. ’99)•Becsületes, emberi ajánlást

tartalmazó hivatkozás

•Nem ajánló értékű, pl. „affiliate program”, vagy fórum, lista navigáció …

•Szándékos, manipulatív link spam

Hivatkozások: A Jó, a Rossz és a Csúf

Page 19: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Link farmok

W W W

Becsületes Web kilépési pont: • Mézesmadzag: pl keresett tartalom másolata• Parkoló domén régi hivatkozása• Blog, vendégkönyv spam

Page 20: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Link farmok

Sok domén,sőt, sok IP

411fashion.com

411 sites A-Z list

Mézesmadzag: keresett tartalom

411amusement.com

411 sites A-Z list

411zoos.com

411 sites A-Z list

target

Page 21: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

ρ=0.97 ρ=0.61

Becsületes:fhh.hamburg.de

Spam: radiopr.bildflirt.de(www.popdata.de farm része)

PageRank támogatók eloszlása

alacsony magas

PageRank

alacsony magas

PageRank

[Benczúr,Csalogány,Sarlós,Uher 2005]

Page 22: Web Spam: manipulált tartalom a Világhálón

Web Spam Taxonómia 3.

Rejtőzködés

Page 23: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Formázás

• Egy-pixeles kép

• Fehér alaponfehér

• Stylesheet határozza meg a színt, elhelyezést

• …Elv: robot HTML feldolgozó kódja

egyszerűsített

Page 24: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

JavaScript alkalmazása

<SCRIPT language=javascript> var1=100;var3=200;var2=var1 + var3; var4=var1;var5=var4 + var3; if(var2==var5) document.location="http://umlander.info/ mega/free software downloads.html";

</SCRIPT>

• window.location elemen keresztüli átirányítás

• eval: véletlenszerűnek tűnő statikus adatokból való spam tartalom (szöveg, link)

• document.write

Page 25: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

HTTP szintű rejtőzködés

• User agent, kliens host szerint

• Más tartalom a felhasználónak, más a GoogleBot-nak

Page 26: Web Spam: manipulált tartalom a Világhálón

Web Spam Taxonómia 4.

Közösségi tartalom spam

Page 27: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Új célpont: vendégkönyvek, blogok

Page 28: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

„Fórumnak látszó tárgy”

Page 29: Web Spam: manipulált tartalom a Világhálón

Spam vadászat

Page 30: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Jellemzők

• Szóelőfordulások (szózsák modell)• TrustRank: becsületes oldalakból induló

PageRank• Ki- és be-linkek száma, kölcsönösség• Szavak száma, hossza, HTML elemek (title,

anchor) közötti eloszlása• Sikeresség népszerű kulcsszavakra

spamszűrés nélküli teszt keresőrendszerben

• Google hirdetések száma• Site felépítése, mélysége, belső

hivatkozás-szerkezete, dok formátumok, …

Page 31: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Gráf-simítás: „know your neighbor”

• Becsületes oldal ritkán mutat spamre• Spamre sok más spam hivatkozik

1. Spamség jóslat p(v) minden oldalra

2. Céloldal u, szomszéd p(v) aggregálásával új jellemző: f(u)

3. Újraklasszifikáció az új jellemzővel

?u

v1

v2

v7

Page 32: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

A Web Spam Challenge

• UK-WEBSPAM2006 (Yahoo Research, 2007-ben)• 9000 Web site, 500,000 hivatkozás• 767 spam, 7472 becsületes

• UK-WEBSPAM2007 (verseny most)• 114,000 Web site, 3 Md hivatkozás• 222 spam, 3776 becsületes• Teljes letöltés 3 TByte

• UK-WEBSPAM2008? Mi szervezzük?• Internet Archívummal együttműködve, időben

folyamatos letöltés•Cél: spam időbeliségének, mozgásának

vizsgálata

Page 33: Web Spam: manipulált tartalom a Világhálón

Magunkról

Page 34: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

Benczúr AndrásKutatás-Fejlesztés

Lukács AndrásKutatás, Ipari kapcsolatok

Rónyai LajosInformatika Labor

vezető

Adatbányászat és Keresés Kutatócsoport

3 posztdoktor

8 doktorandusz

5 fejlesztő

Page 35: Web Spam: manipulált tartalom a Világhálón

Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26

• Egyedi technológiák extrém adatméretekre

• (web)keresés, szövegfeldolgozás

Európai Internet Archívum Web Spam szűrés

• viselkedésmodellezés, eseményfelderítés

biztosítási csalás felderítő eszköz

együttműködés az EU terrorelhárítás adatbányászati támogatás előkészítésére

nagyméretű webszerver naplók hosszú időtartamú elemzése

• lemorzsolódás, árrugalmasság vizsgálatok

hazai biztosítók, telefontársaságok

• ajánló rendszerek

KDD Cup első helyezés

Adatbányászat és Keresés Kutatócsoport

0.1

1

10

100

1000

10000

100000

1000000

1 10 100 1000adott felhasználó által letöltött oldalak sz. (x)

x a

ktiv

itás

ú fe

lhas

znál

ók s

zám

a

Page 36: Web Spam: manipulált tartalom a Világhálón

Köszönöm a figyelmet!

Pereszlényi Attila

datamining.sztaki.hu/

[email protected]