Közösségi spammelés felismerése és eliminálása

Preview:

DESCRIPTION

Közösségi spammelés felismerése és eliminálása. Kivonat – Pletser József. Közösségi mézesmadzagok Profilok statisztikai analízise Közösségi spammerek a Twitteren és a MySpace-en . Mézesmadzag alapú felderítő rendszerek Statisztika a spammerekről. Absztrakt. - PowerPoint PPT Presentation

Citation preview

{

Közösségi spammelés felismerése és eliminálása

Kivonat – Pletser József

Közösségi mézesmadzagok Profilok statisztikai analízise Közösségi spammerek a Twitteren

és a MySpace-en. Mézesmadzag alapú felderítő

rendszerek Statisztika a spammerekről

Absztrakt

Az internethasználók több időt töltenek közösségi oldalakon

A cégeknek máshol kell megtalálni a célközönségüket

Közösségi média rendszerek függenek a felhasználóktól

Spammerek azonosíthatók viselkedésük és profilképük alapján

Bevezetés

Facebook

500 millió felhasználó 14 millió közösségi oldal különféle

témákban Videó, fénykép, és oldalmegosztás Felhasználói kultúra A cikk írásakor a legnépszerűbb oldalnak

500000 rajongója volt

Felhasználók 80%-a kapott kéretlen ismerős felkérést

Óvatlan felhasználók kiadják az adataikat Nem feltétlenül csak reklámozás céljából

spammelnek Felderítésükhöz HIL adatbővítés

szükséges Mindig visszajönnek

Szomorú tények

Emberi interakció nélkül Közösségi oldalak spamprofiljainak a

begyűjtésére Statisztikai felhasználói modell

fejlesztése Nulla napos spammerek kiszűrése

Mézesmadzag alapú felderítés

Online közösség modellezése

Kép hisztogramja alapján (illetve emberi logika alapján)

Szövegek alapján (URL a szövegben, kulcsszavak)

Felhasználói profilok alapján (spammer profilok jellemzői – kevés ismerős)

Jellemzők kinyerése

A közösségi spam felismerési probléma megállapítani egy c osztályozó egységen keresztül, hogy melyik ui a spammer, úgy, hogy pi adott. Egy osztályozó

c: ui {spammer, törvényes felhasználó} halmazba képző függvény, megállapítja,

hogy ui spammer, vagy sem. C-hez szükség van különböző jellemzőket

tartalmazó halmazra. F= {f1, f2, … , fm}, mely U elemeire

hivatkozik.A probléma meghatározása

Megoldás megközelítése

A profilok spammelő viselkedése különböző jól elkülöníthető mintákra épülnek.

A legnépszerűbb spammelési célpontok a középnyugati állapok, és a legtöbb spam profil Californiában lakik.

A spammer profilok 57.2%-a egy másik profilról másolta a „Rólam” részt.

Sok spam profil megkülönböztethető demográfiai jellemzőket alakítottak ki (pl. kor, kapcsolat, stb.)

MySpace megfigyelések

Click traps Friend Infiltrators Pornographic storytellers Japanese Pill pushers Winnies

Spammer profilok statisztikái

Duplicate spammers Pornographic spammers Promoters Phisers Friend infiltrators

Twitter megfigyelések

{A spammerek azonnali kiküszöbölése

Research Study 2

A kivehető spammelésre utaló jelek a begyűjtött spammer profilokból használhatóak-e arra, hogy automatikusan megkülönböztethessük a spammereket a törvényes felhasználóktól.

Ha biztos mintáink vannak (ahogy a megfigyelések az előző fejezetben kimutattak bizonyos mintákat), akkor az osztályozó egység megfigyelhet jeleket, amik alapján megjósolhatunk egy új spamet

Probléma megfogalmazása

Felhasználói demográfia: kor, nem, lakóhely és egyéb a felhasználót jellemző információk

A felhasználó által megosztott információk: például a „Rólam” mező, blog bejegyzések, kommentek.

Felhasználói aktivitás jellemzői: Posztolási gyakoriság, csirip gyakoriság

Felhasználói kapcsolatok: barátok száma, követők, illetve követett személyek.

Osztályozó egység megközelítése és metrikája

104 törvényes felhasználó 168 spammer (spammer és hirdető) Minden felhasználó adata Cél: a felhasználó törvényes, spammer,

vagy hirdető?

Twitter spammerek osztályozása

Követők és a követettek átlaga, és a kétirányú barátságok (követettek ∩ követők) / követettek

Csiripek és az azokból levonható tanulságok:

A linkek számának aránya A különböző linkek száma A @<felhasználónév> kifejezések aránya Az egyedi @<felhasználónév> kifejezések

aránya

Támpontok a Twitteren

A spammereknek saját taktikáik vannak Azonosításuk nem lehetetlen Profilok alapján beskatulyázhatóak Különböző jellemzők segítenek.

Összegzés

Recommended