18
Content based AntiWebSpammer ההההה ההההה הההההה: ההההה הה ההה הההה: ההההה הההההה םםםם םםםם םםםם םםם"ם םםםםםם םםםםםם- םםםםםםם

Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

  • View
    233

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

Content based AntiWebSpammer

מבצעים: אבישי ליבנה

איציק בן בסט

מנחה: מקסים גורביץ

מצגת סיום

חורף תשס"ז

הטכניון - המעבדה לתוכנה

Page 2: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

תוכן המצגת

מוטיבציה•

יעדי הפרויקט•

רקע•

סקירה ארכיטקטונית של המערכת•

אופן פעולת המערכת•

סקירת תוצאות•

סיכום•

Page 3: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

מוטיבציהספאם היא תופעה מוכרת שנכנסה לתודעה הציבורית עוד בשנים•

הראשונות של רשת האינטרנט.

המונח מוכר בעיקר בהקשר של אימייל, אך קיים בתחומים שונים.•

בפרוייקט נתמקד בתחום מנועי החיפוש. ברשת קיימים אתרים שכל•

מטרתם לפרסם, תוך כדי פגיעה בחווית הגלישה והחיפוש של

המשתמשים.

הדרך העיקרית להתמודדות עם ספאם ברשת היא ע"י סריקת•

הלינקים באתרים ובניית גרף אמינויות תלויות.

בפרויקט נבחן דרך חלופית המתבססת על סינון ספאם באמצעות •

תוכן האתרים בלבד.

Page 4: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

הפרויקטיעדי על סמך תוכנם.HTMLמימוש מערכת שמתייגת דפי •

המערכת תתייג כל דף כספאם או כדף חוקי.–

פעולת המיון תתבצע על סמך תוכן הדפים בלבד.–

קבלת ההחלטות תתבצע באמצעות עצי החלטה.–

הפרויקט יממש את המאמר–

Detecting Spam Web Pages through Content Analysis,

By Alexandros Ntoulas, Marc Najork, Mark Manasse and Dennis Fetterly.

.HTML, Decision treesהכרת –

Page 5: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

רקע – סינון ספאםהדרך הנפוצה להתמודד עם ספאם היא סריקת לינקים ובניית

גרף תלויות.

דורשת משאבים ומידע על דפים אחרים כדי לקבל החלטה •

על דף בודד.

(.link farmsקיימות דרכים להטעות את מנוע החיפוש )•

סינון ע"י תוכן – מספיק לבחון את תוכן הדף הבודד.•

צורך פחות משאבים, ניתן למיקבול.•

ניתן לשלב בין השיטות )סינון מקדים, סינון אינטנסיבי, •

דירוג(

Page 6: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

)Decision trees(רקע – עצי החלטה כלי לקבלת החלטות•

אופן הפעולה:•

סריקת התכונות השונות ומציאת המבחנים שיוצרים את –

ההפרדה הטובה ביותר.

יצירת צמתי מבחן, בד"כ השוואה של תכונה בודדת עם ערך.–

בהתאם לתוצאת ההשוואה תקבע אחת משתי האפשרויות –

להמשך הבדיקה.

עלה בעץ מציין קבלת החלטה )תוצאת המיון, ערך התכונה –

הנבדקת(.

Page 7: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

סקירת המערכתאיפיון תכונות

המערכת תבצע ניתוח דפים ותיצור מכל דף רשימה של תכונות.•

המערכת תוכל לבנות החלטות בהתבסס על דפים שתויגו •

מראש.

המערכת תוכל למיין דפים בעזרת עץ ההחלטות שנבנה בשלב •

האימון.

כל תת פעולה יכולה להתבצע בנפרד.•

ניתן לשמור את עץ ההחלטות / ניתוח הדפים לשימוש חוזר.•

Page 8: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

סקירת המערכתתכונות הדפים הנבדקות

• Words in page

• Words in title

• Average length of words

• Amount of anchor text

• Fraction of visible content

• Compressibility

• Fraction of page drawn from popular keywords

• Fraction of popular keywords

Page 9: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

Parser

Trainer Decision Tree

Classifier

Parsed pages

אופן פעולת המערכת

Page 10: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

סקירת תוצאות

Recall Precision

Spam 71.5% 60.6%

Non-spam 95.3% 96.9%

Match rate = 92.7%

Recall – spam matches out of real spam.Precision – spam matches out of tagged as spam.

Page 11: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

סקירת תוצאותnumber of words

0%

2%

4%

6%

8%

10%

12%

14%

16%

18%

spam

non-spam

Page 12: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

סקירת תוצאות

Page 13: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

סקירת תוצאותAverage word length

0%

1%

2%

3%

4%

5%

6%

7%

8%

spam

non-spam

Page 14: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

סקירת תוצאות

Page 15: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

סקירת תוצאותnumber of words

0%

2%

4%

6%

8%

10%

12%

14%

16%

18%

spam

non-spam

Average word length

0%

1%

2%

3%

4%

5%

6%

7%

8%

spam

non-spam

Page 16: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

מסקנות ותובנות

למספר הדפים שמשמשים לבניית העץ יש השפעה •משמעותית על ביצועיו.

יש לתת יחס מיוחד לדפים קטנים באופן משמעותי •שמכניסים רעש למערכת.

עצי החלטה מדויקים מדי )אנטרופיה נמוכה( עלולים •להתאים רק לנתונים שעל פיהם הם נבנו, תוך פגיעה

בביצועיהם על דפים חדשים.התכונות שנבחנו בפרויקט לא מספיקות כדי לבצע מיון •

ברמה מספיק טובה, יש לשלב תכונות נוספות בבדיקה.

Page 17: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

סיכום העבודהיעדי הפרויקט שהושגו:

.למידת המאמר והרקע התאורטי הכרה והתנסות עם החבילותHTMLParser, jaDT.

.מימוש האפליקציה והרצת סימולציות

אפשרויות המשך לפרויקטים עתידיים: בדיקת התכונות הנוספות המתוארות במאמר(n-

grams.)

מימושDecision tree.חלופי

.)הוספת כלים נוספים למיון )לא מבוססי תוכן

.הטמעה במנוע חיפוש

Page 18: Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ מצגת סיום חורף תשס"ז הטכניון - המעבדה

It was fun!

Let’s do it again…