42

כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

  • View
    266

  • Download
    6

Embed Size (px)

Citation preview

Page 1: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון
Page 2: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

כמה עובדות...

אתרים130 היו ברשת 1993בשנת • בלבד מיליארד דפים4כיום יש יותר מ-• מיליון דפים לרשת7.3בכל יום מתווספים כ •

( Cyveillance August 2001)

מנועי חיפוש הם הדרך למצוא את המידע

Page 3: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

התפתחות האינטרנטכלל משתמשי אינטרנט

ם שי

מת

שמ

ר ספ

מם(

ניליו

מי(

שנה Nua Survey, Aug. 2001http://www.nua.ie/surveys/

Page 4: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

מהו מנוע חיפוש ?

כליהמאפשרלמשתמשיםלהכניסמילותאתריםדרךאינפורמציהלהשיגכדימפתח

ברשתהמכיליםקטלוגאומסדנתונים.מורצים Yahoo או Google , Alta Vistaכלים כמו•

ע"י תוכנת מנוע חיפוש המאפשרת גישה למסד הנתונים.

הרשתבכלבכללא קיים מנוע חיפוש המחפש מידע •

Page 5: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

סוגי מנועי חיפוש

ניתן לסווג את מנועי החיפוש לשני סוגים •עיקריים:

(Search Enginesמנועי חיפוש )–חיפוש ספריות / אינקסים–

( Search Directories or Indexes)

מתכוונים לאחד משני "מנוע חיפוש"כאשר אומרים הנ"ל.

Page 6: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

(Search Enginesמנועי חיפוש )

( webתוכנה אוטומטית הסורקת את הרשת )•ואוספת עמודים שיכללו במסד הנתונים /

הקטלוג שלה.

כשמשתמש מבצע שאילתה, החיפוש מתבצע •בקטלוג / מסד הנתונים ולא בכלל הרשת.

לכל מנוע חיפוש יש את אוסף האתרים הייחודי •שלו , כך שחיפוש זהה, במנועי חיפוש שונים,

יניב תוצאות שונות.

Page 7: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

חיפוש ספריות / אינדקסים( Search Directories or Indexes)איסוףהאתריםוסיווגםלקטלוגיםבספריות

אינדקסיםמתבצעעיבניאדםהאתריםנאגריםולאחרמכןהםמסווגים

המתאימהלקטגוריהחלקמהספריותאינןמתייחסותלתוכןכ

אליהןמתוספיםדפיםאשרספריות אחרות אוספות ומדרגות נתונים.•

ישנןספריותהכוללותהערותהמתארותאתכולתןת

Page 8: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

הערכת תוצאות החיפוש התוצאות המטרה : מנוע חיפוש בעל רמת דיוק גבוהה •

הרצויות בעמוד הראשון.הערכה מתבצעת באמצעות מדדים סטטיסטים.•"Richardson Richmond Footballדוגמא : "•

תוצאה טובה :– המילים3 מכילה את כל •(TF – term frequency תדירות הופעתן בדף גבוהה )•

יתכן כי לכל מילה יהיה משקל חשיבות שונה.–)IDF )Inverse Document Frequencyזהו מדד «פונקצית דירוג סטטיסטית נפוצה המשלבת רעיונות אלו «

Okapi

Page 9: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

למציאת Okapi BM25פונקציתIDF

•Q ביטוי המכיל – Tמילים •k1, b, k3 פרמטרים קבועים•tf שכיחות המונח במסמך •qtf שכיחות המונח בשאילתה •Nמס' המסמכים • n מספר המסמכים המכילים

את המילה•dl המסמך אורך•avdl ממוצע אורך המסמך

qtfk

qtfk

tfK

tfkw

QT

3

31 (1)(1)

((1))1 avdl

bdlbkK

(5.0

5.0log)

n

nNW

פונקצית הדירוג מדרגת את תוצאות החיפוש בהתאם ל: מס' הפעמים שמילה מופיעה במסמך‒ מספר המסמכים המכילים את המונח‒ אורך המסמך‒

(5.0

5.0log)

n

nNW

מס' ה"לא מכילים"

מס' ה"מכילים"

Page 10: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

דרכים חילופיות להערכת התוצאות

•Google משתמשים בשיטת Page Rank הנותנת ציון גבוה לדף, אם הוא מקושר למקור מוסמך.

משוב רלוונטי הוא טכניקה שמוסיפה מילים • more“לשאילתה אם המשתמש בחר באופציה

like this”חיפוש בקטגוריה או לפי סיווג מסוים כדי לצמצם •

את תחום החיפוש

Page 11: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

מרכיבי מנוע החיפוש3

• Spider, Crawler or Robot

• Index, Catalog or Database

• Search Engine Software

Page 12: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

Spider - 1חלק

נקראגםcrawler או robot.

תוכנית ש"מסתובבת" ברשת•נכנסת לאתרים–קוראת את הדפים –עוקבת אחר קישורים אל תוך האתר.–

ה"עכביש" חוזר לאתרים לעיתים תכופות, לשם •עדכון שוטף של האינדקס.

Page 13: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

- האינדקס2חלק

נקרא גם קטלוג או מסד נתונים•

האינדקס מכיל העתק של כל עמוד שמצא •ה"עכביש".

"( Spidered Pageעמוד שנמצא ע"י העכביש )“•חייב לקבל אינדקס כדי שיוכל להוות תוצאת

חיפוש.

Page 14: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

כיצד עובד האינדקס ?

מרכיבים עיקריים2האינדקס מכיל •

אוצר מילים השמור בזיכרון, בו ניתן לערוך חיפוש. – ופוינטר לרשימה הופכית IDFלכל מילה שמור

למילה.רשימה הופכית בדיסק ששומרת את אוסף אוצר –

המיליםהרשימה כוללת , בין השאר :•

–term frequencyתדירות המונח בכל מסמך – TF

Page 15: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

)המשך(כיצד עובד האינדקס ?

In Memory Vocabulary(hash table)

Inverted Lists

Mapping Table

Document Collection

DiskMemory

cat

Cat in the hat

3 :1 ,2 ,7

Page 16: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

– תוכנת מנוע החיפוש 3חלק

תוכנה זו מסננת את העמודים באינדקס בכדי •למצוא התאמה למילות החיפוש בשאילתה

ולהחזיר תוצאות/פגיעות.

Page 17: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

ארכיטקטורה של מנוע חיפושהרשימות ההופכיות

מפוזרות בין מספר (serversשרתים )

shardכל שרת נקרא

כשיש צורך ברשימהספציפית ובמסמך ספציפי

לתחום מילים מסוים ,מתחברים לשרתים

הרלוונטים כל שרת יכול להיות

המסמכים מועתק לפי הצורךעצמם מפוזרים בין מס' שרתים

גם כן.

Page 18: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

רלוונטיות התוצאותכיצד מנוע החיפוש מחליט מהם העמודים •

הרלוונטים לחיפוש ?כל מנועי החיפוש משתמשים בצורה זו או אחרת בשיטת –

(location/frequency method ( ה"מיקום / תדירות“מילות מפתח המופיעות בכותרת )מיקום(–מילות מפתח בקרבה לראש העמוד – כותרות, פסקאות –

ראשונות )מיקום(תדירות הופעת מילות המפתח ביחס להופעת מילים –

אחרות בעמוד )תדירות(–META tags שמקודדים ב html.של העמוד

Page 19: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

כיצד יש לבצע חיפוש מוצלח ?

הכנת רשימת מילות מפתח•

הלוגים במנוע החיפושsyntaxהכרת כללי ה •

ביצוע חיפוש זהה, במס' מנועי חיפוש שונים•

הערכת התוצאות/פגיעות המתקבלות•

Page 20: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

חיפוש תמונות ומולטימדיה

"תמונה שווה יותר מאלף מילים"•אם מצליחים למצוא אותה.....–

לכן, יש צורך לבנות מנוע "חכם" שיעמוד בשתי •דרישות:

סיפוק דרך ידידותית למשתמש להגדיר שאילתותמורכבות

תמיכה בחיפושים מותאמים למשתמש

Page 21: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

Crawler = Spider

Content-basedFeature Extractor

CollaborativeImage Annotator

Indexer

Text-basedSearch Engine

Perception-basedSearch Engine

Content-basedSearch Engine

User Interface

Internet Image Libraries

Page 22: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

דוגמא

Page 23: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון
Page 24: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

תודה !

Page 25: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

Back Up

Page 26: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

Content-based Feature Extractorאוסף מאפינים תפיסתיים בתמונה, מבינהם:•

צבע – צבעי בסיס )שחור, לבן, אדום, 12–

צהוב, ירוק, כחול, חום, סגול, ורוד,כתום ,אפור ומסגרת (

מאפיניים )היסטוגרמת הצבע, 9 –,)HSV )2X3ממוצע ושונות מבחינת

elongationופיזור( אפשרויות צבע.9X12 = 108סה"כ –

- צורה–

Page 27: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

Content-based Feature Extractor–מרקם אספקטים : מואזן, מאונך ואלכסון.3ממיין על פי – ופיזור(elongation מאפיינים ) ממוצע, שונות , 4– coarse, medium מאפיינים לכל אחד מהם 12 סה"כ –

& fine מרקם אפשרויות מרקם36סה"כ

השליפה צריכה להיות יעילה :•קצרה בזמן–מדויקת בתוצאות–

Content-based Feature Extractor )2(

Page 28: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

Collaborative Image Annotatorמילות מפתח של תמונה מגיעות ממס' מקורות:•

טקסט שמופיע לצד התמונה–שם הקובץ–(manual annotation)פירושים ידניים –

פירוש ראשוני עלול להיות חסר או לא מדויק.–וקטור של מילים )יער, נמר, שמים...(–

כלי זה אוסף משוב מהמשתמש, כך שדיוק –, 0.9, נמר :0.1 )יער :הפירוש הידני עולה עם הזמן

..(0.7שמים :

CBSA - Content Based Soft Annotationאלגוריתם ע"י

Page 29: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

Collaborative Image Annotator :CBSAאלגוריתם •

אוסף משובים כדי לספק פירוש תמונה מלוטש יותר.•– הגדלת מספר מילות המפתח לתמונות שלב א' •

ללא תווית ע“י מסווגי תמונה. – שיפור איכות הפירוש ע"י משוב למידה שלב ב'•

אקטיבית.

כל תמונה מקבלת בסופו של התהליך וקטור של מילות •ערך.מפתח כאשר כל מילת מפתח מקבלת

Page 30: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

Content-based Search Engine

המנוע שולח שאילתה ובה דוגמת תמונה שבחר •המשתמש אל מסד הנתונים של התמונות.

מוצא המנוע את כל התמונות , במסד הנתונים•הרלוונטיות

על סמך קריטריונים כמו צבע, מרקם וצורה.–

המכשול.. לא תמצאנה תמונות עם דמיון סמנטי.–

Perception-based Search Engine פתרון לכך יתנן ע"י ה•

Page 31: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

שאילתה לפי דוגמא שימושית מאד כאשר המשתמש• רק רוצה תמונה שנראית דומה לזו שבדוגמא

Page 32: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

Perception-based Search Engine

זהו לב ליבה של הארכיטקטורה. •

המנוע לומד את שיטות החיפוש של המשתמש בדומה •ללימוד משתנה בינארי.

.0 והשאר ב- 1 תמונה רלוונטית תסומן ב- –

הלימוד נעשה בצורה איטרטיבית, בעזרת –המשתמשים.

אלגוריתם של למידה•– MEGA ) Maximizing Expected Generalization Algorithm (

– SVM

Pipeline Learning שילוב – –

Page 33: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

MEGAאלגוריתם המוצא דוגמאות רלוונטיות של תמונות

query concept learningבזריזות, לאתחול תהליך ה ""

– : K-CNF עבור קבועK: מכילה נוסחה בוליאנית מהצורה c1 c2… cθ

,x1ים לכל היותר, מתוך המערך )k xשל חיתוך הוא ciכאשר כל x2..,xn )

מציין תכונה. xכאשר כל

–DNF–K : עבור קבועK: מכילה נוסחה בוליאנית מהצורה c1 c2… cθ

,x1ים לכל היותר, מתוך המערך )k xשל איחוד הוא ciכאשר כל x2..,xn )

מציין תכונה. xכאשר כל

K-DNF ויותר ספציפית מ K-CNFהתוצאה הסופית תהיה יותר גנרית מ –

משמש ל :MEGAלמעשה – השמת גבולות לתחום הדוגמאות שמתקבל–

מקסימיזציה לשימושיות הדוגמאות )גם דוגמא שקבלה ציון שלילי –מהמשתמש יכולה להועיל(

Page 34: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

SVM אלגוריתם המבצע ליטוש מהיר של תחום •

הדוגמאות שמתקבל, כך שהאובייקטים העונים על דרישות המשתמש יבודדו ויופרדו מתוך מערך

הנתונים במסד הנתונים.

{ של וקטורי מידע, ,Xn…X1בהינתן מערך } – { כאשר,Yn…Y1ובהינתן וקטור תוויות }

-{1+,1 } Yi.

–f)t( = n

i=1 iK)xi,t( , }X1,…Xn{ t

–K)u,v( =)u( * )v(

– אחרת.1 ו f)x( 0 יתקבל עבור +1–

Page 35: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

SVM•SVM ,נזקק לערך אחד ,לפחות עם + וערך אחד

לפחות עם – כדי להתחיל את האלגוריתם.

רעיונות :3האלגוריתם פועל ע“י שילוב •

.I חלוקת מרחב מסד הנתונים לתמונות רלוונטיות ותמונות"לא-רלוונטיות".

.II לימוד מהיר של הסיווג, החלק האקטיבי שלSVM בוחר את המקרים שמספקים את המידע המרבי מהם "לומד"

query"המסווג. כך שמובטחת המרה מהירה של ה concept learning" .במינימום חזרות

.IIISVM מחזיר את top- k .התמונות הרלוונטיות

Page 36: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

Pipeline LearningSVM ו MEGAשילוב •

•MEGA אינו דורש אתחול ספציפי, והוא מסוגל להחזיר מילות מפתח ראשוניות בזריזות.

נבצע אתחול לתהליך החיפוש ע"יMEGA

כאשר יש בידינו מספר תמונות רלוונטיות שלב •.SVMהשיפורים יעשה בצורה מיטבית ע"י

Page 37: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

רשימת מילות מפתח

זההאתהרעיונותהמרכזייםבנושאהחיפושערוךרשימתמילותמפתחלכלרעיוןכולל

מיליםנרדפותושינוייכתיב.קבע את הקשרים הלוגים בין מילות המפתח השונות•

בטחון : +שלום + בטחוןandשלום • בטחון : +שלום-בטחוןnot שלום • בטחוןor שלום •

Page 38: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

syntaxהכרת כללי ה

לכל מנוע חיפוש יש קונספט לוגי המאפשר למשתמש •לחפש בקטלוג שבו.

מנועי חיפוש מסוימים משתמשים בלוגיקה בוליאנית :••and, or, not, but not

לוגיקהבוליאניתמיושמתגםבאמצעותאופרטורים כמו

•” “ ,- ,+ –ידיעתהלוגיקהבהמשתמשמנועהחיפושחשוב

.האופטימליותהתוצאותלקבלתה

Page 39: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

syntax(2 )הכרת כללי ה

–התוצאהחייבתלכלולאתכלמילותהחיפ

וש•Match Any – )OR(

התוצאהחייבתלכלוללפחותאחתממילוהחיפושת

•Exclude – )NOT-(התוצאהחייבתלאלכלולאףאחתממיל

החיפושות

Page 40: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון
Page 41: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

הערכת התוצאות/פגיעות המתקבלות

נקודות שיש לשים לב אליהם :•מיהו יוצר האתר ? ולאיזו מטרה ?–מיהו קהל היעד ?–האם האתר מכיל מידע מדויק ושימושי ?–מתי האתר עודכן לאחרונה ? האם המידע המבוקש –

רגיש לזמן ?

Page 42: כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

מצגת תמונות + מאמר שלנו