כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון

כמה עובדות...

אתרים130 היו ברשת 1993בשנת • בלבד מיליארד דפים4כיום יש יותר מ-• מיליון דפים לרשת7.3בכל יום מתווספים כ •

( Cyveillance August 2001)

מנועי חיפוש הם הדרך למצוא את המידע

התפתחות האינטרנטכלל משתמשי אינטרנט

ם שי

מת

שמ

ר ספ

מם(

ניליו

מי(

שנה Nua Survey, Aug. 2001http://www.nua.ie/surveys/

מהו מנוע חיפוש ?

כליהמאפשרלמשתמשיםלהכניסמילותאתריםדרךאינפורמציהלהשיגכדימפתח

ברשתהמכיליםקטלוגאומסדנתונים.מורצים Yahoo או Google , Alta Vistaכלים כמו•

ע"י תוכנת מנוע חיפוש המאפשרת גישה למסד הנתונים.

הרשתבכלבכללא קיים מנוע חיפוש המחפש מידע •

סוגי מנועי חיפוש

ניתן לסווג את מנועי החיפוש לשני סוגים •עיקריים:

(Search Enginesמנועי חיפוש )–חיפוש ספריות / אינקסים–

( Search Directories or Indexes)

מתכוונים לאחד משני "מנוע חיפוש"כאשר אומרים הנ"ל.

(Search Enginesמנועי חיפוש )

( webתוכנה אוטומטית הסורקת את הרשת )•ואוספת עמודים שיכללו במסד הנתונים /

הקטלוג שלה.

כשמשתמש מבצע שאילתה, החיפוש מתבצע •בקטלוג / מסד הנתונים ולא בכלל הרשת.

לכל מנוע חיפוש יש את אוסף האתרים הייחודי •שלו , כך שחיפוש זהה, במנועי חיפוש שונים,

יניב תוצאות שונות.

חיפוש ספריות / אינדקסים( Search Directories or Indexes)איסוףהאתריםוסיווגםלקטלוגיםבספריות

אינדקסיםמתבצעעיבניאדםהאתריםנאגריםולאחרמכןהםמסווגים

המתאימהלקטגוריהחלקמהספריותאינןמתייחסותלתוכןכ

אליהןמתוספיםדפיםאשרספריות אחרות אוספות ומדרגות נתונים.•

ישנןספריותהכוללותהערותהמתארותאתכולתןת

הערכת תוצאות החיפוש התוצאות המטרה : מנוע חיפוש בעל רמת דיוק גבוהה •

הרצויות בעמוד הראשון.הערכה מתבצעת באמצעות מדדים סטטיסטים.•"Richardson Richmond Footballדוגמא : "•

תוצאה טובה :– המילים3 מכילה את כל •(TF – term frequency תדירות הופעתן בדף גבוהה )•

יתכן כי לכל מילה יהיה משקל חשיבות שונה.–)IDF )Inverse Document Frequencyזהו מדד «פונקצית דירוג סטטיסטית נפוצה המשלבת רעיונות אלו «

Okapi

למציאת Okapi BM25פונקציתIDF

•Q ביטוי המכיל – Tמילים •k1, b, k3 פרמטרים קבועים•tf שכיחות המונח במסמך •qtf שכיחות המונח בשאילתה •Nמס' המסמכים • n מספר המסמכים המכילים

את המילה•dl המסמך אורך•avdl ממוצע אורך המסמך

qtfk

qtfk

tfK

tfkw

QT

3

31 (1)(1)

((1))1 avdl

bdlbkK

(5.0

5.0log)

n

nNW

פונקצית הדירוג מדרגת את תוצאות החיפוש בהתאם ל: מס' הפעמים שמילה מופיעה במסמך‒ מספר המסמכים המכילים את המונח‒ אורך המסמך‒

(5.0

5.0log)

n

nNW

מס' ה"לא מכילים"

מס' ה"מכילים"

דרכים חילופיות להערכת התוצאות

•Google משתמשים בשיטת Page Rank הנותנת ציון גבוה לדף, אם הוא מקושר למקור מוסמך.

משוב רלוונטי הוא טכניקה שמוסיפה מילים • more“לשאילתה אם המשתמש בחר באופציה

like this”חיפוש בקטגוריה או לפי סיווג מסוים כדי לצמצם •

את תחום החיפוש

מרכיבי מנוע החיפוש3

• Spider, Crawler or Robot

• Index, Catalog or Database

• Search Engine Software

Spider - 1חלק

נקראגםcrawler או robot.

תוכנית ש"מסתובבת" ברשת•נכנסת לאתרים–קוראת את הדפים –עוקבת אחר קישורים אל תוך האתר.–

ה"עכביש" חוזר לאתרים לעיתים תכופות, לשם •עדכון שוטף של האינדקס.

- האינדקס2חלק

נקרא גם קטלוג או מסד נתונים•

האינדקס מכיל העתק של כל עמוד שמצא •ה"עכביש".

"( Spidered Pageעמוד שנמצא ע"י העכביש )“•חייב לקבל אינדקס כדי שיוכל להוות תוצאת

חיפוש.

כיצד עובד האינדקס ?

מרכיבים עיקריים2האינדקס מכיל •

אוצר מילים השמור בזיכרון, בו ניתן לערוך חיפוש. – ופוינטר לרשימה הופכית IDFלכל מילה שמור

למילה.רשימה הופכית בדיסק ששומרת את אוסף אוצר –

המיליםהרשימה כוללת , בין השאר :•

–term frequencyתדירות המונח בכל מסמך – TF

)המשך(כיצד עובד האינדקס ?

In Memory Vocabulary(hash table)

Inverted Lists

Mapping Table

Document Collection

DiskMemory

cat

Cat in the hat

3 :1 ,2 ,7

– תוכנת מנוע החיפוש 3חלק

תוכנה זו מסננת את העמודים באינדקס בכדי •למצוא התאמה למילות החיפוש בשאילתה

ולהחזיר תוצאות/פגיעות.

ארכיטקטורה של מנוע חיפושהרשימות ההופכיות

מפוזרות בין מספר (serversשרתים )

shardכל שרת נקרא

כשיש צורך ברשימהספציפית ובמסמך ספציפי

לתחום מילים מסוים ,מתחברים לשרתים

הרלוונטים כל שרת יכול להיות

המסמכים מועתק לפי הצורךעצמם מפוזרים בין מס' שרתים

גם כן.

רלוונטיות התוצאותכיצד מנוע החיפוש מחליט מהם העמודים •

הרלוונטים לחיפוש ?כל מנועי החיפוש משתמשים בצורה זו או אחרת בשיטת –

(location/frequency method ( ה"מיקום / תדירות“מילות מפתח המופיעות בכותרת )מיקום(–מילות מפתח בקרבה לראש העמוד – כותרות, פסקאות –

ראשונות )מיקום(תדירות הופעת מילות המפתח ביחס להופעת מילים –

אחרות בעמוד )תדירות(–META tags שמקודדים ב html.של העמוד

כיצד יש לבצע חיפוש מוצלח ?

הכנת רשימת מילות מפתח•

הלוגים במנוע החיפושsyntaxהכרת כללי ה •

ביצוע חיפוש זהה, במס' מנועי חיפוש שונים•

הערכת התוצאות/פגיעות המתקבלות•

חיפוש תמונות ומולטימדיה

"תמונה שווה יותר מאלף מילים"•אם מצליחים למצוא אותה.....–

לכן, יש צורך לבנות מנוע "חכם" שיעמוד בשתי •דרישות:

סיפוק דרך ידידותית למשתמש להגדיר שאילתותמורכבות

תמיכה בחיפושים מותאמים למשתמש

Crawler = Spider

Content-basedFeature Extractor

CollaborativeImage Annotator

Indexer

Text-basedSearch Engine

Perception-basedSearch Engine

Content-basedSearch Engine

User Interface

Internet Image Libraries

דוגמא

תודה !

Back Up

Content-based Feature Extractorאוסף מאפינים תפיסתיים בתמונה, מבינהם:•

צבע – צבעי בסיס )שחור, לבן, אדום, 12–

צהוב, ירוק, כחול, חום, סגול, ורוד,כתום ,אפור ומסגרת (

מאפיניים )היסטוגרמת הצבע, 9 –,)HSV )2X3ממוצע ושונות מבחינת

elongationופיזור( אפשרויות צבע.9X12 = 108סה"כ –

- צורה–

Content-based Feature Extractor–מרקם אספקטים : מואזן, מאונך ואלכסון.3ממיין על פי – ופיזור(elongation מאפיינים ) ממוצע, שונות , 4– coarse, medium מאפיינים לכל אחד מהם 12 סה"כ –

& fine מרקם אפשרויות מרקם36סה"כ

השליפה צריכה להיות יעילה :•קצרה בזמן–מדויקת בתוצאות–

Content-based Feature Extractor )2(

Collaborative Image Annotatorמילות מפתח של תמונה מגיעות ממס' מקורות:•

טקסט שמופיע לצד התמונה–שם הקובץ–(manual annotation)פירושים ידניים –

פירוש ראשוני עלול להיות חסר או לא מדויק.–וקטור של מילים )יער, נמר, שמים...(–

כלי זה אוסף משוב מהמשתמש, כך שדיוק –, 0.9, נמר :0.1 )יער :הפירוש הידני עולה עם הזמן

..(0.7שמים :

CBSA - Content Based Soft Annotationאלגוריתם ע"י

Collaborative Image Annotator :CBSAאלגוריתם •

אוסף משובים כדי לספק פירוש תמונה מלוטש יותר.•– הגדלת מספר מילות המפתח לתמונות שלב א' •

ללא תווית ע“י מסווגי תמונה. – שיפור איכות הפירוש ע"י משוב למידה שלב ב'•

אקטיבית.

כל תמונה מקבלת בסופו של התהליך וקטור של מילות •ערך.מפתח כאשר כל מילת מפתח מקבלת

Content-based Search Engine

המנוע שולח שאילתה ובה דוגמת תמונה שבחר •המשתמש אל מסד הנתונים של התמונות.

מוצא המנוע את כל התמונות , במסד הנתונים•הרלוונטיות

על סמך קריטריונים כמו צבע, מרקם וצורה.–

המכשול.. לא תמצאנה תמונות עם דמיון סמנטי.–

Perception-based Search Engine פתרון לכך יתנן ע"י ה•

שאילתה לפי דוגמא שימושית מאד כאשר המשתמש• רק רוצה תמונה שנראית דומה לזו שבדוגמא

Perception-based Search Engine

זהו לב ליבה של הארכיטקטורה. •

המנוע לומד את שיטות החיפוש של המשתמש בדומה •ללימוד משתנה בינארי.

.0 והשאר ב- 1 תמונה רלוונטית תסומן ב- –

הלימוד נעשה בצורה איטרטיבית, בעזרת –המשתמשים.

אלגוריתם של למידה•– MEGA ) Maximizing Expected Generalization Algorithm (

– SVM

Pipeline Learning שילוב – –

MEGAאלגוריתם המוצא דוגמאות רלוונטיות של תמונות

query concept learningבזריזות, לאתחול תהליך ה ""

– : K-CNF עבור קבועK: מכילה נוסחה בוליאנית מהצורה c1 c2… cθ

,x1ים לכל היותר, מתוך המערך )k xשל חיתוך הוא ciכאשר כל x2..,xn )

מציין תכונה. xכאשר כל

–DNF–K : עבור קבועK: מכילה נוסחה בוליאנית מהצורה c1 c2… cθ

,x1ים לכל היותר, מתוך המערך )k xשל איחוד הוא ciכאשר כל x2..,xn )

מציין תכונה. xכאשר כל

K-DNF ויותר ספציפית מ K-CNFהתוצאה הסופית תהיה יותר גנרית מ –

משמש ל :MEGAלמעשה – השמת גבולות לתחום הדוגמאות שמתקבל–

מקסימיזציה לשימושיות הדוגמאות )גם דוגמא שקבלה ציון שלילי –מהמשתמש יכולה להועיל(

SVM אלגוריתם המבצע ליטוש מהיר של תחום •

הדוגמאות שמתקבל, כך שהאובייקטים העונים על דרישות המשתמש יבודדו ויופרדו מתוך מערך

הנתונים במסד הנתונים.

{ של וקטורי מידע, ,Xn…X1בהינתן מערך } – { כאשר,Yn…Y1ובהינתן וקטור תוויות }

-{1+,1 } Yi.

–f)t( = n

i=1 iK)xi,t( , }X1,…Xn{ t

–K)u,v( =)u( * )v(

– אחרת.1 ו f)x( 0 יתקבל עבור +1–

SVM•SVM ,נזקק לערך אחד ,לפחות עם + וערך אחד

לפחות עם – כדי להתחיל את האלגוריתם.

רעיונות :3האלגוריתם פועל ע“י שילוב •

.I חלוקת מרחב מסד הנתונים לתמונות רלוונטיות ותמונות"לא-רלוונטיות".

.II לימוד מהיר של הסיווג, החלק האקטיבי שלSVM בוחר את המקרים שמספקים את המידע המרבי מהם "לומד"

query"המסווג. כך שמובטחת המרה מהירה של ה concept learning" .במינימום חזרות

.IIISVM מחזיר את top- k .התמונות הרלוונטיות

Pipeline LearningSVM ו MEGAשילוב •

•MEGA אינו דורש אתחול ספציפי, והוא מסוגל להחזיר מילות מפתח ראשוניות בזריזות.

נבצע אתחול לתהליך החיפוש ע"יMEGA

כאשר יש בידינו מספר תמונות רלוונטיות שלב •.SVMהשיפורים יעשה בצורה מיטבית ע"י

רשימת מילות מפתח

זההאתהרעיונותהמרכזייםבנושאהחיפושערוךרשימתמילותמפתחלכלרעיוןכולל

מיליםנרדפותושינוייכתיב.קבע את הקשרים הלוגים בין מילות המפתח השונות•

בטחון : +שלום + בטחוןandשלום • בטחון : +שלום-בטחוןnot שלום • בטחוןor שלום •

syntaxהכרת כללי ה

לכל מנוע חיפוש יש קונספט לוגי המאפשר למשתמש •לחפש בקטלוג שבו.

מנועי חיפוש מסוימים משתמשים בלוגיקה בוליאנית :••and, or, not, but not

לוגיקהבוליאניתמיושמתגםבאמצעותאופרטורים כמו

•” “ ,- ,+ –ידיעתהלוגיקהבהמשתמשמנועהחיפושחשוב

.האופטימליותהתוצאותלקבלתה

syntax(2 )הכרת כללי ה

–התוצאהחייבתלכלולאתכלמילותהחיפ

וש•Match Any – )OR(

התוצאהחייבתלכלוללפחותאחתממילוהחיפושת

•Exclude – )NOT-(התוצאהחייבתלאלכלולאףאחתממיל

החיפושות

הערכת התוצאות/פגיעות המתקבלות

נקודות שיש לשים לב אליהם :•מיהו יוצר האתר ? ולאיזו מטרה ?–מיהו קהל היעד ?–האם האתר מכיל מידע מדויק ושימושי ?–מתי האתר עודכן לאחרונה ? האם המידע המבוקש –

רגיש לזמן ?

מצגת תמונות + מאמר שלנו

Documents

כמה עובדות... בשנת 1993 היו ברשת 130 אתרים בלבד כיום יש יותר מ-4 מיליארד דפים בכל יום מתווספים כ 7.3 מיליון