הרצאה מספר 9

1

9הרצאה מספר

חלק א' חלק א' - - שיטות חיפוששיטות חיפוש

2

שיטות חיפוש נפוצות

השיטה הבוליאנית•

vector-space modelה •

שיטות הסתברותיות•

שיטות נוספות•שילוב שתי השיטות הראשונות––Latent semantic indexing–…

3

השיטה הבוליאנית“Boolean search commands have been used by

professionals for searching through traditional databases for years. Despite this, they are overkill for the average web user.”

Danny Sullivan, http://searchenginewatch.com/facts/boolean.html

האופרטורים הבסיסיים•–AND–OR–NOT

http://searchenginewatch.com/facts/boolean.html

http://searchenginewatch.com/facts/boolean.html

Vennדיאגרמות

A AND B AND NOT C4

A OR B AND NOT C

(A OR B) AND NOT C

5

חיפוש בוליאני (המשך)אופרטורים נוספים•

–XOR

A XOR B

6

חיפוש בוליאני (המשך)שימו לב: מערכות מסחריות לא תמיד מתחשבות בחוקי •

), במיוחד כאשר מכניסים NOT 2. AND 3. OR.1הקדימות (). לעתים קרובות הביצוע formאת השאילתא באמצעות טופס (

הוא משמאל לימין.דוגמה•

• OCLC’s FirstSearch –expert searchmath OR “distance education” AND Webmath OR (“distance education” AND Web)

אין אפשרות להוסיף סוגריים! כדי לקבל advanced searchב •תשובה לשאילתא השנייה צריך לשנות את סדר הכנסת

(עם Web 3) math (distance education” 2) “1המונחים: הוספת האופרטורים המתאימים).

•Yahooעובד נכון עם פעולות בוליאניות

7

חסרונות השיטה

האחזור מבוסס על החלטה בינארית (מסמך •מתאים/לא מתאים) ואין אפשרות להתאמה

חלקיתהמסמכים המוחזרים אינם מדורגים•משתמשי הקצה •

מתקשים בניסוח שאילתות בוליאניות מורכבות–השאילתות המנוסחות לעתים קרובות יותר מדי –

פשטניותכתוצאה מכך מקבלים מעט מדי או יותר מדי תוצאות–

8

vector space modelvector space modelה ה בשיטה זו ניתן לתת משקלות למונחים•) בין similarityהשיטה מבוססת על חישובי דמיון (•

השאילתה למסמכים במאגרהשיטה מאפשרת להחזיר מסמכים עם התאמה חלקית•תוצאות החיפוש מדורגות לפי דרגת הדמיון•בשיטה זו כל מסמך וכל שאילתה מיוצגים על ידי וקטור•וקטור הוא סדרה של ערכים:•

v=(v1,v2,v3,….vn) – n וקטור באורך ניתן לייחס לוקטור גם משמעות גיאומטרית – במקרה זה •

ממדיn הם קואורדינטות במרחב viהערכים

הגדרותהגדרות• ki is an index term

• dj is a document

• t is the total number of terms in the system

• K = (k1, k2, …, kt) is the set of all index terms

• wij >= 0 is a weight associated with (ki,dj). It quantifies the importance of the term ki for describing the document contents

• wij = 0 indicates that term does not belong to doc

• vec(dj) = (w1j, w2j, …, wtj) is a weighted vector associated with the document dj

• vec(q) = (w1q, w2q, ..., wtq) is a weighted vector associated with the query q, wiq quantifies the importance of the term ki for the query

10

דמיון בין מסמך לשאילתאדמיון בין מסמך לשאילתא.k1, k2, k3נניח שבמערכת שלנו שלושה מונחי מפתח בלבד, • ו k1המסמך הראשון ממופתח על ידי שני המונחים, •

k2 והמסמך השני על ידיk1 בלבד. נגדיר מערכת משקלות פשוטה ביותר, אם מסמך ממופתח על ידי המונח, משקלו של

(זה כבר נובע מההגדרה). כלומר0, אחרת 1המונח יהיה vec(d1)=(1,1,0) vec(d2)=(1,0,0)

נניח•vec(q)=(0,1,1)

בין השאילתה למסמך על )similarityהדמיון (ניתן לחשב את •ידי חישוב המכפלה הפנימית בין הוקטורים (הכפלת

הקואורדינטות המתאימות וחיבור התוצאות). נסמן את הערך ב sim(di,q)

sim (d1,q)= 0*1+1*1+ 1*0=1sim (d2,q)=0*1+1*0 + 1*0=0

d1

d2

d3d4 d5

d6d7

k1 - powerfulk2 - fast

k3 - efficient

k1 k2 k3 q djd1 1 0 1 2d2 1 0 0 1d3 0 1 1 2d4 1 0 0 1d5 1 1 1 3d6 1 1 0 2d7 0 1 0 1

q 1 1 1

נקבע משקלות. אם מונח מופיע במסמך, משקלו יהיה אחד, אחרת משקלו יהיה

0:

d1: Computers are powerful and efficient.d2: Computers are powerful.d3: Computers are efficient and very fast.d4: Computers are very powerful.d5: Computers are powerful, fast and efficient.d6: Computers are very fast and powerful.d7: Computers are fast.

k1 k2 k3 q djd1 3 0 2 9d2 3 0 0 3d3 0 4 3 17d4 6 0 0 6d5 3 2 1 10d6 2 6 0 14d7 0 3 0 6

q 1 2 3

d1

d2

d3d4 d5

d6d7

k1 - powerfulk2 - fast

k3 - efficient

d1: Computers are powerful and efficient.d2: Computers are powerful.d3: Computers are efficient and very fast.d4: Computers are very powerful.d5: Computers are powerful, fast and efficient.d6: Computers are very fast and powerful.d7: Computers are fast.

, 3. הכלל: מונח ראשון – משקל veryמשקל: נותנים חשיבות לסדר הופעת המונחים ולמילה מכפילה את very. המילה 1, מונח שלישי לפי סדר ההופעה – משקל 2מונח שני – משקל

המשקל שהיינו נותנים המונח.

13

מתן משקלותמתן משקלותבמערכות קלאסיות נהוג להתחשב בשני גורמים:•

). term frequency - tfשכיחות הופעת המונח במסמך (–נהוג לנרמל גודל זה, כדי להתחשב במסמכים בעלי אורכים

שווים. מילים – בשניהם 10 מילים ומסמך בן 10000השוו בין מסמך בן •

מופיע מונח מסויים פעמיים

נדירות הופעת המונח במסמכי המערכת. ככל שמונח נדיר –יותר, הופעתו במסמך משמעותי יותר (יחס הפוך). גורם זה

.inverse document frequency (idf)נקרא

)הגדרות()הגדרות( מתן משקלותמתן משקלות• Let,

– N be the total number of docs in the collection– ni be the number of docs which contain ki– freq(i,j) raw frequency of ki within dj

• A normalized tf factor is given by– f(i,j) = freq(i,j) / max(freq(l,j))– where the maximum is computed over all terms which occur

within the document dj– There are other ways to normalize (e.g simply by the length of

the document)

• The idf factor is computed as– idf(i) = log (N/ni)– the log is used to make the values of tf and idf comparable. It

can also be interpreted as the amount of information associated with the term ki. log is to the base 2.

15

משקלות (המשך)משקלות (המשך)השיטות הטובות ביותר מבוססות על שני הגדלים הנ"ל•

–wij = f(i,j) * log(N/ni) tf-idf weighting scheme שיטה זו נקראית–

ניתן לתת משקלות גם למונחי השאילתה. הצעה אחת:•–wiq = (0.5 + [0.5 * freq(i,q) / max(freq(l,q)]) *

log(N/ni)

הניסיון מראה ששיטות אלה משיגות תוצאות טובות •עבור אוספים כלליים.

ERICנבדוק את שיטות הדירוג של –

– Israel "information retrieval" http://searcheric.org

16

השיטה ההסתברותיתהשיטה ההסתברותיתבשיטה זו מחשבים את הדמיון בין השאילתה •

למסמך לפי ההסתברות הרלוונטיות של המסמך לשאילתה.

הנחת היסוד•) ) שהיא קבוצת ideal setקיימת קבוצה של מסמכים –

המסמכים שהמשתמש היה רוצה לקבל כתוצאה של השאילתה. מסמכים בקבוצה זו רלוונטיים ומסמכים

מחוץ לקבוצה אינם רלוונטיים.

מבוסס על חישוב הסיכוי שמונח יופיע במסמך •רלוונטי. הדמיון הוא צירוף ההסתברויות הנ"ל

עבור המונחים המשותפים למסמך ולשאילתה. השיטה מתבססת על תיאוריות מתמטיות קיימות•

(תורת ההסתברות).

17

השיטה ההסתברותית )המשך(השיטה ההסתברותית )המשך(

w = log

rR - rn - rN - R

( )

( )

N number of documents in collectionR number of relevant documents for query qn number of documents with term tr number of relevant documents with term t

rR - r

n - rN - R

( )

( )

number of relevant documents with term t number of relevant documents without term t

number of non-relevant documents with term tnumber of non-relevant documents in collection

המשקל אמור לבטא את הסיכוי שהמונח יופיע במסמך שרלוונטי לשאילתה. לדוגמה:

.אין התחשבות בשכיחות המונח r ו R צריך "לנחש" את חסרונות: vectorבמסמך. הנחת אי תלות הופעת מונחים במסמכים (מניחים גם ב (

space.

18

NLPNLPעיבוד שפה טבעית - עיבוד שפה טבעית - המשתמש מנסח את השאילתה שלו בשפה טבעית.•מעודדים את המשתמש לתת תיאור מפורט• אחת הבעיות•

זיהוי שלילה– sentenceטיפול בשאילתות המורכבות מקטעי משפטים בלבד (–

fragments.(Web: askjeevesדוגמה לשירות כזה ב •

http://www.askjeeves.comTell me about UN resolutions against IraqWho killed Rabin?

What countries in Europe are not members of the EU?:Googleננסה את השאילתות המקבילות ב

"UN resolutions" "against Iraq“Rabin killedcountries Europe not members EU

19

שיטות נוספותשיטות נוספות

vector spaceשילוב בשיטה הבוליאנית עם ה •מדרגים את התוצאות שהתקבלו באחזור הבוליאני–

•latent semantic indexing) במקום מונחי conceptsמנסה למפתח מושגים (–

מפתח

20

דירוג התוצאותדירוג התוצאות

•term frequency

•inverse document frequency

מיקום המונח במסמך •

קרבה בין המונחים•

hypertextקשרי •

21

שיטות לדירוג התוצאות (המשך)שיטות לדירוג התוצאות (המשך)

שכיחות המונח בטקסט• מנסים לנצל את הגורם הזה לרעה.התופעה Webב –

, מנועי החיפוש לנסים להלחם spammingנקראת בה.

יש יתרון למסמכים ארוכים על פני מסמכים קצרים –(על בעיה זו ניתן להתגבר על ידי נירמול)

ישנם סוגי מסמכים (חוזים לדוגמה) בהם שיטה זו לא –תעבוד. למרות זאת, הניסיון מראה, שהשיטה בדרך כלל עובדת כאשר מתעלמים מהמונחים השכיחים

ביותר.

22

23

שיטות לדירוג התוצאות (המשך)שיטות לדירוג התוצאות (המשך)•idf - inverse document frequency

מדגיש את חשיבות המילים הנדירות בשאילתה–בשאילתה של מונח יחיד לא תורם כלום(יש המון שאילתות –

)Webכאלה ב קשה לחישוב באוסף דינמי – כל שינוי (הוספה, מחיקה או –

. פתרונות idfשינוי תוכן המסמך) גורם לשינוי בערכי ה אפשריים

לצבור את השינויים "בצד". לבנות מחדש את האינדקס אחת •idf וגם ה tfלתקופה קבועה. באינדקס רשום גם ה

לבנות את האינדקס מחדש כאשר מצטברת כמות מעל לכמות סף •של שינויים

בלבד (קל לעדכון) ולחשב את ה tfלרשום בקובץ האינדקס את ה •idf.בכל פעם מחדש

24

שיטות לדירוג התוצאות (המשך)שיטות לדירוג התוצאות (המשך)מיקום המונח במסמך•

?)Webמונח המופיע בכותר (מהו הכותר במסמך –מונח המופיע בתחילת המסמך (מה קורה עם ציטוטים –

במאמרים מדעיים?) גדולfontמונחים מודגשים או מוצגים ב –

(מתוך ה AltaVistaגורמים אלה משפיעים על •help(, 2002

– what you are looking for appear near the beginning of the document

– the words and phrases you are looking for appear in the title of the page

25

שיטות לדירוג התוצאות (המשך)שיטות לדירוג התוצאות (המשך)קרבה בין המונחים המבוקשים•

)help 2002 (מתוך ה ,Googleנראה את המדיניות של –– Not only do Google's results contain all of your search

terms, but Google also analyzes the proximity of those terms within the page. Google prioritizes results according to how closely your individual search terms appear and favors results that have your search terms near each other. Google's order of hits is determined by a combination of several factors, including PageRank priorities.

– Google's order of results is automatically determined by more than 100 factors, including our PageRank algorithm. Please check out our "Why Use Google" page for more details. Due to the nature of our business and our interest in protecting the integrity of our search results, this is the only information we make available to the public about our ranking system. (2003)

http://www.google.com/technology/index.html

26

שיטות לדירוג התוצאות (המשך)שיטות לדירוג התוצאות (המשך)hypertext - link analysisקשרי •

לוקחים בחשבון את webכיום רוב מנועי החיפוש ב –הקישורים המצביעים אל הדף לצורך הדירוג

. במקביל גם Google (Page & Brin)יושם לראשונה ב –) פיתחו שיטות דומות.Kleinbergאחרים (

הרעיון הבסיסי:– המצביעים אל דף מסויים, הדף "חשוב" linksככל שיש יותר •

יותר

) ויש Yahooיש קישורים "חשובים יותר " (למשל קישור מ •קישורים חשובים פחות (קישורים שאני יצרתי בעצמי כדי לשפר את מיקום הדף שלי). לכן לא ניתן סתם לספור את

מספר הקישורים הנכנסים. מתחשבים גם באיכות של הקישור

27

שיטות לדירוג התוצאות (המשך)שיטות לדירוג התוצאות (המשך) על הנושא?AltaVista ו Googleמה אומרים •

• Google's order of hits is determined by a combination of several factors, including PageRank priorities. (2002)

• AltaVista: pages that have lots of links to other pages with related content are likely to be useful reference points for you (2002)

ניתן למצוא שני תחומים בהם כבר בעבר נעשה שימוש •בכלים דומים ל ניתוח קישורים

)citation analysisביבליומטריקה (–)social networksרשתות חברתיות (–

לכל כלי יש את המתכון הסודי שלו לדירוג •מסמכים

יש כאלה שבנוסף לגורמים שהזכרנו לעיל, מתחשבים –meta tagsגם במידע ה נמצא ב

28

שיטות להצגת תוצאות האחזורשיטות להצגת תוצאות האחזור• Ranking

• Short summary בדרך כלל כמה שורות ראשונות של המסמך Webב –

. description (metatag)או מה שמופיע בתגית

• Zoning Googleהצגת הקטע הרלוונטי מתוך המסמך.–

משתמש בשיטה זו.

• Highlightingמילות החיפוש מודגשות במסמך המאוחזר. למשל ב –

cached copy של Google.

29

שיטות להצגת תוצאות האחזור שיטות להצגת תוצאות האחזור (המשך)(המשך)

• Vocabulary browseWinSpirs דרך Sociological Abstractsלמשל ב –

• Iterative search and search history log– search within results (e.g. in Google)– search history in ABI/INFORM for currrent

session. Also in FirstSearch

• Canned query)e.g.WOSשמירת שאילתה החוזרת על עצמה (–

Documents

הרצאה מספר 9