14
עעעעעע עעעע עעעעעעעעע עעעעעPageRank ע"ע עעע עעעעעעע

איחזור מידע אלגוריתמי חיפוש PageRank

  • Upload
    kimball

  • View
    45

  • Download
    4

Embed Size (px)

DESCRIPTION

איחזור מידע אלגוריתמי חיפוש PageRank. ד"ר אבי רוזנפלד. שלבים למנוע חיפוש. בניית המאגר מידע ( Web crawler ) בניית האנדקסים (לאנדקס Index ) ניקיון המידע מכפילות, STEMMING בניית התשובה עיבוד השאלתה (הורדת STOP WORDS ) דירוג תוצאות ( PAGERANK ) ניתוח התוצאות - PowerPoint PPT Presentation

Citation preview

Page 1: איחזור מידע אלגוריתמי חיפוש  PageRank

מידע איחזורחיפוש אלגוריתמי

PageRank

רוזנפלד" אבי ר ד

Page 2: איחזור מידע אלגוריתמי חיפוש  PageRank

חיפוש למנוע שלביםמידע )• המאגר (Web crawlerבנייתלאנדקס ) • האנדקסים (Indexבניית

– , מכפילות המידע STEMMINGניקיוןהתשובה • בניית

הורדת ) – השאלתה (STOP WORDSעיבודתוצאות )– (PAGERANKדירוגהתוצאות • ניתוח

–FALSE POSITIVE / FALSE NEGATIVE–Recall / Precision

Page 3: איחזור מידע אלגוריתמי חיפוש  PageRank

Indexing Process

Page 4: איחזור מידע אלגוריתמי חיפוש  PageRank

Web Crawler / רשת זחלן– Identifies and acquires documents for search engine– http://en.wikipedia.org/wiki/Web_crawler

באופן • שסורקת תוכנה או בוט של סוג הוא רשת זחלןה את ושיטתי .WWWאוטומטי

•. להוריד עמוד איזה מגדירה אשר בחירה של מדיניותשינויים • לבדוק מתי מגדירה אשר חוזר ביקור של מדיניות

בדפים.של • יתר מעומס להימנע איך מגדירה אשר נימוס מדיניות

. השרת של להפלה ולגרום אתריםהזחלנים • בין לתאם איך מגדירה אשר הקבלה של מדיניות

השונים.

Page 5: איחזור מידע אלגוריתמי חיפוש  PageRank

התוכן ניתוחלפני ) • אתיקה שימוש( GOOGLEבהיסתוריה היה

האתר ניתוח כולל בתוכןMETAתגי –הטעינה – זמןהרשת GOOGLEאחרי • מבנה של ניתוח יש

Page 6: איחזור מידע אלגוריתמי חיפוש  PageRank

The History of PageRank

• PageRank was developed by Larry Page (hence the name Page-Rank) and Sergey Brin.

• It is first as part of a research project about a new kind of search engine. That project started in 1995 and led to a functional prototype in 1998.

• Shortly after, Page and Brin founded Google.• 16 billion…

Page 7: איחזור מידע אלגוריתמי חיפוש  PageRank

PageRank

– PageRank is a link analysis algorithm which assigns a numerical weighting to each Web page, with the purpose of "measuring" relative importance.

Based on the hyperlinks map

An excellent way to prioritize the results of web keyword searches

Page 8: איחזור מידע אלגוריתמי חיפוש  PageRank

Link Structure of the Web• 150 million web pages 1.7 billion links

Backlinks and Forward links:A and B are C’s backlinksC is A and B’s forward link

Intuitively, a webpage is important if it has a lot of backlinks.

What if a webpage has only one link off www.yahoo.com?

Page 9: איחזור מידע אלגוריתמי חיפוש  PageRank

Simplified PageRank algorithm

• Assume four web pages: A, B,C and D. Let each page would begin with an estimated PageRank of 0.25.

• L(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows:

A

B

C

D

A

B

C

D

Page 10: איחזור מידע אלגוריתמי חיפוש  PageRank

לחשב קשה יותר כלל בדרך זה ...בפועל

לו Cפה • שיש בגלל חשוב הואמ שנכנס בגלל, Bקישור חשוב

מכמה לו שנכנסים קישורים שישאתרים.

אבל PageRankיש • מצטברשולית ) dampingבתוספת

factor ,)d .פה • שיש ה d=0.85נניח של PRאז

A=

Page 11: איחזור מידע אלגוריתמי חיפוש  PageRank

המדד את לראות אפשרPAGERANK

Page 12: איחזור מידע אלגוריתמי חיפוש  PageRank

חיפוש במנועי אתרים קידוםSearch Engine Optimization (SEO)

ש • , PAGERANKבגלל אנשים היו ידועה היה – – ( אני רוזנפלד אבי למה אתרים שקידמו

ראשון?(מלאכותיים • קישורים בניית

–Building, Link Farming • , – לאתר וכדומה מיילים בלוגים זבל אתרי יצירתבתגי • תוכן הוספת METAסתם

Page 13: איחזור מידע אלגוריתמי חיפוש  PageRank

לב מכון של האתרים השוואתאילן- ובר

External Backlinks

Referring Domains Backlinks EDU Backlinks GOV PR Quality

14765 1415 229 64 Very Strong

External Backlinks

Referring Domains Backlinks EDU Backlinks GOV PR Quality

512427 9684 6730 1311 Very Strong

Backlinks information provided by Majestic SEO

http://checkpagerank.net/

לב - PageRank = 6/10מכון

אילן- - PageRank = 7/10בר

Page 14: איחזור מידע אלגוריתמי חיפוש  PageRank

פנדה " "גוגלבסיס • על רק המקורי PAGERANKלאפורסם • לאהקישור • ותק שוקלהקישור • מקור שוקלהקישור • של היעד שוקללקישורים • משקל לתת מכונה למידת של שיטות בניית•PageRank is now one of 200 ranking factors that Google

uses to determine a page’s popularity .•:// . . / /http www accuracast com articles optimisati

/on jagger(2005מ Jaggerהעדכון ) /