21
1 The Architecture of A Search Engine 樂樂樂樂樂樂樂樂樂樂樂樂樂 樂樂樂Kung-Ming Fung [email protected] 2005/04/19

1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) [email protected] 2005/04/19

  • View
    233

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

1

The Architecture of A Search Engine

樂倍達數位科技股份有限公司范綱岷( Kung-Ming Fung )[email protected]

2005/04/19

Page 2: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

2 樂倍達數位科技股份有限公司http://www.doubleservice.com/

Outline

Introduction Evolution Different Kinds of Search Engine Architecture

Robot, Spider, Crawl(er) Indexing Query

Evaluation Criteria Discussion

About Google References

Page 3: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

3 樂倍達數位科技股份有限公司http://www.doubleservice.com/

Introduction

Page 4: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

4 樂倍達數位科技股份有限公司http://www.doubleservice.com/

Evolution

Unix grep – Text Archie- FTP LISTSERV - Mailing Lists Archives Hytelnet – Telnet WAIS - 大量的文字檔案建立索引並提供全文檢索功

能 層級式的瀏覽方式( Hierarchical ) - Gopher Web 搜尋引擎( Search Engine ) - 入口網站

( Portal Site ) 智慧型代理人( Intelligent Agent ) …

Page 5: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

5 樂倍達數位科技股份有限公司http://www.doubleservice.com/

The Architecture of Gopher

Page 6: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

6 樂倍達數位科技股份有限公司http://www.doubleservice.com/

Different Kinds of Search Engine

Page 7: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

7 樂倍達數位科技股份有限公司http://www.doubleservice.com/

Meta Search 整合搜尋

Full-Text Search 全文檢索

Mega Search 混合搜尋

Directory Search 主題目錄式

Page 8: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

8 樂倍達數位科技股份有限公司http://www.doubleservice.com/

Directory Search 目錄式 Yam 蕃薯藤, http://www.yam.com/ Yahoo 雅虎, http://www.yahoo.com/

Full-Text Search 全文檢索 Google , http://www.google.com/ Openfind 網擎, http://

www.openfind.com.tw/ Meta Search 整合型

Page 9: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

9 樂倍達數位科技股份有限公司http://www.doubleservice.com/

Architecture

WWW

Database

Robot, Spider

Indexing

Search

Simple Architecture

Page 10: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

10 樂倍達數位科技股份有限公司http://www.doubleservice.com/

Typical anatomy of a large-scale crawler.

Page 11: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

11 樂倍達數位科技股份有限公司http://www.doubleservice.com/

Robot, Spider, Crawler Robot 是 Search Engine 中負責資料收集

的軟體,又稱為 Spider 、或 Crawler ,他可以自動在設定的期限內定時自各網站收集網頁資料,而且通常是由一些預定的起始網站開始遊歷其所連結的網站,如此反覆不斷( recursive )的串連收集。

robots.txt

Page 12: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

12 樂倍達數位科技股份有限公司http://www.doubleservice.com/

Indexing 索引 一般而言,索引的產生是將網頁中每個

Word 或者 Phrase 存入 Keyword 索引檔中,另外除了來自網頁內容外,網頁作者所自行定義 Meta Tag 中的 Keyword 也常被納入索引範圍。

TF, IDF, Reverse Index

Page 13: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

13 樂倍達數位科技股份有限公司http://www.doubleservice.com/

Query 查詢 檢索軟體是決定 Search Engine 是否能普

遍為人使用的關鍵要素,因為使用者多只能藉由搜尋速度、搜尋結果來判斷一個系統的好壞,而這些工作都屬於檢索軟體的範圍。

人工智慧、自然語言

Page 14: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

14 樂倍達數位科技股份有限公司http://www.doubleservice.com/

WAIS : 廣域資訊服務 (Wide Area Information System ; WAIS) 是

一套可以建立全文索引,並提供網路資源全文檢索功能的軟體,其主要由伺服器 (Server) 、用戶端 (Client) 、協定(Protocol) 等三部份組成 。

查詢方式: 關鍵字 (Keyword) 以概念為基礎的 (Concept-based) 模糊( Fuzzy ) 自然語言( Natural Language )

Page 15: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

15 樂倍達數位科技股份有限公司http://www.doubleservice.com/

Evaluation Criteria

Recall :查詢後回應出適切資料之比率

databasetheindocumentsrelevantofnumberTotal

relevantarethatretrieveditemsofNumberrcall

EX :

  做一個查詢,在 database 中有 80 筆適切的文件,但只有 20 個 items 是有效的, 30 個不適切的,則recall = 20/80 = 0.25

Page 16: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

16 樂倍達數位科技股份有限公司http://www.doubleservice.com/

Precision :精確度

retrieveddocumentsofnumberTotal

relevantarethatretrieveditemsofNumberprecision

由上例:

precision = 20/50 = 0.4

Page 17: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

17 樂倍達數位科技股份有限公司http://www.doubleservice.com/

Discussion

Image Search Voice Search Video Search Multimedia Search …

Page 18: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

18 樂倍達數位科技股份有限公司http://www.doubleservice.com/

About Google … Maps -

http://maps.google.com/

Froogle - http://froogle.google.com/

Local - http://local.google.com/

Page 19: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

19 樂倍達數位科技股份有限公司http://www.doubleservice.com/

References

Search Engine Strategies 2000 ,http://www.jupiterevents.com/sew/sf00/index.html

Google Technology , http://www.google.com/technology/pigeonrank.html

Teoma , http://www.teoma.com/

Page 20: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

20 樂倍達數位科技股份有限公司http://www.doubleservice.com/

WiseNut , http://www.wisenut.com/

Architectural design and evaluation of an efficient Web-crawling System , http://www.sciencedirect.com/science?_ob=GatewayURL&_origin=CONTENTS&_method=citationSearch&_piikey=S0164121201000917&_version=1&md5=398c9045272cc2249d9323b1418af198

Page 21: 1 The Architecture of A Search Engine 樂倍達數位科技股份有限公司 范綱岷( Kung-Ming Fung ) kmfung@doubleservice.com 2005/04/19

21 樂倍達數位科技股份有限公司http://www.doubleservice.com/

Searching the World Wide Web ,http://www.neci.nec.com/~lawrence/papers.html

A Survey On Web Information Retrieval Technologies , http://citeseer.nj.nec.com/336617.html

ASPSeek , http://www.aspseek.org/