View
233
Download
0
Embed Size (px)
Citation preview
1
The Architecture of A Search Engine
樂倍達數位科技股份有限公司范綱岷( Kung-Ming Fung )[email protected]
2005/04/19
2 樂倍達數位科技股份有限公司http://www.doubleservice.com/
Outline
Introduction Evolution Different Kinds of Search Engine Architecture
Robot, Spider, Crawl(er) Indexing Query
Evaluation Criteria Discussion
About Google References
3 樂倍達數位科技股份有限公司http://www.doubleservice.com/
Introduction
4 樂倍達數位科技股份有限公司http://www.doubleservice.com/
Evolution
Unix grep – Text Archie- FTP LISTSERV - Mailing Lists Archives Hytelnet – Telnet WAIS - 大量的文字檔案建立索引並提供全文檢索功
能 層級式的瀏覽方式( Hierarchical ) - Gopher Web 搜尋引擎( Search Engine ) - 入口網站
( Portal Site ) 智慧型代理人( Intelligent Agent ) …
5 樂倍達數位科技股份有限公司http://www.doubleservice.com/
The Architecture of Gopher
6 樂倍達數位科技股份有限公司http://www.doubleservice.com/
Different Kinds of Search Engine
7 樂倍達數位科技股份有限公司http://www.doubleservice.com/
Meta Search 整合搜尋
Full-Text Search 全文檢索
Mega Search 混合搜尋
Directory Search 主題目錄式
8 樂倍達數位科技股份有限公司http://www.doubleservice.com/
Directory Search 目錄式 Yam 蕃薯藤, http://www.yam.com/ Yahoo 雅虎, http://www.yahoo.com/
Full-Text Search 全文檢索 Google , http://www.google.com/ Openfind 網擎, http://
www.openfind.com.tw/ Meta Search 整合型
9 樂倍達數位科技股份有限公司http://www.doubleservice.com/
Architecture
WWW
Database
Robot, Spider
Indexing
Search
Simple Architecture
10 樂倍達數位科技股份有限公司http://www.doubleservice.com/
Typical anatomy of a large-scale crawler.
11 樂倍達數位科技股份有限公司http://www.doubleservice.com/
Robot, Spider, Crawler Robot 是 Search Engine 中負責資料收集
的軟體,又稱為 Spider 、或 Crawler ,他可以自動在設定的期限內定時自各網站收集網頁資料,而且通常是由一些預定的起始網站開始遊歷其所連結的網站,如此反覆不斷( recursive )的串連收集。
robots.txt
12 樂倍達數位科技股份有限公司http://www.doubleservice.com/
Indexing 索引 一般而言,索引的產生是將網頁中每個
Word 或者 Phrase 存入 Keyword 索引檔中,另外除了來自網頁內容外,網頁作者所自行定義 Meta Tag 中的 Keyword 也常被納入索引範圍。
TF, IDF, Reverse Index
13 樂倍達數位科技股份有限公司http://www.doubleservice.com/
Query 查詢 檢索軟體是決定 Search Engine 是否能普
遍為人使用的關鍵要素,因為使用者多只能藉由搜尋速度、搜尋結果來判斷一個系統的好壞,而這些工作都屬於檢索軟體的範圍。
人工智慧、自然語言
14 樂倍達數位科技股份有限公司http://www.doubleservice.com/
WAIS : 廣域資訊服務 (Wide Area Information System ; WAIS) 是
一套可以建立全文索引,並提供網路資源全文檢索功能的軟體,其主要由伺服器 (Server) 、用戶端 (Client) 、協定(Protocol) 等三部份組成 。
查詢方式: 關鍵字 (Keyword) 以概念為基礎的 (Concept-based) 模糊( Fuzzy ) 自然語言( Natural Language )
15 樂倍達數位科技股份有限公司http://www.doubleservice.com/
Evaluation Criteria
Recall :查詢後回應出適切資料之比率
databasetheindocumentsrelevantofnumberTotal
relevantarethatretrieveditemsofNumberrcall
EX :
做一個查詢,在 database 中有 80 筆適切的文件,但只有 20 個 items 是有效的, 30 個不適切的,則recall = 20/80 = 0.25
16 樂倍達數位科技股份有限公司http://www.doubleservice.com/
Precision :精確度
retrieveddocumentsofnumberTotal
relevantarethatretrieveditemsofNumberprecision
由上例:
precision = 20/50 = 0.4
17 樂倍達數位科技股份有限公司http://www.doubleservice.com/
Discussion
Image Search Voice Search Video Search Multimedia Search …
18 樂倍達數位科技股份有限公司http://www.doubleservice.com/
About Google … Maps -
http://maps.google.com/
Froogle - http://froogle.google.com/
Local - http://local.google.com/
19 樂倍達數位科技股份有限公司http://www.doubleservice.com/
References
Search Engine Strategies 2000 ,http://www.jupiterevents.com/sew/sf00/index.html
Google Technology , http://www.google.com/technology/pigeonrank.html
Teoma , http://www.teoma.com/
20 樂倍達數位科技股份有限公司http://www.doubleservice.com/
WiseNut , http://www.wisenut.com/
Architectural design and evaluation of an efficient Web-crawling System , http://www.sciencedirect.com/science?_ob=GatewayURL&_origin=CONTENTS&_method=citationSearch&_piikey=S0164121201000917&_version=1&md5=398c9045272cc2249d9323b1418af198
21 樂倍達數位科技股份有限公司http://www.doubleservice.com/
Searching the World Wide Web ,http://www.neci.nec.com/~lawrence/papers.html
A Survey On Web Information Retrieval Technologies , http://citeseer.nj.nec.com/336617.html
ASPSeek , http://www.aspseek.org/