Search Engine 2009: Past, Current and Future

搜索引擎的历史搜索引擎的历史搜索引擎的历史搜索引擎的历史,,,,现状和未来现状和未来现状和未来现状和未来

张勤

Alibaba Search Center

浙江大学软件学院2009《互联网搜索技术》系列课程之一

《互联网搜索技术》课程目标

• 加深对互联网和搜索引擎的理解

• 学习搜索引擎相关的核心技术领域

• 可以搭建一个简单的搜索引擎

• 增强未来在互联网行业求职的竞争力

课程结构

1. 搜索引擎的历史、现状和未来

2. 分布式搜索引擎的体系结构

3. Crawler设计和信息抽取

4. 索引和查询

5. 中文语言处理

6. 基于机器学习的搜索排序研究

7. 多媒体搜索

8. 课程答疑每节课将安排该领域具有丰富每节课将安排该领域具有丰富每节课将安排该领域具有丰富每节课将安排该领域具有丰富

经验的经验的经验的经验的ASC技术专家来授课技术专家来授课技术专家来授课技术专家来授课

每节课将安排该领域具有丰富每节课将安排该领域具有丰富每节课将安排该领域具有丰富每节课将安排该领域具有丰富

经验的经验的经验的经验的ASC技术专家来授课技术专家来授课技术专家来授课技术专家来授课

参考书

《搜索引擎原理、技术与系统》

作者：李晓明、闫宏飞、王继民

科学出版社2004年出版

补充读物-1

作者博客站点作者博客站点作者博客站点作者博客站点

http://battellemedia.com/

The Search: How Google and Its Rivals

Rewrote the Rules of Business and

Transformed Our Culture

by John Battelle

•ISBN-10: 1591840880

•Publisher: Portfolio (September 8, 2005)

补充读物-2

Modern Information Retrieval

by Ricardo Baeza-Yates (Universidad

de Chile, Chile) and Berthier Ribeiro-

Neto (Univ Federal de Minas Gerais,

Brazil)

•ISBN-10: 020139829X

•Publisher: Addison-Wesley 1999

考评方法

• 课程成绩组成– 课堂讨论 40%

– 小组项目• 项目1： 30%

• 项目2： 30%

• 分组方法– 每个小组由2-3名同学组成，请大家课后将组合好的名单发给TA

– 名单一经确定后则不能修改

– 课程结束时小组成绩即为组内每个同学的成绩

什么是搜索引擎

搜索引擎属于跨学科应用，涉及信息检索、数据库、

数据挖掘、计算机系统、多媒体、人工智能、计算机

网络、分布式处理、图书馆学、自然语言处理等多个

领域，是目前互联网上最复杂的基础应用之一

A search engine is a program designed to help find

information stored on a computer system such as the

World Wide Web, inside a corporate or proprietary

network or a personal computer.

--- Wikipedia

本节课的目标

• 理解搜索引擎的

– 发展历史

– 分类的方法

– 技术原理和核心技术的变化

– 面临的挑战

– 未来的方向

• 本节课将包括2次自由讨论

第1部分

搜索引擎的发展历史

搜索引擎的发展历史（1）1990-1994

1990年，最早的搜索引

擎Archie出现，由加拿

大麦吉尔大学学生Alan Emtage开发，对网上

FTP站点的文件进行检

索

1990年，最早的搜索引

擎Archie出现，由加拿

大麦吉尔大学学生Alan Emtage开发，对网上

FTP站点的文件进行检

索

1990

1991年，美国明尼苏达

大学学生Mark McCahill

开发出Gopher，可对网

上文本文件进行检索

1991年，美国明尼苏达

大学学生Mark McCahill

开发出Gopher，可对网

上文本文件进行检索

1992

1993年，第一个Web

搜索引擎Wandex由

MIT学生Matthew Gray

开发，它通过蜘蛛进

行文件抓取

1993年，第一个Web

搜索引擎Wandex由

MIT学生Matthew Gray

开发，它通过蜘蛛进

行文件抓取

1993

1993年10月，Martin

Koster创建了Aliweb，是

Archie的HTTP版本，靠

网站主动提交信息来建

立自己的链接索引

1993年10月，Martin

Koster创建了Aliweb，是

Archie的HTTP版本，靠

网站主动提交信息来建

立自己的链接索引

1994

1994年，第一个基

于全文本检索的搜

索引擎WebCrawler

推出，该技术后被

各搜索引擎采用

1994年，第一个基

于全文本检索的搜

索引擎WebCrawler

推出，该技术后被

各搜索引擎采用

7月，卡耐基

梅隆大学的

Lycos发布，

同年发布的

还有Infoseek

7月，卡耐基

梅隆大学的

Lycos发布，

同年发布的

还有Infoseek

1991

1994年4月，斯坦福大

学学生David Filo和杨致

远共同创办Yahoo!并成

功使搜索引擎的概念深

入人心，搜索引擎进入

了高速发展时期

1994年4月，斯坦福大

学学生David Filo和杨致

远共同创办Yahoo!并成

功使搜索引擎的概念深

入人心，搜索引擎进入

了高速发展时期

搜索引擎的发展历史（2）1995-1999

1995年12月, AltaVista大量创新功

能达到当时搜索引擎的顶峰：第

一个支持自然语言搜索；具备网

页内容分析智能处理能力；支持

高级搜索语法；搜索新闻群组、

图片等

1995年12月, AltaVista大量创新功

能达到当时搜索引擎的顶峰：第

一个支持自然语言搜索；具备网

页内容分析智能处理能力；支持

高级搜索语法；搜索新闻群组、

图片等

1995

1995年Excite

发布

1995年Excite

发布

1997

1996年，最早基于

自然语言问题搜索

的Ask Jeeves创办

1996年，最早基于

自然语言问题搜索

的Ask Jeeves创办

1998

1997年北大天网

在教育网发布

1997年北大天网

在教育网发布

1999

1998年9月，斯坦福大学学生Larry Page和Sergey Brin创办Google

1998年9月，斯坦福大学学生Larry Page和Sergey Brin创办Google

1996

1996年，UC.Berkeley教授Eric Brewer和学生

Paul Gauthier创办Inktomi，为其它网络公司提

供搜索和内容分发服务

1996年，UC.Berkeley教授Eric Brewer和学生

Paul Gauthier创办Inktomi，为其它网络公司提

供搜索和内容分发服务

1999年, Alltheweb由FAST公司

推出, 支持Flash和PDF搜索, 提供新闻,图像,视频,MP3和FTP搜索, 索引量和更新速度领先

1999年, Alltheweb由FAST公司

推出, 支持Flash和PDF搜索, 提供新闻,图像,视频,MP3和FTP搜索, 索引量和更新速度领先

1998年6月，Goto.com发

布，最早提出P4P概念

1998年6月，Goto.com发

布，最早提出P4P概念

1996年8月

搜狐创办

1996年8月

搜狐创办

1997年Northern

Light发布

1997年Northern

Light发布

搜索引擎的发展历史（3）2000年至今

2000 2002 2003 2004

2000年1月李彦宏和

徐勇于创建百度

2000年1月李彦宏和

徐勇于创建百度

2001

2005年8月，阿里巴巴收购

雅虎中国业务，进入搜索

2005年8月，阿里巴巴收购

雅虎中国业务，进入搜索

2003年2月，Fast搜索部

门被Overture收购

2003年2月，Fast搜索部

门被Overture收购

2004年, 雅虎推出基于YST搜索

技术平台的独立搜索引擎

2004年, 雅虎推出基于YST搜索

技术平台的独立搜索引擎

2005

2002年，雅虎收购提供搜

索引擎公司Inktomi

2002年，雅虎收购提供搜

索引擎公司Inktomi

2005年微软发布MSN搜索

2005年微软发布MSN搜索

2003年2月，AltaVista被Overture收购

2003年2月，AltaVista被Overture收购

2004年3月雅虎收购

Overture

2004年3月雅虎收购

Overture

中国是全球竞争最激烈的搜索市场

国内搜索引擎数量众多国内搜索引擎数量众多国内搜索引擎数量众多国内搜索引擎数量众多，，，，但是市场集中度高但是市场集中度高但是市场集中度高但是市场集中度高。。。。据易观国际统计据易观国际统计据易观国际统计据易观国际统计，，，，

2008年年年年，，，，百度百度百度百度、、、、Google和雅虎占据了和雅虎占据了和雅虎占据了和雅虎占据了95.8%的市场份额的市场份额的市场份额的市场份额。。。。

搜索引擎对我们生活的改变

• 网页数量的高速增长体现了搜索引擎的价值；同时，搜索引擎反过来又推动了更多Web内容的创作

– 信息如果无法被发现，价值就无法体现

– 目录和书签的模式无法解决海量的信息检索

• 搜索引擎使得兴趣的聚合成为可能

– Niche市场的动力（Long Tail）

– 共同兴趣的人群：社区

• 搜索引擎也改变了互联网广告

– 搜索广告的精准率远高于传统的Banner广告

– Google的AdWord搜索广告模式的巨大成功

搜索引擎的产业链

Search Engine

Search Ad

Resellers

Advertisers

Users

Webmasters

SEO

广告管理服务

委托发布广告

广告受众搜索服务

销售广告

投放广告

投放广告

销售广告

内容

流量

搜索引擎优化

Spammers

Anti-spam

作弊内容

委托网站设计

搜索引擎市场增长的潜力

易观国际易观国际易观国际易观国际《《《《中国搜索引擎市场趋势预测中国搜索引擎市场趋势预测中国搜索引擎市场趋势预测中国搜索引擎市场趋势预测2007-2011》》》》研究表明研究表明研究表明研究表明，，，，2011

年中国搜索引擎运营商收入将达到年中国搜索引擎运营商收入将达到年中国搜索引擎运营商收入将达到年中国搜索引擎运营商收入将达到122亿元亿元亿元亿元，，，，从从从从2007到到到到2011年均复合年均复合年均复合年均复合

增长率为增长率为增长率为增长率为34.1%。。。。

搜索引擎发展历程回顾

• 搜索技术创新与高校之间密不可分

– Archie, Gopher, Lycos, Yahoo, Google…

• 因为市场潜力大，搜索引擎服务商众多，但是在市场竞争

下会逐步趋向集中

– 服务的同质化

– 巨额的运营成本

– 规模效益

• 技术突破(disruptive)可以改写市场竞争的格局

– AltaVista -> Yahoo! -> Google -> Who next?

第2部分

搜索引擎的分类

搜索引擎的分类（1）按照搜索的方式

• 目录式型搜索引擎

– 使用分类技术，人工按照目录或主题收集或审批网址，供用户浏

览查询

– 代表：雅虎目录、Hao123、265导航等

• 关键词型搜索引擎

– 使用关键词全文检索技术，先对网页用词作倒排索引，再对查询

关键词作查找匹配

– 代表：Google、百度、雅虎等

搜索引擎的分类（2）按照搜索的对象

• 网页搜索（Web Search）

– 采集和搜索海量的网页，包括各种类型的文件，如：HTML, Word, PowerPoint等，也称作通用搜索

– 代表：Google, 百度, 雅虎

• 垂直搜索（Vertical Search）

– 多媒体搜索：搜索音频、图片、视频等文件

• 例如：MP3搜索

– 结构化文件搜索：搜索新闻、博客、商品等结构化网页信息

• 例如：淘宝搜索

• 聚合搜索（Combo Search）

– 将网页、音乐、图片、新闻等各种搜索应用混合在一起提供

– 多为面向某一应用领域

– 例如：Google Universal Search，韩国Naver

垂直搜索和网页搜索的对比

Fixed schedule

Days on average

Customizable schedules

From seconds to months

Freshness

Broad/surface crawlingFocused/deep crawlingComprehensiveness

Fixed algorithm

Popularity-based

Highly customizable

Relevance enhanced by

–Constrained context

–Structured data

–Domain Taxonomy

Relevance

Typically less structuredTypically more structuredDocument Type

Flat listStructured, Navigational

–Taxonomy drill-down

–Sorting & grouping

–Clustering & collapsing

Presentation

Global and generalSmaller and specializedIndex Size

Web SearchVertical Search

搜索引擎的分类（3）按照搜索应用的平台

• 搜索引擎网站

– 直接去搜索引擎站点搜索框，最传统的搜索模式

• 浏览器搜索（Browser-based Search）

– 地址栏搜索：直接在浏览器地址栏进行搜索，如Google浏览器Chrome

– 工具栏搜索：浏览器上单独的搜索框或安装的插件，如IE 7, Firefox等

• 桌面搜索（Desktop Search）

– 需要单独安装的桌面搜索软件，可搜索互联网和硬盘里面的文档

– 举例：Google桌面搜索，百度硬盘搜索

• 移动搜索（Mobile Search）

– 为手机或者PDA的浏览器开发特定的搜索界面或者特定的搜索软件

– 举例：Yahoo! oneSearch

元搜索引擎（Meta Search Engine）

• 建立在搜索引擎之上的搜索引擎，它把用户查询词分配给几个指定的搜索引擎，再将所得结果分级排序去重进行展现

• 优势：内容全面，解决不同搜索引擎内容索引的偏好，并利于进行再加工，如聚类处理

• 问题：

– 版权问题

– 搜索性能

– 排序算法的合理性

• 代表：Clusty (Vivisimo), BBmao

示例：BBmao.com

对所有结果进行聚类对雅虎和百度共同的结果进行合并

第3部分

搜索引擎的原理

Web搜索引擎的工作原理

2. 根据关键字

为网页作索引

1. 采集大量的网页

3. 用户按照关键字

搜索网页

Crawler Index Pages Search & Rank

关键字A 网址A 关键字B 网址B关键字C 网址C

…

网址A网址B网址C

…

1

2 3

第1步：通过蜘蛛搜集网页

雅虎蜘蛛（Slurp）的路径树

http://drunkmenworkhere.org/#yahoo

• Crawler 或者 Spider负责从互联

网上搜集网页内容

• Crawler的原理

– 抓取的目标

• 构建互联网上的站点链接图Webmap

• 单个网站的结构 Sitemap

– 抓取的站点深度

– 索引网页的哪部分内容

– 索引文件的类型

– 抓取的频率

蜘蛛的准则

• A Crawler must show identification– Yahoo! Slurp, Googlebot, Baidu Spider

• A Crawler must obey the robots exclusion standard– http://www.robotstxt.org/wc/norobots.html

• A Crawler must not hog resources

• A Crawler must report errors

蜘蛛的挑战

• 大多数网站服务器响应缓慢，无法支持过多请求

• 死循环陷阱 –网页的超链错误

• 抓取的质量– Dedup - 重复的网页识别

– Anti-spam – 作弊站点和网页的识别

• 动态网页内容的抓取• Deep Web

• Ajax

• 海量增长的互联网内容• Google的索引量：2600万(1998年) 10亿(2000年) 80亿(2005年)

• 未来：1000亿？

• 记录每个网页的信息– Language：中文、英文、…

– Domain names

– Time stamp

– …

• 词表– 标题?

– 在文章中的哪个位置?

– 字体有无加粗?

• 指向本网页的其它网页的URL

• 指向本网页的Anchor Text

第2步：建立索引数据库

倒排索引 Inverted Index

• 如何存储关键词来提升查找速度

• 基本的原理

– 在中文、日文和韩文等亚洲语言需要分词

– 互联网-搜索-技术

– 把网页里面的所有词建立一个词表

– 对每一个词，列出包含该词的文章

– 需要去掉一些常用的词，如：“的”

• “stop words”

– 在英语等西方语言里面还有词干 “stem ”分析

• cats - cat

• running – run

• 搜索引擎接受到用户的搜索词“Query”

• 对Query进行预处理，例如：分词

• 在索引中查找该搜索词，得到命中的文档

• 对文档进行排序，并自动生成包含关键词的摘要 “snippets”

• 对于多个搜索词，缺省语法是同时包含所有的关键词(Boolean AND, not OR).

• 搜索排序算法是非常复杂，会用到大量的features

– 匹配的关键词数

– 命中的位置

– Anchor text

– Quality Score = Dynamic score + Static score

第3步：检索结果和排序

静态质量 -链接分析的重要性

• Google的PageRank算法– 核心思想

• 重要的网页指向的网页也是重要的

• 举例：论文后面的参考论文列表

– 技术原理

– 网页每得到一个其它网页的链接则被加分

– 开始网页的权重会影响到所链接网页的权重

http://www.economist.com/science/tq/displayStory.cfm?story_id=3172188

Google Bombing or Link Bombing

对搜索引擎排序算法缺陷的利用

“Anatomy of a Large-Scale Hypertext Web Search Engine”, Brin & Page, 1998.http://dbpubs.stanford.edu:8090/pub/1998-8

一个搜索引擎的架构图

判断搜索引擎质量的几个重要维度

• Relevance：找的是否准确，可理解为Precision

• Comprehensiveness：找到的信息是否全，可理解为Recall

• Freshness：最新的内容（新闻、博客等）是否在最短的时间内

找得到

• Anti-spam：作弊和垃圾网页是否被滤掉了

• Performance：查找和返回结果的速度是否快

• Usability：结果页设计是否合理，有没有提供相关搜索、拼写

纠错等辅助的搜索功能

• Cloaking

– 对搜索引擎蜘蛛提供虚假网页内容

– DNS cloaking: 自动切换IP地址

• Doorway Spam

– 过渡网页为某个关键词做优化，跳转到另外一个目标网页

• Keyword Spam– 误导性的各种meta-keywords，大量重复关键词，对“anchor text”造假

– 通过文本颜色、CSS等堆砌关键词

• Link Spam

– 链接互换，隐藏链接等

– Domain flooding: 大量的域名指向或跳转到目标网页

• Robots

– 虚假的点击行为

– 虚假的Query

Is this a Search

Engine spider?

Y

N

SPAM

Real

Doc

Cloaking

Spam –挑战搜索引擎的质量

第4部分

搜索引擎的挑战

搜索引擎面临的挑战

Search within Search如何减少用户在搜索结果里面再次搜索的成本，真正快而准

如何解决 Search within Search

• Page classification

– 识别网页的类型：新闻、论坛、博客、索引页…

• Content classification

– 识别网页的主题：财经、健康、旅游…

• Object classification

– 识别网页的结构：导航、正文、广告…

• Information extraction

– 提取重要的网页信息：时间、作者、地点…

• Web mining

– 发现网页之间的信息关系，而不仅仅是链接关系

举例: Hakia

对网页主题的分类，帮助用户进行结果的筛选

网页主题分类

举例：Web Mining的应用

人物地图:利用信息抽取和网页挖掘技术计算出名人的关系

http://www.yahoo.cn/s?v=person&p=周杰伦&id=14754



Invisible Tabs减少用户了解各种垂直搜索产品的成本，帮助返回全方位的相

关信息

垂直搜索的价值被限制

• “Invisible Tabs”由Search Engine Watch的资深编辑Danny

Sullivan发明，用来描述搜索引擎可能会怎样来试图提供

更贴近用户本意的搜索结果

“You almost need a search engine

for all our search engines"

Marissa Mayer

VP of Search Products and User

Experience at Google

“You almost need a search engine

for all our search engines"

Marissa Mayer

VP of Search Products and User

Experience at Google

Google 解决此问题的尝试

新闻新闻新闻新闻

网站网站网站网站

图片图片图片图片

视频视频视频视频

Universal Search



Invisible Tabs减少用户了解各种垂直搜索产品的成本，帮助返回全方位的相

关信息

Deep Web or Invisible Web对互联网上各种搜索引擎无法获取信息的处理

Deep Web 概况

数据来源：”Accessing the Deep Web”, Communications of the ACM, May 2007

很少，只有0.2%~15.6%目录站点的覆

盖率

- Deep web并不是完全不能抓取，主流的搜索引擎约覆盖了1/3的

数据

-但是搜索引擎由于其内在的局限性，各家覆盖的数据基本一样

搜索引擎的覆

盖率

94%可以在前3层被发现数据深度

多数为结构化数据数据结构

分布在各种主题内容，不仅仅是电子商务类主题多元化

30万站点，45万数据库，126万接口，在2000~2004年间增加了

3~7倍

数据规模

搜索引擎对Deep Web的覆盖

0% 5% 37% 100%

Coverage of Search Engines on Deep Web

The Entire Deep Web

Google (32%)

Yahoo (32%)

MSN (11%)

All (37%)

数据来源：”Accessing the Deep Web”, Communications of the ACM, May 2007

搜索引擎的更多挑战

• 互联网内容增长的速度可能超过目前搜索引擎技

术可以有效处理的范畴

• 由自然语言统计到自然语言语义的应用

• 对Deep Web 的索引

• 随着搜索引擎发展同步变化的Spam

• 个性化搜索与个人隐私的平衡

• 搜索引擎商业利益和信息公正性的关系

– 百度的竞价排名广告事件

第5部分

搜索引擎的未来

搜索引擎技术的发展

第第第第1代代代代搜索引擎搜索引擎搜索引擎搜索引擎

•只使用页面上的信

息，文本数据

•词频，语言


•使用页面之外的数据

•Link 链接关系分析

•CTR 点击数据（用户都

点击了哪些结果）

•Anchor text （别人如何

描述某个页面）


•理解“Query背后的需求”

•语义的分析

•多个来源数据的整合

•帮助用户优化搜索

搜索用户的需求

• 不同的用户需求 (Andrei Broder 2002)

– Informational 想了解一样东西

– Navigational 想访问一个网址

– Transactional想通过网络干一件事情

• 服务

• 下载

• 购物

– 其它的灰色领域 Gray areas

• 发散性搜索 “闲逛”

• Rose & Levinson 加以改进, WWW2004

对用户Query的挖掘

• Semantic Web的梦想

– Tim Berners-Lee

– 假设：Explicit Semantic Information

– 障碍：我们自己

• 用户记录：

– Implicit Semantic Information

– 免费的

– 海量的

– 无偏见的

– 假设：Queries是最好的数据源

– 语言特征、关键词匹配和挖掘分析的利用

举例: Google的天气查询

举例: Yahoo!的本地查询

Context 的应用

• Context的判断– 地域位置信息

– Query 序列（Query历史）

– 个人注册信息（User profile）

– Explicit 显性（用户对搜索Tab的选择）

– Implicit 隐性（用户输入的网址）

• Context的应用– 结果的限制

• 排除不合适的结果

– 排序的调整• 先使用通用的排序，再作个性化处理

从Search到Information Supply

User Profile

& Context

Activity

Context

Avail. Info.

Supply

Information Supply EngineInformation Supply Engine

Matching

information

User Action

Feedback Feedback

Source: Andrei Broder 2006

举例: Context Ads – Google AdSense

自然语言搜索

• 问题：of the people, for the people

and by the people

• 索引：不再按keywords的索引，而

是按短语

• 排序：根据query返回多层次相关

的结果

• 目前的自然语言搜索引擎还只相当

于小孩的智力水平

Social Search

• 用户自己创建和使用内容User Generated Content (UGC)

• 网络效应 (Network Effect) 显著: 价值随着用户数增长而加速增长

• UGC包括文本、图片、视频等各种Social Media

• 代表网站: Facebook, YouTube等《时代》周刊“2006

年度人物”封面

Social Media的力量

• 成百万的用户共享图片、网址或者视频文件，并给它们加上标签Tag

(Meta Data)

• 群体智慧 (Wisdom of the Crowd) 可

以帮助搜索

• 基本原理与传统搜索一样

– anchor text

举例: Flickr图片搜索

移动搜索需要考虑到手机屏幕的大小移动搜索需要考虑到手机屏幕的大小移动搜索需要考虑到手机屏幕的大小移动搜索需要考虑到手机屏幕的大小，，，，交互模式交互模式交互模式交互模式 (例如例如例如例如 iPhone

Touch Screen)、、、、手机浏览器手机浏览器手机浏览器手机浏览器、、、、用户位置信息等各种因素用户位置信息等各种因素用户位置信息等各种因素用户位置信息等各种因素

Desktop Search ≠≠≠≠ Mobile Search

Mobile Search 移动搜索

Mobile Web 2009 = Desktop Web 1998Jakob Nielsen

举例：雅虎oneSearch

在旧金山，一个用

户饿了，输入…

pizza

搜索UI的创新

未来的搜索

Recommendation��Search

Deep Web��Surface Web

Intelligence��Relevance

Universal Search��Solo Search

Mobile Search��Desktop Search

Structured��Unstructured

Q&A

Thank you!

Technology

Search Engine 2009: Past, Current and Future