Upload
qin-zhang
View
2.471
Download
5
Embed Size (px)
DESCRIPTION
A course held for students from the College of Software Technology of Zhejiang University China in 2009.
Citation preview
搜索引擎的历史搜索引擎的历史搜索引擎的历史搜索引擎的历史,,,,现状和未来现状和未来现状和未来现状和未来
张 勤
Alibaba Search Center
浙江大学软件学院2009《互联网搜索技术》系列课程之一
《互联网搜索技术》课程目标
• 加深对互联网和搜索引擎的理解
• 学习搜索引擎相关的核心技术领域
• 可以搭建一个简单的搜索引擎
• 增强未来在互联网行业求职的竞争力
课程结构
1. 搜索引擎的历史、现状和未来
2. 分布式搜索引擎的体系结构
3. Crawler设计和信息抽取
4. 索引和查询
5. 中文语言处理
6. 基于机器学习的搜索排序研究
7. 多媒体搜索
8. 课程答疑 每节课将安排该领域具有丰富每节课将安排该领域具有丰富每节课将安排该领域具有丰富每节课将安排该领域具有丰富
经验的经验的经验的经验的ASC技术专家来授课技术专家来授课技术专家来授课技术专家来授课
每节课将安排该领域具有丰富每节课将安排该领域具有丰富每节课将安排该领域具有丰富每节课将安排该领域具有丰富
经验的经验的经验的经验的ASC技术专家来授课技术专家来授课技术专家来授课技术专家来授课
参考书
《搜索引擎原理、技术与系统》
作者:李晓明、闫宏飞、王继民
科学出版社2004年出版
补充读物-1
作者博客站点作者博客站点作者博客站点作者博客站点
http://battellemedia.com/
The Search: How Google and Its Rivals
Rewrote the Rules of Business and
Transformed Our Culture
by John Battelle
•ISBN-10: 1591840880
•Publisher: Portfolio (September 8, 2005)
补充读物-2
Modern Information Retrieval
by Ricardo Baeza-Yates (Universidad
de Chile, Chile) and Berthier Ribeiro-
Neto (Univ Federal de Minas Gerais,
Brazil)
•ISBN-10: 020139829X
•Publisher: Addison-Wesley 1999
考评方法
• 课程成绩组成– 课堂讨论 40%
– 小组项目• 项目1: 30%
• 项目2: 30%
• 分组方法– 每个小组由2-3名同学组成,请大家课后将组合好的名单发给TA
– 名单一经确定后则不能修改
– 课程结束时小组成绩即为组内每个同学的成绩
什么是搜索引擎
搜索引擎属于跨学科应用,涉及信息检索、数据库、
数据挖掘、计算机系统、多媒体、人工智能、计算机
网络、分布式处理、图书馆学、自然语言处理等多个
领域,是目前互联网上最复杂的基础应用之一
A search engine is a program designed to help find
information stored on a computer system such as the
World Wide Web, inside a corporate or proprietary
network or a personal computer.
--- Wikipedia
本节课的目标
• 理解搜索引擎的
– 发展历史
– 分类的方法
– 技术原理和核心技术的变化
– 面临的挑战
– 未来的方向
• 本节课将包括2次自由讨论
第1部分
搜索引擎的发展历史
搜索引擎的发展历史(1)1990-1994
1990年,最早的搜索引
擎Archie出现,由加拿
大麦吉尔大学学生Alan Emtage开发,对网上
FTP站点的文件进行检
索
1990年,最早的搜索引
擎Archie出现,由加拿
大麦吉尔大学学生Alan Emtage开发,对网上
FTP站点的文件进行检
索
1990
1991年,美国明尼苏达
大学学生Mark McCahill
开发出Gopher,可对网
上文本文件进行检索
1991年,美国明尼苏达
大学学生Mark McCahill
开发出Gopher,可对网
上文本文件进行检索
1992
1993年,第一个Web
搜索引擎Wandex由
MIT学生Matthew Gray
开发,它通过蜘蛛进
行文件抓取
1993年,第一个Web
搜索引擎Wandex由
MIT学生Matthew Gray
开发,它通过蜘蛛进
行文件抓取
1993
1993年10月,Martin
Koster创建了Aliweb,是
Archie的HTTP版本,靠
网站主动提交信息来建
立自己的链接索引
1993年10月,Martin
Koster创建了Aliweb,是
Archie的HTTP版本,靠
网站主动提交信息来建
立自己的链接索引
1994
1994年,第一个基
于全文本检索的搜
索引擎WebCrawler
推出,该技术后被
各搜索引擎采用
1994年,第一个基
于全文本检索的搜
索引擎WebCrawler
推出,该技术后被
各搜索引擎采用
7月,卡耐基
梅隆大学的
Lycos发布,
同年发布的
还有Infoseek
7月,卡耐基
梅隆大学的
Lycos发布,
同年发布的
还有Infoseek
1991
1994年4月,斯坦福大
学学生David Filo和杨致
远共同创办Yahoo!并成
功使搜索引擎的概念深
入人心,搜索引擎进入
了高速发展时期
1994年4月,斯坦福大
学学生David Filo和杨致
远共同创办Yahoo!并成
功使搜索引擎的概念深
入人心,搜索引擎进入
了高速发展时期
搜索引擎的发展历史(2)1995-1999
1995年12月, AltaVista大量创新功
能达到当时搜索引擎的顶峰:第
一个支持自然语言搜索;具备网
页内容分析智能处理能力;支持
高级搜索语法;搜索新闻群组、
图片等
1995年12月, AltaVista大量创新功
能达到当时搜索引擎的顶峰:第
一个支持自然语言搜索;具备网
页内容分析智能处理能力;支持
高级搜索语法;搜索新闻群组、
图片等
1995
1995年Excite
发布
1995年Excite
发布
1997
1996年,最早基于
自然语言问题搜索
的Ask Jeeves创办
1996年,最早基于
自然语言问题搜索
的Ask Jeeves创办
1998
1997年北大天网
在教育网发布
1997年北大天网
在教育网发布
1999
1998年9月,斯坦福大学学生Larry Page和Sergey Brin创办Google
1998年9月,斯坦福大学学生Larry Page和Sergey Brin创办Google
1996
1996年,UC.Berkeley教授Eric Brewer和学生
Paul Gauthier创办Inktomi,为其它网络公司提
供搜索和内容分发服务
1996年,UC.Berkeley教授Eric Brewer和学生
Paul Gauthier创办Inktomi,为其它网络公司提
供搜索和内容分发服务
1999年, Alltheweb由FAST公司
推出, 支持Flash和PDF搜索, 提供新闻,图像,视频,MP3和FTP搜索, 索引量和更新速度领先
1999年, Alltheweb由FAST公司
推出, 支持Flash和PDF搜索, 提供新闻,图像,视频,MP3和FTP搜索, 索引量和更新速度领先
1998年6月,Goto.com发
布,最早提出P4P概念
1998年6月,Goto.com发
布,最早提出P4P概念
1996年8月
搜狐创办
1996年8月
搜狐创办
1997年Northern
Light发布
1997年Northern
Light发布
搜索引擎的发展历史(3)2000年至今
2000 2002 2003 2004
2000年1月李彦宏和
徐勇于创建百度
2000年1月李彦宏和
徐勇于创建百度
2001
2005年8月,阿里巴巴收购
雅虎中国业务,进入搜索
2005年8月,阿里巴巴收购
雅虎中国业务,进入搜索
2003年2月,Fast搜索部
门被Overture收购
2003年2月,Fast搜索部
门被Overture收购
2004年, 雅虎推出基于YST搜索
技术平台的独立搜索引擎
2004年, 雅虎推出基于YST搜索
技术平台的独立搜索引擎
2005
2002年,雅虎收购提供搜
索引擎公司Inktomi
2002年,雅虎收购提供搜
索引擎公司Inktomi
2005年微软发布MSN搜索
2005年微软发布MSN搜索
2003年2月,AltaVista被Overture收购
2003年2月,AltaVista被Overture收购
2004年3月雅虎收购
Overture
2004年3月雅虎收购
Overture
中国是全球竞争最激烈的搜索市场
国内搜索引擎数量众多国内搜索引擎数量众多国内搜索引擎数量众多国内搜索引擎数量众多,,,,但是市场集中度高但是市场集中度高但是市场集中度高但是市场集中度高。。。。据易观国际统计据易观国际统计据易观国际统计据易观国际统计,,,,
2008年年年年,,,,百度百度百度百度、、、、Google和雅虎占据了和雅虎占据了和雅虎占据了和雅虎占据了95.8%的市场份额的市场份额的市场份额的市场份额。。。。
搜索引擎对我们生活的改变
• 网页数量的高速增长体现了搜索引擎的价值;同时,搜索引擎反过来又推动了更多Web内容的创作
– 信息如果无法被发现,价值就无法体现
– 目录和书签的模式无法解决海量的信息检索
• 搜索引擎使得兴趣的聚合成为可能
– Niche市场的动力(Long Tail)
– 共同兴趣的人群:社区
• 搜索引擎也改变了互联网广告
– 搜索广告的精准率远高于传统的Banner广告
– Google的AdWord搜索广告模式的巨大成功
搜索引擎的产业链
Search Engine
Search Ad
Resellers
Advertisers
Users
Webmasters
SEO
广告管理服务
委托发布广告
广告受众搜索服务
销售广告
投放广告
投放广告
销售广告
内容
流量
搜索引擎优化
Spammers
Anti-spam
作弊内容
委托网站设计
搜索引擎市场增长的潜力
易观国际易观国际易观国际易观国际《《《《中国搜索引擎市场趋势预测中国搜索引擎市场趋势预测中国搜索引擎市场趋势预测中国搜索引擎市场趋势预测2007-2011》》》》研究表明研究表明研究表明研究表明,,,,2011
年中国搜索引擎运营商收入将达到年中国搜索引擎运营商收入将达到年中国搜索引擎运营商收入将达到年中国搜索引擎运营商收入将达到122亿元亿元亿元亿元,,,,从从从从2007到到到到2011年均复合年均复合年均复合年均复合
增长率为增长率为增长率为增长率为34.1%。。。。
搜索引擎发展历程回顾
• 搜索技术创新与高校之间密不可分
– Archie, Gopher, Lycos, Yahoo, Google…
• 因为市场潜力大,搜索引擎服务商众多,但是在市场竞争
下会逐步趋向集中
– 服务的同质化
– 巨额的运营成本
– 规模效益
• 技术突破(disruptive)可以改写市场竞争的格局
– AltaVista -> Yahoo! -> Google -> Who next?
第2部分
搜索引擎的分类
搜索引擎的分类(1)按照搜索的方式
• 目录式型搜索引擎
– 使用分类技术,人工按照目录或主题收集或审批网址,供用户浏
览查询
– 代表:雅虎目录、Hao123、265导航等
• 关键词型搜索引擎
– 使用关键词全文检索技术,先对网页用词作倒排索引,再对查询
关键词作查找匹配
– 代表:Google、百度、雅虎等
搜索引擎的分类(2)按照搜索的对象
• 网页搜索(Web Search)
– 采集和搜索海量的网页,包括各种类型的文件,如:HTML, Word, PowerPoint等,也称作通用搜索
– 代表:Google, 百度, 雅虎
• 垂直搜索(Vertical Search)
– 多媒体搜索:搜索音频、图片、视频等文件
• 例如:MP3搜索
– 结构化文件搜索:搜索新闻、博客、商品等结构化网页信息
• 例如:淘宝搜索
• 聚合搜索(Combo Search)
– 将网页、音乐、图片、新闻等各种搜索应用混合在一起提供
– 多为面向某一应用领域
– 例如:Google Universal Search,韩国Naver
垂直搜索和网页搜索的对比
Fixed schedule
Days on average
Customizable schedules
From seconds to months
Freshness
Broad/surface crawlingFocused/deep crawlingComprehensiveness
Fixed algorithm
Popularity-based
Highly customizable
Relevance enhanced by
–Constrained context
–Structured data
–Domain Taxonomy
Relevance
Typically less structuredTypically more structuredDocument Type
Flat listStructured, Navigational
–Taxonomy drill-down
–Sorting & grouping
–Clustering & collapsing
Presentation
Global and generalSmaller and specializedIndex Size
Web SearchVertical Search
搜索引擎的分类(3)按照搜索应用的平台
• 搜索引擎网站
– 直接去搜索引擎站点搜索框,最传统的搜索模式
• 浏览器搜索(Browser-based Search)
– 地址栏搜索:直接在浏览器地址栏进行搜索,如Google浏览器Chrome
– 工具栏搜索:浏览器上单独的搜索框或安装的插件,如IE 7, Firefox等
• 桌面搜索(Desktop Search)
– 需要单独安装的桌面搜索软件,可搜索互联网和硬盘里面的文档
– 举例:Google桌面搜索,百度硬盘搜索
• 移动搜索(Mobile Search)
– 为手机或者PDA的浏览器开发特定的搜索界面或者特定的搜索软件
– 举例:Yahoo! oneSearch
元搜索引擎(Meta Search Engine)
• 建立在搜索引擎之上的搜索引擎,它把用户查询词分配给几个指定的搜索引擎,再将所得结果分级排序去重进行展现
• 优势:内容全面,解决不同搜索引擎内容索引的偏好,并利于进行再加工,如聚类处理
• 问题:
– 版权问题
– 搜索性能
– 排序算法的合理性
• 代表:Clusty (Vivisimo), BBmao
示例:BBmao.com
对所有结果进行聚类 对雅虎和百度共同的结果进行合并
第3部分
搜索引擎的原理
Web搜索引擎的工作原理
2. 根据关键字
为网页作索引
1. 采集大量的网页
3. 用户按照关键字
搜索网页
Crawler Index Pages Search & Rank
关键字A 网址A 关键字B 网址B关键字C 网址C
…
网址A网址B网址C
…
1
2 3
第1步:通过蜘蛛搜集网页
雅虎蜘蛛(Slurp)的路径树
http://drunkmenworkhere.org/#yahoo
• Crawler 或者 Spider负责从互联
网上搜集网页内容
• Crawler的原理
– 抓取的目标
• 构建互联网上的站点链接图Webmap
• 单个网站的结构 Sitemap
– 抓取的站点深度
– 索引网页的哪部分内容
– 索引文件的类型
– 抓取的频率
蜘蛛的准则
• A Crawler must show identification– Yahoo! Slurp, Googlebot, Baidu Spider
• A Crawler must obey the robots exclusion standard– http://www.robotstxt.org/wc/norobots.html
• A Crawler must not hog resources
• A Crawler must report errors
蜘蛛的挑战
• 大多数网站服务器响应缓慢,无法支持过多请求
• 死循环陷阱 –网页的超链错误
• 抓取的质量– Dedup - 重复的网页识别
– Anti-spam – 作弊站点和网页的识别
• 动态网页内容的抓取• Deep Web
• Ajax
• 海量增长的互联网内容• Google的索引量:2600万(1998年) 10亿(2000年) 80亿(2005年)
• 未来:1000亿?
• 记录每个网页的信息– Language:中文、英文、…
– Domain names
– Time stamp
– …
• 词表– 标题?
– 在文章中的哪个位置?
– 字体有无加粗?
• 指向本网页的其它网页的URL
• 指向本网页的Anchor Text
第2步:建立索引数据库
倒排索引 Inverted Index
• 如何存储关键词来提升查找速度
• 基本的原理
– 在中文、日文和韩文等亚洲语言需要分词
– 互联网-搜索-技术
– 把网页里面的所有词建立一个词表
– 对每一个词,列出包含该词的文章
– 需要去掉一些常用的词,如:“的”
• “stop words”
– 在英语等西方语言里面还有词干 “stem ”分析
• cats - cat
• running – run
• 搜索引擎接受到用户的搜索词“Query”
• 对Query进行预处理,例如:分词
• 在索引中查找该搜索词,得到命中的文档
• 对文档进行排序,并自动生成包含关键词的摘要 “snippets”
• 对于多个搜索词,缺省语法是同时包含所有的关键词(Boolean AND, not OR).
• 搜索排序算法是非常复杂,会用到大量的features
– 匹配的关键词数
– 命中的位置
– Anchor text
– Quality Score = Dynamic score + Static score
第3步:检索结果和排序
静态质量 -链接分析的重要性
• Google的PageRank算法– 核心思想
• 重要的网页指向的网页也是重要的
• 举例:论文后面的参考论文列表
– 技术原理
– 网页每得到一个其它网页的链接则被加分
– 开始网页的权重会影响到所链接网页的权重
http://www.economist.com/science/tq/displayStory.cfm?story_id=3172188
Google Bombing or Link Bombing
对搜索引擎排序算法缺陷的利用
“Anatomy of a Large-Scale Hypertext Web Search Engine”, Brin & Page, 1998.http://dbpubs.stanford.edu:8090/pub/1998-8
一个搜索引擎的架构图
判断搜索引擎质量的几个重要维度
• Relevance:找的是否准确,可理解为Precision
• Comprehensiveness:找到的信息是否全,可理解为Recall
• Freshness:最新的内容(新闻、博客等)是否在最短的时间内
找得到
• Anti-spam:作弊和垃圾网页是否被滤掉了
• Performance:查找和返回结果的速度是否快
• Usability:结果页设计是否合理,有没有提供相关搜索、拼写
纠错等辅助的搜索功能
• Cloaking
– 对搜索引擎蜘蛛提供虚假网页内容
– DNS cloaking: 自动切换IP地址
• Doorway Spam
– 过渡网页为某个关键词做优化,跳转到另外一个目标网页
• Keyword Spam– 误导性的各种meta-keywords,大量重复关键词,对“anchor text”造假
– 通过文本颜色、CSS等堆砌关键词
• Link Spam
– 链接互换,隐藏链接等
– Domain flooding: 大量的域名指向或跳转到目标网页
• Robots
– 虚假的点击行为
– 虚假的Query
Is this a Search
Engine spider?
Y
N
SPAM
Real
Doc
Cloaking
Spam –挑战搜索引擎的质量
第4部分
搜索引擎的挑战
搜索引擎面临的挑战
Search within Search如何减少用户在搜索结果里面再次搜索的成本,真正快而准
如何解决 Search within Search
• Page classification
– 识别网页的类型:新闻、论坛、博客、索引页…
• Content classification
– 识别网页的主题:财经、健康、旅游…
• Object classification
– 识别网页的结构:导航、正文、广告…
• Information extraction
– 提取重要的网页信息:时间、作者、地点…
• Web mining
– 发现网页之间的信息关系,而不仅仅是链接关系
举例: Hakia
对网页主题的分类,帮助用户进行结果的筛选
网页主题分类
举例:Web Mining的应用
人物地图:利用信息抽取和网页挖掘技术计算出名人的关系
http://www.yahoo.cn/s?v=person&p=周杰伦&id=14754
搜索引擎面临的挑战
Search within Search如何减少用户在搜索结果里面再次搜索的成本,真正快而准
Invisible Tabs减少用户了解各种垂直搜索产品的成本,帮助返回全方位的相
关信息
垂直搜索的价值被限制
• “Invisible Tabs”由Search Engine Watch的资深编辑Danny
Sullivan发明,用来描述搜索引擎可能会怎样来试图提供
更贴近用户本意的搜索结果
“You almost need a search engine
for all our search engines"
Marissa Mayer
VP of Search Products and User
Experience at Google
“You almost need a search engine
for all our search engines"
Marissa Mayer
VP of Search Products and User
Experience at Google
Google 解决此问题的尝试
新闻新闻新闻新闻
网站网站网站网站
图片图片图片图片
视频视频视频视频
Universal Search
搜索引擎面临的挑战
Search within Search如何减少用户在搜索结果里面再次搜索的成本,真正快而准
Invisible Tabs减少用户了解各种垂直搜索产品的成本,帮助返回全方位的相
关信息
Deep Web or Invisible Web对互联网上各种搜索引擎无法获取信息的处理
Deep Web 概况
数据来源:”Accessing the Deep Web”, Communications of the ACM, May 2007
很少,只有0.2%~15.6%目录站点的覆
盖率
- Deep web并不是完全不能抓取,主流的搜索引擎约覆盖了1/3的
数据
-但是搜索引擎由于其内在的局限性,各家覆盖的数据基本一样
搜索引擎的覆
盖率
94%可以在前3层被发现数据深度
多数为结构化数据数据结构
分布在各种主题内容,不仅仅是电子商务类主题多元化
30万站点,45万数据库,126万接口,在2000~2004年间增加了
3~7倍
数据规模
搜索引擎对Deep Web的覆盖
0% 5% 37% 100%
Coverage of Search Engines on Deep Web
The Entire Deep Web
Google (32%)
Yahoo (32%)
MSN (11%)
All (37%)
数据来源:”Accessing the Deep Web”, Communications of the ACM, May 2007
搜索引擎的更多挑战
• 互联网内容增长的速度可能超过目前搜索引擎技
术可以有效处理的范畴
• 由自然语言统计到自然语言语义的应用
• 对Deep Web 的索引
• 随着搜索引擎发展同步变化的Spam
• 个性化搜索与个人隐私的平衡
• 搜索引擎商业利益和信息公正性的关系
– 百度的竞价排名广告事件
第5部分
搜索引擎的未来
搜索引擎技术的发展
第第第第1代代代代搜索引擎搜索引擎搜索引擎搜索引擎
•只使用页面上的信
息,文本数据
•词频,语言
第第第第2代代代代搜索引擎搜索引擎搜索引擎搜索引擎
•使用页面之外的数据
•Link 链接关系分析
•CTR 点击数据(用户都
点击了哪些结果)
•Anchor text (别人如何
描述某个页面)
第第第第3代代代代搜索引擎搜索引擎搜索引擎搜索引擎
•理解“Query背后的需求”
•语义的分析
•多个来源数据的整合
•帮助用户优化搜索
搜索用户的需求
• 不同的用户需求 (Andrei Broder 2002)
– Informational 想了解一样东西
– Navigational 想访问一个网址
– Transactional想通过网络干一件事情
• 服务
• 下载
• 购物
– 其它的灰色领域 Gray areas
• 发散性搜索 “闲逛”
• Rose & Levinson 加以改进, WWW2004
对用户Query的挖掘
• Semantic Web的梦想
– Tim Berners-Lee
– 假设:Explicit Semantic Information
– 障碍:我们自己
• 用户记录:
– Implicit Semantic Information
– 免费的
– 海量的
– 无偏见的
– 假设:Queries是最好的数据源
– 语言特征、关键词匹配和挖掘分析的利用
举例: Google的天气查询
举例: Yahoo!的本地查询
Context 的应用
• Context的判断– 地域位置信息
– Query 序列(Query历史)
– 个人注册信息(User profile)
– Explicit 显性(用户对搜索Tab的选择)
– Implicit 隐性(用户输入的网址)
• Context的应用– 结果的限制
• 排除不合适的结果
– 排序的调整• 先使用通用的排序,再作个性化处理
从Search到Information Supply
User Profile
& Context
Activity
Context
Avail. Info.
Supply
Information Supply EngineInformation Supply Engine
Matching
information
User Action
Feedback Feedback
Source: Andrei Broder 2006
举例: Context Ads – Google AdSense
自然语言搜索
• 问题:of the people, for the people
and by the people
• 索引:不再按keywords的索引,而
是按短语
• 排序:根据query返回多层次相关
的结果
• 目前的自然语言搜索引擎还只相当
于小孩的智力水平
Social Search
• 用户自己创建和使用内容User Generated Content (UGC)
• 网络效应 (Network Effect) 显著: 价值随着用户数增长而加速增长
• UGC包括文本、图片、视频等各种Social Media
• 代表网站: Facebook, YouTube等《时代》周刊“2006
年度人物”封面
Social Media的力量
• 成百万的用户共享图片、网址或者视频文件,并给它们加上标签Tag
(Meta Data)
• 群体智慧 (Wisdom of the Crowd) 可
以帮助搜索
• 基本原理与传统搜索一样
– anchor text
举例: Flickr图片搜索
移动搜索需要考虑到手机屏幕的大小移动搜索需要考虑到手机屏幕的大小移动搜索需要考虑到手机屏幕的大小移动搜索需要考虑到手机屏幕的大小,,,,交互模式交互模式交互模式交互模式 (例如例如例如例如 iPhone
Touch Screen)、、、、手机浏览器手机浏览器手机浏览器手机浏览器、、、、用户位置信息等各种因素用户位置信息等各种因素用户位置信息等各种因素用户位置信息等各种因素
Desktop Search ≠≠≠≠ Mobile Search
Mobile Search 移动搜索
Mobile Web 2009 = Desktop Web 1998Jakob Nielsen
举例:雅虎oneSearch
在旧金山,一个用
户饿了,输入…
pizza
搜索UI的创新
未来的搜索
Recommendation����Search
Deep Web����Surface Web
Intelligence����Relevance
Universal Search����Solo Search
Mobile Search����Desktop Search
Structured����Unstructured
Q&A
Thank you!