Upload
teigra
View
148
Download
7
Embed Size (px)
DESCRIPTION
网络搜索和挖掘关键技术 Web Search and Mining. 张华平 副 研究员 博士 Email: [email protected] Website: http:// www.nlpir.org / @ICTCLAS张华平博士 网络搜索挖掘与安全实验室 (wSMS@BIT) 计算机科学与技术前沿讲座 2011- 9 - 1 6. 从玫凯琳任务开始. Mission: 产业环境越来越差,有朋友准备放弃别的生意,全力投资玫凯琳,大家都说不错,形象好,国际大品牌;找到计算机专家的你,请问你如何帮她进行投资决策? - PowerPoint PPT Presentation
Citation preview
《网络搜索与挖掘》 / 张华平 /2011-9
网络搜索和挖掘关键技术Web Search and MiningWeb Search and Mining网络搜索和挖掘关键技术Web Search and MiningWeb Search and Mining
张华平 副研究员 博士Email: [email protected]
Website: http://www.nlpir.org/@ICTCLAS 张华平博士
网络搜索挖掘与安全实验室 (wSMS@BIT)计算机科学与技术前沿讲座
2011-9-16
《网络搜索与挖掘》 / 张华平 /2011-9
从玫凯琳任务开始 ... Mission: 产业环境越来越差,有朋友准备放弃别
的生意,全力投资玫凯琳,大家都说不错,形象好,国际大品牌 ; 找到计算机专家的你,请问你如何帮她进行投资决策?
限定条件:你没有一个叫李刚的爹,也没有郭美美干爹那样的神通,也没有世界杰出华商的手段。一人一机一网尔!
《网络搜索与挖掘》 / 张华平 /2011-9
背景资料 玫琳凯就以“丰富女性人生”为己任,致力于创
建一个“全球女性共享的事业”。 倡导“信念第一、家庭第二、事业第三”的生活
优先次序。 玫琳凯在销售她的化妆品的同时,也在销售她的
工作哲学和生活哲学。 玫琳凯更重要的贡献是以她的企业文化激励了千千万万妇女,纷纷成为小型企业经营者 , 她以不断的鼓励及物质报酬来提升妇女的自尊和自信。
玫凯琳女士不远万里,来到中国为了拯救万千中国女士,让她们找到美丽和自信,同时收获一份事业!
《网络搜索与挖掘》 / 张华平 /2011-9
《网络搜索与挖掘》 / 张华平 /2011-9
《网络搜索与挖掘》 / 张华平 /2011-9
《网络搜索与挖掘》 / 张华平 /2011-9
网络社会化,社会网络化 ...
《网络搜索与挖掘》 / 张华平 /2011-9
社会网络化与网络社会化
《网络搜索与挖掘》 / 张华平 /2011-9
社会网络化与网络社会化
《网络搜索与挖掘》 / 张华平 /2011-9
社会网络化与网络社会化
《网络搜索与挖掘》 / 张华平 /2011-9
社会网络化与网络社会化
《网络搜索与挖掘》 / 张华平 /2011-9
社会网络化与网络社会化
《网络搜索与挖掘》 / 张华平 /2011-9
引证权威信息 - 阳光中国
《网络搜索与挖掘》 / 张华平 /2011-9
还有更多的内幕需要搜索挖掘 ...
《网络搜索与挖掘》 / 张华平 /2011-9
卢美美
《网络搜索与挖掘》 / 张华平 /2011-9
李双江之子打人
《网络搜索与挖掘》 / 张华平 /2011-9
什么是网络搜索与挖掘在社会网络化与网络社会化的大背景下,
面向海量异构互联网交互信息,针对特定的情报目标,以信息检索、自然语言处理、网络科学三驾马车为主要手段,基于互联网的群体智慧挖掘提炼出有价值情报的过程。
四步曲:目标分解,信息收集,分析去噪,情报提炼。
网络搜索与挖掘在政府舆情、军事信息战、企业竞争情报、个人社交等方面具有广泛的应用前景。
《网络搜索与挖掘》 / 张华平 /2011-9
群体智慧三个臭皮匠,顶个诸葛亮;你可以在所有时间欺骗某些人,也可以在某个时间欺骗所有人,不可能在所有时间欺骗所有人;
信息碎片化,导致去精英化;互联网海量的群体与信息,导致小概率事
件(百万分之一)发生的频率期望值可观察可度量。而互联网搜索为海里捞针提供了技术手段。
《网络搜索与挖掘》 / 张华平 /2011-9
互联网频繁的小概率事件
《网络搜索与挖掘》 / 张华平 /2011-9
网络搜索与挖掘的要件信息可达( Accessible):互联网真实记录并可采集抽取到相关的信息(无论 Surface/Deep ,无论真假,无论规模);
群体规模( Amount) : 海量规模确保各类UGC(用户产生的内容 )能满足挖掘所需;
目标可解( Analysible) : 挖掘目标本身具有可解行,能够进一步分解具体落实;
工具可行( Avaliable) : 检索工具与分析工具具备可行的计算代价与分析效率;
《网络搜索与挖掘》 / 张华平 /2011-9
Who’s talking 张华平,北理工网络搜索挖掘与安全实验室负责
人,副教授,研究生导师,研究方向:自然语言处理、信息检索、信息安全。获得 2011年钱伟长中文信息处理科学技术奖一等奖,中科院院长奖,中科院计算所所长特别奖,专著 2部,专利3项,国内外论文 20余篇。
经历: 2000-2005年在中科院计算所硕博连读,获博士学位,研制汉语分词系统 ICTCLAS(目前用户数超过 10 万家),博士期间参与新颖性监测研究,参加 TREC 2004 Novelty Track 在国际 14 家团队中,综合排名第一;
2006-2009年,创办中科计算技术转移中心网络智能事业部( 30余人),先后担任了 863、 242 、中国证监会舆情系统、工信部网络监管、中国移动云计算搜索等重大项目。
2009年底至今,目前承担了科技部及安全部重大项目。
《网络搜索与挖掘》 / 张华平 /2011-9
《网络搜索与挖掘》 / 张华平 /2011-9
博客
论坛
微博客
即时消息
网络语言计算
Web语言模型;新语言发现;关键语义计算
网络精准搜索
全文/数据库精准搜索(精确定位、语义扩展);
网络智能挖掘
信息抽取、分类、聚类、信息过滤,网络舆情挖掘;
wSMS应用
结合Web应用,网络精准搜索与智能挖掘应用研究
NLPIR云计算平台:TB级Web多维内容与
数据
中共中央党校党务垂直搜索引擎
国新办微博获取与监测
中信所科研项目库检索
四维图新NavInfoGPS POI事件自动抽取
邮件
新闻
网络搜索挖掘与安全实验室(wSMS@BIT)
商品搜索商品同一性判别
安全*某部云计算安全战略研究
网络信息安全
网络新应用安全隐患分析,内容安全过滤
《网络搜索与挖掘》 / 张华平 /2011-9
报告纲要
网络精准搜索关键技术
网络智能挖掘关键技术
典型应用案例
《网络搜索与挖掘》 / 张华平 /2011-9
信息检索技术的应用
搜索搜索推荐推荐
挖掘挖掘
IRIR 技术技术
情报处理情报处理 内容安全内容安全
舆情分析舆情分析
《网络搜索与挖掘》 / 张华平 /2011-9
Web Search Using IR
Query String
IRSystem
RankedDocuments
1. Page12. Page23. Page3 . .
Documentcorpus
Web Spider
《网络搜索与挖掘》 / 张华平 /2011-9
最简单的搜索引擎
搜索引擎结构
wwwwwwwwwwww 索引库索
引
检
索
用
户
接
口
采集器
…
采集器
文档库
《网络搜索与挖掘》 / 张华平 /2011-9
倒排索引
文档库 预处理 Invert 索引库
文档倒排,生成 Inverted Files
文档分析,编码识别,词语切分,
去停用词等
《网络搜索与挖掘》 / 张华平 /2011-9
Ranking 和信息检索
信息检索是一个查询 Q 和文档 Dd相似度计算过程:
存在一个问题:当 Q包含常用词 t 时,那些包含比较多 t 的文档总是排在前面,其他的非常用词根本不起作用,所以需要根据 inverse document frequency (IDF) 计算 Term 的权重 wt :
Qt
wwwwdd tdtqtd
n
t
tqDQDQM ,,,
1
,),(
ttf
w1
ft 是包含 term t 的文档数
《网络搜索与挖掘》 / 张华平 /2011-9
向量空间模型
向量空间模型 (Vector Space Model, VSM) 是康奈尔大学 Salton等人上世纪 70年代提出并倡导,原型系统 SMART*
term独立性假设: term 在文档中的出现是独立、互不影响的。
查询和文档都可转化成 term 及其权重组成的向量表示,都可以看成空间中的点。向量之间通过距离计算得到查询和每个文档的相似度。
《网络搜索与挖掘》 / 张华平 /2011-9
文档 - 标引项矩阵 (Doc-Term Matrix)
1 2
11 12 11
2 21 22 2*
1 2
...
...
...
...
...
n
n
nm n
m m m mn
d d d
a a at
t a a aA
t a a a
n篇文档, m个标引项构成的矩阵 Am*n ,每列可以看成每篇文档的向量表示,同时,每行也可以可以看成标引项的向量表示。
《网络搜索与挖掘》 / 张华平 /2011-9
一个例子
查询 q: (<2006,1>,< 世界杯 ,2>)
文档 d1: (<2006,1>,< 世界杯 ,3>,<德国 ,1>,<举行 ,1>)
文档 d2: (<2002,1>,< 世界杯 ,2>,<韩国 ,1>,<日本 ,1>,<举行 ,1>)
1 2
2002
2006
0 1 0
1 0 1
3 2 2
1 0 0
0 1 0
0 1 0
1 1 0
d d q
世界杯
德国
韩国
日本
举行
《网络搜索与挖掘》 / 张华平 /2011-9
一个例子 (续 )
查询和文档进行向量的相似度计算:采用内积:
• 文档 d1与 q的内积: 1*1+3*2=7
• 文档 d2与 q的内积: 2*2=4
夹角余弦:• 文档 d1与 q的夹角余弦:• 文档 d2与 q的夹角余弦:
70.90
12 5
40.63
5 8
《网络搜索与挖掘》 / 张华平 /2011-9
我们的工作: JZSearch精准搜索引擎
具有高扩展性和高通用性。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。目前已经应用于中国邮政搜索引擎、通河北省标准搜索引擎、富基融通(纳斯达克上市公司:EFUT)商品搜索。
同时,全文搜索中间件可以无缝地与现有数据库系统融合,实现全文搜索与相关的数据库管理应用系统。
《网络搜索与挖掘》 / 张华平 /2011-9
JZSearch 内部语法示例[FIELD] * [NEAR] 尚福林 卖国贼 9[FIELD] * [FUZZY] 张华平 kevinzhang 张
博士[FIELD] price [RANG] 1.0 9.0 [FIELD] nam
e [AND] 牛奶 儿童[FIELD] name [PREF] 张
姓名字段 name必须以“张”作为前缀开头[FIELD] id [PREC] 123
字段 id必须以“ 123”精准匹配,如“ 1234”或者“ 0123”均不作为匹配结果;
《网络搜索与挖掘》 / 张华平 /2011-9
我们的工作: JZSearch精准搜索引擎
《网络搜索与挖掘》 / 张华平 /2011-9
我们的工作: JZSearch精准搜索引擎
《网络搜索与挖掘》 / 张华平 /2011-9
我们的工作: JZSearch精准搜索引擎
《网络搜索与挖掘》 / 张华平 /2011-9
报告纲要
网络精准搜索关键技术
网络智能挖掘关键技术
相关应用
《网络搜索与挖掘》 / 张华平 /2011-9
汉语分词汉语的书面语是按句分开的 ,词与词之间没有明确
的分隔标记。
词是最小的能够独立活动的有意义的语言成分 。
中文信息处理只要涉及句法、语义 ( 如检索、翻译、文摘、校对等应用 ), 就需要以词为基本单位。句法分析、语句理解、自动文摘、自动分类和机器翻译等,更是少不了词的详细信息 。
《网络搜索与挖掘》 / 张华平 /2011-9
ICTCLASICTCLAS 汉语分词系统汉语分词系统
《网络搜索与挖掘》 / 张华平 /2011-9
ICTCLASICTCLAS 汉语分词系统汉语分词系统
《网络搜索与挖掘》 / 张华平 /2011-9
ICTCLAS2011 分词系统示例
《网络搜索与挖掘》 / 张华平 /2011-9
ICTCLAS 主要功能包括中文分词、词性标注等功能。
国内和国际权威的公开评测第一;全球二十万客户的认可 ;
综合性能最优 ,ICTCLAS2011 分词速度单机 996KB/s ,分词精度98.45% 。
全方位支持各种环境下的应用开发 ,支持Windows/Linux/ FreeBSD操作系统,支持 C/C++/C#/Java/VB等主流编程语言;
ICTCLAS 10年的开发经历, 20 万开源用户, 2011年获得钱伟长中文信息处理科学技术奖一等奖。
汉语分词系统汉语分词系统汉语分词系统汉语分词系统
《网络搜索与挖掘》 / 张华平 /2011-9
ICTCLAS2011 汉语分词系统
《网络搜索与挖掘》 / 张华平 /2011-9
新特征语言发现新特征语言:在自然语言中频繁出现、具有
特定语义、系统未收录的新词或者新的短语。
具有以下几个特性: 语义上:表意完整、所指明确,在意义上有一定
的完整性和专指性。 语用上:语用环境灵活,能够在多种语言环境中
出现。结构上:内部结构稳定,具有一定的凝固性。统计上:具有一定流通度,在真实语料中频繁出现。
《网络搜索与挖掘》 / 张华平 /2011-9
新特征语言的发现
《网络搜索与挖掘》 / 张华平 /2011-9
新特征语言识别结果示例
《网络搜索与挖掘》 / 张华平 /2011-9
基于关键词提取的微博个性分析
《网络搜索与挖掘》 / 张华平 /2011-9
基于关键词提取的微博个性分析
《网络搜索与挖掘》 / 张华平 /2011-9
文档关键词自动识别与标示文档关键词:用来最大表述文档特征的词汇列表,信息量损失最小;
文档关键词自动识别:自动识别 3-7 个词来表述文档的主要特征;
关键词大部分是未知的新语言特征词,也包含已知的主题词;
《网络搜索与挖掘》 / 张华平 /2011-9
文档关键词自动识别与标示
《网络搜索与挖掘》 / 张华平 /2011-9
文档内容去重 文本内容去重能够对文本进行查重处理,同时能找
出所有的重复文件。能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录。
内容去重的五个境界 URL 去重 文本精确去重 网页去重 文本近似去重 文本自动转载识别
《网络搜索与挖掘》 / 张华平 /2011-9
文档内容去重
《网络搜索与挖掘》 / 张华平 /2011-9
文档聚类 文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。
《网络搜索与挖掘》 / 张华平 /2011-9
文档聚类
《网络搜索与挖掘》 / 张华平 /2011-9
文本聚类结果示例
《网络搜索与挖掘》 / 张华平 /2011-9
文本分类与信息过滤文本分类能够根据文献内容进行类别的划
分,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多应用。
文本过滤功能能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。
机器学习训练的文本分类方法
《网络搜索与挖掘》 / 张华平 /2011-9
文本分类与信息过滤
《网络搜索与挖掘》 / 张华平 /2011-9
信息过滤示例 A片的识别 - 世博 A片区内,人们欢声雷动;台湾国的过滤 -台湾国语歌曲
《网络搜索与挖掘》 / 张华平 /2011-9
报告纲要
网络精准搜索关键技术
网络智能挖掘关键技术
典型应用案例
《网络搜索与挖掘》 / 张华平 /2011-9
北京市科委手机定位市民出行事件
商务部利比亚撤侨情报实时快报
庆祝日本地震真相调查
本拉登之死专报
网络搜索与挖掘应用
典型案例典型案例
中关村管委会舆情监测分析
GPS POI 信息智能提取
《网络搜索与挖掘》 / 张华平 /2011-9
中关村管委会舆情监测分析自动收集电视台、报纸、网络发布的中关村相关信息,信息延迟控制在 1 小时内;
按照中关村、十园、专业园、领导、上市公司等维度对信息进行自动分类;
自动分析热点问题,跟踪敏感事件;自动分析负面消息,并提出预警;自动生成各类报告
《网络搜索与挖掘》 / 张华平 /2011-9
中关村管委会舆情监测分析
《网络搜索与挖掘》 / 张华平 /2011-9
科委手机定位市民出行科委手机定位市民出行科委手机定位市民出行科委手机定位市民出行
事件背景:“北京将通过技术精准掌握手机用户的出行、工作和居住情况,为规划交通布局、人口管理服务。”北京市科委日前通过媒体透露的一则消息,引起社会对个人隐私保护、个人财产权的关注。
《网络搜索与挖掘》 / 张华平 /2011-9
《网络搜索与挖掘》 / 张华平 /2011-9
最快时间发现投票最快时间发现投票最快时间发现投票最快时间发现投票
《网络搜索与挖掘》 / 张华平 /2011-9
商务部“利比亚撤侨”情报实时快报
《网络搜索与挖掘》 / 张华平 /2011-9
伪话题“庆祝日本地震”真相挖掘伪话题“庆祝日本地震”真相挖掘
3月 11日 14点 46 分,日本宫城县东北部发生里氏 9级地震。已导致 1598 人死亡。引起了国际社会的广泛关注,中国救援队是第一支赶赴日本重灾区的国际救援队。
然而,最近网络在爆炒中国人在 "庆祝日本地震 " ,依据是百度能够搜索到几百万条结果。
这种行为是别有用心的阴谋,这些人巧妙地利用了百度对搜索词切分和排序的不足,根据我们的跟踪分析, 99% 以上的页面都是批判这个话题的。发布此类言行的人居心叵测,华人的文明与善心在汶川过程中已经彰显。
《网络搜索与挖掘》 / 张华平 /2011-9
伪话题“庆祝日本地震”真相挖掘伪话题“庆祝日本地震”真相挖掘伪话题“庆祝日本地震”真相挖掘伪话题“庆祝日本地震”真相挖掘
《网络搜索与挖掘》 / 张华平 /2011-9
拉登之死专报拉登之死专报拉登之死专报拉登之死专报
《网络搜索与挖掘》 / 张华平 /2011-9
四维图新 GPS POI 的自动抽取
《网络搜索与挖掘》 / 张华平 /2011-9
神马都是浮云 !
《网络搜索与挖掘》 / 张华平 /2011-9
难成浮云的小结互联网对经济社会乃至政治起着革命性的影响;网络社会化与社会网络化的趋势日益增强;
以 Twitter(微博 ) 、 Facebook( 人人网 )等为代表的 Web3.0新型社会媒体,意味着 UGC(用户产生内容 ) 的传媒革命真正到来;孕育着巨大的科技和商业的机会。
在社会网络大背景下,自然语言处理、信息检索与网络科学三驾马车具有不可限量的科研与应用价值,今天的你把握时机,或将成就明日之马云,中国之马克 ·扎克伯格。
《网络搜索与挖掘》 / 张华平 /2011-9
ContactEmail: [email protected]
Welcome to visit our homepage
http://www.nlpir.org
@ICTCLAS 张华平博士
Thank you