92

Click here to load reader

大数据环境下的文献分析与利用 叶艳鸣 2013·10

Embed Size (px)

DESCRIPTION

大数据环境下的文献分析与利用 叶艳鸣 2013·10. 一、几点认识. 大数据的海啸 —— 巨量信息. 43,600,000 条结果. 大数据的海啸. 大数据时代的四个特征. 一组数据. Facebook 每天处理的数据量( 2012 年): 处理 27 亿次 Like 按钮点击。 上传 3 亿张图片。 吸收逾 500TB 新数据。. 苹果 App Store 应用商店每天下载 4600 万款应用 新浪微博用户每日发博量超过1亿条 百度每日处理的搜索量超过了 50 亿. 国际数据公司( IDC )的研究结果表明 : - PowerPoint PPT Presentation

Citation preview

Page 1: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

大数据环境下的文献分析与利用

叶艳鸣

2013·10

Page 2: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

一、几点认识一、几点认识

Page 3: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

大数据的海啸大数据的海啸————巨量信息巨量信息

43,600,000条结果

Page 4: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

大数据的海啸大数据的海啸

Page 5: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

大数据时代的四个特征大数据时代的四个特征

Page 6: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

苹果 App Store应用商店每天下载 4600万款应用

新浪微博用户每日发博量超过1亿条

百度每日处理的搜索量超过了 50亿

Facebook每天处理的数据量( 2012年): 处理 27亿次 Like按钮点击。 上传 3亿张图片。 吸收逾 500TB新数据。

一组数据一组数据

Page 7: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

国际数据公司(国际数据公司( IDCIDC)的研究结果表明)的研究结果表明 ::20082008年全球产生的数据量为年全球产生的数据量为 0.49ZB0.49ZB20092009年的数据量为年的数据量为 0.8ZB0.8ZB20102010年增长为年增长为 1.2ZB1.2ZB20112011年的数量更是高达年的数量更是高达 1.82ZB1.82ZB相当于全球每人产生相当于全球每人产生 200GB200GB以上的数据以上的数据

而到而到 20122012年为止年为止人类生产的所有印刷材料的数据量是人类生产的所有印刷材料的数据量是 200PB200PB全人类历史上说过的所有话的数据量大约是全人类历史上说过的所有话的数据量大约是 5EB5EB

IBMIBM的研究称,整个人类文明所获得的全部数据中,有的研究称,整个人类文明所获得的全部数据中,有 90%90%是是过去两年内产生的。而到了过去两年内产生的。而到了 20202020年,全世界所产生的数据规模年,全世界所产生的数据规模将达到今天的将达到今天的 4444倍。倍。

Page 8: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

大数据时代的四个特征大数据时代的四个特征

Page 9: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

各种结构化与非结构化数据各种结构化与非结构化数据

Page 10: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

大数据时代的四个特征大数据时代的四个特征

Page 11: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

基因组数据地理空间数据人口数据经济运行数据卫星遥感数据

……

Page 12: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

大数据时代的四个特征大数据时代的四个特征

Page 13: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

气象数据航天遥测遥控数据交通流量数据地震监测数据

……

Page 14: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣 14

大数据的阶梯处理过程模型

多阶段流水处理模型:

数据清理

数据集成

数据仓库

任务相关数据

选择

数据挖掘

模式评估

knowledge

Page 15: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

主要技术 说明

内容管理技术 数据建模技术、版本控制技术、检索技术、文件路由技术等

文档管理技术 分类归档、外部特征管理、关键词管理

信息提取技术 人工智能技术、 Bayesian 概率和词频统计分析、向量空间模型

信息过滤技术 固定文章集法、协作过滤技术

文本挖掘 利用智能算法,并结合文字处理技术,分析大量的非结构化文本源

数据仓库 在线分析处理( OLAP )、在线事务处理 (OLTP)

分类技术 决策树、贝叶斯方法、神经网络、遗传算法、粗糙集和实例推理 (CBR) 等。

聚类技术 统计分析方法、模糊逻辑、最近邻技术、规则归纳

bookmark 智能化网络信息服务系统

根本原因分析 它是一种回溯性失误分析工具

云模型 解决数据挖掘中的知识表示问题

可视化技术 几何投射技术、基于图标技术、面向像素的技术、层次技术、基于图表技术

主要的知识发现技术

Page 16: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

基于文献的知识发现原理与技术

基于文献的知识发现

基于相关文献的知识发现

基于非相关文献的知识发现

基于全文献的知识发现

共词分析理论与方法

共引分析理论与方法

Swanson理论与方法

文本挖掘理论与方法

资料来源:冷伏海《基于文献的知识发现的应用进展研究》

Page 17: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

大数据的开发路径

Big data

Mata

data

Link data

Page 18: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

知识发现进阶

Page 19: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

二、“大数据”困局的破解之道二、“大数据”困局的破解之道

Page 20: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

由《易经》想到的:《易经》道:“易”有三易:

简易变易不易

Page 21: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

简易:万事万物都是非常简单的,大道至简

《周易·系辞上》:易有太极,是生两仪,两仪生四象,四象生八卦

现代计算机之“ 0 、 1”世界

《易经》之简易

Page 22: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

变易:宇宙万物,时刻变化,人事皆是如此

《周易·系辞上》:

知变化之道者,其知神之所为乎?

《易经》之变易

Page 23: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

不易:变的规律本身是相对不变的,是相对静止和相对稳定的,是可以感知的

《周易·系辞上》:

易无思也,无位也,寂然不动,感而遂通天下之故

《易经》之不易

Page 24: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

岩刻、结绳记事、岩刻、结绳记事、文字起源文字起源

人类应对“大数据”之路径

实体世界实体世界

符号化

符号化符号化

复杂 简化

Page 25: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

日出云端与“旦”字的产生 喂…有好“大”一片树林呀

信息的标识:实物→图画→象形文字

Page 26: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

符号的产生:

虚拟世界的起源

人与自然区分的分水岭

Page 27: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

语言、书籍、通信语言、书籍、通信知识体系起源知识体系起源

信息世界信息世界

符号化

知识体系知识体系

复杂 简化

人类应对“大数据”之路径

Page 28: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

Page 29: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

藏书体系藏书体系

符号化

目录体系目录体系

复杂 简化

书、报、刊、学位论文、书、报、刊、学位论文、标准、专利标准、专利…………

目录学起源目录学起源

人类应对“大数据”之路径

Page 30: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

目录系统

OPAC系统

Page 31: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

大数据大数据

符号化

Linked DataLinked Data

复杂 简化

数字化、网络化数字化、网络化大数据时代来临大数据时代来临

人类应对“大数据”之路径

Page 32: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

《易经》思想给出的

“大数据”困境破解之道

Page 33: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

©2013  叶艳鸣

Page 34: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

三、基于知识挖掘的文献分析与利用

——以基因组研究为例

Page 35: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

1 、纵观全局的动态调研

Page 36: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

研究概貌

315,264条

Page 37: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

研究概貌

Page 38: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

研究概貌

Page 39: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

2 、研究关联性分析(热点追踪)

Page 40: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

主要研究领域(关键词分析)

Page 41: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

研究相关性追踪

Page 42: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

不同时期研究热点变化追踪

1995-1999年 2005-2012年

Page 43: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

3 、研究关联性分析(时间序列)

Page 44: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

研究继承性追踪

Page 45: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

研究继承性追踪(引用)

Page 46: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

4 、重要成果追踪(竞争情报)

Page 47: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定研究者追踪(专家)

Page 48: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定研究者追踪(主要成果)

Page 49: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定研究者追踪

研究重点与方向 合作团队

Page 50: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定研究者追踪

Page 51: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定文献分析—图书

Page 52: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

5 、特定文献分析

Page 53: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定文献分析—最新成果

Page 54: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定文献分析—早期研究

1966年就有了基因组研究

Page 55: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定文献分析—影响力最大的图书

Page 56: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定文献分析—期刊论文

Page 57: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定文献分析—最具影响的期刊论文

Page 58: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定文献分析— CSCD 期刊论文

Page 59: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定文献分析— SCI 期刊论文

Page 60: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定文献分析—学位论文

Page 61: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定文献分析—学位论文

Page 62: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定文献分析—学位论文

Page 63: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定文献分析—标准

Page 64: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

特定文献分析—专利

Page 65: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

关键词 :禽流感 不同文献敏感度

Page 66: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

关键词 :禽流感 不同文献敏感度

Page 67: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

竞争态势分析

Page 68: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

6 、机构研究能力评价分析

Page 69: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

学术产出评价—天津职业技术师范大学

Page 70: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

学术产出评价—天津职业技术师范大学

Page 71: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

学术产出评价—高产学者、高影响力成果

戴 怡 (27)

周明星 (23)

王仲民 (22)

张学英 (20)

张兴会 (20)

赵 丽 (15)

关志伟 (15)

蓝 欣 (15)

郑宏兴 (15)

曹 晔 (14)

Page 72: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

五、基于发现的自助文献服务

Page 73: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

云南财经大学发表的关于“云南或者昆明的区域经济”文献

专题推送

此公式检索结果58 篇文献

Page 74: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

检索:系统动力学

社会化服务

Page 75: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

收藏到学习空间

点击保存

去我的收藏

Page 76: 大数据环境下的文献分析与利用 叶艳鸣 2013·10
Page 77: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

分享

分享到新浪微博

Page 78: 大数据环境下的文献分析与利用 叶艳鸣 2013·10
Page 79: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

OPAC: 本馆纸书

数据库 : 书世界、 CNKI、万方、超星书、方正… .

读秀 : 图书补缺

百链 : 期刊等文献补缺

发现系统

无缝对接的全文服务功能

无缝对接的全文服务功能

Page 80: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

数据库

云共享服务

读秀

Page 81: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

六、文献利用行为分析

Page 82: 大数据环境下的文献分析与利用 叶艳鸣 2013·10
Page 83: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

数据库使用量

Page 84: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

学科使用量统计

Page 85: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

图书馆是一个生长的有机体—— 阮冈纳赞(印度)

Page 86: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

每一次信息技术进步都极大地推动了科学技术的飞跃发展

Page 87: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

知识发现知识发现为科技创新插上飞翔的翅膀为科技创新插上飞翔的翅膀

Page 88: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

谢 谢谢 谢

Page 89: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

知识发现知识发现为科技创新插上飞翔的翅膀为科技创新插上飞翔的翅膀

Page 90: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

周明星 (65)戴怡 (46)郑宏兴 (42)王仲民 (39)张兴会 (35)张学英 (32)蓝欣 (30)孟庆国 (28)关志伟 (28)刘晓 (25)

Page 91: 大数据环境下的文献分析与利用 叶艳鸣 2013·10

深圳职业技术学院 (9367) 金华职业技术学院 (7180) 黄冈职业技术学院 (5835) 无锡商业职业技术学院 (5149) 商丘职业技术学院 (4808) 石家庄职业技术学院 (4434) 黄河水利职业技术学院 (4267) 武汉职业技术学院 (4229) 永州职业技术学院 (4124) 天津职业技术师范大学 (3,993)

Page 92: 大数据环境下的文献分析与利用 叶艳鸣 2013·10