数据可视化基础数据科学

数据可视化基础数据科学

陈为[email protected]

http://www.cad.zju.edu.cn/home/chenwei/visclass



内容提纲

大数据时代数据科学简介大数据的案例

*大数据用来定义那些大小超出常用软件工具在可承受的运行时间内进行数据捕获、管理和处理的能力的数据集。

大数据的定义与特性

大数据的 3V特性

2009 年，美国国家标准技术研究所 (NIST) 帮助发表了一

篇题为“控制数据的力量”的报告，对大数据研发计划的开展有许多影响。

2011 年，总统科技顾问委员会 (PCAST) 提出增加美国在大数据研发方面投入的建议，同时成立大数据高层指导小组。

2012 年 3 月 29 日奥巴马政府公布了“大数据研发计划”

(Big Data Research and Development Initiative ）

美国政府的大数据计划

国防部 (DoD)

自然语言处理 (Machine Reading) 视觉智能 (Mind’s Eye) 安全云 (Mission Oriented Resilient Clouds)对加密数据的编程计算 (PROCEED) 对视频和图像的检索和分析工具 (VIRAT)CINDER 计划Insight 计划


国土安全部 (DHS) 可视化数据分析 (CVADA)

能源部 (DOE) ASCR 计划，提供数据管理，可视化和数据分析的社区，

包括数字化保存和社区访问生物和环境研究计划 (BER) 系统生物学知识库 (Kbase) 美国核数据计划 (USNDP)

NASA 全球地球观测系统 (GEOSS) 行星数据系统 (PDS)


卫生和人类服务部 (HHS) 生物传感 2.0 计划癌症成像存档 (TCIA) 癌症基因组图谱 (TCGA) 传染病代理研究模型 (MIDAS) 人口研究数据共享 (DSDR) 计算神经科学的合作研究 (CRCNS)

食品药品监督管理局 (FDA) 虚拟实验室环境 (VLE) 计划

国家安全局 (NSA) 情报共同体 (IC) 计划


美国国家自然基金委 (NSF) 开发、整合一套一体化的数据工具和先进的基础设施方案以

支持科学和教育。

美国国家卫生研究院 (NIH) The Structural Genomics Initiative ，通过发现，分析和

传播蛋白质的三维结构， RNA 和其他生物大分子结构，展现生物的多样性，以促进在生物学，农业和医药的基本认识和应用。美国地质调查局 (USGS)

利用庞大的数据集、先进的计算能力和协作工具，提高对一些地球问题的认识，如气候变化，地震的复发率。


2011 年由国防部高级研究计划局 (DARPA) 提出。投资： 3500 万美元。该项目旨在发现和防止内部威胁。系统预期输出对象是反间谍机构。同时可以用于解决大规模数据集的异常检测和特征化，用于商业融资等其他领域。核心技术由乔治亚理工学院高性能计算团队研发。

多尺度异常检测 (ADAMS)

解决目前情报，监视和侦察系统的不足，进行自动化和人机集成推理，使得能够提前对时间敏感的更大潜在威胁进行分析开发新的方法来检测军事计算机网络与网络间谍活动

Insight计划

国防部高级研究计划局 (DARPA)今年提出开始 XDATA 计划。

将在四年里拟投资每年 2500 万美元。

开发用于分析大量的半结构化和非结构化数据的计算技术和软件工具。

提出的挑战 :∙开发可扩展的算法处理分布式数据中不完整存储的数据。∙研发有效的人机交互工具促进在各种各样的任务中快速分析并反馈最重要的视觉信息。

XDATA计划

高级科学计算研究办公室 (ASCR) 提出。

DAX是一个为推动百万兆级计算所需的数据分析和可视化算法提供细粒度并发支持的工具包。

基本单元是实现一个网格里元素行为的函数。

每个函数只能访问传递和调用的元素，避免了内存冲突从而实现无限数量的线程并发。

执行器遍历网格所有元素，调用一个或多个函数处理无差别功能的元素并收集每个元素的值。

DAX计划

病人报告结果测量信息系统2002 年 5 月，国家卫生研究所召开多个会议为 21世纪的医学研究制定了发展路线并提出了 NIH 共同基金。

为支持重要项目之一的慢性疾病病人临床研究动态评估，由NIH 共同基金提出了合作项目 PROMIS 。

PROMIS是一个高度可靠，有效，灵活，准确，反应病人健康状况的评估工具系统。

核心资源是评估中心：提供工具和数据库，以帮助研究人员收集，存储，分析病人的健康状况有关的数据。

PROMIS计划

NASA 提出的地球科学数据和信息系统研制计划

主要目标：a)处理、存储与分发地球科学卫星数据。b)提供用于方便管理地球科学数据的工具。c)促进地球科学数据的跨学科使用。d)通过国际之间地球观测数据的共享和整合，推动地球系统科学，满足气候和环境变化的挑战。

有 12个数据中心， 14个科学研究处理系统以及 26个合作伙伴为项目提供支持。

EOSDIS计划

美国“大数据计划”特点应用单位提出，应用单位主导有非常明确的应用需求，要求解决实际问题应用单位完全掌握大数据资源高校参与关键技术研究我国高校面临的挑战不掌握大数据来源很难得到真正的实际需求无能力建设试验环境不能提供足够的人力资源

大数据计划特点总结及高校面临的挑战

提取、转换、加载（ ETL ）

商业智能分析

数据产品

数据准备 -复杂化

语法错误语义错误缺失值异常检测再归一化编码降维整合

数据准备 - 语法和语义错误

利用：日志！维护一个记载错误记录的文件尽可能多地捕捉出错地方的状态能够帮助确定数据源的错误

对于文本格式，人来检查是可能的对于二进制格式，使用 16 进制编辑器

进行语法或语义变化，或者检查数据源是否有错？

涉及到其他记录和数据源的限制是十分难查的

数据准备 -扩展性问题

已有的数据和需要的数据均是动态的目标数据质量是一个过程经常会在分析数据是发现问题

修复找到的错误会是极耗资源或不可能的容错

保留初始数据能够将工作流的阶段回滚允许以前工作的重用

数据准备 -扩展性问题

工作流元数据管理现在正在运行什么？自动源捕获对工作流进行版本编号

工作流进度估计必须向下流进程通信

工作流单元重用在复合时：常用工作流库在执行时：消除工作流常见任务的冗余

数据表现数据表现概览图表

单变量双变量其他

图表的选择设计的考虑

表格图表颜色活板印刷

数据表现 - 例子

图信息图表格图表信息窗介绍文档视频应用程序

数据表现图

数据表现图

数据表现图

数据表现图

数据表现信息图




数据表现表格

数据表现图表

数据表现信息窗



数据表现图像

设计的考虑表格和图表减少图表垃圾 / 表格垃圾；增加数据墨水比认知的限制：限制一次展示的物体数量颜色

颜色模式对比、强调与公司一致

6 大格式塔原则：接近、相似、圈围、封闭、连续、连接（ proximity, similarity, enclosure, closure, continuity, connection ）

数据产品不要只关注“思想”

你构建了数据集你构建了信息窗你构建了实验平台

其他你可以构建的事搜索广告定位垃圾检测内容推荐

Facebook 大数据案例

潜在的朋友

提纲推荐谁？静态，离线预测动态，在线重排序性能 /热身

你可能认识的人• 前 1～ 2个推荐会直接显示在 Faceboook 的主页上

• 查看所有链接会使用户看到更多的推荐

• 很多的好友都是直接在主页而不是“查看所有”页面被添加的

• ‘Xing’某个用户把某人永远地从列表里删除

• 在未来的推荐中取消掉

• 占了 Facebook中朋友中的很大一部分内容

帮助用户在 FB上找到好友推荐已经在很多应用中得到了证明

Amazon 、 NetFlix等都有复杂的系统

和他们一样，我们可以通过作出优秀的推荐来增加我们对用户的价值

有更多好友的用户更频繁地使用网站，从中也得到更多

不像那些系统（协同过滤）我们必须要考虑社交背景

好友统计大约每天有两亿的页面互访

26%直接来自于PYMK 的贡献（点击PYMK添加链接）

另外14%是间接引起的

新用户（注册帐号不超过两周）每天要连接4千万

28%直接通过 PYMK ，总共为42%

没有“你可能认识的人”（PYMK ）时很多人可能都无法被他人所发现

被从PYMK上移除的新用户在 6周以后会少27% 的好友

如何推荐大部分的友谊来自于朋友的朋友（ Friend of Friend, F-F ）

以前的工作表明 FoF（2跳）的友谊比多余3跳的友谊要多五倍以上

FB上92% 的新朋友关系从实际的角度来看，做比 F-F更深入的工作是不可能的了

一般用户平均有超过 130个好友 130×130 = 17K FoFs 130^2 = 2.2M FoFoFs

特殊的用户会有大约5000个好友

推荐朋友的朋友问题陈述：

给定一个源用户，找到最佳的朋友的朋友推荐给他

挑战：一个典型的用户会有成百上千的 FoFs(平均为40K ，有一部分人会达到800K！ )

哪些特性可以帮助我们从中进行选择

我们如何结合网络和人口特性

共同好友共同好友数目是一个很好的指标

两个有 10个共同好友的人成为好友的概率是仅有 1个共同好友的 12倍

其他社交网络特性也很有帮助：比如，如果你的好友刚刚添加了一个新的还有，这也是一个很好的推荐

我们可以结合网络特性：给出了边创建以来的时间

系统概览系统检测所有的 FoFs

产生前 100位候选人列表存储评分并且使用简便易得的数据来预测实时的CTRs

候选人被重新排序并且在每次访问时展示

结果被反馈到系统并保留实时模型依赖于输出分数，并进行在线训练来保证CTR预测的准确性

进行静态预测使用传统机器学习

对一个用户 u ，考虑所有的 FoFs w1,…,wk

对每一对 (u, wj) 生成一系列特性共同好友，很久以前的共同好友，新

的共同好友等也结合 u 和 wj各自的特性

年龄、性别、国家、总的朋友、在 FB 的时间等

我们使用袋装决策树（许多决策树的平均）

训练集来自于以前的 PYMK 只训练 “ first impression”或主页

好友的好友特性两类特性

带权的共同好友 (MFs) 实际的 MFs 、带时间权重的 MFs 、有向的

MFs 、带强度权的 MFs 、推迟的 MFs 个人特点

年龄、国家、 FB 年龄、性别、朋友数由于用户平均有 40K个 FoFs,这些必须在每台机器上进行冗余备份而不是共享

用于预测的最重要特性时间流逝的共同好友源用户的国籍和 FB 年龄好友数目

特性选择首要特性

1. 时间权重，有向共同好友

2. 国家 (u) 某些国家的用户相比于其

他国家的用户更倾向于使用某些特性

3.从 u到 v 的带权重边来自于信息订阅的权重粗略地暗示了联系的强度

4 和 5是其他的共同好友权重，其他重要特性是 U 的度， V 的度以及 U 的年龄

巨大的代价用户平均有 40K个FoFs 共有超过 500M 的用户 40K × 500M = 20 T 多台拥有 72G 内存的机器（40台）

每台机器都存了社交图的一部分在内存中（对单台机器来说太大了）

即便如此，我们至少要在 2天中才能算出新的推荐

为了保证对新用户进行最佳的推荐，我们会为他们进行更多的计算

推荐生成社交图被 40台机器所共

享包括边上的注释：创建时

间、方向，权重请求会直接送到有用户好友列表的机器这台机器分割好友列表并且向其他机器请求 FoFs

结果被汇总并排序前 100位被返回

推荐生成使用了 4台机器的简单例子 4号用户请求PYMK

4号用户和 5,6,7,13,26,31,121等用户是好友

向其他机器请求 FoFs（本地的机器也一样被请求）

请求包括去权重（如时间）每个 FoF 的特征向量被聚集

14:2, 18, 81 17:2, 53, 12 123: 2, 0, 0

提高效率和内存利用率为每个用户都运行 40K个 FOFs 的决策树评价是不可能的

使用启发式方法来缩小范围通过共同好友特性建立 logistic 模型来选择出前1K

使用线性时间排N 算法来找到截止（不是nlogn排序）

仅在前1K上运行完全决策树算法不想使用网络来获得年龄、性别等信息从前1000 用户中选择出前100

只有那些人才能被展示为了保证多样性，会暂时不推荐已经向用户推荐了 4次以上的好友

每次都展示最好的推荐为了优化推荐，我们在每次推荐

以后都再次重排决策模型只能每两天运行一次

他们为每个用户对 (u, wi)输出一个评分

不能为每次推荐进行过多的运算，但是可以适量运算

简单特性在每次推荐的时候都存在 (u, wi) 的分数，对 (u, wi) 的推荐次数， U 的朋友数， wi 的朋友数

将可获得的信息和评分相结合并通过 Logistics 模型来进行重排

通过 Logistics回归进行重排简单 logistics回归模型进行

CTRs预测的表现良好对某个推荐给定特性 F1 、 F2 、

F3 预测 CTR =

logistics(C0+C1*F1+C2*F2+…)

从两方面来提高质量不要不断重复某个推荐，展示过往

的最佳推荐如果用户从来都不用 PYMK ，就停止推荐

通过 Logistics回归进行重排简单 logistics回归模型进行 CTRs预测的表现良好

对某个推荐给定特性 F1 、 F2 、 F3 预测 CTR =

logistics(C0+C1*F1+C2*F2+…) 从两方面来提高质量

不要不断重复某个推荐，展示过往的最佳推荐

如果用户从来都不用 PYMK ，就停止推荐

• 实现简单，很多的软件可以被用来学习参数• 使用用户历史数据来个个性化推荐能获得巨大的效果提升

机器学习挑战

对过去数据的良好预测并不总是有价值可能会给予没有出现在以前数据集里的推荐很高的评分

如果是从头开始训练，需要一定量的迭代以达到收敛目前使用在线学习系统来进行 CTR预测

在该数据上训练的模型，部署了以后

新模型过高评价了那些没在之前数据中出现的推荐 ; 点击率骤减

组合系统

上下文 PMYK

简单扩展以后使得推荐可以根据当前的上下文在确定了一个好友的请求之后，推荐一些该好友的朋友

但是应该是哪些人？之前的排序仅根据共同好友数据（在我和他们之间）使用学习好的模型（和其他

PYMK 基于相同的特性），增加了 40% 的好友添加

性能两个性能指标

建立的还有关系 CTR

总能通过牺牲其他指标来提高某个指标

离线模型的首次发送和早期的 CTR预测从那时开始的一些不足总的来说，增加了 60% 同时，有下调趋势的 CTR预测下降了 1/3 因此， CTR 提高了 130%

要点边注释是重要的特性

图并不仅是点和边 --- 边有时间，方向和权重从简单的用户需求来获得巨大的成功

了解人们在用什么、人们不在意什么、展示他们喜欢的内容

～ 3个人带动了在 FB上的～ 40% 的交友==每个人每秒交 385个朋友

Documents

数据可视化基础 数据科学

数据可视化基础数据科学