62
数数数数数数数 数数数数 数数 [email protected] http://www.cad.zju.edu.cn/home/chenwei/vis class

数据可视化基础 数据科学

Embed Size (px)

DESCRIPTION

数据可视化基础 数据科学. 陈为 [email protected] http://www.cad.zju.edu.cn/home/chenwei/visclass. 内容提纲. 大数据时代 数据 科学简介 大数据的案例. 大数据的定义与特性. 大数据 的 3V 特性. 大数据 用来定义那些 大小超出常用软件工具 在 可承受的运行时间内 进行数据捕获、管理和处理的 能力 的数据集。. 美国政府的大数据计划. 2009 年, 美国国家标准技术研究所 (NIST) 帮助发表了一 篇题为 “ 控制数据的力量 ” 的报告,对 大数据研发计划的开展有许多影响。 - PowerPoint PPT Presentation

Citation preview

Page 1: 数据可视化基础 数据科学

数据可视化基础数据科学

陈为[email protected]

http://www.cad.zju.edu.cn/home/chenwei/visclass

Page 2: 数据可视化基础 数据科学

内容提纲

大数据时代 数据科学简介 大数据的案例

Page 3: 数据可视化基础 数据科学

*大数据用来定义那些大小超出常用软件工具在可承受的运行时间内进行数据捕获、管理和处理的能力的数据集。

大数据的定义与特性

大数据的 3V特性

Page 4: 数据可视化基础 数据科学

2009 年,美国国家标准技术研究所 (NIST) 帮助发表了一

篇题为“控制数据的力量”的报告,对 大数据研发计划的开展有许多影响。

2011 年,总统科技顾问委员会 (PCAST) 提出增加美国在大数据研发方面投入的 建议,同时成立大数据高层指导小组。

2012 年 3 月 29 日奥巴马政府公布了“大数据研发计划”

(Big Data Research and Development Initiative )

美国政府的大数据计划

Page 5: 数据可视化基础 数据科学

国防部 (DoD)

自然语言处理 (Machine Reading) 视觉智能 (Mind’s Eye) 安全云 (Mission Oriented Resilient Clouds)对加密数据的编程计算 (PROCEED) 对视频和图像的检索和分析工具 (VIRAT)CINDER 计划Insight 计划

美国政府的大数据计划

Page 6: 数据可视化基础 数据科学

国土安全部 (DHS) 可视化数据分析 (CVADA)

能源部 (DOE) ASCR 计划,提供数据管理,可视化和数据分析的社区,

包括数字化保存和社区访问 生物和环境研究计划 (BER) 系统生物学知识库 (Kbase) 美国核数据计划 (USNDP)

NASA 全球地球观测系统 (GEOSS) 行星数据系统 (PDS)

美国政府的大数据计划

Page 7: 数据可视化基础 数据科学

卫生和人类服务部 (HHS) 生物传感 2.0 计划 癌症成像存档 (TCIA) 癌症基因组图谱 (TCGA) 传染病代理研究模型 (MIDAS) 人口研究数据共享 (DSDR) 计算神经科学的合作研究 (CRCNS)

食品药品监督管理局 (FDA) 虚拟实验室环境 (VLE) 计划

国家安全局 (NSA) 情报共同体 (IC) 计划

美国政府的大数据计划

Page 8: 数据可视化基础 数据科学

美国国家自然基金委 (NSF) 开发、整合一套一体化的数据工具和先进的基础设施方案以

支持科学和教育。

美国国家卫生研究院 (NIH) The Structural Genomics Initiative ,通过发现,分析和

传播蛋白质的三维结构, RNA 和其他生物大分子结构,展现生物的多样性,以促进在生物学,农业和医药的基本认识和应用。美国地质调查局 (USGS)

利用庞大的数据集、先进的计算能力和协作工具,提高对一些地球问题的认识,如气候变化,地震的复发率。

美国政府的大数据计划

Page 9: 数据可视化基础 数据科学

2011 年由国防部高级研究计划局 (DARPA) 提出。投资: 3500 万美元。该项目旨在发现和防止内部威胁。系统预期输出对象是反间谍机构。同时可以用于解决大规模数据集的异常检测和特征化,用于商业融资等其他领域。核心技术由乔治亚理工学院高性能计算团队研发。

多尺度异常检测 (ADAMS)

Page 10: 数据可视化基础 数据科学

解决目前情报,监视和侦察系统的不足,进行自动化和人机集成推理,使得能够提前对时间敏感的更大潜在威胁进行分析开发新的方法来检测军事计算机网络与网络间谍活动

Insight计划

Page 11: 数据可视化基础 数据科学

国防部高级研究计划局 (DARPA)今年提出开始 XDATA 计划。

将在四年里拟投资每年 2500 万美元。

开发用于分析大量的半结构化和非结构化数据的计算技术和软件工具。

提出的挑战 :∙开发可扩展的算法处理分布式数据中不完整存储的数据。∙研发有效的人机交互工具促进在各种各样的任务中快速分析并反馈最重要的视觉信息。

XDATA计划

Page 12: 数据可视化基础 数据科学

高级科学计算研究办公室 (ASCR) 提出。

DAX是一个为推动百万兆级计算所需的数据分析和可视化算法提供细粒度并发支持的工具包。

基本单元是实现一个网格里元素行为的函数。

每个函数只能访问传递和调用的元素,避免了内存冲突从而实现无限数量的线程并发。

执行器遍历网格所有元素,调用一个或多个函数处理无差别功能的元素并收集每个元素的值。

DAX计划

Page 13: 数据可视化基础 数据科学

病人报告结果测量信息系统2002 年 5 月,国家卫生研究所召开多个会议为 21世纪的医学研究制定了发展路线并提出了 NIH 共同基金。

为支持重要项目之一的慢性疾病病人临床研究动态评估,由NIH 共同基金提出了合作项目 PROMIS 。

PROMIS是一个高度可靠,有效,灵活,准确,反应病人健康状况的评估工具系统。

核心资源是评估中心:提供工具和数据库,以帮助研究人员收集,存储,分析病人的健康状况有关的数据。

PROMIS计划

Page 14: 数据可视化基础 数据科学

NASA 提出的地球科学数据和信息系统研制计划

主要目标:a)处理、存储与分发地球科学卫星数据。b)提供用于方便管理地球科学数据的工具。c)促进地球科学数据的跨学科使用。d)通过国际之间地球观测数据的共享和整合,推动地球系统科学,满足气候和环境变化的挑战。

有 12个数据中心, 14个科学研究处理系统以及 26个合作伙伴为项目提供支持。

EOSDIS计划

Page 15: 数据可视化基础 数据科学

美国“大数据计划”特点 应用单位提出,应用单位主导 有非常明确的应用需求,要求解决实际问题 应用单位完全掌握大数据资源 高校参与关键技术研究 我国高校面临的挑战 不掌握大数据来源 很难得到真正的实际需求 无能力建设试验环境 不能提供足够的人力资源

大数据计划特点总结及高校面临的挑战

Page 16: 数据可视化基础 数据科学

提取、转换、加载( ETL )

商业智能 分析

数据产品

Page 17: 数据可视化基础 数据科学

数据准备 -复杂化

语法错误 语义错误 缺失值 异常检测 再归一化 编码 降维 整合

Page 18: 数据可视化基础 数据科学

数据准备 - 语法和语义错误

利用:日志! 维护一个记载错误记录的文件 尽可能多地捕捉出错地方的状态 能够帮助确定数据源的错误

对于文本格式,人来检查是可能的 对于二进制格式,使用 16 进制编辑器

进行语法或语义变化,或者检查数据源是否有错?

涉及到其他记录和数据源的限制是十分难查的

Page 19: 数据可视化基础 数据科学

数据准备 -扩展性问题

已有的数据和需要的数据均是动态的目标 数据质量是一个过程 经常会在分析数据是发现问题

修复找到的错误会是极耗资源或不可能的 容错

保留初始数据 能够将工作流的阶段回滚 允许以前工作的重用

Page 20: 数据可视化基础 数据科学

数据准备 -扩展性问题

工作流元数据管理 现在正在运行什么? 自动源捕获 对工作流进行版本编号

工作流进度估计 必须向下流进程通信

工作流单元重用 在复合时:常用工作流库 在执行时:消除工作流常见任务的冗余

Page 21: 数据可视化基础 数据科学

数据表现 数据表现概览 图表

单变量 双变量 其他

图表的选择 设计的考虑

表格 图表 颜色 活板印刷

Page 22: 数据可视化基础 数据科学

数据表现 - 例子

图 信息图 表格 图表 信息窗 介绍 文档 视频 应用程序

Page 23: 数据可视化基础 数据科学

数据表现图

Page 24: 数据可视化基础 数据科学

数据表现图

Page 25: 数据可视化基础 数据科学

数据表现图

Page 26: 数据可视化基础 数据科学

数据表现图

Page 27: 数据可视化基础 数据科学

数据表现信息图

Page 28: 数据可视化基础 数据科学

数据表现信息图

Page 29: 数据可视化基础 数据科学

数据表现信息图

Page 30: 数据可视化基础 数据科学

数据表现信息图

Page 31: 数据可视化基础 数据科学

数据表现表格

Page 32: 数据可视化基础 数据科学

数据表现图表

Page 33: 数据可视化基础 数据科学

数据表现信息窗

Page 34: 数据可视化基础 数据科学

数据表现信息窗

Page 35: 数据可视化基础 数据科学

数据表现信息窗

Page 36: 数据可视化基础 数据科学

数据表现图像

Page 37: 数据可视化基础 数据科学

设计的考虑表格和图表 减少图表垃圾 / 表格垃圾;增加数据墨水比 认知的限制:限制一次展示的物体数量 颜色

颜色模式 对比、强调 与公司一致

6 大格式塔原则:接近、相似、圈围、封闭、连续、连接( proximity, similarity, enclosure, closure, continuity, connection )

Page 38: 数据可视化基础 数据科学

数据产品 不要只关注“思想”

你构建了数据集 你构建了信息窗 你构建了实验平台

其他你可以构建的事 搜索 广告定位 垃圾检测 内容推荐

Page 39: 数据可视化基础 数据科学

Facebook 大数据案例

潜在的朋友

Page 40: 数据可视化基础 数据科学

提纲 推荐谁? 静态,离线预测 动态,在线重排序 性能 /热身

Page 41: 数据可视化基础 数据科学

你可能认识的人• 前 1~ 2个推荐会直接显示在 Faceboook 的主页上

• 查看所有链接会使用户看到更多的推荐

• 很多的好友都是直接在主页而不是“查看所有”页面被添加的

• ‘Xing’某个用户把某人永远地从列表里删除

• 在未来的推荐中取消掉

• 占了 Facebook中朋友中的很大一部分内容

Page 42: 数据可视化基础 数据科学

帮助用户在 FB上找到好友 推荐已经在很多应用中得到了证明

Amazon 、 NetFlix等都有复杂的系统

和他们一样,我们可以通过作出优秀的推荐来增加我们对用户的价值

有更多好友的用户更频繁地使用网站,从中也得到更多

不像那些系统(协同过滤)我们必须要考虑社交背景

Page 43: 数据可视化基础 数据科学

好友统计 大约每天有两亿的页面互访

26%直接来自于PYMK 的贡献(点击PYMK添加链接)

另外14%是间接引起的

新用户(注册帐号不超过两周)每天要连接4千万

28%直接通过 PYMK ,总共为42%

没有“你可能认识的人”(PYMK )时很多人可能都无法被他人所发现

被从PYMK上移除的新用户在 6周以后会少27% 的好友

Page 44: 数据可视化基础 数据科学

如何推荐 大部分的友谊来自于朋友的朋友( Friend of Friend, F-F )

以前的工作表明 FoF(2跳)的友谊比多余3跳的友谊要多五倍以上

FB上92% 的新朋友关系 从实际的角度来看,做比 F-F更深入的工作是不可能的了

一般用户平均有超过 130个好友 130×130 = 17K FoFs 130^2 = 2.2M FoFoFs

特殊的用户会有大约5000个好友

Page 45: 数据可视化基础 数据科学

推荐朋友的朋友 问题陈述:

给定一个源用户,找到最佳的朋友的朋友推荐给他

挑战: 一个典型的用户会有成百上千的 FoFs(平均为40K ,有一部分人会达到800K! )

哪些特性可以帮助我们从中进行选择

我们如何结合网络和人口特性

Page 46: 数据可视化基础 数据科学

共同好友 共同好友数目是一个很好的指标

两个有 10个共同好友的人成为好友的概率是仅有 1个共同好友的 12倍

其他社交网络特性也很有帮助: 比如,如果你的好友刚刚添加了一个新的还有,这也是一个很好的推荐

我们可以结合网络特性: 给出了边创建以来的时间

Page 47: 数据可视化基础 数据科学

系统概览 系统检测所有的 FoFs

产生前 100位候选人列表 存储评分并且使用简便易得的数据来预测实时的CTRs

候选人被重新排序并且在每次访问时展示

结果被反馈到系统并保留 实时模型依赖于输出分数,并进行在线训练来保证CTR预测的准确性

Page 48: 数据可视化基础 数据科学

进行静态预测 使用传统机器学习

对一个用户 u ,考虑所有的 FoFs w1,…,wk

对每一对 (u, wj) 生成一系列特性 共同好友,很久以前的共同好友,新

的共同好友等 也结合 u 和 wj各自的特性

年龄、性别、国家、总的朋友、在 FB 的时间等

我们使用袋装决策树(许多决策树的平均)

训练集来自于以前的 PYMK 只训练 “ first impression”或主页

Page 49: 数据可视化基础 数据科学

好友的好友特性 两类特性

带权的共同好友 (MFs) 实际的 MFs 、带时间权重的 MFs 、有向的

MFs 、带强度权的 MFs 、推迟的 MFs 个人特点

年龄、国家、 FB 年龄、性别、朋友数 由于用户平均有 40K个 FoFs,这些必须在每台机器上进行冗余备份而不是共享

用于预测的最重要特性 时间流逝的共同好友 源用户的国籍和 FB 年龄 好友数目

Page 50: 数据可视化基础 数据科学

特性选择 首要特性

1. 时间权重,有向共同好友

2. 国家 (u) 某些国家的用户相比于其

他国家的用户更倾向于使用某些特性

3.从 u到 v 的带权重边 来自于信息订阅的权重粗略地暗示了联系的强度

4 和 5是其他的共同好友权重,其他重要特性是 U 的度, V 的度以及 U 的年龄

Page 51: 数据可视化基础 数据科学

巨大的代价 用户平均有 40K个FoFs 共有超过 500M 的用户 40K × 500M = 20 T 多台拥有 72G 内存的机器(40台)

每台机器都存了社交图的一部分在内存中(对单台机器来说太大了)

即便如此,我们至少要在 2天中才能算出新的推荐

为了保证对新用户进行最佳的推荐,我们会为他们进行更多的计算

Page 52: 数据可视化基础 数据科学

推荐生成 社交图被 40台机器所共

享 包括边上的注释:创建时

间、方向,权重 请求会直接送到有用户好友列表的机器 这台机器分割好友列表并且向其他机器请求 FoFs

结果被汇总并排序 前 100位被返回

Page 53: 数据可视化基础 数据科学

推荐生成 使用了 4台机器的简单例子 4号用户请求PYMK

4号用户和 5,6,7,13,26,31,121等用户是好友

向其他机器请求 FoFs(本地的机器也一样被请求)

请求包括去权重(如时间) 每个 FoF 的特征向量被聚集

14:2, 18, 81 17:2, 53, 12 123: 2, 0, 0

Page 54: 数据可视化基础 数据科学

提高效率和内存利用率 为每个用户都运行 40K个 FOFs 的决策树评价是不可能 的

使用启发式方法来缩小范围 通过共同好友特性建立 logistic 模型来选择出前1K

使用线性时间排N 算法来找到截止(不是nlogn排序)

仅在前1K上运行完全决策树算法 不想使用网络来获得年龄、性别等信息 从前1000 用户中选择出前100

只有那些人才能被展示 为了保证多样性,会暂时不推荐已经向用户推荐了 4次以上的好友

Page 55: 数据可视化基础 数据科学

每次都展示最好的推荐 为了优化推荐,我们在每次推荐

以后都再次重排 决策模型只能每两天运行一次

他们为每个用户对 (u, wi)输出一个评分

不能为每次推荐进行过多的运算,但是可以适量运算

简单特性在每次推荐的时候都存在 (u, wi) 的分数,对 (u, wi) 的推荐次数, U 的朋友数, wi 的朋友数

将可获得的信息和评分相结合并通过 Logistics 模型来进行重排

Page 56: 数据可视化基础 数据科学

通过 Logistics回归进行重排 简单 logistics回归模型进行

CTRs预测的表现良好 对某个推荐给定特性 F1 、 F2 、

F3 预测 CTR =

logistics(C0+C1*F1+C2*F2+…)

从两方面来提高质量 不要不断重复某个推荐,展示过往

的最佳推荐 如果用户从来都不用 PYMK ,就停止推荐

Page 57: 数据可视化基础 数据科学

通过 Logistics回归进行重排 简单 logistics回归模型进行 CTRs预测的表现良好

对某个推荐给定特性 F1 、 F2 、 F3 预测 CTR =

logistics(C0+C1*F1+C2*F2+…) 从两方面来提高质量

不要不断重复某个推荐,展示过往的最佳推荐

如果用户从来都不用 PYMK ,就停止推荐

• 实现简单,很多的软件可以被用来学习参数• 使用用户历史数据来个个性化推荐能获得巨大的效果提升

Page 58: 数据可视化基础 数据科学

机器学习挑战

对过去数据的良好预测并不总是有价值 可能会给予没有出现在以前数据集里的推荐很高的评分

如果是从头开始训练,需要一定量的迭代以达到收敛 目前使用在线学习系统来进行 CTR预测

在该数据上训练的模型,部署了以后

新模型过高评价了那些没在之前数据中出现的推荐 ; 点击率骤减

Page 59: 数据可视化基础 数据科学

组合系统

Page 60: 数据可视化基础 数据科学

上下文 PMYK

简单扩展以后使得推荐可以根据当前的上下文 在确定了一个好友的请求之后,推荐一些该好友的朋友

但是应该是哪些人? 之前的排序仅根据共同好友数据(在我和他们之间) 使用学习好的模型(和其他

PYMK 基于相同的特性),增加了 40% 的好友添加

Page 61: 数据可视化基础 数据科学

性能 两个性能指标

建立的还有关系 CTR

总能通过牺牲其他指标来提高某个指标

离线模型的首次发送和早期的 CTR预测 从那时开始的一些不足 总的来说,增加了 60% 同时,有下调趋势的 CTR预测下降了 1/3 因此, CTR 提高了 130%

Page 62: 数据可视化基础 数据科学

要点 边注释是重要的特性

图并不仅是点和边 --- 边有时间,方向和权重 从简单的用户需求来获得巨大的成功

了解人们在用什么、人们不在意什么、展示他们喜欢的内容

~ 3个人带动了在 FB上的~ 40% 的交友==每个人每秒交 385个朋友