86
数据可化技(1) 2015.9.17

数据可视化技术 (1)

  • Upload
    -

  • View
    780

  • Download
    2

Embed Size (px)

Citation preview

Page 1: 数据可视化技术 (1)

数据可视化技术(1)2015.9.17

Page 2: 数据可视化技术 (1)

目录

1. 可视化发展史2. 基本图表类型3. 时空数据可视化4. 层次与网络数据可视化5. 文本数据可视化6. 多媒体数据可视化

Page 3: 数据可视化技术 (1)

什么是可视化?

可视化:利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术。

将不可见或难以直接显示的数据转化为可感知的图形、符号、颜色、纹理等,增强数

据识别效率,传递有效信息。

终极目的:对事物规律的洞悉(insight)。

Page 4: 数据可视化技术 (1)

例子

Page 5: 数据可视化技术 (1)

1. 可视化发展史

● 17世纪前

● 1600~1699年● 1700~1799年● 1800~1900年● 1900~1949年

● 1950~1974年● 1975~1987年● 1987~2004年● 2004年至今

Page 6: 数据可视化技术 (1)

17世纪前:图表萌芽

公元前6200年的人类地图

《城镇平面图》,恰他尔,土耳其,约公元前6200年

Page 7: 数据可视化技术 (1)

古罗马帝国地图

Page 8: 数据可视化技术 (1)

1600~1699: 物理测量

太阳黑子

Page 9: 数据可视化技术 (1)

1686年历史上第一幅天气图

向量场可视化的鼻祖

Page 10: 数据可视化技术 (1)

1700~1799:图形符号

新的图形化形式,如等值线

1701年地球等磁线可视化

Page 11: 数据可视化技术 (1)

1786年第一幅柱状图

Page 12: 数据可视化技术 (1)

第一幅时间序列图

Page 13: 数据可视化技术 (1)

1801年第一幅饼图

Page 14: 数据可视化技术 (1)

1800~1900:数据图形

统计数据可视化迅猛发展

Page 15: 数据可视化技术 (1)

1837年第一幅流图

可变宽度的线段显示了

交通运输的轨迹和乘客数量

Page 16: 数据可视化技术 (1)

1869拿破仑远征俄国战败

Page 17: 数据可视化技术 (1)

1888年火车时刻表

Page 18: 数据可视化技术 (1)

1900~1949:现代启蒙

可视化应用普及

多维数据可视化

心理学介入

Page 19: 数据可视化技术 (1)

1933年Henry Beck设计的伦敦地铁图

Page 20: 数据可视化技术 (1)

1950~1974年:多维信息的可视编码

● 1967年,Jacques Bertin《图形符号学》

描述了图形设计的框架,

提出完备的图形符号和表示理论,

奠定了信息可视化的理论基石。

● 开始使用计算机编程进行可视化

Page 21: 数据可视化技术 (1)

1975~1987:多维统计图形

● 桌面操作系统、计算机图形学、图形显示设备、人机交互等技术的发展广泛激发

了人们编程实现可视化的热情。

● 高性能计算、并行计算理论的发展也催生了面向科学与工程的大规模计算方法,

使数据密集型走向历史舞台,对数据分析和信息呈现提出更高要求。

● 信息可视化逐渐发展成一门学科。

Page 22: 数据可视化技术 (1)

1975年带移动统计均线的增强散点图表达

Page 23: 数据可视化技术 (1)

1975年,散点图矩阵

Page 24: 数据可视化技术 (1)

1981 鱼眼图

Page 25: 数据可视化技术 (1)

1985,表达高维数据的平行坐标

Page 26: 数据可视化技术 (1)

1987~2004年,交互可视化

● 1987年“科学可视化”一词出现。

● 1989年,提出“信息可视化”。● 1990年,IEEE开始举办可视化领域的专业学术会议。

● 数字化的非几何的抽象数据,入金融交易、社交网络、文本数据等大量涌现,催

生出多维、时变、非结构化信息的可视化需求。

Page 27: 数据可视化技术 (1)

1991年,树图

Page 28: 数据可视化技术 (1)

1994年,表格透视

Page 29: 数据可视化技术 (1)

2002年,标签云

Page 30: 数据可视化技术 (1)

2004年至今,可视分析学

● 新兴的可视分析学(visual analysis)● 更强调综合可视化、图形学、数据挖掘理论与方法、研究新的理论模型、新的可

视化方法和新的用户交互手段。

● 辅助用户从大尺度、复杂、矛盾甚至不完整的数据中快速发现有用信息。

Page 31: 数据可视化技术 (1)

2005年,移动气泡图

Gapminder:

http://gapminder.org

Page 32: 数据可视化技术 (1)

数据可视化的意义

● 真:真实性、还原数据本质。

● 善:行善举。帮助人们理解社会发展和自然环境的现状、实现政府与职能部门运

行的透明。

● 美:艺术性的创新和发展。

Page 33: 数据可视化技术 (1)

数据可视化的分类

● 科学可视化(scientific visualization)● 信息可视化(information visualization)● 可视分析学(visual analytics)

三者之间并无清晰边界,只是侧重点不同。

Page 34: 数据可视化技术 (1)

科学可视化(scientific visualization)● 可视化领域最早、最成熟的一个跨学科研究与应用领域。

● 主要面向自然科学领域:物理、化学、气象、航空航天、医学、生物等等。

● 关注点主要在于三维真实世界的物理化学现象

Page 35: 数据可视化技术 (1)

信息可视化(information visualization)● 处理的对象是抽象的、非结构化数据集合

● 表现形式通常在二维空间,关键问题是在有限展现空间中以直观方式传达大量

的抽象信息。

● 与科学可视化相比。信息可视化更关注抽象、高维数据。

Page 36: 数据可视化技术 (1)

可视分析学(visual analytics)● 以可视交互界面为基础的分析推理科学。

● 综合图形学、数据挖掘和人机交互等技术,以可视交互界面为通道,将人的感知

和认知能力以可视的方式融入数据处理过程,完成有效的分析推理和决策。

● 属于相对新兴的学科。

Page 37: 数据可视化技术 (1)

2. 可视化的基本图表类型

● 数据轨迹

● 柱状图

● 直方图

● 饼图

● 等值线图

● 走势图

● 散点图

● 韦恩图

● 热力图

● 盒图

Page 38: 数据可视化技术 (1)

数据轨迹

● 标准的单变量数据呈现方法

● 例如时间序列

Dow Jones Industrial Average Index

Page 39: 数据可视化技术 (1)

柱状图(bar chart)采用长方形的形状和颜色编码数据的属性

Page 40: 数据可视化技术 (1)

分组 堆叠图

Page 41: 数据可视化技术 (1)

直方图(histogram)

对数据集的某个数据属性的频率统计,可呈现数据分布、离群值和数据分布的模态。

Page 42: 数据可视化技术 (1)

饼图(pie chart)饼形的隐喻,呈现各部分在整体中的比例

Page 43: 数据可视化技术 (1)

等值线图(contour map)● 使用相等数值的数值点连续来表

示数据的连续分布和变化规律● 途中的曲线是空间中具有相同数

值的数据点在平面上的投影

Page 44: 数据可视化技术 (1)
Page 45: 数据可视化技术 (1)

走势图(sparkline)一种简洁紧凑的数据趋势表达方式,以折线图为基础,大小与文本相仿,往往直接嵌

入在文本或表格中

Page 46: 数据可视化技术 (1)

Excel 2010

Page 47: 数据可视化技术 (1)

散点图(scatter plot)二维数据的标准可视化方法

Page 48: 数据可视化技术 (1)

散点图矩阵(scatter plot matrix) 散点图的高维扩展,

用于展现高位数据属性分布

Page 49: 数据可视化技术 (1)

韦恩图(Venn diagram)

使用平面上的封闭图形来表示数据集合间的关系

Page 50: 数据可视化技术 (1)

热力图(heat map)用颜色来表达带有位置信息的

数值大小

Page 51: 数据可视化技术 (1)
Page 52: 数据可视化技术 (1)

Where the Heat and the Thunder Hit Their Shotshttp://www.nytimes.com/interactive/2012/06/11/sports/basketball/nba-shot-analysis.html?_r=0

Page 53: 数据可视化技术 (1)

盒图(box plot)

通过标绘简单的统计值来呈现一维数据

的分布

Page 54: 数据可视化技术 (1)

包图(bag plot)盒图的二维扩展

Page 55: 数据可视化技术 (1)

可视化工具

● Matplotlib: a Python 2D plotting library● ggplot2: a plotting system for R● Matlab● SPSS● D3.js: JavaScript library● Protovis: JavaScript tool for web-based visualization● Processing: a popular language and IDE for graphics and interaction● Prefuse: Java API for information visualization● Prefuse Flare: an ActionScript 3 library for data visualization in the Adobe

Flash Player● The Visualization Toolkit: a library for 3D and scientific visualization

Page 56: 数据可视化技术 (1)

3. 时空数据可视化

● 空间标量场可视化

● 空间向量场可视化

● 地理信息可视化

● 时变数据可视化

Page 57: 数据可视化技术 (1)

空间标量场可视化

● 空间数据(spatial data):带有物理空间坐标的数据

● 标量场(scalar fields):空间采样位置上记录单个标量的数据场

● 一维、二维、三维真实物理空间

● 当特指地球地理空间位置时,采用特定的地理信息可视化方法

Page 58: 数据可视化技术 (1)

一维标量场可视化

● 一维空间标量场:空间中沿某一条路径采样得到的标量场数据。

例如:钻井数据,沿某个经度的气压数值

● 可表达为一维函数。

定义域:空间路径位置或空间坐标的参数化变量。

值域:不同的物理属性,如温度、湿度、气压、波长、亮度等。

● 数据采集时无法获取整个连续定义域内的数值,需要采用插值算法重建相邻离

散数据点之间的信号。

Page 59: 数据可视化技术 (1)

线图(line chart)测井数据:石油、天然气等

Page 60: 数据可视化技术 (1)

二维标量场可视化

● 比一维数据更为常见,比如X光片、地形图等

● 三种基本可视化方法:

1) 颜色映射

2) 等值线

3) 高度图

Page 61: 数据可视化技术 (1)

颜色映射(color mapping)● 通过色彩差异传递数据的空间分布规律

● 灰度映射和彩色映射,统称为颜色映射

1. 将每一标量值与一种颜色相对应,构建一张以标量值作为索引的颜色映射

2. 要选择合理的颜色映射表

Page 62: 数据可视化技术 (1)

X光片,医院中常见灰度映射

Page 63: 数据可视化技术 (1)

彩色映射

气象卫星地表温度图

Page 64: 数据可视化技术 (1)

等值线

二维数据场中满足f(x,y)=c的空间

点集连接而成的线

如:等高线、等压线、等温线

Page 65: 数据可视化技术 (1)

高度图

将二维空间标量场数据转换为三维空间的高度网络

http://visualizingeconomics.com/blog/2008/09/07/us-population-density-1990-and-2000

Page 66: 数据可视化技术 (1)
Page 67: 数据可视化技术 (1)

空间向量场可视化

● 每个采样点的数据是一个向量(一维数组)

● 向量场可视化的目标:展示场的导向趋势信息、识别关键特征区域

● 在科学计算和工程应用中占有非常重要的地位。如飞机设计、气象预报、计算流

体动力学(CFD)模拟、电磁场分析等。

Page 68: 数据可视化技术 (1)

流线

● 描述向量场空间中任意一点处向量场的切线方向

● 生成方法:在向量场中播撒种子点,从种子点发射粒子,对向量场进行采样,根据

采样得到的向量平移粒子,不断迭代得到一条完整的流线

● 适合于刻画稳定向量场或不稳定向量场中某一时刻的特征

Page 69: 数据可视化技术 (1)

Cutting top of delta-wing andexhibit various pressure withflow structures using jet color map

Page 70: 数据可视化技术 (1)

地理信息可视化

● 地理信息可视化可看做GIS的前端数据表现,地理信息的存储和管理则不是可视

化关注的重点

● 移动设备和传感器的广泛使用,为地理数据相关的可视化带来了新的机遇和挑

Page 71: 数据可视化技术 (1)

地理数据类型

点、线、面(区域)

Page 73: 数据可视化技术 (1)

线数据

例如行车路线、运动轨

迹等

自然地理对象,例如河

流、道路等

Page 74: 数据可视化技术 (1)

区域数据

● 区域:二维封闭空间,国家、省、市、街区、湖泊等

● 常用颜色表示区域属性

Page 75: 数据可视化技术 (1)

Choropleth map(分级统计图)

假设数据的属性在一个区域内部平均分布

常见于选举、人口普查、地区统计数据可视化

问题:

1. 数据分布和地理区域大小可能并不相称

2. 容易造成用户对数据的错误理解

Page 76: 数据可视化技术 (1)
Page 77: 数据可视化技术 (1)

Cartogram(变形地图)

按照区域属性值的相对比例对各个区域进行适当变形,同时保持各个区域的空间临

接关系

Page 78: 数据可视化技术 (1)

Number of shops by state for three major brands in US

Page 79: 数据可视化技术 (1)

时变数据可视化

时变型数据:随时间变化、带有时间属性的数据

● 时间序列数据○ 传感器监测数据、股票交易数据等

● 不以时间为变量,但具有内在排序顺序的数据○ 顺序可映射为时间轴处理

Page 81: 数据可视化技术 (1)

Flickr FlowSummer

SpringAutumn

Winter

Page 82: 数据可视化技术 (1)

日历视图可视化

Page 83: 数据可视化技术 (1)

4. 层次与网络数据可视化

Page 84: 数据可视化技术 (1)

5. 文本数据可视化

Page 85: 数据可视化技术 (1)

6. 多媒体数据可视化

Page 86: 数据可视化技术 (1)

Q&A

Thanks