Upload
-
View
780
Download
2
Embed Size (px)
Citation preview
数据可视化技术(1)2015.9.17
目录
1. 可视化发展史2. 基本图表类型3. 时空数据可视化4. 层次与网络数据可视化5. 文本数据可视化6. 多媒体数据可视化
什么是可视化?
可视化:利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术。
将不可见或难以直接显示的数据转化为可感知的图形、符号、颜色、纹理等,增强数
据识别效率,传递有效信息。
终极目的:对事物规律的洞悉(insight)。
例子
1. 可视化发展史
● 17世纪前
● 1600~1699年● 1700~1799年● 1800~1900年● 1900~1949年
● 1950~1974年● 1975~1987年● 1987~2004年● 2004年至今
17世纪前:图表萌芽
公元前6200年的人类地图
《城镇平面图》,恰他尔,土耳其,约公元前6200年
古罗马帝国地图
1600~1699: 物理测量
太阳黑子
1686年历史上第一幅天气图
向量场可视化的鼻祖
1700~1799:图形符号
新的图形化形式,如等值线
1701年地球等磁线可视化
1786年第一幅柱状图
第一幅时间序列图
1801年第一幅饼图
1800~1900:数据图形
统计数据可视化迅猛发展
1837年第一幅流图
可变宽度的线段显示了
交通运输的轨迹和乘客数量
1869拿破仑远征俄国战败
1888年火车时刻表
1900~1949:现代启蒙
可视化应用普及
多维数据可视化
心理学介入
1933年Henry Beck设计的伦敦地铁图
1950~1974年:多维信息的可视编码
● 1967年,Jacques Bertin《图形符号学》
描述了图形设计的框架,
提出完备的图形符号和表示理论,
奠定了信息可视化的理论基石。
● 开始使用计算机编程进行可视化
1975~1987:多维统计图形
● 桌面操作系统、计算机图形学、图形显示设备、人机交互等技术的发展广泛激发
了人们编程实现可视化的热情。
● 高性能计算、并行计算理论的发展也催生了面向科学与工程的大规模计算方法,
使数据密集型走向历史舞台,对数据分析和信息呈现提出更高要求。
● 信息可视化逐渐发展成一门学科。
1975年带移动统计均线的增强散点图表达
1975年,散点图矩阵
1981 鱼眼图
1985,表达高维数据的平行坐标
1987~2004年,交互可视化
● 1987年“科学可视化”一词出现。
● 1989年,提出“信息可视化”。● 1990年,IEEE开始举办可视化领域的专业学术会议。
● 数字化的非几何的抽象数据,入金融交易、社交网络、文本数据等大量涌现,催
生出多维、时变、非结构化信息的可视化需求。
1991年,树图
1994年,表格透视
2002年,标签云
2004年至今,可视分析学
● 新兴的可视分析学(visual analysis)● 更强调综合可视化、图形学、数据挖掘理论与方法、研究新的理论模型、新的可
视化方法和新的用户交互手段。
● 辅助用户从大尺度、复杂、矛盾甚至不完整的数据中快速发现有用信息。
数据可视化的意义
● 真:真实性、还原数据本质。
● 善:行善举。帮助人们理解社会发展和自然环境的现状、实现政府与职能部门运
行的透明。
● 美:艺术性的创新和发展。
数据可视化的分类
● 科学可视化(scientific visualization)● 信息可视化(information visualization)● 可视分析学(visual analytics)
三者之间并无清晰边界,只是侧重点不同。
科学可视化(scientific visualization)● 可视化领域最早、最成熟的一个跨学科研究与应用领域。
● 主要面向自然科学领域:物理、化学、气象、航空航天、医学、生物等等。
● 关注点主要在于三维真实世界的物理化学现象
信息可视化(information visualization)● 处理的对象是抽象的、非结构化数据集合
● 表现形式通常在二维空间,关键问题是在有限展现空间中以直观方式传达大量
的抽象信息。
● 与科学可视化相比。信息可视化更关注抽象、高维数据。
可视分析学(visual analytics)● 以可视交互界面为基础的分析推理科学。
● 综合图形学、数据挖掘和人机交互等技术,以可视交互界面为通道,将人的感知
和认知能力以可视的方式融入数据处理过程,完成有效的分析推理和决策。
● 属于相对新兴的学科。
2. 可视化的基本图表类型
● 数据轨迹
● 柱状图
● 直方图
● 饼图
● 等值线图
● 走势图
● 散点图
● 韦恩图
● 热力图
● 盒图
数据轨迹
● 标准的单变量数据呈现方法
● 例如时间序列
Dow Jones Industrial Average Index
柱状图(bar chart)采用长方形的形状和颜色编码数据的属性
分组 堆叠图
直方图(histogram)
对数据集的某个数据属性的频率统计,可呈现数据分布、离群值和数据分布的模态。
饼图(pie chart)饼形的隐喻,呈现各部分在整体中的比例
等值线图(contour map)● 使用相等数值的数值点连续来表
示数据的连续分布和变化规律● 途中的曲线是空间中具有相同数
值的数据点在平面上的投影
走势图(sparkline)一种简洁紧凑的数据趋势表达方式,以折线图为基础,大小与文本相仿,往往直接嵌
入在文本或表格中
Excel 2010
散点图(scatter plot)二维数据的标准可视化方法
散点图矩阵(scatter plot matrix) 散点图的高维扩展,
用于展现高位数据属性分布
韦恩图(Venn diagram)
使用平面上的封闭图形来表示数据集合间的关系
热力图(heat map)用颜色来表达带有位置信息的
数值大小
Where the Heat and the Thunder Hit Their Shotshttp://www.nytimes.com/interactive/2012/06/11/sports/basketball/nba-shot-analysis.html?_r=0
盒图(box plot)
通过标绘简单的统计值来呈现一维数据
的分布
包图(bag plot)盒图的二维扩展
可视化工具
● Matplotlib: a Python 2D plotting library● ggplot2: a plotting system for R● Matlab● SPSS● D3.js: JavaScript library● Protovis: JavaScript tool for web-based visualization● Processing: a popular language and IDE for graphics and interaction● Prefuse: Java API for information visualization● Prefuse Flare: an ActionScript 3 library for data visualization in the Adobe
Flash Player● The Visualization Toolkit: a library for 3D and scientific visualization
3. 时空数据可视化
● 空间标量场可视化
● 空间向量场可视化
● 地理信息可视化
● 时变数据可视化
空间标量场可视化
● 空间数据(spatial data):带有物理空间坐标的数据
● 标量场(scalar fields):空间采样位置上记录单个标量的数据场
● 一维、二维、三维真实物理空间
● 当特指地球地理空间位置时,采用特定的地理信息可视化方法
一维标量场可视化
● 一维空间标量场:空间中沿某一条路径采样得到的标量场数据。
例如:钻井数据,沿某个经度的气压数值
● 可表达为一维函数。
定义域:空间路径位置或空间坐标的参数化变量。
值域:不同的物理属性,如温度、湿度、气压、波长、亮度等。
● 数据采集时无法获取整个连续定义域内的数值,需要采用插值算法重建相邻离
散数据点之间的信号。
线图(line chart)测井数据:石油、天然气等
二维标量场可视化
● 比一维数据更为常见,比如X光片、地形图等
● 三种基本可视化方法:
1) 颜色映射
2) 等值线
3) 高度图
颜色映射(color mapping)● 通过色彩差异传递数据的空间分布规律
● 灰度映射和彩色映射,统称为颜色映射
1. 将每一标量值与一种颜色相对应,构建一张以标量值作为索引的颜色映射
表
2. 要选择合理的颜色映射表
X光片,医院中常见灰度映射
彩色映射
气象卫星地表温度图
等值线
二维数据场中满足f(x,y)=c的空间
点集连接而成的线
如:等高线、等压线、等温线
高度图
将二维空间标量场数据转换为三维空间的高度网络
http://visualizingeconomics.com/blog/2008/09/07/us-population-density-1990-and-2000
空间向量场可视化
● 每个采样点的数据是一个向量(一维数组)
● 向量场可视化的目标:展示场的导向趋势信息、识别关键特征区域
● 在科学计算和工程应用中占有非常重要的地位。如飞机设计、气象预报、计算流
体动力学(CFD)模拟、电磁场分析等。
流线
● 描述向量场空间中任意一点处向量场的切线方向
● 生成方法:在向量场中播撒种子点,从种子点发射粒子,对向量场进行采样,根据
采样得到的向量平移粒子,不断迭代得到一条完整的流线
● 适合于刻画稳定向量场或不稳定向量场中某一时刻的特征
Cutting top of delta-wing andexhibit various pressure withflow structures using jet color map
地理信息可视化
● 地理信息可视化可看做GIS的前端数据表现,地理信息的存储和管理则不是可视
化关注的重点
● 移动设备和传感器的广泛使用,为地理数据相关的可视化带来了新的机遇和挑
战
地理数据类型
点、线、面(区域)
点数据
地理空间中离散的点,具有经纬度坐标 http://www.crimemapping.com/map.aspx?aid=a3bd4a13-a591-4c78-87bd-065b70d870ab
线数据
例如行车路线、运动轨
迹等
自然地理对象,例如河
流、道路等
区域数据
● 区域:二维封闭空间,国家、省、市、街区、湖泊等
● 常用颜色表示区域属性
Choropleth map(分级统计图)
假设数据的属性在一个区域内部平均分布
常见于选举、人口普查、地区统计数据可视化
问题:
1. 数据分布和地理区域大小可能并不相称
2. 容易造成用户对数据的错误理解
Cartogram(变形地图)
按照区域属性值的相对比例对各个区域进行适当变形,同时保持各个区域的空间临
接关系
Number of shops by state for three major brands in US
时变数据可视化
时变型数据:随时间变化、带有时间属性的数据
● 时间序列数据○ 传感器监测数据、股票交易数据等
● 不以时间为变量,但具有内在排序顺序的数据○ 顺序可映射为时间轴处理
电影票房的例子
http://www.nytimes.com/interactive/2008/02/23/movies/20080223_REVENUE_GRAPHIC.html?_r=1&
Flickr FlowSummer
SpringAutumn
Winter
日历视图可视化
4. 层次与网络数据可视化
5. 文本数据可视化
6. 多媒体数据可视化
Q&A
Thanks