48
重重重重重重重重 1 重重重重重重重重重重重重重重重重重重重重重重 重重重 重重重重重 西 重重重重重 2015.7.19

李战怀 大数据环境下数据存储与管理的研究

Embed Size (px)

Citation preview

重点项目中期汇报

1

大数据环境下存储技术发展对数据管理研究的影响

李战怀西北工业大学计算机学院 2015.7.19

重点项目中期汇报

2

提 纲引言新型存储及存储层级的演化面向不同存储层级的数据管理架构架构变化对技术发展的影响总结

重点项目中期汇报

3

• 数据处理是推动计算机技术发展的核心技术之一• 作为数据处理的底层支撑,存储介质的更新和相关存储技术的发展是推动数据管理技术变革和发展的主要驱动力

存储介质的发展推动数据管理技术

重点项目中期汇报

4

提 纲引言新型存储及存储层级的演化

总结

面向不同存储层级的数据管理架构架构变化对技术发展的影响

重点项目中期汇报

5

• 传统存储设备的演化( go away or on the stage)纸带 -1857

穿孔卡 -1884

HDD-1956/1973 ROM-1970s

软盘 -1971

Flash-1984光盘 -1978

RAM-1970s

传统存储器件的演化

重点项目中期汇报

6

新型存储器件的发展• 计算机系统性能依赖于

– 处理器的数据计算能力– 存储层次向处理器传输数据的能力

• 随着多 \ 众核、多线程技术的发展,传统存储器件构成的存储层次面临的存储墙问题愈发严重– 处理单元(核)数的增长与存储数据供应能力(容量)不匹配– SRAM\DRAM 的静态功耗过高– 纠错电路限制了存储容量的增加并引发更多的功耗

• 新型存储器件包括:闪存、相变存储器、磁阻式存储、电阻式存储器、忆阻器等等。具备一个共同特点:非易失性– 优点:高存储密度、低静态功耗、对粒子及射线撞击产生的软错误具有抵抗能力等– 缺点:读写性能不对称、读写次数有限、可靠性不高等

Graph from “ 基于新型非易失存储的存储结构” , CCF 学会通讯 2014

重点项目中期汇报

7

• 闪存的工业化程度最高– SSD( solid state drive )– 闪存芯片 + 控制器 +FTL (WL, LBA-PBA, GC )

• (NAND )闪存的特点– 读写不对称:写操作需通过加压方式对 cell 进行电子填充– 写前擦除:异位更新、块擦除操作– 寿命有限:块擦除次数有限

• SLC (约 10 万次擦写)• MLC (小于 1 万次)• TLC (小于 1000 次)

新型存储器件 - 闪存

重点项目中期汇报

8

Spin-torque MRAM

Phase change memory

Memristor

• PCM (Phase-change memory) :相变,工业化,最具潜力

• FeRAM (Ferroelectric RAM) :铁电式,工业化,可扩展性差• MRAM (Magnetic RAM) :磁阻式,工业化,可扩展性差

– STT-RAM (Spin-torque transfer Random Access Memory)

• RRAM (Resistive RAM) :电阻式,实验室原型• Memristor/Solid

Electrolyte :忆阻器,智能,具有学习能力

新型存储器件 - 其他

FeRAM

重点项目中期汇报

9

Comparison of Technologies  DRAM PCM NAND  FlashPage sizePage read latency Page write latencyWrite bandwidth

Erase latency

64B20-50ns20-50ns

GB/s ∼per die

N/A

64B 50ns∼ 1 µs∼

50-100 MB/s per die

N/A

4KB 25 µs∼

500 µs∼5-40 MB/s

per die 2 ms∼

Endurance ∞ 106 − 108 104 − 105

Read energyWrite energyIdle power

0.8 J/GB1.2 J/GB

100 mW/GB∼

1 J/GB6 J/GB

1 mW/GB∼

1.5 J/GB [28]17.5 J/GB [28]1–10 mW/GB

Density 1× 2 − 4× 4×

• Compared to NAND Flash, PCM is byte-addressable, has orders of magnitude lower latency and higher endurance.

Sources: [Doller’09] [Lee et al. ’09] [Qureshi et al.’09]

部分性能指标对比 -I

重点项目中期汇报

10

Comparison of Technologies  DRAM PCM NAND  FlashPage sizePage read latency Page write latencyWrite bandwidth

Erase latency

64B20-50ns20-50ns

GB/s ∼per die

N/A

64B 50ns∼ 1 µs∼

50-100 MB/s per die

N/A

4KB 25 µs∼

500 µs∼5-40 MB/s

per die 2 ms∼

Endurance ∞ 106 − 108 104 − 105

Read energyWrite energyIdle power

0.8 J/GB1.2 J/GB

100 mW/GB∼

1 J/GB6 J/GB

1 mW/GB∼

1.5 J/GB [28]17.5 J/GB [28]1–10 mW/GB

Density 1× 2 − 4× 4×

• Compared to DRAM, PCM has better density and scalability; PCM has similar read latency but longer write latency

Sources: [Doller’09] [Lee et al. ’09] [Qureshi et al.’09]

部分性能指标对比 -II

重点项目中期汇报

11

新型存储器件 - 读写延迟 & 性价比

• 需要思考和解决的问题– 如何利用新型存储的特性来优化或者重新架构当前的存储层次?– 能否结合存储器件的特性以及存储层次,设计上层应用(特别是数据管理系统)实现扬长避短

重点项目中期汇报

12

提 纲引言新型存储及存储层级

总结

面向不同存储层级的数据管理架构架构变化对技术发展的影响

重点项目中期汇报

13

• 数据库系统总会涉及不同层次的存储器,特别是为支持事务的 ACID 属性,数据持久化是必须的,因此对于非易失的存储存在需求。• IO 始终是制约数据库性能的主要瓶颈,对于支持可高速随机读写的存储存在需求。• 数据库就是为了解决“大数据”问题,因此不断增长的数据规模对大容量的存储存在需求。• 用廉价磁盘阵列(集群)取代更大的磁盘,导致数据库系统对高可靠的存储存在需求。• 不同的读写访问模式,数据价值不同,使数据库对多级(混合)存储存在需求。

数据管理系统对存储的内在要求

重点项目中期汇报

14

• 数据库都是架构在目标存储层级( storage hierarchy )上的

数据库架构与存储层级

计算机对存储系统的基本要求:低延迟、高容量、价格成本低

重点项目中期汇报

15

• 数据库都是架构在目标存储层级( storage hierarchy )上的

• 依据主存储介质的不同,将数据库架构分为– Disk-oriented – Memory-oriented– NVM-oriented

数据库架构与存储层级

重点项目中期汇报

16

• 传统的关系数据库都是架构 two-tier 存储层级上的– 低速、非易失、高容量的 HDD 作为主存储介质– 高速、易失、低容量的 DRAM 作为 Cache

• 由于 disk 存储特性而引入的 IO 延时是影响数据库性能的主要瓶颈之一• disk-oriented 数据管理系统普遍采用如: Buffer

pool 或者复杂的并发控制,来缓解 disk 导致的 IO 延迟

disk-oriented 架构

SRAM

DRAM

HDDHDD 主存储介质cache

重点项目中期汇报

17

• [SIGMOD 08] :OLTP through the looking glass, and what we found there

• 测试结果显示,传统 disk-oriented 数据库只有约 12%的 CPU时间用于实际处理事务,其它时间都“浪费”在缓存池管理、并发控制和基于日志的事务恢复等辅助性模块上

disk-oriented 架构 - 缺陷

Ref “OLTP through the looking glass, and what we found there” SIGMOD 2008

从传统关系数据库诞生以来,由存储层级导致的架构性性能缺陷一直都存在。在小数据量的应用环境下尚能应对。但是大数据环境下,缺陷被放大,越来越难以应对大数据应用的需求

重点项目中期汇报

18

• 内存计算中内存的地位与概念正在发生改变– 地位:二级存储的 cache 数据存储的主要载体

内存计算中的“内存”

Memory FirstArchitecture数据访问:API call Pointeroriented延迟:纳秒级

Disk FirstArchitecture数据访问:API callOS I/OI/O ControllerHDD

延迟:微秒级

重点项目中期汇报

19

• 随着内存成本的不断下降,通过内存来存储整个数据库成为现实。• 为消减数据驻留磁盘导致的高昂代价,引发了一类以内存作为主存储介质的研究• 并非新的研究话题

– 90年代初就有研究:“ Implementation techniques for main memory database systems”, 1984, SIGOD Rec.

– 早期也有很多知名的 in-memory DB 系统,如TimesTen、 SolidDB、DataBlitz

– 传统的内存数据库沿袭了 System R 中的很多影响性能的特征,如 disk-based日志、动态锁等(对性能产生一定的影响)

memory-oriented 架构

HDD

SRAM

DRAM

重点项目中期汇报

20

memory-oriented 架构 -Anti-Caching

• 内存数据库的难题:– DB size > Memory Size– 解决策略 1 :增加硬件内存容量;

代价高昂– 解决策略 2 :回退到传统 Disk-Oriented DB

放弃对性能的要求– 解决策略 3 :启用虚拟内存( page virtual

memory )引发大量 page faults (产生大量 HDD IO 和事务的终止)

– 解决策略 4 :分布式缓存两层式 DB框架导致重复存储以及应用端的同步控制换个角度思考:从存储层次中数据使用的需求(冷热程度)出发

重点项目中期汇报

21

memory-oriented 架构 -Anti-Caching

• “ anti” 是针对传统存储层次保存数据的策略而言的。在传统 DB 系统中, disk 是主存储介质, DRAM 是作为 caching 存在。因此,一份数据可能会有多份拷贝• 而 anti-caching 架构中,把DRAM 作为主存储介质,而 Disk仅用来存放 cold 数据。因此同一份数据在任何时候,仅有一份副本。

Anti-Caching: A New Approach to Database Management System Architecture, VLDB 2013

重点项目中期汇报

22

memory-oriented 架构 -Anti-Caching

• 图 (a)(b)所示的架构中,数据均存在冗余。特别是( b )存在两份冗余。从某种程度上是一种浪费,给维护一致性管理带来不可避免的开销• 特别对于图 (b) 而言,是一种解决磁盘访问缓慢的架构优化方法,即使用分布式缓存(如 Memcached )。除了图 (a) 架构面临的问题,其还要求开发者在应用程序中嵌入逻辑来实现DBMS和分布式缓存的独立同步(应用耦合,增加了应用的开发难度) .• Anti-Caching 是一种可扩展的不局限于内存容量的内存数据库架构。其优于 Disk-Oriented DB以及使用分布式缓存两层架构 DB。

重点项目中期汇报

23

NVM-oriented 架构• 目前DRAM和 Flash 是半导体存储器技术的主流,但二者均面临计算速度以及容量的挑战• 日立 (Hitachi) 、英特尔、 IBM 、美光 (Mircon) 、海力士 (Hynix) 等公司都在竞相研发新一代半导体存储器技术,即新型非易失存储器( NVM/SCM )技术• 新型介质可以实现高速存取与非易失性,在未来可以作为内存替代DRAM ,也可以作为存储器替代传统硬盘、闪存。为内外存统一管理提供了可能性。• 思考:当新型存储( NVM/SCM )出现后,对 disk-

oriented 架构的 DB和memory-oriented 架构的DB 有什么影响 ?

重点项目中期汇报

24

NVM-oriented 架构—新存储层级• 随着 NVM 的逐渐成熟,计算机系统面临一个重大课题:如何将 NVM融入当今的存储子系统(存储层级)• 传统的存储系统中,不同存储层次的数据交换占据整个

IO 的大部分开销• 新型存储器件的非易失特性、良好的扩展性,低能耗以及较低的访问延迟对于存储层级(体系结构)造成了巨大冲击• 新型存储的特性也在改变传统的 CPU 、系统总线、主存、辅存间的架构平衡,需要系统设计者重新思考存储架构以最大化应用性能• 可以分别从寄存器、缓存、主存和外存不同层次研究如何引入新型存储器件

重点项目中期汇报

25

新的存储金字塔形成DRAM

HDD

SCM

HDD

SRAM

SCM

SRAM

DRAM

SCM

• 单纯替换的问题– 相比于 SRAM、 DRAM 甚至是 HDD ,各种新型存储介质都未形成绝对优势– 各种不同的存储介质还存在不同的特有的性质(特别是各自物理特性导致的难以改变的缺点,如闪存的擦除写)– 单纯的替换某一层无法实现最佳的性能

• 混合式融入策略与构成技术– 每种 SCM 存储介质在读写性能、成本、功耗等方面有各自的优势和不足– 混合存储是扬长避短,充分发挥不同存储介质的长处的一种可行的解决方案

NVM-oriented 架构—新存储层级

重点项目中期汇报

26

混合存储体系• SRAM 层面的混合技术

– 互补优势• SRAM 的写延迟低、写能耗低• SCM( STT-RAM )的容量大、静态功耗低

– 混合技术思路• 按比例配比存储介质。常见比例: 16:1~32:1( SST-RAM:

SRAM )• 按数据的访问特性分配数据的存放。写密集型数据放入 SRAM,读密集型数据放入 STT-RAM 。有基于硬件(控制器)和软件(编译器)两种分配方式

DRAM

HDD

SCMSRAM

重点项目中期汇报

27

• DRAM 层面的混合技术– 互补优势

• DRAM 的写延迟低、写能耗低、耐写性高• SCM( PCM )的存储密度高、静态功耗低、非易失 HDD

SRAM

DRAM+SCM

– 混合技术思路• PCM和 DRAM 线性混合:无主次,线性编址。• PCM 为主存 +DRAM 为缓存:借助 DRAM 缓存写操作减少 PCM的写次数• 效果: 1G-DRAM+32G-PCM~ 访问延迟、容量相当

32GDRAM~ 70% 功耗 ~ 使用寿命增长 300%

混合存储体系

重点项目中期汇报

28

• HDD 层面的混合技术– 互补优势

• HDD 的廉价、高容量• SCM( NAND FLASH )的随机读写能力、并发读写能力

– 混合技术思路• HDD 作为 SDD 的写缓存:合并随机写为批量顺序写到 SSD (不适合写密集应用)• PCM+NAND Flash :读密集置入 Flash ,写密集置入 PCM

SRAM

DRAM

SCM+HDD

混合存储体系

重点项目中期汇报

29

NVM-oriented 架构 -NVM模拟器

A Prolegomenon on OLTP Database Systems for Non-Volatile Memory, ADMS@VLDB 2014

• 数据库采用新存储层级的用例– NVM-only– NVM+DRAM

• NVM模拟器:如何系统级的评估面向 NVM 的软件是一个难题因为目前尚缺乏正式发布的硬件产品。需要使用合适的NVM硬件模拟器– 模拟器利用 DRAM模拟NVM,并提供两种主要访问接口– NUMA interface (内存方式)– PMFS interface (文件方式) System Software for Persistent Memory , EuroSys

2014

轻量级的兼容POSIX 的文件读写的访问方式,可具名,且支持面向字节的访问方式

类似内存申请的方式,无需测试系统做任何更改即可测试运行

重点项目中期汇报

30

NVM-oriented 架构 -NVM-only

A Prolegomenon on OLTP Database Systems for Non-Volatile Memory, ADMS@VLDB 2014

• 问题: memory-oriented和 disk-oriented 数据库架构能否直接应用新的存储层级获得收益?• m-o system(H-store)

– 利用 NUMA接口访问的 NVM模拟内存作为主存储介质;而利用 PMFS接口访问的NVM则模拟磁盘保存日志

– 问题: disk-oriented逻辑日志没有考虑NVM 的非易失特性。已经在 NVM 上完成持久化的事务需要被重新执行。

• d-o system(mysql+innoDB )– 利用 NUMA接口访问的 NVM模拟内存用于缓冲池;而利用 PMFS接口访问的

NVM则模拟磁盘作为主存储介质– 问题:用于防止 partial page write 错误的 doublewrite 机制,在 NVM执行环境下是不必要的

重点项目中期汇报

31

NVM-oriented 架构 -NVM+DRAM

A Prolegomenon on OLTP Database Systems for Non-Volatile Memory, ADMS@VLDB 2014

• 问题: memory-oriented和 disk-oriented 数据库架构能否直接应用新的存储层级获得收益?• 这种架构与传统的 two-tier 相似,只是利用 NVM替换了 HDD。 • 其最主要的瓶颈依然是为了支持恢复机制,将 DRAM 中的数据写入持久化存储介质的开销,及时是使用(相比于 HDD )非常快速的 NVM

“ we conclude that neither system is ideally suited for NVM. Instead, a new system is needed with principles of both disk-oriented and memory-oriented systems and a lightweight recovery scheme designed to utilize the non-volatile property of NVM”“ we envision that this new DBMS, dubbed N-Store” -- 《 A Prolegomenon on OLTP Database Systems for Non-Volatile Memory 》

重点项目中期汇报

32

提 纲引言新型存储及存储层级

架构变化对技术发展的影响总结

面向不同存储层级的数据管理架构

重点项目中期汇报

33

对恢复技术的影响• 存储介质的特性对于 WAL 的设计影响深刻

– Append only :基于顺序写速度高于随机写特性– In-place update :基于原位更新能力– Batch write :基于块( block )处理粒度

• NVM 新型存储在特性上和传统设备具有很大不同– Byte-addressable 、非易失、读写性能差异小– 需要充分考虑新特征,并扬长避短设计面向 NVM 的新日志策略

重点项目中期汇报

34

对恢复技术的影响 -[ICDE 2011]

• 问题:传统的日志设计中,为了协调基于块的磁盘 I/O ,采用两层日志设计策略,首先缓存到DRAM 上,再溢写到持久存储设备上,所以需要缓冲管理和磁盘 I/O 。因此,当一个事务触发日志记录持久化,它须等待这个日志记录之前的日志记录填满。这种设计成为日志并发读写的主要瓶颈。• 方案:新的基于 SCM 的日志方法。数据库事务从 SCM日志空间直接分配块用于写日志记录,不用缓存到DRAM再溢写到持久存储设备上,避免了复杂的缓冲管理和低速磁盘 I/O ,同时简化了日志框架,支持更好的并发度和延迟。同时开发了有效的基于 SCM 的日志管理和系统恢复算法。

Ref: High Performance Database Logging using Storage Class Memory, ICDE,2011

重点项目中期汇报

35

对恢复技术的影响 -[VLDB 2014]

• 问题:大规模并行硬件( multicore、multi-socket )越来越多的背景下,集中式日志导致的竞争开销已经成为 DB 的主要性能瓶颈。 NVM 的非易失性不但使传统日志的 flush-before-commit的设计需求不再必要,同时也使得分布式日志成为消除传统基于HDD 的日志读写瓶颈的具有前景的策略

• 方案:利用 NVM 的字节存取、非易失性建立基于多核的分布式可扩展的日志系统。每一个日志分配一个基于 NVM 的缓冲,一旦写日志立即持久化。同时利用基于逻辑时钟的全局顺序号,追踪同一事务在分布式日志中分散的记录之间的依赖关系,最后利用被动式群组提交确保在发生系统故障时事务处理的正确性。

Ref: Scalable Logging through Emerging NonVolatile Memory, VLDB 2014

重点项目中期汇报

36

对恢复技术的影响 -[SOSP 2013]

• 问题:为了适应 HDD 的读写特征,传统的 WAL被设计为append-only和write-only 。同时为了最小化同步写代价,需要采取很多面向磁盘的如批量写等优化技术,也增加了设计的复杂度。但是 NVM 的新读写特征使得一些优化技术不再必要,同时也为设计基于 NVM 的面向 WAL 的回复算法提供了新的机遇

• 方案:结合硬件技术,利用可编辑的原子写操作( editable atomic writes, EAW ),以一种可扩展的方式支持事务隔离,并设计了一种面向 NVM 优化的基于 WAL 的恢复策略:MARS( Modified ARIES Redesigned for SSDs )。不但具有和 ARIES 一样的特性,同时消除了面向 HDD 的一些设计权衡。

From ARIES to MARS transaction support for next-generation, solid-state drives, SOSP 2013

重点项目中期汇报

37

对恢复技术的影响 - 比较

Algorithm SCM-based Longing

NVM-based by distributed logging

MARS

similarities 1. 都是应对新型存储设备下的日志系统优化方案2. 缓冲设备都是 PCM/SCM/NVM+ 主内存3. 降低了多次读写磁盘 I/O 的次数4. 都提出了针对不同底层设计的系统崩溃恢复方案

 Differences实现方案 底层通过 SCM 日志空间数据结构和 SCM 日志空间管理器进行块、锁管理和归档数据到其它持久设备

通过 GSN 在分布式日志中定位唯一日志序列号、事务分发到本地节点日志避免远程内存访问,管理检查点减少不必要的数据扫描。

通过硬件和软件同时支持,提供的对原子化写操作的支持,以及相关的原语,简化了ARIES 类日志的设计复杂度以及不必要的面向磁盘的开销

整体框架 软件、集中式 软件、分布式 软硬结合、集中式恢复机制 恢复系统仅仅需要知道

SCM 日志空间的地址就可获取最新检查点位置,从而加载数据执行恢复

直接使用页面级的分区做 parallel redo, 事务级的分区做 parallel undo

利用内核驱动 (kernel  driver) 实现恢复。在恢复时,驱动会扫描所有 logger 的事务表构建一个完整的事务状态场景。利用 WriteBack和Abort 命令完成恢复操作

• 几种设计方案的对比:

重点项目中期汇报

38

对事务技术的影响• 传统的数据库系统架构主要基于上世纪 70年代的计算机硬件特点而设计,主要包括以下几个模块:

Buffer Pool Manager (解决内存不足问题) Concurrency Control Mechanism (解决磁盘延迟高问题) Recovery Mechanism (利用持久化介质解决故障问题)

• 这些模块大多与事务处理密切相关。而且这些机制所面对的执行环境都是 disk-oriented 的。因此,在 NVM 时代(包括内存计算),上述技术都面临新的机遇与挑战

重点项目中期汇报

39

对事务技术的影响 - 分布式事务• 基于内存的 H-store

– 用存储过程模拟事务。把所有事务都转为存储过程的一系列操作。可减少应用与数据库之间多次信息交互产生的延迟。并且为事务事前优化提供了可能性– 只提供基于分区的单线程,消除了与典型多线程环境中的锁定和闩锁有关的开销,保证事务请求按顺序执行– 采取在一个分区中单线程顺序执行事务的策略,对于单分区事务具有高可扩展性非和高吞吐量;对于跨分区的分布式事务亦可支持,但事务并发性较低,因此吞吐量较低。适用于上层应用容易分区的业务场景。

ClientApplication

Database Cluster

Transaction

Result

Procedure NameInput Parameters

重点项目中期汇报

40

• 问题:在传统 RDBMS 中, MVCC 机制下记录的更新操作会产生较高的索引维护代价。维护索引开销的主要来源:低效的磁盘 I/O以及索引与多版本记录物理存储位置的高度耦合关系。因此索引数量和检索性能、维护开销存在 tradeoff• 方案:通过利用低延迟的 SCM 引入一个间接层,改变了在混合存储层次中的数据结构。利用该间接层解耦了多版本记录在物理表示与逻辑表示之间的关系。当记录更新时,除了建立在更新属性上的索引需要涉及磁盘 IO外,其他属性上的索引都只会涉及低延迟的 SCM

I/O

Ref:Making updates disk-I/O friendly using SSDs, VLDB 2013

对事务技术的影响 - 并发控制

重点项目中期汇报

41

对核心算法的影响• 传统关系数据库中的部分核心算法在新型存储环境下无法达到最优,如 B+ 树、 Hash 连接等,因为很多算法及相关优化技术主要针对 HDD 的读写特性而设计。• 在 PCM 为主存的存储架构下, PCM-friendly 的主存算法的技术指标不仅有:低计算复杂度、好的 cpu cahce性能、节能,还有最小化 PCM 写需求

重点项目中期汇报

42

对核心算法的影响 -[CIDR 2011]

• 问题:基于 DRAM 的传统 B+ 树的插入删除操作代价不高,仅在节点分裂和合并时,代价较高。但是在 PCM 为主存的环境下, B+ 树的任何插入删除的相对代价都较高,因为在有序节点中执行插入 \删除操作都会产生大量PCM 写操作

• 方案: unsorted化 - 叶子节点无序化,非叶子节点有序化

Ref: Rethinking Database Algorithms for Phase Change Memory, CIDR

图: PCM 为主存的三种典型存储架构组织形式

Unsorted node

Unsorted node with bitmap

重点项目中期汇报

43

对核心算法的影响 -[CIDR 2011]

• 问题:对于简单哈希连接 在下述情况下 Hash 连接存在较多的 cache misses 问题

– Build + hash table >> CPU cache– Record size is small (关系的大小一定)

基于 Cache Partitioning 的哈希连接– 在划分阶段存在大量不利于 PCM 的写操作

• 方案: – 虚拟划分– 对虚拟划分对进行连接– 既保持了好的 cpu cache 命中率,同时减少了写操作

Ref: Rethinking Database Algorithms for Phase Change Memory, CIDR

重点项目中期汇报

44

• “ 用计算移动代替数据移动”是大数据时代数据密集型应用的一个设计优化原则,换言之将计算推向数据可以最大程度的实现本地化,减少数据在不同存储层级以及网络间的移动开销

• 三星研究人员设计了一种:“ smart SSD” 。其实现了简单的计算与存储的整合。在存储器件中嵌入了计算能力,使得直接将操作下压到 smart SSD进行处理成为了可能。

• 在原型实验中,可以将数据库的简单关系运算,如选择与聚集等,编译成 SSD 的固件,显著提升了系统性能,并实现了节能。是一种软件结合优化的新思路

数据管理与存储的耦合—功能下推 [SIGMOD]

Query processing on smart SSDs: opportunities and challenges, SIGMOD 2013

重点项目中期汇报

45

• “ Buckets effect”说明,最终产品的性能,不仅仅是软件本身,而是取决于软硬件中最薄弱的一个环节– 硬件设备(存储、网络、处理器)– 操作系统– 应用(数据库)

• 软件和硬件的深度结合才可能带来最大的性能提升。“一体机”的软硬件高度配合可以使硬件每个性能都能被软件充分利用。特别是存储和数据库的配合尤为重要。

ORACLE ExaData IBM PureData

数据管理与存储的耦合—定制化:一体机

重点项目中期汇报

46

提 纲引言新型存储及存储层级

总结

面向不同存储层级的数据管理架构架构变化对技术发展的影响

重点项目中期汇报

47

总结• 近年来硬件的发展是显著的,其不但可能使现有的架构设计原则失效,同时为了更充分的利用新硬件的特点,也促进了架构的重新设计。• 对于商业而言,速度不是可选项而是必选项。而且总希望容量越来越大、速度越来越快,价格越来越低• 根据新型应用和硬件环境全新设计的数据库系统比对旧数据库进行改进要具有更多的优势• 副作用就是软件设计与硬件的高度耦合,系统设计者总是希望系统是 *- independent ,但是在显著的提速需求下,很多设计策略需要被权衡,牺牲某些选项而获得极大的速度提升是可以被接受的。• 要充分关注未来 PCM(SCM)-only 架构对相关的软件技术以及 DBMS 技术带来的影响。

重点项目中期汇报

48

[email protected]

Thank You