31
由点到面 提升公有云服务可用性 UCloud 吴磊 2014.11

2014 Hpocon 吴磊 ucloud - 由点到面 提升公有云服务可用性

Embed Size (px)

DESCRIPTION

2014 Hpocon 吴磊 ucloud - 由点到面 提升公有云服务可用性

Citation preview

Page 1: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

由点到面 提升公有云服务可用性

UCloud 吴磊

2014.11

Page 2: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

2 中国最为领先的云计算服务商

1

简介 思考和实践 感想

2 3

Summary

Page 3: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

个人简介

3 中国最为领先的云计算服务商

小型机 存储 X86 虚拟化 私有云 公有云

移动游戏 制造业 金融 教育 政府 IPDC 互联网 云计算

开发 策划 实施 项目管理 售前顾问 解决方案咨询

Page 4: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

UCloud简介

4 中国最为领先的云计算服务商

中立公有云服务商

2012年成立并正式运营,到目前为止稳定运营2.5年

7个数据中心,国内首家落地香港和北美的公有云服务商

服务企业客户超过10000家

第一批通过国家可信云认证,唯一的初创企业

通过国家等级保护三级

2014年B轮融资5000万美金,中国基础云计算领域暨今最大单笔融资

Page 5: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

UCloud用户

5 中国最为领先的云计算服务商

Page 6: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

6 中国最为领先的云计算服务商

1

简介 思考和实践 感想

2 3

Summary

Page 7: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

7 中国最为领先的云计算服务商

海外互联网巨头 国内互联网巨头

传统IT企业 运营商

我们想做点什么

中立公有云

Page 8: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

8 中国最为领先的云计算服务商

提供弹性的资源(计算,存储,网络)

提供足够高的性能(IO)

提供数据安全的保障(分布式,备份,Raid)

提供高于用户现有的服务可用性

提供高于用户现有的技术支持体验

公有云服务为用户提供的是

Page 9: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

9 中国最为领先的云计算服务商

互联网

网络接入

APP APP APP APP APP APP

Guest OS Guest OS Guest OS

Host OS KVM

Data Center

网络层

系统层

硬件层

基础层

云管理平台

云计算可用性的分层

Page 10: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

10 中国最为领先的云计算服务商

那么问题就来了

操作系统或内核bug导致的crash和重启

硬件故障导致的宕机或性能下降

基础设施和数据中心灾难

运营商网络质量不稳导致的网络中断

Page 11: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

举个栗子

11 中国最为领先的云计算服务商

1小时内

业务中断1次,连续30分钟

业务中断10次,每次1分钟

哪个更严重?

Page 12: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

12 中国最为领先的云计算服务商

内存ECC错误

宕机

HDD故障

Replace/Rebuild

OS或内核Bug

Patch/Reboot

性能差

资源抢夺

宿主机内核

cpu mem disk nic

QEMU & KVM

云主机内核

业务程序

云主机内核

业务程序

单点可用性是集群可用性的基础

每台宿主机都是一个单点

Page 13: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

UCloud内核改进

13 中国最为领先的云计算服务商

内核故障 自主维护内核 免重启修复

硬件故障

隔离内存硬件缺陷 按情况提高容忍度 在线迁移予以规避

性能

磁盘IO加速 大页、网络路径优化等

Page 14: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

热补丁-免重启修复

14 中国最为领先的云计算服务商

运行中内核 (带缺陷)

运行中内核 (无缺陷)

热补丁模块

源码补丁

ksplice模块生成

UCloud所有内核BUG均免重启修复

Page 15: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

热补丁-生成过程

15 中国最为领先的云计算服务商

Page 16: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

热补丁-运营结果

16 中国最为领先的云计算服务商

成熟应用 1. 所有内核BUG均免重启修复 2. 累计数万台次 3. 无性能损耗,业务中断时间十毫秒

UCloud对开源Ksplice的修改

1. 支持各种版本内核 2. 中断时间百毫秒 -> 十毫秒 3. 允许免重启修复关键路径(hrtimer, scheduler)

Page 17: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

IO加速

17 中国最为领先的云计算服务商

硬盘种类 随机IOPS (4k size)

SATA/SAS 100~175 (< 1MB)

SSD 2万 ~ 40万 (80MB~1.6GB)

SATA + SSD ?

能否鱼和熊掌兼得?

SATA的价格和数据可靠性

SSD的性能

Key Observation

业务关心随机写性能

SATA随机写4K IOPS峰值可达2万

Page 18: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

IO加速-原理

18 中国最为领先的云计算服务商

原理

加速模块接管所有IO

写IO被顺序化至Cache盘组

Cache盘组同步至真实盘组

效果

随机写IOPS = 2万

高可靠、低成本

Block I/O层

IO加速模块

Cache盘组 (RAID 10)

真实盘组 (RAID10)

Page 19: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

内存隔离-硬件故障隔离

19 中国最为领先的云计算服务商

24根内存条

Page 20: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

内存隔离-逻辑

20 中国最为领先的云计算服务商

内存错误

可纠正 不可纠正

不可恢复

不可纠正

可恢复

内核 普通进程

隔离错误区域

并通知虚拟机

内核

kvm进程

普通进程

记录并报警 Kernel Panic 忽略错误隔离错误区域

或杀死进程

隔离错误区域

或杀死进程忽略错误

Page 21: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

热迁移-触发场景

21 中国最为领先的云计算服务商

宕机先兆

内核报硬件错误

Raid卡故障

IO急剧下降

负载较高

性能影响

Page 22: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

热迁移-过程

22 中国最为领先的云计算服务商

Page 23: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

热迁移-优化

23 中国最为领先的云计算服务商

QEMU优化补丁

维持迁移后Sparse磁盘特性,减少迁移后的磁盘空间浪费

减少迁移数据,降低带宽占用

UDisk磁盘过滤

迁移时过滤UDisk

多点挂载,提高迁移效率

确保云主机存活

限制Libvirt的开关机控制,整合至云平台

Page 24: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

UCloud内核数据分享

24 中国最为领先的云计算服务商

修复20+个上游原生BUG

打入100+个特性补丁

累计避免数万次宿主机重启

IO性能10+倍于同类产品

在线迁移无一例失败

提升单体可用性

Page 25: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

容灾环网-提升UCloud服务整体可用性

25 中国最为领先的云计算服务商

了解更多

BGP C数据中心

基于光纤专线的跨数据中心同步

数据中心光纤专线网络

BGP A数据中心

BGP B数据中心

互联网

BGP数据中心通过光纤专用网络连接成为环网

任意数据中心都可以与其他两个数据中心实现内网互联互通

实测环网各数据中心内网延时<5ms

环网基于OSPF协议实现最优路径选择及链路冗余

Page 26: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

26 中国最为领先的云计算服务商

容灾环网-应对运营商网络质量问题

Page 27: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

27 中国最为领先的云计算服务商

容灾环网-应对部分服务不可用

Page 28: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

28 中国最为领先的云计算服务商

容灾环网-应对数据中心灾难

Page 29: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

29 中国最为领先的云计算服务商

1

简介 思考和实践 感想

2 3

Summary

Page 30: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

公有云从业感想

30 中国最为领先的云计算服务商

服务是根,运维是本

工程实践胜于学术概念

以用户需求作为创新依据

前景广阔,渴求人才

Page 31: 2014 Hpocon 吴磊   ucloud - 由点到面 提升公有云服务可用性

非常感谢 UCloud -- 中国最为领先的云计算服务商