Upload
michael-zhang
View
219
Download
2
Embed Size (px)
DESCRIPTION
2014 Hpocon 吴磊 ucloud - 由点到面 提升公有云服务可用性
Citation preview
由点到面 提升公有云服务可用性
UCloud 吴磊
2014.11
2 中国最为领先的云计算服务商
1
简介 思考和实践 感想
2 3
Summary
个人简介
3 中国最为领先的云计算服务商
小型机 存储 X86 虚拟化 私有云 公有云
移动游戏 制造业 金融 教育 政府 IPDC 互联网 云计算
开发 策划 实施 项目管理 售前顾问 解决方案咨询
UCloud简介
4 中国最为领先的云计算服务商
中立公有云服务商
2012年成立并正式运营,到目前为止稳定运营2.5年
7个数据中心,国内首家落地香港和北美的公有云服务商
服务企业客户超过10000家
第一批通过国家可信云认证,唯一的初创企业
通过国家等级保护三级
2014年B轮融资5000万美金,中国基础云计算领域暨今最大单笔融资
UCloud用户
5 中国最为领先的云计算服务商
6 中国最为领先的云计算服务商
1
简介 思考和实践 感想
2 3
Summary
7 中国最为领先的云计算服务商
海外互联网巨头 国内互联网巨头
传统IT企业 运营商
我们想做点什么
中立公有云
8 中国最为领先的云计算服务商
提供弹性的资源(计算,存储,网络)
提供足够高的性能(IO)
提供数据安全的保障(分布式,备份,Raid)
提供高于用户现有的服务可用性
提供高于用户现有的技术支持体验
公有云服务为用户提供的是
9 中国最为领先的云计算服务商
互联网
网络接入
APP APP APP APP APP APP
Guest OS Guest OS Guest OS
Host OS KVM
Data Center
网络层
系统层
硬件层
基础层
云管理平台
云计算可用性的分层
10 中国最为领先的云计算服务商
那么问题就来了
操作系统或内核bug导致的crash和重启
硬件故障导致的宕机或性能下降
基础设施和数据中心灾难
运营商网络质量不稳导致的网络中断
点
面
举个栗子
11 中国最为领先的云计算服务商
1小时内
业务中断1次,连续30分钟
业务中断10次,每次1分钟
哪个更严重?
12 中国最为领先的云计算服务商
内存ECC错误
宕机
HDD故障
Replace/Rebuild
OS或内核Bug
Patch/Reboot
性能差
资源抢夺
宿主机内核
cpu mem disk nic
QEMU & KVM
云主机内核
业务程序
云主机内核
业务程序
单点可用性是集群可用性的基础
每台宿主机都是一个单点
UCloud内核改进
13 中国最为领先的云计算服务商
内核故障 自主维护内核 免重启修复
硬件故障
隔离内存硬件缺陷 按情况提高容忍度 在线迁移予以规避
性能
磁盘IO加速 大页、网络路径优化等
热补丁-免重启修复
14 中国最为领先的云计算服务商
运行中内核 (带缺陷)
运行中内核 (无缺陷)
热补丁模块
源码补丁
ksplice模块生成
UCloud所有内核BUG均免重启修复
热补丁-生成过程
15 中国最为领先的云计算服务商
热补丁-运营结果
16 中国最为领先的云计算服务商
成熟应用 1. 所有内核BUG均免重启修复 2. 累计数万台次 3. 无性能损耗,业务中断时间十毫秒
UCloud对开源Ksplice的修改
1. 支持各种版本内核 2. 中断时间百毫秒 -> 十毫秒 3. 允许免重启修复关键路径(hrtimer, scheduler)
IO加速
17 中国最为领先的云计算服务商
硬盘种类 随机IOPS (4k size)
SATA/SAS 100~175 (< 1MB)
SSD 2万 ~ 40万 (80MB~1.6GB)
SATA + SSD ?
能否鱼和熊掌兼得?
SATA的价格和数据可靠性
SSD的性能
Key Observation
业务关心随机写性能
SATA随机写4K IOPS峰值可达2万
IO加速-原理
18 中国最为领先的云计算服务商
原理
加速模块接管所有IO
写IO被顺序化至Cache盘组
Cache盘组同步至真实盘组
效果
随机写IOPS = 2万
高可靠、低成本
Block I/O层
IO加速模块
Cache盘组 (RAID 10)
真实盘组 (RAID10)
内存隔离-硬件故障隔离
19 中国最为领先的云计算服务商
24根内存条
内存隔离-逻辑
20 中国最为领先的云计算服务商
内存错误
可纠正 不可纠正
不可恢复
不可纠正
可恢复
内核 普通进程
隔离错误区域
并通知虚拟机
内核
kvm进程
普通进程
记录并报警 Kernel Panic 忽略错误隔离错误区域
或杀死进程
隔离错误区域
或杀死进程忽略错误
热迁移-触发场景
21 中国最为领先的云计算服务商
宕机先兆
内核报硬件错误
Raid卡故障
IO急剧下降
负载较高
性能影响
热迁移-过程
22 中国最为领先的云计算服务商
热迁移-优化
23 中国最为领先的云计算服务商
QEMU优化补丁
维持迁移后Sparse磁盘特性,减少迁移后的磁盘空间浪费
减少迁移数据,降低带宽占用
UDisk磁盘过滤
迁移时过滤UDisk
多点挂载,提高迁移效率
确保云主机存活
限制Libvirt的开关机控制,整合至云平台
UCloud内核数据分享
24 中国最为领先的云计算服务商
修复20+个上游原生BUG
打入100+个特性补丁
累计避免数万次宿主机重启
IO性能10+倍于同类产品
在线迁移无一例失败
提升单体可用性
容灾环网-提升UCloud服务整体可用性
25 中国最为领先的云计算服务商
了解更多
BGP C数据中心
基于光纤专线的跨数据中心同步
数据中心光纤专线网络
BGP A数据中心
BGP B数据中心
互联网
BGP数据中心通过光纤专用网络连接成为环网
任意数据中心都可以与其他两个数据中心实现内网互联互通
实测环网各数据中心内网延时<5ms
环网基于OSPF协议实现最优路径选择及链路冗余
26 中国最为领先的云计算服务商
容灾环网-应对运营商网络质量问题
27 中国最为领先的云计算服务商
容灾环网-应对部分服务不可用
28 中国最为领先的云计算服务商
容灾环网-应对数据中心灾难
29 中国最为领先的云计算服务商
1
简介 思考和实践 感想
2 3
Summary
公有云从业感想
30 中国最为领先的云计算服务商
服务是根,运维是本
工程实践胜于学术概念
以用户需求作为创新依据
前景广阔,渴求人才
非常感谢 UCloud -- 中国最为领先的云计算服务商