Upload
others
View
38
Download
0
Embed Size (px)
Citation preview
阿里运维架构及云实践
王海亚
阿里技术保障资深技术专家
2014.9
阿里基础设施架构
去IOE介绍
阿里云及金融解决案例
2
阿里基础设施架构
阿里巴巴集团业务
菜鸟
物流
淘宝
天猫
Alib
ab
a.co
m
1688.co
m
Alie
xpre
ss电子商务
支付宝
小额贷款
保险
基金
金融
数据平台
阿里云
聚划算
阿里技术保障
我们的历程
2007
2009
2010
2012
2013
2014
阿里巴巴骨干网ABTN投入使用
淘宝技术保障部成立,成为统一整合的阿里技术保障的前身
淘宝启动首个去IOE项目
阿里集团技术保障部整合完成
第一代AliRack 和AliSwitch投入使用
阿里最后一台IBM小型机下线
首次实现5000台飞天集群,万兆CDN上线
保障余额宝上云
完成阿里集团监控体系和支撑平台的无缝整合
内外交互WEB server
网络 {无线|ABTN|OTN|SDN }
交易金融
IDC { 风|火|水|电|全球 }
用户
运营商
Ali-DNS
ANATAliSLBABTN AliCDN
Ali-Guard
监控-预案
架构-优化
飞天{MySQL|OceanBase}
数 据
硬件 {Server|Storage| CPU|Rack}
OS | 基础服务| Ai
事业部
基础设施整体架构
网络基础架构
7
ABTN
ISR-1 ISR-2 ISR-3 ISR-4
CSR-2CSR-1
ANAT ClusterAGW Cluster
DSW DSW DSW DSW
ACTN
eBGP(private-as)
OSPF
运行时数据实时采集&计算平台
变更管控平台
编译构建
CMDB
源码管理
环境配置
应用发布
限流保护
系统预案
应用扩容
网络变更
RootCause
定位故障管理
研发支撑平台
缺陷管理
持续集成
任务调度/资源管理
系统变更
AOM(Alibaba Operation Model)/AOL(Alibaba Operation Language)
基线管理配置管理 依赖管理 比对校验
事件总线
告警管理
离线数据分析平台
故障诊治
应用监控
系统监控
性能基线
容量管理
故障预测
在线压测
研发流程 交付&变更 运行保障 分析&优化
DB变更
容灾切换
应用管理
运维工具架构
依赖发现
阿里系统技术路线图
运维自动化
自动化安装 自动化部署
Armory
AliMonitorSRMPIDCFreeSSOPAliClone
数据中心
土建规划 环境设计
供配电系统
制冷系统
总控中心容量规划综合布线弱电系统标识系统
OTN DNS DefenderAliGuard NetFrame VPC
ABTN
ACTN
交换AliSLB 网络架构 路由AliSwitch
网络操作系统Linux
AliOS
定制内核 AliDNS Ext4 NTP
硬件
FPGA
服务器
AliRack
RAID
ASIC
硅光 AliStorage
数据库
去IOE
AliMySQL
OceanBase ADHADRCDBFreeIDB
监控 I 安全
性能优化
容量规划
数据中心微模块技术美感环境友好
网络100G / SDNT级流量分析T级安全清洗
数据库分布式技术架构云数据库ODPS
服务器AliRack整机柜
高性能低功耗
自动化研发流程平台资源自由伸缩资源高效管理
阿里系统技术研发方向
去IOE介绍
Ali ORACLE
RAC20-曾经的亚洲最大,Oracle界的传奇,当时的骄傲
2007 部署4节点RAC 10G;
2008 扩展到8节点RAC;
2009 扩展到20节点RAC;
Oracle ACE 6+
去IOE的缘由
• 成为制约业务发展的瓶颈
• 分布式 vs 集中式(线性扩展能力)
• 专用设备规模化场景下诸多限制
• PC服务器处理能力增强(CPU,flash,大内存)
• 成本
去IOE如何做?
• MySQL
• TDDL(分库分表)
• Tair 缓存/tfs文本图片存储
• 数据分析
• 存储过程/函数
• 日志分析
• 其他
去IOE关键点
MySQL的硬伤
1. join查询/子查询/复杂查询。
2. 数据分析
3. 单实例性能瓶颈(分布式带来的问题)
4. MySQL的门槛 (bug,使用门槛,debug)
去IOE改造点
1. 基础语法改造
2. 复杂SQL改造
3. 存储过程/函数的改造
4. 集中式改造到分布式
5. 上线之前的性能压测
6. 数据迁移
7. …
新的架构
产品化
1. Ali MySQL分支
2. Oceanbase海量关系型数据库
3. Ali RDS(关系型数据库服务)
4. DRDS(分库分表技术)
5. OCS(缓存)
6. OSS (分布式存储)
7. ODPS(离线数据处理)
8. SLS日志分析系统
阿里云及金融解决案例
阿里云服务产品
虚拟服务器 存储与数据库 大数据
ODPS
ECS 云服务器
SLB 负载均衡
ODPS
开放数据
处理服务
DPC 采云间
RDS 关系型数据库服务
OSS 开放存储服务
OTS 开放结构化数据服务
OCS 开放缓存服务
CDN 内容分发网络
OAS 开放归档服务
ECS SLB RDS OSS OTS OCS CDN
安全
CS
CS 云盾
CM 云监控
CM
PaaS
ACE
ACE 云引擎
SLS 简单日志服务
MQS 消息队列服务
PTS 性能测试服务
OpenSearch
开放搜索服务
阿里云生态体系
21
云服务器
关系数据库服务SQL
基础服务全部 By 阿里
云监控 云盾
VPC
负载均衡 CDN 云盾
开放存储服务结构化数据服务NoSQL
缓存服务
开放数据处理服务大数据计算
日志服务工作流云引擎ACE
中间服务• 小部分By 阿里• 大部分By 合作伙伴
第三方产品(云市场)• Notify• OpenSearch• …
二方产品
行业软件开发商ISV
系统集成商SI
行业解决方案
中大型企业客户
SaaS服务市场应用服务• 完全由第三方提供• 云市场平台承载
中小企业、创业企业客户个人开发者
工具市场
客户
阿里云的典型客户
游戏
电子商务
互联网金融
云政务
移动APP个人站长
中小企业
大企业
政府
基于阿里云的聚石塔电商云平台2013年双十一支撑了约1.8亿笔订单,80%的商家后台
余额宝统一基于阿里云,短短几个月基金规模超过3000亿人民币
Apple App Store排名Top40的APP,约20%基于阿里云平台
Aliyun Confidential
云产品运维保障
释放
下单
创建
迁移
停止
重置
PR PO SRM Armory
部署落日弓大禹
ECSAPI
Op
en
AP
I
释放
创建迁移
OSS API
SLB API
object
上传
下载删除
过保
硬件故障
整体下线/局部替换
Idcfree维修
压测回归云盾傲盾
过保机器零收益
Aliyun.com
vm/ip
vip
采购交付周期
部署生产周期
过保维修周期
OTS
ODPS
RDS
SCM
审计、风控、计费、监控、故障处理
阿里金融云总体规划
银行,基金,保险,证券,期货,小贷 金融行业合作伙伴
金融云专属集群
云计算服务
弹性计算服务(ECS)
负载均衡服务(SLB)
关系型数据库服务
(RDS)云盾 云监控
开放数据存储服务
(OSS)
开放数据处理服务
(ODPS)
金融增值服务SSH VPN
接入架构支持护航保障
异地灾难备份
数据安全 合规安全IPsec VPN专线接入
堡垒机服务
特殊设备托管
大规模分布式云操作系统(飞天)分布式文件系统(盘古) 任务调度(伏羲)集群部
署(大禹)
集群监控
(神农)命名服务(女娲) 安全管理(钟馗) 网络通讯(夸父) 分布协同(仓颉)
金融能力开放
云支付接口6.0 金融沙箱 绿灯 合作伙伴的能力
金融行业案例:余额宝
IOE架构面临的问题
– 清算任务在150分钟内无法完成。
– 直销与清算的资源争抢。
– Oracle出现性能瓶颈
– 扩容周期长
– 直销的高并发实时开户请求,业务峰值高。
– 安全性与可靠性要求已经无法满足。
阿里云的解决方案
– 清算系统水平拆分,横向扩容。
– 双11清算35分钟内完成。
– 数据库去O,使用RDS,水平拆分,快速扩展
– 去IBM,使用ECS,资源弹性伸缩
– 按需付费,不会造成资源浪费
– 专线接入,两地三中心部署
谢谢关注,欢迎交流
@ 阿里技术保障