Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
1
数据中心网络技术
国防科技大学 苏金树
1 国防科技大学 2
1、数据中心要素
2、面向应用的结构设
计
3、软件定义结构
(SDN时代)
4、两个研究案例
数据中心联网技术
国防科技大学 3
互联网Web服务• 从经典Web 到Web Service
– HTTP从核心协议,到传输协议– 动态生成内容,http之上很多应用层协议,如Web services & SOA
• 从计算中心消亡到数据中心崛起
前端
Web 递交、请求路由、聚合、负载均衡
后端
数据库、存储、计算
现代web服务的基本框架国防科技大学
1、数据中心要素
• 网络:链路+互连设备+拓扑结构+路由– 链路(网络):以太网、IB、FC or PCIe
– 互连:二层交换机 vs 二层交换机+路由器
• 节点(服务器):网卡+协议软件– 一般网络 vs 智能网卡– 内核协议栈 vs RDMA软件等
4
国防科技大学
数据中心网络问题• 数据中心网络体系结构• 如何设计拓扑?
• 如何编址主机?
• 如何进行路由?
• 如何进行转发?
• 如何实现流控?
5
SIGCOMM2016 6篇/SIGCOMM2017 8篇
国防科技大学
数据中心联网设计需求• 数据中心的两类应用
– 外向服务 (如,提供WEB服务)
– 内部计算处理 (如,Web索引的MapReduce)
• 负载经常是不可预测的– 很多个服务在同一个数据中心运行– 计算性能隔离,网络隔离….(效率与可预测矛盾)
• 服务器失效是正常的– 看看Google的GFS, MapReduce, 必须考虑失效情况,数
据经常需要在服务器阵列间复制,…
• 服务器间的“流量矩阵”不断发生变化
6
2
国防科技大学
• 数据中心对2层的需求– 需要服务器在同一VLAN, 虚拟机希望
在同一IP子网,– 在双归属服务器中,采用相同IP
– 服务器农场的不断增长• 克服传统3层问题
– 如果3层采用路径多样性,会导致乱序
数据中心联网设计需求
国防科技大学
数据中心联网设计目标1. 一致的吞吐率
– 服务器间的容量只受限于网卡– 增加服务器时,不要考虑拓扑
2. 方便的应用迁移– 最好平面编址,不要分为子网– 依赖于广播的既有应用依然能够工作
3. 应用的性能隔离– 一个服务不受其他服务影响
8
国防科技大学
链路:通用技术网络生命力不可小视!
IB技术
10GE
100GE/400GE
IB技术
以太网与其他网络技术
FDDI/ATM技术
10Mbps以太网
100M/GigaEth
100/622Mbps
国防科技大学
简单网络结构时代(三层结构)Internet
Servers
Layer-2 switchAccess
Layer-2/3 switchAggregation
Layer-3 routerCore
国防科技大学 11云计算,数据中心提出后
• 数据中心: 大型服务器农场+ 大型数据仓库– 不再是简单的web//web services
• 从主机托管到云计算– 每个web/内容提供商必须为峰值提供预留– 十分昂贵,又利用率不足– 通过虚拟化,实现服务器隔离
VMMGuest OS
App
Under client web service control
2、专用结构的数据中心
国防科技大学
2、专用结构的数据中心时代
• 以网络为中心– 胖树,Moonson,Seattle……
• 以服务器为中心– DCELL 结构,……
12
3
国防科技大学 13
可用链路带宽太少!!
国防科技大学 14
3-级 Clos 网络
n x k
m x m
k x n1
N
N = n x mk >= n
1
2
…
m
1
2
…
…
…
k
1
2
…
m
1
N
n n
国防科技大学 15
胖树
国防科技大学 16
国防科技大学
胖树的数据中心结构• 胖树是特殊的Clos网络,K为池子数目
– 每个池由 (k/2)2 服务器 , k/2 个2层k端口交换机– 每个边缘交换机连接k/2 服务器, k/2汇聚交换机– 每个汇聚交换机链接k/2 边缘,k/2 核心交换机– (k/2)2 核心交换机,连接每个池子
17
K/2=3胖树,服务器=54
K=96,服务器=221,184K=48: 1152台边缘,1152台汇聚,576台核心,服务器=27,648
K=24: 288台边缘,288台汇聚,576台核心,服务器=3,456
国防科技大学
FAT-Tree 编址与路由• 采用特殊的IP编址框架,• -x.Pod号.交换机号.主机号(Pod内的主机)
– 隶属于同一交换机的主机只能通过交换机路由• 采用两个层次查找,分布流量和维持报文保序
• 第一层是前缀查找
– 从上到下,核心路由到服务器
• 第二层是后缀查找
– 从下向上,服务器路由到核心
– 同一个服务器用同一端口,使报文保序
18
如何容错??
4
国防科技大学
FatTree问题:
• 内部不能支持VLan 流量• 数据中心规模只能相对固定• 需要在边界进行NAT
• 分类:按流分负载,而不是端口• 流控:长时间流(大象流)的分担
国防科技大学
Moonson方法• 两个层次
– 接入交换机 (Top of Rack)
– 负载均衡交换机
• 消除扩展树– 屏蔽路由– 允许网络利用路径多样性
• 防止 MAC地址学习– 4D 结构发布数据平面信息– TOR: 只学习过渡交换机的地址– Core: 学校TOR 交换机的地址
• 支持有效的主机分组 (替换VLAN)
国防科技大学
Moonson
国防科技大学
Monsoon路由原理
• 端主机检查流的MAC
• 没有找到,启动monsoon agent 求解– Agent返回服务器MAC和中间交换机MAC列
表• 向TOR发送流量,做三重封装• 流量发给中间交换机• 流量发给目的TOR交换机
国防科技大学
转发过程
查询
国防科技大学
• 服务器为中心
24
5
国防科技大学
3、TRILL大规模数据中心时代
25 国防科技大学 26
国防科技大学 27 国防科技大学 28
国防科技大学 29 国防科技大学
3、SDN与NFV
• Sigcoom 2013发布B4是杰作• Google的成功引爆了SDN技术• 带动新一轮数据中心网络研究热潮
• 未来更看好NFV
6
国防科技大学 31 国防科技大学
Google对经典广域网路由认识
国防科技大学
• NFV发展的潜力,三个因素
– 早期由于I/O带宽原因,一般不能采用通用CPU直接作为网络设备数据通路的处理器。
– 而传统网络设备,一直沿用基于专用体系结构,设计网络功能的思路,产量不大,导致成本高,升级比较缓慢。
– 由于通用CPU速度+I/O带宽提升,CPU网络处理能力大大上升。通用CPU or
CPU+FPGA有很大潜力。
研究案例1:智能(加速)网卡
国防科技大学
Motivation
• 对数据流精细分类和分析的要求越来越高;• 由于Memory Wall问题,X86架构为主的网络安
全产品在关键字与正则表达式匹配方面的性能缺陷逐渐显露出来,成为提升网络安全产品性能的最大阻碍
国防科技大学
应用方式• 把资源消耗大的功能卸载到智能网络加速卡上完成,
从而解放X86 CPU的计算能力,达到提高现有网络安全产品性能的目的。
7
国防科技大学
系统结构与处理流程
国防科技大学
应用需求• 报文分组标记:
– 支持掩码五元组、关键字、正则表达式等多种条件的灵活匹配,把匹配的结果以标签的形式打到报文头部输出。
– 关键字规则:支持固定位置和浮动位置,一条规则可以由M个固定和N个浮动的组成,规则最多包含6个关键字(M+N<=6)。
– 正则表达式:支持PCRE标准正则表达式语法。– 复杂规则:五元组规则、关键字规则、正则表达式规则
可以灵活组合,任一条件之间是&的关系,只有所有条件全都满足时才认为匹配复杂规则。
国防科技大学
应用需求• 超大规则容量:支持100万条掩码五元组规则,10
万条关键字,10万条正则表达式,10条复杂规则。• 流表管理:支持800万条并发连接数,超时时间可
灵活配• 组合规则支持单包和连接两类规则:
– 组合规则指一条包含了多个关键字的关键字规则,支持单包和连接两种匹配模式,单包模式指多个关键字出现在一个报文中表示命中规则,连接规则是指多个关键字只要出现在整条TCP会话连接中表示命中规则。
• 多队列负载均衡:最大支持64个收包队列,报文按策略负载均衡输出到各个通道。
国防科技大学
实测结果
以上测试规则均为五
研究案例 2:IB交换机
国防科技大学
高性能交换系统
目前实现高性能交换的主要技术途径包括 以太网技术 Infiniband(以下简称IB)技术 面向特定计算平台的专用互连交换技术
IB属于通用互连技术,速率最高的。 几十到几千 计算节点、IO节点和存储节点间的高速数据交换
8
国防科技大学
IB交换系统的组成计算节点
IO和存储节点网络管理软件
主机适配器
交换机
国防科技大学
主要指标 IB 以太网
带宽 40Gbps 10Gbps延时 1-2us 20-30us服务质量 至少8个优先级 无
流量控制 绝对信用量流控 无
IO虚拟化 支持 不支持
与万兆以太网相比,IB在性能上优势明显
IB技术在TOP500计算机中占据重要地位
IB是高性能交换的发展趋势
MLX4 HCA网卡原语适配层
EHCA HCA网卡原语适配层
MTHCA HCA网卡原语适配层
CXGB3 HCA网卡原语适配层
Infiniband虚拟操作原语层
Infiniband网络虚拟化管理层
IPoIBIP网络虚拟
化
EoIB以太网虚拟化
FCoIB光纤通道虚拟
化
SDP低延迟可靠传输协
议
SRP存储协议
硬件
内核
应用 HTTP FTP SANIB
SANORAC
LE
国防科技大学
研制成果(1)216口IB交换机
采用模块化结构,支持216个QDR( 40Gbps )接口,聚合交换能力达到每秒17万亿比特(17.28Tbps)
国防科技大学
研制成果
直观显示IB网络拓扑结构,实时报告网络故障,实时监测网络性能
国防科技大学
研制成果(4)国家863“基于IB的PB级存储网络系统”
利用IB高带宽、低延时、可靠传输等特性实现了支持PB级容量的对象存储系统
高性能计算节点大规模数据处理节点
HPSN
216*n *80Gbps
YHUFM
IBAnalyzer
MDS
80Gbps
80Gbps
OST 寻址与路由服务器
9
国防科技大学
天河系列高性能计算机应用
1个IBS216Q连接216个存储节点和计算节点,实现
2PB的分布式存储
研究案例 3:SDN网络控制的策略一致性
50
国防科技大学 51
博士生研究案例
国防科技大学 52
博士生研究案例
谢谢!
53