关于网络:基于Segment-Routing技术构建新一代骨干网智能可靠可调度一

前言

随着网络技术的倒退和云计算业务的疾速遍及，以后各行各业的客户都有迫切上云的需要，越来越多的要害业务，如：web前端、视频会议、办公利用、数据存储等开始部署在云端；新的网络架构设计特地是骨干网，必然要适应云计算和互联网利用的倒退，而传统的MPLS骨干网不能适应这种变动，面临如下诸多挑战：

1、如何实现用户云下与云上、云上VPC之间、云下不同物理地位之间业务的灵便开明；

2、如何利用本地专线和最初一公里互联网线路构建混合组网能力；

3、如何确保要害业务的优先级和服务质量；

4、如何简化开明流程、疾速部署和对立策略管理；

5、如何晋升专线带宽利用率和流量可视化；

6、如何实现新一代骨干网智能、牢靠、可调度。

本文将联合UCloud根底网络团队新一代骨干网的架构演进过程，介绍Segment Routing技术在UCloud骨干网的落地细节，并具体论述以后骨干网如何通过SR-TE技术实现智能、牢靠、可调度的新一代骨干网架构。

DCN网络疾速迭代

UCloud数据中心基础架构网络（以下简称DCN）在最近这几年经验了横蛮式的疾速倒退阶段，从北上广三地的数个可用区倒退到寰球25个地区31个可用区；业务云化和分布式数据中心的建设，推动了城域网（以下简称MAN）和骨干网布局建设，如下图所示：

DCN网络迭代过程如下：

1、同城单可用区降级至同城多可用区；

2、单Region多可用区降级至少Region多可用区。

DCN网络疾速迭代带来的网络挑战：

1、MAN网络高带宽与可靠性要求：同城分布式DCN网络建设带来的问题是：客户业务扁平化部署，导致同城跨可用区有大量的东西向业务互访流量，对MAN网络的带宽和可靠性有严格的要求。

2、骨干网架构降级与流量工程要求：随着UCloud寰球节点DCN网络的建设部署，跨地区客户开始有业务互访和跨域流量优化需要，对骨干网布局和流量工程提出了新的要求。

寰球专线资源布局

以后UCloud寰球CDN节点有500+，25个地区，31个可用区；通过运营商专线买通寰球25个地区，如下图所示：

1、寰球机房专线接入骨干网

骨干网依靠UCloud寰球DCN网络以及专线资源，可为用户提供寰球范畴的就近接入，实现端到端网络稳固，解决跨域业务互访丢包和高提早问题。

2、寰球节点灵便组网

为用户提供基于本地专线和最初一公里互联网接入，实现用户的混合组网能力。

3、提供稳固、牢靠的基础架构

点到点专线资源提供物理层的带环爱护，一方面通过SR-TE技术实现流级别调度和疾速容灾备份能力；另一方面根底网络提供一张1:1基于Internet级的备份骨干网，保障整个骨干网达到99.99%可用率。

UCloud骨干网架构演进历史

01、2018年之前骨干网架构

UCloud根底网络团队在2016年下半年开始布局第一代骨干网（以下简称骨干网1.0），2017年底实现了骨干网1.0设计规划，骨干网1.0架构布局专线资源接入到各Region的MAN网络外围设施（以下简称M-Core）,各Region的M-Core之间通过供应商二层专线进行寰球组网；M-Core之间运行ISIS协定，买通寰球骨干网ISIS域，每个地区双M-Core或者四M-Core和管制面RR建设IBGP街坊关系，M-Core通过IBGP协定将本地区DCN网络路由信息通告至RR，RR反射给寰球所有M-Core节点；数据转发面通过IBGP路由进行迭代，最终通过ISIS转发至指标DCN网络。为优化骨干网流量转发，在关键设备上开启如下性能：

1、为实现骨干网等价路由（以下简称ECMP），必须在M-Core和RR上开启BGP ADD-PATH属性；

2、为保障IGP最短门路转发，跨域之间ISIS 开销值设置为两地区直连专线理论提早*100，如：北京-上海专线提早为30ms，那么北京-上海地区的ISIS开销设置为3000。

骨干网1.0设计指标：

1、实现Region级别DCN网络互通，提供云业务跨地区容灾能力；

2、反对云上用户通过UCloud高速通道产品UDPN买通跨域VPC资源。

骨干网1.0新挑战：

1、MAN网络与骨干网高度耦合，专线开明配置简单，减少运维难度；

2、不反对客户不同物理地位之间资源互通；云下资源到云上VPC之间资源开明简单、周期简短；

3、不反对跨地区级别的流量智能调度。

02、2020年之前骨干网架构

针对骨干网1.0所面临的一些问题，2018年UCloud根底网络团队设计规划了第二代骨干网（下简称骨干网2.0）。在骨干网2.0中，咱们新增了租户隔离的个性，而要在骨干网上实现大规模的租户隔离，MPLS-VPN技术最合适不过，但因为思考到整体的部署老本以及部署难度，咱们最终放弃了这个计划，借鉴了DCN网络的租户隔离思路，采纳VXLAN二层网关计划来实现；

骨干网2.0整体架构分为两层，Underlay和Overlay；Underlay应用VXLAN+BGP EVPN实现网络大二层，在Overlay上实现骨干网1.0的架构需要；具体实现如下：

Underlay层布局

1、Underlay层次要由两种设施组成：TBR和TER。TBR用于运营商二层专线资源接入，次要用于数据转发，TER用于封装VXLAN报文，即VTEP设施。寰球节点的TBR和TER设施通过VXLAN+ BGP EVPN技术组建一张寰球二层网络，这张二层网络提供寰球任意跨域节点之间二层业务开明。

2、TBR设施通过ISIS协定买通整个IGP域，TER和管制面TRR建设BGP EVPN街坊关系，各个站点互相学习MAC/IP路由；转发面数据通过VXLAN封装转发，管制面信息通过EVPN学习同步。

3、用户线下IDC业务互访，以及线下IDC到云上业务之间通过VXLAN开明二层业务。

Overlay层布局

跨域M-Core直连通过VXLAN开明，M-Core之间运行ISIS协定，买通寰球骨干网ISIS域，每个地区双M-Core或者四M-Core和管制面RR建设IBGP街坊关系，M-Core通过IBGP协定将本地区DCN网络路由通告至RR，RR反射给寰球所有M-Core节点，数据转发面通过IBGP路由进行迭代，最终通过ISIS转发至指标DCN网络。

骨干网2.0设计指标：

1、实现MAN网络和骨干网严格分层，晋升运维效率；

2、通过VXLAN+BGP EVPN构建业务接入网，实现业务灵便就近上骨干；

3、实现客户云下不同物理地位、云下到云上之间资源疾速开明。

骨干网2.0新挑战：

1、不反对骨干网流量智能调度；

2、本地接入只反对专线接入，组网形式不够灵便，减少网络经营老本；

3、VXLAN包头开销过大，网络传输效率低下，专线结算成本上升；

4、不反对L3VPN客户接入场景。

为了解决骨干网2.0以后的问题，UCloud根底网络团队在2019年下半年开始，对新一代骨干网架构进行从新设计、硬件选型，在新一代骨干网架构设计中采纳了以后比拟风行的源路由即Segment Routing技术（以下简称SR），在介绍新一代骨干网架构之前先给大家简略介绍一下SR技术的基本概念。

Segment Routing基本概念

01 Segment Routing

SR架构基于源路由，节点（路由器、主机或设施）抉择门路，并疏导数据包沿着该门路通过网络，具体实现形式是在数据报头中插入带程序的段列表（Segment-list），通过Segment-list批示收到这些数据包的节点怎么去解决和转发这些数据包。

因为源节点（头端节点）通过在数据包报文头中增加适当的指令（Segment-list）即可实现基于指标地址的引流（甚至能够基于单条流粒度的引流），且除了头端节点之外，其它节点都不须要存储和保护任何流状态信息，因而引流的决定权都在头端节点。通过这种形式SR能够在IP和MPLS网络中提供高级的流量疏导能力。

02 罕用标签类型

Prefix-SID

Prefix-SID是由ISIS或者OSPF通告的全局Segment，此Segment与IGP的前缀相干；Prefix-SID代表一个路由指令，含意是：疏导流量沿着反对ECMP的最短门路去往该Segment相关联的前缀。Prefix-SID具备如下个性：

-全局Segment，SR域中的所有节点都晓得如何解决Prefix-SID。

-反对多跳，单个Segment逾越门路中的多跳，这样就缩小了门路所须要的Segment数量，并容许跨多跳的等价门路。

-反对ECMP，能够原生利用IGP的等价门路。

-Prefix-SID个别是通过手工调配，也可应用控制器调配。

Node-SID

Node-SID是一种非凡类型的IGP Prefix Segment，是Prefix Segment的子类型，通常是某个节点环回口的32位前缀地址，这个地址个别是IGP的“路由器ID”；Node-SID指令是：疏导流量沿着反对ECMP的最短门路去往该Segment相关联的前缀。其和Prefix Segment的指令是统一的。

Adjacency-SID

Adjacency-SID是与单向邻接或者单向邻接汇合相关联的Segment，应用Adj-SID转发的流量将被疏导至指定链路，而不论最短门路路由如何，个别状况下节点会通告它的本节点链路Segment（Adj-SID）；Adjacency-SID指令是：“疏导流量从与该Segment相关联的邻接链路转发进来”。Adjacency-SID具备如下个性：

-本地Segment，SR域中的只有Adjacency-SID始发节点晓得如何解决该Segment。

-反对显式门路，任何门路都能够应用Adjacency-SID来示意。

-不依赖于IGP的动静路由计算，能够绕过ECMP，走管理员指定的门路转发。

理论部署中应尽量少用Adj-SID，因为其不反对ECMP，且会减少Segment-list长度，因而倡议多应用Prefix-SID，即反对ECMP，又能够缩小Segment-list长度。

Anycast-SID

SR域中多个节点上配置雷同的单播前缀，那么该单播前缀就是一个Anycast-SID，Anycast-SID也是Prefix-SID的一个子类型。Anycast汇合的属性是去往Anycast地址的流量被路由到Anycast汇合中距离最近（IGP 最短距离）的那个成员，如果开销雷同，则流量会进行ECMP，如果Anycast的成员产生故障，则由Anycast汇合的其它成员来解决去往Anycast-SID的流量；Anycast-SID指令是：疏导流量沿着反对ECMP的最短门路去往该Segment相关联的前缀。其和Prefix Segment的指令是统一的。

Anycast-SID具备如下个性：

-全局Segment

-天生反对ECMP

-反对高可用性

-反对流量工程

留神：所有节点必须配置雷同的SRGB，才能够通告雷同的Anycast Prefix-SID。

03 SR Policy个性

SR-Policy

为了解决传统隧道接口体系存在的问题, SR Policy 齐全摈弃了隧道接口的概念，SR Policy 通过Segment 列表来实现流量工程；Segment 列表对数据包在网络中的任意转发门路进行编码。列表中的 Segment 能够是任何类型：IGP Segment 、 IGP Flex-Algo Segment（灵便算法）、BGP Segment 等。

从实质上讲，SR Policy（SR-TE）是 Segment 列表，不是隧道接口。

SR Policy 由以下三元组标识：

头端（Headend）：SR Policy 生成/实现的中央。

色彩（Color）：任意的 32 位数值，用于辨别同一头端和端点对之间的多条 SR Policy。

端点（Endpoint）：SR Policy 的终结点，是一个 IPv4/IPv6 地址。

色彩是 SR Policy 的重要属性，通常代表用意，示意达到端点的特定形式（例如低提早、低成本并排除特定属性链路等），Color也是流量引流的重要参考属性。

SR Policy生成的门路个别有两种：显式门路和动静门路

1、显式门路

显式门路个别是通过CLI/Netconf形式人工布局或者通过控制器形式下发的门路信息，次要包含信息有 endpoint地址、Color、Segment-List等；显式门路的最大弊病是无奈及时响应网络拓扑变动；为了能保障故障场景下SR Policy可能疾速收敛，能够通过验证头端的SR-TE数据来进行收敛。

倡议Segment-List应用描述符（IP）模式编写，头端默认会验证所有描述符；

一旦SR Policy候选门路不具备无效的Segment列表（描述符验证失败），则此候选门路变为有效；
当SR Policy 所有候选门路都是有效的，则此SR-Policy有效。

如果SR Policy变为有效，则利用会生效；默认状况下SR Policy的转发条目被删除，流量回退到默认转发（SR-BE）门路。

2、动静门路

动静门路是由头端（路由器）或者PCEP依据头端的申请主动计算SR Policy候选门路：

动静门路次要示意为优化指标和一组约束条件，这两个因素指定了SR-TE的用意。
头端能够通过本地的SR-TE数据库算出门路，提供一个Segment列表或者一组Segment列表。
当头端不具备足够的拓扑信息时（跨域环境），头端能够将计算委托给控制器，由控制器主动算路。
当网络产生扭转时，动静门路会主动进行重算以适应网络变动。

04SR Policy 主动引流

SR Policy引流反对域内场景和跨域场景，整体的转发流程如下：

着色：进口PE在向入口PE通告BGP业务路由时，或者入口PE接管路由时对路由进行着色（标记路由Color），Color用于示意路由所须要的SLA。
计算+引流：域内场景下，头端节点收到BGP路由后，通过头端SR-TE数据库主动算路实现引流；跨域场景下，头端向控制器发送有状态的PCEP门路计算申请，控制器计算去往远端端点的SR-TE跨域门路。
转发：数据包在头端实现引流，应用头端计算或者控制器下发的门路进行标签转发。

将 BGP 路由装置到 SR Policy 的动作称为主动引流，其原理次要是通过对BGP业务路由进行着色，将流量主动疏导至 SR Policy；SR Policy的主动引流不须要简单和繁琐的引流配置，而且流量疏导对转发性能没有影响，流量管制粒度更为精密。

SR/SR-TE or LDP/RSVP-TE ?

UCloud根底网络团队在新一代骨干网设计中转发面对立应用MPLS封装转发，而管制面的抉择通过慎重考虑，咱们具体比照了SR/SR-TE和LDP/RSVP-TE后，最终抉择了SR/SR-TE，具体分析状况如下：

总结

本篇分享了数据中心横蛮式增长给MAN网络和骨干网带来的极大挑战，以及SR局部技术原理。在过来几年里，UCloud根底网络团队一直演进骨干网架构，从骨干网1.0降级到骨干网2.0架构，实现了用户云下资源之间、云下到云上资源的疾速开明，但仍然满足不了以后互联网客户的业务疾速倒退需要，例如：不反对智能流量调度、无奈实现客户L3VPN接入需要，不反对最初一公里Internet线路接入等。

下一篇将重点介绍UCloud如何联合Segment Routing技术实现智能、牢靠、可调度的新一代骨干网，助力用户分钟级构建多地区寰球网络以及同城多可用区互访、多Region多可用区互联，实现UCloud与用户线上线下IDC无距离互通，升化云网协同。

本文作者：唐玉柱，UCloud 高级网络架构师、UCloud新一代骨干网架构布局我的项目负责人。领有丰盛的数据中心、骨干网架构设计和运维教训；目前次要负责UCloud寰球数据中心、骨干网架构设施选型、架构设计和布局。

关于网络:基于Segment-Routing技术构建新一代骨干网智能可靠可调度一

DCN网络疾速迭代

寰球专线资源布局

UCloud骨干网架构演进历史

Segment Routing基本概念

Anycast-SID具备如下个性：

总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于网络:基于Segment-Routing技术构建新一代骨干网智能可靠可调度一

DCN网络疾速迭代

寰球专线资源布局

UCloud骨干网架构演进历史

Segment Routing基本概念

Anycast-SID具备如下个性：

总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复