关于网络:基于Segment-Routing技术构建新一代骨干网智能可靠可调度二

在上篇《基于Segment Routing技术构建新一代骨干网：智能、牢靠、可调度（一）》中提到了UCloud数据中心横蛮式增长给MAN网络和骨干网带来了极大挑战以及UCloud骨干网1.0、2.0的演进路线、SR技术局部原理介绍。本文将重点介绍UCloud如何通过Segment Routing技术改良管制面和转发面，实现智能、牢靠、可调度的新一代骨干网。

新一代骨干网架构

设计指标：

控制器智能计算门路和头端主动计算门路：控制器实时收集转发设施状态信息，响应转发节点门路计算申请和门路下发。
全场景接入，实现灵便组网：反对用户本地专线、互联网线路混合接入形式，实现用户灵便组网。
多维度SLA门路布局：满足多业务不同门路转发需要，确保要害业务的优先级和服务质量。
升高专线老本，进步整体专线利用率：破除骨干网2.0中的VXLAN技术，缩减包头开销，升高专线老本；通过智能流量调度正当布局专线容量。
流量可视化，按需调度：通过telemetry和netflow技术实现骨干网流量可视化，针对局部“热点流量”和“噪声流量”进行按需调度。

整体架构如下：

新一代骨干网次要包含三大组件：智能控制器、骨干边界转发PE、接入侧转发CPE&VPE：

控制器：对全网转发PE、CPE、VPE等设施进行对立的资源管理、信息收集、配置下发，监控告警以及门路计算布局，实现全网资源的对立调度和治理。

骨干网边界：全网PE和RR组成SR-TE骨干网核心层，用于实现多路径转发，流量调度；骨干网边界对外次要接入CPE、M-Core、VPE&VCPE等设施。

接入侧边界：接入侧分为三种设施类型：CPE、M-Core、VPE&VCPE。

CPE：次要用于接入本地专线客户；

M-Core：私有云MAN网络外围，实现各城域网接入骨干网；

VPE：通过Internet或者4G/5G网络接入用户分支机构的VCPE设施，提供用户混合组网能力。

近年来，云数据中心SDN网络设计思路大行其道，其次要思维是转控拆散，转控拆散益处不必多说，当然也有其弊病；SDN数据中心网络中的管制面故障有太多血的教训，管制面故障带来的转发面影响也是重大的；毕竟转发面才是真正承载客户业务的中央，所以咱们在设计新一代骨干网时须要思考控制器故障时，如何放弃转发层面的独立可用性。

接下来将介绍基于SR技术骨干网的管制面和转发面的设计实现原理。

管制面设计

新一代骨干网的管制面次要包含两个方面：

一、智能控制器；

二、 SR-TE骨干网路由设计管制面。

01、智能控制器

控制器的次要架构设计如下：

整个控制器的指标为实现统一的配置下发与可扩大的调度策略。基于设施寰球部署的特点以及网络并非百分之百稳固的前提，该零碎采纳了数据层跨地区部署，同时为了兼顾失常状况下控制器的疾速响应，管制节点采纳了分机房的集群部署形式来保障业务的可靠性与高效的调度能力；下层控制系统通过BGP-LS、Telemetry技术采集转发链路状态信息，收集到数据库，之后对采集到的数据进行剖析解决，最初通过netconf和PCEP形式下发配置和智能计算门路。

其中数据采集次要包含：

根本的IGP拓扑信息（节点、链路、IGP度量值）
BGP EPE（Egress peer Engineering）信息
SR信息（SRGB、Prefix-SID、Adj-SID、Anycast-SID等）
TE链路属性（TE度量、链路提早度量、色彩亲和属性等）
SR Policy信息（头端、端点、色彩、Segment列表、BSID等）

Netconf和PCEP次要用于配置下发和门路计算：

头端向控制器申请门路计算；控制器针对收到门路计算申请进行门路计算
头端从控制器学到门路，控制器通过PCEP向头端传递门路信息
头端向控制器报告其本地的SR Policy

实现能力如下：

疾速的故障响应：因为外部自定义的算法需要，在线路或者节点呈现问题时，须要从新计算整张拓扑，以避开故障链路；
疾速实现手动故障域隔离：借助架构的劣势，实现所有流量在线路级别与节点级别的隔离；
疾速自定义调优门路：能够依据客户的需要疾速将客户流量疏导到任意门路上，保障客户各类门路需要；
客户流量秒级实时监控：可监控流级别的客户故障，并实现故障状况下的门路爱护；

02、SR-TE骨干网管制面

为了实现用户L2和L3接入场景需要，在骨干网规划设计了基于MP-BGP的L3VPN和BGP-EVPN的L2VPN，上面来做一个简略的介绍。

MP-BGP

新一代基于SR技术的骨干网采纳了MPLS-VPN的技术个性，大抵须要如下组件：

首先须要在MPLS VPN Backbone内采纳一个IGP（IS-IS）来买通外围骨干网络的外部路由；
PE上创立VRF实例，与不同的VRF客户对接，VPN实例关联RD及RT值，并且将相应的端口增加到对应的VRF实例；
PE上基于VRF实例运行PE-CPE&VPE、M-Core间的路由协定，从CPE&VPE、M-Core学习到站点内的VRF路由；
PE与RR之间，建设MP-IBGP连贯，PE将本人从CE处学习到的路由导入到MP-IBGP造成VPNv4的前缀并传递给对端PE，并且也将对端PE发送过去的VPNv4前缀导入到本地相应的VRF实例中；
为了让数据可能穿梭MPLS VPN Backbone，所有的外围PE激活MPLS及SR性能。

在传统的MPLS-VPN技术的根底上，摒弃LDP，启用SR性能来调配公网标签，内层标签持续由运行MP-BGP协定的PE设施来调配。

BGP-EVPN

在MPLS网络中实现用户L2场景的接入需要，有很多解决方案比方VPLS，然而传统的VPLS还是有很多问题，比方：不提供 All-Active 双归接入，PE流量泛洪可能导致环路危险以及反复数据帧。

为了解决VPLS的问题，咱们在新一代骨干网架构中采纳了BGP-EVPN协定作为L2网络的管制面；EVPN网络和BGP/MPLS IP VPN的网络结构类似，为了实现各个站点（Site）之间的互通，骨干网上的PE设施建设EVPN实例并接入各个站点的CE设施，同时各个PE之间建设EVPN街坊关系；因为EVPN网络与BGP/MPLS IP VPN网络的不同之处在于各个站点内是二层网络，因而PE从各个CE学习到的是MAC地址而不是路由，PE通过EVPN特有的路由类型将本人从CE学习到MAC地址转发到其它Site。

BGP-EVPN有三个比拟重要的概念：

1、EVPN Instance (EVI) ：EVPN是一种虚构公有网络，在一套物理设施上能够有多个同时存在的EVPN实例，每个实例独立存在。每个EVI连贯了一组或者多组用户网络，形成一个或者多个跨地区的二层网络。

2、Ethernet Segment（ESI）：EVPN技术为PE与某一CE的连贯定义惟一的标识ESI（Ethernet Segment Identifier），连贯同一CE的多个PE上的ESI值是雷同，连贯不同CE的ESI值不同。PE之间进行路由流传时，路由中会携带ESI值使PE间能够感知到连贯同一CE的其它PE设施。

3、ET（EthernetTag）：每个EVI能够形成一个或者多个二层网络。当EVI蕴含了多个二层网络时，通过Ethernet Tag来辨别这些二层网络。如果咱们把二层网络看成是播送域的话（Broadcast Domain），那么ET就是用来辨别不同播送域的。

为了不同站点之间能够互相学习对方的MAC信息，因而EVPN在BGP协定的根底上定义了一种新的NLRI（Network Layer Reachability Information，网络层可达信息），被称为EVPN NLRI。EVPN NLRI中蕴含如下几种罕用的EVPN路由类型：

相比拟VPLS，EVPN的劣势如下：

1、集成 L2 和 L3 VPN服务；

2、相似L3VPN的原理和可扩展性和控制性；

3、反对双归接入，解决容灾和ECMP问题；

4、可抉择 MPLS，VXLAN作为数据立体；

5、对等PE主动发现，冗余组主动感应。

BGP-LS

BGP-LS用于收集转发设施的链路状态信息以及标签信息，具体布局如下：

1、所有PE和RR建设BGP-LS街坊，PE将各自的链路信息、标签信息以及SR Policy状态传递给RR；

2、RR与控制器建设BGP-LS街坊，将IGP的链路状态信息转换后上报控制器。

转发面设计

01、骨干网核心层

骨干网PE设施之间运行ISIS-L2，并开启SR性能，布局Node-SID、Adj-SID、Anycast-SID；PE基于环回口与RR建设MP-IBGP街坊关系，传递各站点VPNv4路由，实现L3VPN用户业务转发；同时PE采纳BGP EVPN作为Overlay路由协定，基于环回口地址建设域内BGP EVPN 街坊关系，采纳SR-TE隧道封装用户二层数据，实现L2VPN用户业务通过SR-TE转发。

个别分为SR-BE和SR-TE：

SR-BE由两层标签组成：内层标签为标识用户的VPN标签，外层标签为SR调配的公网标签；

SR-TE由多层标签组成：内层标签为标识用户的VPN标签，外层标签为SR-TE标签，个别由设施头端计算或者通过控制器下发的标签栈；

L2用户通过查找MAC/IP route来实现标签封装，L3用户通过查找VRF中的私网路由来实现标签封装。

02、骨干网边界层

骨干网PE与CPE&VPE以及私有云的M-Core运行EBGP收发用户路由，通过BGP实现数据转发；CPE和VPE与接入用户CE以及VCPE运行EBGP；特地须要留神的是VPE与VCPE是通过Internet建设的BGP，所以须要通过IPsec协定进行数据加密。

介绍残缺个骨干网的架构设计后，咱们将别离针对骨干网的智能、牢靠、可调度三大个性进行分析。

新一代骨干网三大个性

01、智能

控制器对立编排业务场景：

1、分支网络设备自动化部署，实现控制器主动计算门路和流量对立调度以及业务编排；

2、控制器通过BGP-LS等收集网络拓扑、SR-TE信息以及SR Policy信息，并依据业务需要进行门路计算，而后通过BGP-SR-TE/PCEP等协定将SR Policy下发到头端节点。

头端主动算路和主动引流：

1、分布式管制面，避免控制器故障带来的整网瘫痪影响，反对头端主动引流，破除简单的策略引流机制；

2、头端节点利用IGP携带的SR-TE信息和IGP链路状态信息、SR标签信息等组成SR-TE数据库，而后基于CSPF算法依照Cost、带宽、时延、SRLG和不相交门路等约束条件计算满足条件的门路，并装置相应的SR Policy领导数据包转发。

基于业务场景对网络灵便切片：

依据业务的SLA要求，能够布局新的网络转发立体，能够将时延敏感型的业务调度到基于提早切片的网络转发立体。

如下为现网以后布局的两个网络切片转发立体：

毫秒级拓扑收敛、链路重算、门路下发：线路故障场景下控制器能够做到毫秒级的拓扑收敛、故障链路重算以及备份门路下发；
流级别门路展现：实现基于数据流级别的门路查问和展现。

02、牢靠

寰球外围节点专线组网：节点之间提供运营商级的专线资源，SLA可达99.99%；
双PE节点 Anycast-SID爱护：地区级的双PE配置Anycast-SID标签，实现门路的ECMP和疾速容灾收敛；
Ti-LFA无环门路爱护：100%笼罩故障场景，50ms内实现备份门路切换；
SR-TE主备门路爱护：SR-TE门路中布局主备Segment-List，实现门路转发高可用；
SR-TE门路疾速逃生：SR-TE故障场景下能够一键切换到SR-BE转发门路（IGP最短门路转发）；
Internet级骨干网备份：为了保障新一代骨干网的高可靠性，在每个地区的PE设施旁路上两台公网路由器，布局了一张1:1的Internet骨干网，当某地区专线故障时能够主动切换到Internet线路上；同时应用Flex-Algo技术基于Internet级骨干网布局出一张公网转发立体用于日常治理流量引流。

03、可调度

依据五元组，辨认并定义利用，反对Per-destination、Per-Flow调度；
跨域之间依据利用业务分类定义多条不同类型SR-TE隧道；
每种类型隧道定义主备门路，反对SR-TE一键逃生；
通过灵便算法定义Delay、带宽、TCO（链路老本）、公网隧道等多种网络切片立体；
智能控制器反对主动下发、主动计算、主动调整、主动引流和主动调度。

以后依据业务需要布局了如下几种骨干网调度策略：

IGP：最低开销转发，ISIS接口的cost依据点到点之间专线物理间隔提早*100失去；

Delay：最低提早转发，ISIS接口配置PM性能，动静探测点到点之间理论提早；

TCO：最优老本转发，控制器依据每条专线的理论成本计算出最优老本门路；

FM：自定义转发，控制器依据业务长期需要下发需要门路；

FBN：公网隧道转发，每个地区之间提供公网VPN线路，提供备份转发门路。

SR Policy中基于Color定义两种引流形式：

1、Per-Destination引流模板：Color在某种程度上将网络和业务进行理解耦，业务方能够通过Color来形容更简单的业务诉求，SR-TE通过Color进行业务关联。

2、Per-Flow引流模板：通过DSCP标记业务，或者ACL进行流分类映射到Service-Class等级，Service-Class关联Color进行业务引流。

Color资源布局

Color属性在SR-TE中标记路由，用于头端节点进行灵便引流；新一代骨干网络设计的流量调度中定义四种Color类型：

默认Color：每个城市节点的用户路由必须携带的Color值，用于引流默认隧道转发【预埋保留】。

城市Color：每个城市每用户VRF路由必须携带的Color值，用于全局流量调度应用【每个城市默认调配9种雷同Color别离关联到不同的业务】。

业务Color：在Per-flow（基于流分类调度）场景中应用，每个城市的MAN网络和用户私网路由标记应用，全局引流作用。

本地Color：在Per-flow（基于流分类调度）场景中联合自用Color应用，映射Service-Class服务等级，关联到业务模板。

Color调配规定

最佳实际计划

上面以流调度为例来介绍UCloud骨干网业务基于SR技术联合的最佳实际计划。

Per-Flow场景下业务模板/Color与Service-Class服务等级关联

1.Per-Flow流量调度布局每个城市调配一个业务Color，MAN网络路由在PE设施上标记各城市业务Color；

2.每个头端节点PE上定义8种调度策略，对应于不同的业务模板，其中2个业务模板保留；业务模板与Color、Service-Class定义规范的映射关系；

3.点到点的城市之间默认反对2条FM自定义策略（自定义隧道策略）；

4.IGP、Delay应用动静SR Policy，其它隧道采纳动态SR Policy策略；

5.Per-Flow 场景下的endpoint地址反对Anycast-SID，头端的一台PE到末端两台城市的PE只须要定义一条SR Policy即可；

6.以20个外围城市为例，单个城市的PE Per-Flow的SR Policy数量为19*7=133条。

在布局中，UCloud根底网络团队依据私有云业务类型将业务进行分类，分类办法是对具体业务进行DSCP标记；而后数据包到了骨干网PE后再依据DSCP进行灵便引流。

业务模板与Service-Class服务等级映射：

咱们将骨干网当作一个整体，这个整体的边界端口应用DSCP和ACL入Service-Class，上面明确定义下何为边界端口。

边界端口：

PE连贯CPE&VPE、MAN网络侧的接口

DSCP入队形式：

骨干网边界端口默认信赖接入侧用户的DSCP值，依据相应的DSCP入队到Service-Class服务

ACL入队形式：

1.在一些非凡场景下须要针对某些业务通过ACL分类后入队到Service-Class服务【业务自身无奈携带DSCP】

2.每种隧道调度策略都能够通过ACL对流进行分类，而后入队到Service-Class

入队和转发流程：

1.在PE上配置流分类，依照业务等级，将不同的DSCP值映射到Service-Class(8种等级)

2.为隧道（Service-Class）配置对应的调度策略

3.业务流在PE设施上会先依据路由迭代看是否抉择隧道（SR Policy），而后再去比对流的DSCP值是否和SR Policy中Service-Class映射设置统一，统一流将从对应隧道通过

4.业务流依据Service-Class中的调度策略进行流量转发

分类业务和SR-TE隧道映射关系如下：

1、默认所有业务依照布局的DSCP和调度策略进行关联；

2、应用ACL实现非凡业务类型进行长期策略调度。

SR-TE流量工程案例

上面介绍一个SR-TE理论调度的案例分享：

业务流量背景

业务顶峰时段根底网络收到香港-新加坡专线流量突发告警，智能流量剖析零碎发现突发流量为安全部门在广州与雅加达节点同步数据库。

调度前流量模型

失常状况下广州去往雅加达的流量通过IGP最短开销计算出的门路为：广州--->香港--->新加坡--->雅加达，因为香港-新加坡段为出海流量的直达点，所以常常会在高峰期呈现链路拥塞状况。

传统流量调度计划

1、基于指标地址流量做逐跳PBR，将大流量业务调度到其它闲暇链路转发；

2、基于目标地址的流量进行限速，保障链路带宽。

传统调度存在问题

1、逐跳配置策略路由，配置简单，运维难度大；

2、粗犷的限速策略有损外部业务。

SR-TE流量调度计划

Segment 列表对数据包在网络中的任意转发门路进行编码，能够避开拥塞链路，通过SR流量调度后的门路为：广州--->北京--->法兰克福--->新加坡--->雅加达。

SR-TE流量调度劣势

1、头端/控制器能够定义端到端转发门路，通过标签转发；

2、基于业务流进行灵便流量调度（目标地址+业务等级）。

将来演进

上文用很长的篇幅介绍了UCloud骨干网历史和新一代骨干网架构设计细节，其实以后基于私有云业务调度只能从MAN网络开始，还不反对从DCN外部开始调度；将来UCloud根底网络团队将设计基于Binding SID技术的私有云业务端到端的流量调度工程，大抵布局如下：

骨干网为每个城市的端到端SR-TE隧道调配一个Binding SID，用于数据中心云租户引流；
数据中心宿主机通过VXLAN将租户流量送到骨干网UGN(私有云跨域网关)；
UGN解封装VXLAN报文后，封装MPLS标签，内层标签用于辨别租户，外层标签用于封装远端城市的Binding SID标签；
PE设施收到带有指标城市的Binding SID后，主动引流进对应的SR-TE隧道进行转发；
对端PE收到报文后解封外层MPLS报文，而后转发给UGN，UGN依据内层标签和VXLAN的VNI的映射关系进行转换，最终通过IP转发至DCN的宿主机上。

总结

UCloud骨干网总体设计指标是智能、牢靠、可调度，一方面通过寰球专线资源将各Region私有云资源、用户资源买通；另一方面在接入侧反对本地线路+互联网线路接入，构建骨干网混合组网能力，从而造成了一张稳固且高性能的骨干网，为下层私有云业务、用户线下、线上资源开明提供牢靠的传输网络，整体上来看骨干网是UCloud私有云网络体系中十分重要的一个组成部分。

UCloud根底网络团队在过来的一年重构新一代骨干网，使其具备了智能、牢靠、可调度的能力，从而可能正当的布局专线资源，升高了专线老本，且骨干网整体性能失去极大晋升。将来UCloud根底网络团队将会持续紧跟骨干网技术倒退潮流，为整个私有云跨域产品提供智能、牢靠、可调度的底层网络。

作者：唐玉柱，UCloud 高级网络架构师、UCloud新一代骨干网架构布局我的项目负责人。领有丰盛的数据中心、骨干网架构设计和运维教训；目前次要负责UCloud寰球数据中心、骨干网架构设施选型、架构设计和布局。