导读

在数据一直增长的时代,数据的疾速解决对信息的无效利用至关重要。目前数据中心无论对存储读写带宽还是提早都有极致的要求,例如在线搜寻、挪动、游戏,视频直播畛域都须要以十分快的速度响应用户的申请,数据中心内任何一环导致提早,都会对用户体验产生极大的影响。

在高性能计算畛域,RDMA技术很早就曾经失去了验证,并且进行了肯定范畴的利用。随着大数据与人工智能的高速倒退,RDMA技术也将在企业内失去推广。

走进RDMA世界

在TCP的网络世界里,收到一个网络数据包,要通过网络层和传输层,最初才可能被应用层解决。网络层和传输层会耗费CPU资源,因为CPU还要解决其余的计算工作,这一方面使得网络传输性能收到影响,同时也会影响其它计算工作的性能。此外,在进行传统的TCP协定解决时,所有的数据都须要在用户缓冲区与内核缓冲区之间进行屡次复制,须要耗费极大的内存带宽,同时带来肯定的延时。

RDMA技术就是为了升高网络传输中服务器端数据处理的提早而产生的。服务器网卡收到一个数据包,在网卡硬件上就能够实现网络层和传输层的解析,间接把数据传递给应用层,不须要CPU的干涉,从而开释内存带宽并缩小CPU耗费,进而晋升利用零碎性能。

为了无效利用RDMA技术的高带宽和低提早劣势,焱融云存储团队调研了反对RDMA技术的三种不同的网络协议:

  • Infiniband(IB): 应用RMDA专用网卡与交换机,从硬件级别全面反对RDMA,保障传输可靠性
  • RDMA OVER Converged Ethernet(RoCE):基于现有的以太网实现RDMA,底层网络包头部是一般的以太网包头,下层网络包头部是Infiniband包头,因而RoCE只须要专有的反对RoCE网卡,就能够在规范以太网基础架构(交换机)上实现RDMA
  • Internet Wide Area RDMA Protocol(iWARP): iWARP间接将RDMA实现在了TCP上,这容许在规范以太网基础架构(交换机)上应用RDMA,这种计划须要配置反对iWARP的非凡网卡

比照三种协定实现,Infiniband性能最好,但须要额定配置较多的专用设备,零碎整体降级老本较高;RoCE只须要替换专用的网卡设施,在获取性能劣势的同时,将老本管制在肯定范畴;iWARP老本最低,但与TCP臃肿的协定栈相关联,性能上晋升无限。

焱融云分布式存储完满反对RDMA

要实现反对RDMA网络的通信形式,须要应用RDMA verbs API(OFED 提供了蕴含libibverbs和RDMA-CM等用户态库函数)编程,对原有的通信模块进行改良,最终实现的网络传输模块既能兼容最后的TCP通信形式,又能够同时向客户端提供RDMA连贯服务。
 
焱融云技术团队在焱融高性能分布式存储里实现了RDMA传输的性能,反对通过InfiniBand,RoCE或TCP来实现客户端到存储服务端的数据交互,以及存储集群服务器之间的数据传输。

性能大幅晋升

在性能上,咱们采纳Mellanox connect-X系列网卡以及Mellanox交换机基于以太网物理链路测试了RoCE的性能。从测试后果来看,绝对于TCP/IP通信协定, 小文件读写性能有了质的晋升。能够看到,基于RDMA技术的读写性能比基于一般交换机TCP传输的性能最高可晋升4倍。尤其是在小数据包的读写上,其性能劣势更为显著。

以上数据是基于RoCE形式实现的RDMA传输,如果应用专用的InfiniBand设施,其性能还会进一步晋升。有了RDMA这个利器,焱融云分布式存储在高性能计算、AI人工智能等畛域将更具劣势,满足用户在这些业务中对性能的更高要求。

在一个又一个的技术挑战背后,在谋求卓越的路线上,焱融云从未止步。