关于云计算:自动驾驶训练如火如荼网络带宽跟不上怎么破

以后，AI、大数据、云计算等技术逐步成熟，5G 网络大规模建设等各种趋势独特推动了通信网络的代际演进。与此同时，企业通信网络数字化转型也面临着一些挑战：业务越来越简单、根底网络越来越繁琐、连接数的减少和带宽的快速增长问题等。

焱融科技以主动驾驶行业为例，剖析近年来各家主动驾驶企业倒退受限的因素。在上一篇《精选案例 | YRCloudFile 引领主动驾驶存储技术新趋势》中，根本曾经笼罩了主动驾驶企业目前所遇到的问题，然而还有一个外围限度倒退因素，咱们还没有探讨，那就是万兆网络曾经不足以匹配当今支流的算力及 NVMe 性能。

主动驾驶训练对网络环境要求极高，然而很多主动驾驶厂商现有的万兆网络在带宽和提早上无奈满足高速的主动驾驶需要。因而，焱融科技针对主动驾驶厂商的网络带宽问题方面，提出了相应的解决方案。

焱融科技将分享基于国内无人驾驶商用、集装箱物流人工智能全局化等畛域领跑市场，业务已遍布海内外 80 余个节点的的某全栈式人工智能翻新公司的产品落地案例。本次分享集中在“网络带宽受限”这一行业焦点，从“挑战剖析、解决方案和行业案例”三个方面提出观点和倡议，心愿能为更多关注主动驾驶，以及相干从业者提供破解思路。

此前，国内某国内全栈式人工智能翻新公司在主动驾驶车辆训练过程中，随着训练工夫逐步增多，呈现网络数据量暴涨、应用程序激增等状况，以致该公司对网络带宽和存储性能的需要变得越来越高，原有的网络带宽和存储形式曾经不适配于以后场景。次要起因有以下：

1. 万兆网络似“小水管”，传输过程易拥挤

该公司应用的万兆网络带宽成训练瓶颈，导致底层堆砌再多磁盘，存储性能也无奈失去晋升，从而使得下层 GPU 服务器性能无奈失去充分发挥。同时，随着业务量的晋升，原有存储网络无奈很好的撑持大规模并发拜访，以致频繁呈现性能问题。

2. 海量文件需存储，性能衰减超乎设想

在主动驾驶训练过程中，数据呈现出几何式增长。小数据集达到十万级别，大数据集达到百万、千万甚至上亿级别。而且数据类型繁多、数据大小变动大，往往极易产生上亿级的海量小文件，给元数据管理、存储效率和拜访性能等方面带来微小挑战。

3. 难以解决存储产品与容器平台对接问题

存储产品对容器平台的兼容性差，块存储挂载操作简单，NAS 存储无奈细粒度治理存储等等，无奈适应下层麻利的利用需要。除此以外，还会面临对接容器编排治理平台后，存储保护简单，流程繁琐，导致容器业务中断等问题。

为了解决该公司在主动驾驶训练场景所面临的问题，焱融科技进行了一些系列的剖析，并从网络革新、存储部署、容器化反对、智能分层等方面提供了一整套高性能、高可用、高扩大的计划。

1. 全面降级网络带宽，迈向主动驾驶下一个台阶

在正式革新以前，焱融科技深度钻研了该公司的网络架构和原有存储体系，发现原有网络带宽成为影响存储性能晋升的要害之一。

网络拓扑图

焱融科技举荐新增 25Gb 交换机的形式，让该公司做到存储外部数据交互，克服网络带宽限度带来的存储性能瓶颈，充分发挥 GPU 服务器的性能，达到训练效率翻倍晋升的要求。

在存储革新降级结束后，焱融科技还发现，该公司现有集群的性能尽管曾经超过原有存储系统，但却没有达到预期的数值。因而，焱融科技再次针对现场环境进行剖析，提出以下几点优化措施：

增大节点上的 socks 数量，取得更大的连接数；
调整线程数 workers，以匹配拜访的数量；

通过上述两个步骤，调整当前的 YRCloudFile 性能失去了大幅的晋升，在肯定水平上保障了存储性能，缩小了网络带宽对存储带来的影响。

2. 海量小文件场景下，元数据处理能力是要害

针对客户海量小文件性能问题，焱融科技通过可程度扩大设计的 MDS 架构，实现 MDS 集群化。这次要思考到以下三方面：

MDS 集群化有利于缓解 CPU，升高内存压力；
多个 MDS 有利于企业存储更多元的数据信息；
在实现元数据处理能力程度扩大的同时，晋升海量文件并发拜访的性能。

目前，焱融 YRCloudFile 次要采纳动态子树 + 目录 Hash 两者联合的形式搭建可程度扩大设计的 MDS 架构。此种架构形式有两种益处，首先元数据的散布存储，通过扩大元数据节点，即可反对百亿级别的文件数量；其次，保障了元数据的检索性能，缩小在多个节点上进行元数据检索和操作。

3. 整合 K8S 平台，为容器化训练无缝提供数据反对

该人工智能翻新公司在车辆测试过程中，抉择了以容器为利用运行载体的 K8S 平台，运行 AI 训练和推理工作。然而，在存储系统在对接容器场景时，遇到了以下难题：

采纳 in-tree 类型的存储代码，使得 K8S 和存储厂商的代码紧耦合；
in-tree 存储代码中的 BUG 会引发 K8S 组件不稳固；
in-tree 存储插件享有与 K8S 外围组件等同的特权，存在安全隐患；
仅反对局部 AccessModes、PV 治理、故障等方面的个性。

焱融 YRCloudFile 针对容器化场景的性能进行了优化：

企业级性能 ：通过 YRCloudFile 治理界面对 PV 进行读写带宽、IOPS 等性能剖析，实现 PV 热点定位性能。同时，反对 PV Quota、Resize、QoS 等性能；
多种读写模式 ：YRCloudFile 反对 ROX、RWO、RWX 等多种读写模式；
有状态容器的跨节点重建 ：数据在整个 K8S 平台各个计算节点上，都随时可用，重建过程无需人工干预，实现数秒内实现；
实现 CSI 对 PV 的智能调度 : YRCloudFile 具备 CSI 故障智能感知性能，K8S 创立须要长久化存储的 Pod 时，CSI plugin 容器异样，以及与存储集群连贯异样的节点会被主动过滤；

YRCloudFile 容器存储

4. 客户端多级智能缓存，晋升训练整体性能

主动驾驶训练数据有很多类型，例如视频、图片等。针对于数据的格局也很多，例如：json、txt、jpg 等等。不同的数据信息相应的存储数据量也是不一样的，所以一般文件缓存容易呈现只提供内存缓存的状况，导致容量无限，通常一台 GPU 服务器可用的内存缓存数仅 10GB。

因而，YRCloudFile 通过公有客户端，能够提供多级智能缓存：

内存缓存 + GPU 服务器 SSD 缓存 ：在 GPU 服务器上，YRCloudFile 可配置肯定容量的 SSD 缓存，实现训练程序优先从客户端内存缓存中加载；
对训练框架、应用程序齐全通明 ；
在整个训练中， 数据集加载速度实测晋升幅度超过 500%。

YRCloudFile 多级智能缓存

对于大多数主动驾驶企业而言，数据具备阶段性热点拜访的特点，超过肯定工夫后，80% 以上的数据逐渐转冷。热数据的拜访性能要求较高，通过肯定工夫周期之后，热数据逐步变冷，利用拜访这些冷数据的频率会变得很低。因而，主动驾驶企业在整个冷热数据分层的过程之中，经常遇到以下问题：

在对接对象存储过程中，如若进行冷热数据分层，容易面临下层业务接口是否扭转，以及数据拜访门路是否扭转的问题；
针对不同业务类型是否能够区别定义；
冷数据下刷当前，性能是否存在降落；

针对上述问题，YRCloudFile 文件存储系统提供了智能分层性能，实现依据用户需要，自定义冷热数据策略，冷数据主动流动至低成本的私有云对象存储，并实现压缩。向上依然为业务提供规范的文件拜访接口，并放弃目录构造不变，实现数据在冷热数据层之间流动对业务齐全通明，无效针对老本和性能均衡问题。次要优化形式如下：

（1）标准文件接口，数据拜访门路不扭转

下层利用无需任何革新，焱融存储对外提供规范的文件接口。冷热数据主动分层无需管理员进行干涉，实现依照自定义策略下刷至对象存储，对外依然裸露对立的文件系统命名空间。用户在应用过程中，并不会受到对象存储层影响，拜访门路仍旧合乎用户存储习惯。

（2）目录级智能分层

YRCloudFile 能够自定义不同业务、不同数据类型的冷数据。对于数据中心而言，不同的利用，对冷数据的定义是不同的，对数据寄存的要求也不同。例如数据安全要求高的冷数据须要寄存在本地；数据安全要求低的数据能够寄存在私有云。或者训练数据在被频繁的训练 2 周之后就不再拜访，而训练后果数据则会在很长的时间段内始终须要频繁拜访。

（3）冷数据性能不降级

高效读写，保障冷数据读写性能。可配合各类调度策略，实现数据的预热，进一步缩小计算时的 IO 等待时间。

（4）分层镜像双活

数据冗余保障数据安全；
优先本地读保障读写性能；
对象存储故障保障业务连续性；
对象存储故障主动复原；
优先本地读缩小私有云对象调用费用。

通过冷、热数据智能分层的形式，YRCloudFile 能够满足相对大多数企业在主动驾驶训练过程中，对于存储高性能和数据长期保留的需要。

YRCloudFile 分布式文件存储架构图

目前，在 YRCloudFile 的帮忙下，该人工智能翻新公司顺利解决了存储网络带宽成为性能瓶颈的问题，并且存储平台与下层容器进行无缝整合，实现资源平台的对立调度与治理。

关于云计算:自动驾驶训练如火如荼网络带宽跟不上怎么破

主动驾驶的网络带宽挑战

YRCloudFile 助力主动驾驶冲刺“最初 100 米”

YRCloudFile 全面解决主动驾驶存储问题