共计 3271 个字符,预计需要花费 9 分钟才能阅读完成。
汽车产业作为国民经济支柱产业之一,其在国民经济战略性支柱产业的位置是不可撼动的。在《“十四五”交通畛域科技翻新布局》中也提出,到 2025 年实现关键技术研发利用获得新冲破,科技创新能力全面加强,翻新环境显著优化三大总体目标。其中,明确了在运输服务畛域,主动驾驶、智能航运、机场智能运行管控等技术在局部场景失去示范利用。
可见,智能化技术正悄悄走进人们生存,主动驾驶也逐步从 L1-L2 阶段,开始向 L3-L4 级别倒退,泛滥整车厂和自动化驾驶算法零碎开发厂商正在积极探索,力求霸占行业第一位,拿到主动驾驶这把汽车将来市场宝藏的钥匙。
以后,在整体汽车自动化驾驶行业中,外围竞争力曾经从车辆硬件转向主动驾驶决策“AI 大脑”。AI 训练只有在一直迭代更新的过程中,能力逐步增长“见多识广”的能力,做出精确的判断。其中,晋升 AI 主动驾驶算法迭代能力,堪称是各家厂商竞争反抗的要害能力。
实际上,影响 AI 迭代的外围要害次要是, 算法设计和海量的数据 。
海量有特色的训练数据是让 AI 具备意识世界的重要环节,从路测数据采集到数据中心的数据预处理、特色数据管理、训练、数据归档等一系列过程都须要高效连接运行,只有其中一个环节不通顺,或者效率低就会导致整体业务效率降落。因而,AI 算法的竞争背地是 AI 算法内的海量数据竞争,如何欠缺数据流治理成为了自动化驾驶迭代的要害。
自动化驾驶业务流程图
在主动驾驶的倒退过程中,数据正向着更简单的方向倒退,总结近几年的数据模式,能够发现数据具备以下特色:
数据多样性
依据不同主动驾驶级别,数据产生的起源不同。数据类别不仅包含了汽车根底数据,还包含基础设施、交通数据、地理信息数据,以及车主的大量用户身份类数据、用户状态数据、行为类数据等。
数据规模大
主动驾驶车辆作为跨产业技术的交融载体,交融了来自汽车、路线、天气、用户、智能计算零碎等多方面的海量数据,波及数据类型多,须要统计分析的数据总量大。
数据非结构性
数据多样性决定了不同起源的数据格式不同,数据的非结构性和非标准性对数据聚合或拆分技术,以及权限治理和平安存储都带来了微小的挑战。
数据流动性
大量主动驾驶数据在用户端、车端、云端等多场景的交互,使得数据的流动性增大。
以上是自动化驾驶行业的业务数据特点,为进一步阐明这些已知的特色,咱们将以一家寰球无人驾驶科技公司的解决方案为例,帮忙大家理解焱融科技是如何构建该公司 IT 根底平台撑持其业务倒退。
割裂式存储难解决
该寰球无人驾驶科技公司是一家专一于 L4 级别无人驾驶卡车技术研发与利用的人工智能企业,具备感知、定位、决策、管制等无人驾驶外围性能,可能实现货运卡车在支线物流场景和半封闭枢纽场景下的全无人驾驶。
在该公司的整体业务流程中,蕴含数据预处理、特色数据管理、训练、归档等多个环节,原始数据须要通过泛滥环节解决,能力成为业务要求的特色化数据。在应用 YRCloudFile 之前,该公司治理数据的形式是采纳割裂式的形式,比方:
- 数据预处理,应用大容量存储
- 特色数据管理,应用高性能存储
- 训练阶段,应用高性能存储
- 归档阶段,应用大容量存储
如此频繁更改数据存储形式是因为整体业务亟需应答性能和老本的要求。但割裂的数据存储管理形式极易产生数据流程的间接老本、工夫老本、运维压力,同时还会波及到本地数据和算力配合,云端数据和算力配合的跨云需要等等,而这些老本、压力和需要最终会间接影响产品和业务的倒退效率。
焱融科技反对“跨云多源数据管理”
焱融科技充沛理解到该公司全业务流程存储管理的痛点当前,依据本身在行业多年的 AI 自动化驾驶畛域存储教训,提出了“ 混合云存储 ”解决方案。通过路测取回的原始数据作为共享母版的形式,搭建本地到云端的跨云架构计划,将原先数据流向“大容量存储 - 高性能存储 - 大容量存储”的拷贝形式,通过 YRCloudFile DataLoad 技术实现对立治理,依照业务倒退须要按需流转,自动化治理,彻底摒弃传统人工或者脚本治理运维的原始形式。
YRCloudFile 通过将数据预处理、特色数据管理、训练、归档业务环节串联起来,达到了真正意义上的流治理形式,使得数据随业务在零碎外部流动,单阶段性能比传统架构晋升 7 倍左右,实现在数据预处理阶段,计算集群通过向低成本的对象存储读取数据进行业务发展,读取后通过文件层减速,实现后续工作。
YRCloudFile 跨云多源整合业务流程图
在数据预处理阶段,原始数据通过低成本低性能的传统存储达到数据预处理计算集群,随着业务拜访存储的并发量在一直回升,从几个到几十个,继续时长随业务变动,这就给存储带来了较大压力,因为每个数据预处理的带宽都比拟大,而且是大文件和小文件混合模式,所以对于底层存储的性能是一个考验。
性能监测传统存储撑持性能最大约为 3GB/s,数据预处理环节使存储性能问题成为业务倒退的第一个短板,亟需解决。
在应用 YRCloudFile 作为文件层,向下对接对象层后,开启 YRCloudFile DataLoad 性能,同样在数据预处理环节中,性能监测反馈可满载运行 60 个数据预处理工作,20GB/s 的带宽量,前端计算带宽根本打满,此时相较于传统存储,采纳 YRCloudFile DataLoad 后性能晋升 7 倍左右。而大量素材是通过 YRCloudFile DataLoad 进行了多源整合和减速,并未扭转原始数据的存储形式,从性能和老本、治理都失去了很好的均衡,要害实现了业务效率的极大晋升。
数据预处理业务并发比照图
另外,数据在进入预处理存储后,就开始了由 YRCloudFile 对立命名治理,实现了数据随业务倒退流动,除了能让上文提到的数据预处理环节实现降本增效,还能够帮忙后续环节中的多个业务环节利用 YRCloudFile DataLoad 技术性能来晋升性能。
例如在生产环节,相比全量提取比照数据的方法,YRCloudFile 采纳 DataLoad 技术,能够按需读取生产数据比照数据进行测试,从整体时效性上,具备秒级响应特色,比照传统全量拷贝形式,业务效率晋升微小。
在帮忙客户实现业务数据多源整合的同时,YRCloudFile 还通过分层技术性能让客户落地了本地到云端的同步双活计划,达成了业务连续性的要求,并最大化升高 TCO。具体架构如下:
YRCloudFile 分层双活业务架构
在本地算力端部署 YRCloudFile,满足业务减速要求的同时,向下开启对象接口,通过 YRCloudFile 全生命周期管理策略,依照周期治理将冷热数据离开,冷数据主动下刷至对象存储,热数据在 YRCloudFile 的文件层,保障性能稳固和均衡老本收入。在业务调取冷数据时,能够通过通明调取的形式,依照 YRCloudFile 对立命名空间治理。
在此基础上,YRCloudFile 对接云上对象存储,将依照数据生命周期治理的策略,把本地下刷至对象存储的数据同步上传到云上对象存储,实现本地和云端对象存储数据同步。如若业务须要读取冷数据时,YRCloudFile 会依据读取指令将优先读取本地存储指标数据和切片返回给业务端,采纳云端不读取的形式,节约数据老本。当本地对象故障时,冷数据同步在云端,那么 YRCloudFile 会检测数据地位,读取云端数据和切片返回给计算。以此来整体保障业务连续性,防止因网络、站点等产生的故障问题。
通过 YRCloudFile DataLoad 技术和多级分层技术,该公司的存储老本间接降落 300% 且性能晋升 500% 以上,实现在全业务流程中,数据存储的治理对于业务是齐全通明的。这也意味着,无论数据如何变动,业务端都无需“操心”。包含归档当前,也是由 YRCloudFile 全生命周期对立治理,达到“跨云多源数据管理”能力。
该公司在采纳高性能分布式文件存储 YRCloudFile 的计划后,突破了传统存储的壁垒,全面晋升了数据整合能力,并在业务理论应用过程中,配合欠缺的运维能力,晋升整体可保护应用能力,真正做到“最懂自动化驾驶业务的存储系统”。目前,焱融科技曾经帮忙该公司建设多个数据中心和跨云整体混合云平台,无效优化业务流程,晋升整体业务效率。