开源云数据编排软件开发商 Alluxio 近日发表,寰球当先的 L4 级主动驾驶技术智能出行公司文远知行 WeRide 已将 Alluxio 数据编排软件作为混合云存储网关,用于本地应用程序对 AWS S3 等公共云存储的拜访。这一新的数据架构为每个地位都提供了本地化缓存,打消了对 S3 的冗余申请。除了解决手动数据同步的复杂性问题之外,Alluxio 还间接将数据提供给位于同一办公室解决雷同数据的工程师,躲避与 S3 相干的传输老本,同时将终端用户的工作效率进步数倍。
迄今为止,WeRide 已累计主动驾驶里程达 450 万公里,随着更多测试车辆投入使用,数据采集率只会越来越高。除了从试驾收集的数据之外,仿真、SIL(软件在环)测试和模型基准测试等应用程序每天也会产生数 TB 的数据。WeRide 是一家全球化的公司,跨办公室的不同团队并行生成和应用数据,并应用 AWS S3 作为数据湖。
文远知行 WeRide 基础架构与仿真执行总监 Derek Tan 示意:“在为咱们的主动驾驶汽车设计新算法或修复现有算法中的谬误时,咱们的工程师须要依据现有数据对算法进行测试。而咱们以后的数据架构导致了一些瓶颈,如开发迭代迟缓、产生不必要且昂扬的数据导出老本以及数据同步容易出错等。”
例如,在开发或调试前,开发人员需将最新的数据从云端下载到本地环境中,而下载通常受到下载速度和网络带宽的限度。每次从 S3 下载数据时,进口数据传输都会产生费用。通常调试一个问题的数据传输老本加起来可达 5 美元。如果多人合作,即便是下载雷同的数据,老本也会成倍增加。WeRide 构建了一个自定义数据上传流程,将数据复制到云端并在 NAS 或 HDFS 中保留一份本地正本。本地正本可让工程师更快地拜访数据,因而是必要的,但也会导致数据同步问题。目前,WeRide 通过运行 cron 作业定期清理本地数据来保护本地正本。
WeRide 决定找寻一种能满足其解决方案要求的既有技术,该技术应是一种低成本或无老本的成熟技术,曾经过大规模数据拜访的实战测试,随时可用且易于集成,并且不会引入新的 ETL 作业,同时需容许 WeRide 在估算许可的状况下应用更好的硬件来进行扩大。
“思考到上述筛选技术的规范,Alluxio 成为了 WeRide 在减速数据拜访上首选技术,”Tan 示意,“除了与 S3 兼容之外,Alluxio 还通过其 POSIX 和 HTTP 端点提供了便捷的拜访界面。Alluxio 作为一项开源技术,能够整合到咱们的零碎中,而不会减少额定的商业老本。”
在 WeRide 的各个办公室都将 Alluxio 作为一个小型本地集群进行部署,同时将 S3 作为数据源。路测数据间接上传到本地 Alluxio 集群,同一办公室的工程师即可立刻应用数据。同时,Alluxio 会在后盾主动上传路测数据至 S3。如果其余办公室的工程师须要应用路测数据,可通过本地的 Alluxio 集群发送申请。如果申请的数据已在 Alluxio 中缓存,数据将立刻返回,否则将从 S3 抓取数据。为了进一步缩小从 S3 抓取新数据的工夫,WeRide 与 Alluxio 团队单干施行了分布式加载命令,该命令可关上多个同步连贯进行数据下载。应用 Alluxio 后,从云端获取的应用程序数据也会缓存在本地,而在以前,如果数据不是从同一个办公室上传的话,是不可能实现的。
Tan 示意:“咱们在应用 Alluxio 后实现了诸多晋升,包含通过应用繁多界面拜访数据升高了数据同步的复杂性且无需保护一份自定义本地正本;针对云数据的本地缓存领有开箱即用的解决方案;疾速的数据拜访实现了工程生产率晋升;此外,也升高了下载冗余数据的 S3 数据输入老本。”
Tan 总结道:“WeRide 旨在为将来提供 L4 级主动驾驶技术。数据拜访是开发智能出行的关键环节。采纳 Alluxio 作为本地缓存,打消了对 S3 的冗余申请,解决了数据同步的复杂性问题,为每位工程师在调试每个问题时节约了至多 5 美元的数据传输老本。咱们期待与 Alluxio 的进一步单干,以经济无效的形式实现咱们的数据拜访指标。”
“WeRide 目前应用的 Alluxio 数据编排零碎,是将本地机器学习应用程序与云端数据连接起来的重要环节,”Alluxio 创始人兼 CEO 李浩源示意,“咱们很快乐能与 WeRide 推动后续单干,减少更多与数据管理策略相干的性能,为 WeRide 的工程师带来更多价值。”