乐趣区

关于javascript:阿里云飞天AI加速器Serverless容器帮助图森未来提升资源利用率

简介: 今年年初,图森将来的无人驾驶卡车还上了“钢铁侠”的扮演者小罗伯特·唐尼主持的科技汇集剧集《The Age of A.I.》(《AI 时代》),在剧中不仅顺利完成无人驾驶的行驶工作,还与围追堵截的摄像车“斗智斗勇”,在摄像车各种找拍摄角度的状况下,主动自我调整,转危为安,避让既礼貌又平安!

图森将来(TuSimple)成立于 2015 年,是一家专一于 L4 级无人驾驶卡车技术研发与利用的人工智能企业,曾经实现卡车在支线物流场景和半封闭枢纽场景下的无人干涉驾驶。图森将来品牌旗下产品——图森将来 L4 级别无人驾驶卡车可能实现环境感知、定位导航、决策控制等主动驾驶外围性能,可利用于高速公路货运和港内集装箱码头运输及其类似场景。

公司于 2019 年 9 月实现总额 2.15 亿美元 D 轮融资,资方:UPS、鼎晖资本、万都中国、累计融资超过 3 亿美元,最新估值超过 12 亿美元,是卡车无人驾驶头部企业,也是寰球第一家无人驾驶卡车独角兽企业。

图森将来的业务次要在美国和国内两地开展,在美国次要是高速公路干路货运场景,国内业务开始以连贯枢纽场景的支线物流货运为主。

在美国,图森将来曾经向包含 UPS、USPS、McLane、U.S. Xpress 在内的 18 家客户提供无人驾驶物流服务。

今年年初,图森将来的无人驾驶卡车还上了“钢铁侠”的扮演者小罗伯特·唐尼主持的科技汇集剧集《The Age of A.I.》(《AI 时代》),在剧中不仅顺利完成无人驾驶的行驶工作,还与围追堵截的摄像车“斗智斗勇”,在摄像车各种找拍摄角度的状况下,主动自我调整,转危为安,避让既礼貌又平安。

国内方面,2018 年 10 月,图森将来拿到国内第一张针对无人驾驶卡车在公开路线测试的测试牌照。依靠上海市政府的政策反对,以及临港片区实在场景的需要,图森将来的无人驾驶卡车曾经在东海大桥上进行了长时间的测试,截至 2020 年 7 月,累计测试里程已超过 5 万公里,具备了在东海大桥上不须要接管的无人驾驶能力。

在北京,图森将来携手北汽福田、首发团体等合作伙伴,实现了在京礼高速(延崇北京段)总长 14 公里(包含 9.8 公里间断专长隧道群路段)的三车无人驾驶队列跟弛测试,顺利完成中国首次高速公路全封闭环境下、基于 C -V2X 车路协同技术的队列跟驰测试工作。

飞天 AI 加速器晋升训练性能,减速模型迭代

一台车主动驾驶卡车,两个星期会产生大概 50TB 的数据。图森将来目前有超过 70 台卡车在上路,意味着每天有大量的数据产生。为了让主动驾驶卡车更聪慧,就须要一直地积攒更多的实在数据集训练它指标检测与物体辨认框架的能力。

随着业务高速倒退,迭代越来越快,图森将来的模型也越来越简单。每次模型迭代,都须要短时间调度大规模的 GPU 资源来分布式地进行模型训练。

然而,GPU 服务器洽购老本高,运维简单,图森将来不得不投入越来越多的精力到运维工作中;更重要的是,图森将来发现,随着所用 GPU 数量增长,GPU 的利用率却并不高。

为什么会这样?实践上来说,GPU 卡越多,整体算力越大,然而随着机器数的减少,不同机器的 GPU 之间的配合难度会越来越大,单张 GPU 卡的利用率反而会降落。所以减少了几十倍的卡的老本,然而性能却很难随之线性增长。

阿里云的飞天 AI 加速器 AIACC 团队,针对图森将来的场景,在底层针对通信、计算、时延和带宽等做了深度优化,将训练性能晋升了将近 60%,大大缩短了图森将来的模型优化工夫,减速模型迭代,进步技术门槛。

飞天 AI 加速器是 AIACC 业界首个对立减速,Tensorflow、MXNet、Caffe、PyTorch 等支流深度学习框架的减速引擎,拿下斯坦福深度学习榜单 Dawnbench 图像识别四个世界第一。

Serverless 容器,晋升仿真测试效率,缩短 60% 模型测试工夫

每次迭代的模型训练实现之后,图森将来须要对优化后的模型进行测试。如果每次都要上路测试,老本大、危险高、而且不能验证各种极其状况。

幸好,图森将来有个汽车仿真平台,模仿在各种环境下(例如:晴天、阴天、雨天、雾霾天、夜晚),模型的解决能力。

这种测试工作依赖开发人员的开发节奏,具备突发、长期、短期的特色,并且须要的算力规模十分大,如果包年包月地购买海量算力,则很多时候都处于闲置状态,需要来了可能算力又不够用,仿真模仿工作须要排队实现,影响开发人员的开发效率和模型的迭代速度。

因为图森将来的整体业务架构早已实现容器化,为这类长期顶峰场景做好了麻利的业务储备。通过阿里云 ASK(Alibaba Cloud Serverless Kubernetes)容器服务,图森将来能够在须要测试的时候,在阿里云上秒级启动大规模的容器集群,即刻获取海量算力,缩短了 60% 的模型测试工夫;实现测试之后迅速开释算力,防止资源节约。

阿里云 ASK 是 Serverless 免运维的 K8s 容器服务,底层应用阿里云 ECI(Elastic Container Instance 弹性容器实例)作为容器计算基础设施,提供高弹性、低成本、免运维的 Serverless 容器运行环境,免去用户对容器集群的运维和容量布局工作,大大节俭了图森将来运维的工作量。

另外,ASK 的计费粒度准确到秒,十分实用于仿真计算这类突发的高并发短时工作;针对长期的训练任务,图森将来则应用包年包月的 ACK(Alibaba Cloud Kubernetes)。通过实用于长短工作的 ACK+ASK 产品搭配,即晋升了图森将来的资源利用率,又节俭了老本。

原文链接:https://yq.aliyun.com/article…_content=g_1000162427

本文为阿里云原创内容,未经容许不得转载。

退出移动版