乐趣区

关于人工智能:国际顶会OSDI首度收录淘宝系统论文端云协同智能获大会主旨演讲推荐

大淘宝技术团队论文入选计算机系统畛域顶级国内学术会议 OSDI,这是淘宝零碎论文首次入选该国内顶会,论文详解了阿里历经四年、自主研发的首个端到端、通用型、规模化产业利用的端云协同机器学习零碎“瓦力”——Walle。OSDI 特地邀请到的 David Tennenhouse 在大会宗旨演讲中专门举荐了 Walle 零碎,对其技术先进性和利用落地成果赞美有加。目前,Walle 作为阿里机器学习的基础设施反对 30+APP 上 的 300+ 个算法工作。

OSDI 会议

USENIX OSDI(Operating Systems Design and Implementation)是计算机系统畛域最顶级的国内学术会议之一,被誉为操作系统畛域的奥斯卡,领有极高的学术位置和影响力,会集了寰球学术界和产业界零碎畛域专业人士的前沿思考和突破性成绩。往年 OSDI 大会特地邀请了 David Tennenhouse 作宗旨演讲,他是 IEEE Fellow,曾负责 Intel、Amazon/http://A9.com、Microsoft、VMware 等公司研究院和 DARPA 的首席 / 主管,也曾任教于 MIT。David Tennenhouse 在宗旨演讲中专门举荐了 Walle 零碎,并在 Walle talk 的前后通过邮件和 Slack 等形式被动与作者们进行了交换。

Walle 零碎命名由来

Walle(瓦力)来源于 2008 年电影“机器人总动员 WALL-E”。在电影中,WALL-E 机器人负责对地球垃圾进行清理,变废为宝。Walle 的架构者也秉持相似的初衷,心愿所设计和搭建的端云协同机器学习零碎可能像 WALL-E 机器人一样,无效利用数以十亿计挪动端设施上的用户数据,充沛开释其被忽视的价值,为用户提供更好的智能服务。

Walle 零碎设计哲学

图 1: 机器学习工作开发者视角中的 Walle 工作流程
为了突破支流基于云服务器的机器学习框架延时高、开销老本大、服务器负载高、隐衷平安危险低等瓶颈,Walle 采纳了端云协同机器学习新范式,以充分发挥挪动端设施贴近用户和数据的人造劣势,实现端云优势互补。不同于端云协同学习已有工作(次要在算法层面,并针对特定利用场景中特定的机器学习推理或训练任务),Walle 是首个端到端、通用型、规模化产业利用的端云协同机器学习零碎。Walle 反对机器学习工作在任意阶段(前解决、模型训练与推理、后处理)在端和云之间替换任意必要的信息(例如数据、特色、样本、模型、模型更新、两头后果等)协同实现工作。Walle 遵循端到端的架构设计,面向机器学习工作,从开发者视角登程,笼罩了机器学习工作的研发期、部署期和运行时,并反对端侧和云侧运行时的每个阶段。此外,Walle 还遵循通用型的零碎设计,而非集成大量面向特定利用、特定平台的定制计划。Walle 向下磨平了端云设施软硬件的差异性并保障挪动 APP 的轻量化,向上则撑持了多种类型机器学习工作的大规模产业化利用。

Walle 零碎架构

图 2: Walle 的整体架构 Walle
次要蕴含以下三个外围零碎模块:

  1. 部署平台,治理大规模的机器学习工作并及时部署到亿级设施上;
  2. 数据管道,次要波及机器学习工作的前解决阶段,为端侧和云侧提供工作输出;
  3. 计算容器,提供跨平台、高性能的机器学习工作执行环境,同时满足机器学习工作天级迭代的理论需要。
    具体来说,
  4. 计算容器底层是 MNN 深度学习框架,蕴含高性能的张量计算引擎和规范数据处理与模型运行库,并通过革新的 Python 线程级虚拟机对外对立透出接口,以反对多种机器学习工作的全链路执行和多任务的并行。MNN 的外围技术创新点是几何计算和半自动搜寻这两个新机制,其中几何计算次要通过形变算子的拆解,极大地升高了为十多种硬件后端手工优化上百个算子的工作量,而半自动搜寻机制则进一步实现了在运行时疾速搜寻计算图的最优可用后端和执行计划。Python 线程级虚拟机则舍弃了 Global Interpreter Lock(GIL)并首次反对了多任务多线程的并行,进一步面向挪动 APP 的理论业务需要,通过裁剪与革新首次移植到端上;
  5. 数据管道引入了全新的端侧流解决框架,遵循“单台资源受限挪动端设施上针对有限数据流的有状态计算”这一根本准则,使得用户行为数据在近数据源处可能被高效解决,同时设计了基于字典树的工作触发管理机制,实现了端侧多个相干流解决工作的批量触发执行。另外,在端云之间搭建了实时传输通道,以反对数据百毫秒级的上传下达;
  6. 部署平台通过 git 机制实现细粒度的工作治理,并采纳推拉联合、多批次工作公布的形式保障实效性和稳定性,同时反对对立和定制化的多粒度工作部署策略。

    典型理论利用中的零碎性能

图 3: 电商直播场景下端云协同看点辨认流程
在淘宝直播场景中,智能看点工作是指通过机器学习办法主动地定位出主播介绍解说商品看点(即商品对买家有吸引力的信息)的工夫点,从而晋升用户体验。相比拟于以前的纯云智能看点工作链路,引入 Walle 后的新端云协同链路,将均匀生产每看点的云侧负载升高了 87%,将智能看点笼罩的主播数量晋升了 123%,并将单位云算力产出的看点量晋升了 74%。真机测试显示,在华为 P50 Pro 上均匀每次看点工作的总耗时为 130.97 ms,而在 iPhone 11 上的耗时为 90.42 ms。上述后果凸显了及端云协同学习框架的实用性以及 Walle 计算容器的高性能。

图 4: 电商举荐场景下基于 Walle 数据管道的 IPV 特色生产流程
在电商举荐场景中,商品页面浏览(Item Page-View, IPV)特色次要记录了用户在某个特定商品的详情页上的行为(例如珍藏、加购物车、购买下单等),该特色对于举荐模型起着非常重要的作用。云侧原有的 IPV 特色生产链路,产出一条特色的均匀提早为 33.73 秒,同时耗费了大量的计算、通信、存储资源,并存在 0.7% 的错误率。相比之下,Walle 全新的数据管道能够在端侧实现 IPV 特色生产过程,均匀端侧提早仅为 44.16 毫秒,同时削减了超过 90% 的数据量,并保障了特色的正确性。这些结果表明:相较于支流基于云的数据管道,Walle 新数据管道大幅晋升了特色生产和生产的时效性、高效性和正确性。

图 5: 某个线上随机筛选的机器学习工作的部署过程
为了测试 Walle 部署平台的时效性和规模化,随机筛选了一个线上的机器学习工作,并监控了其部署到指标设施群体的整个流程。在保障工作稳定性的前提下,Walle 部署平台胜利笼罩在线的 700 万挪动端设施须要 7 分钟,而笼罩所有的 2200 万设施须要 22 分钟。

外围模块的 Benchmark 测试后果

图 6: MNN vs. TensorFlow (Lite), PyTorch (Mobile)
在 Android 和 iOS 挪动端设施以及 Linux 服务器的支流硬件后端上对 MNN 与 TensorFlow (Lite)和 PyTorch (Mobile)进行了比照测试。测试采纳了视觉、自然语言了解、举荐畛域中罕用的 7 个模型。结果表明:MNN 简直在所有测试样例中的性能都超过其余的深度学习框架。除了高性能之外,MNN 还可能反对所有挪动端硬件后端上每个模型的运行,而 TensorFlow Lite 和 PyTorch Mobile 则无奈反对某些硬件后端或模型,因而 MNN 的通用性更好。

图 7: MNN vs. TVM
此外还进行了 MNN 和 TVM 的比照测试,其中 TVM 主动调优和编译的主机是 MacBook Pro 2019 和 NVIDIA GeForce RTX 2080 Ti。一方面,TVM 的主动调优和编译大概耗时几千秒,而 MNN 在运行时的半自动搜寻仅须要几百毫秒。进一步联合 MNN 和 TVM 在设计和理论部署上的区别(尤其是 TVM 在 iOS 设施上模型动静部署能力欠缺,详见 PPT 和论文),能够得出:MNN 可能反对波及大规模异构硬件后端并须要工作频繁疾速迭代的产业界场景,而 TVM 则不可行。另一方面,在每个硬件后端上每个模型的推理工夫方面,MNN 也低于 TVM,尤其是在 GPU 服务器上,这次要因为 MNN 中手工算子优化。

图 8:Python 线程级虚拟机 vs. CPython(基于线上 3000 万次机器学习工作执行的统计分析)
最初还对 Python 线程级虚拟机和 CPython 进行了性能比照测试。结果表明:在波及不同计算量的 3 种工作类型上,Python 线程级虚拟机性能大幅晋升,次要起因在于解除了 GIL 并反对工作级的多线程并发。

业务落地状况

目前,Walle 作为阿里巴巴团体机器学习的基础设施,每天被调用超过千亿次,反对着 30 多个挪动 APP(包含手机淘宝、饿了么、速卖通、菜鸟裹裹等)上 300 多个视觉、举荐等工作。此外,MNN 已在 GitHub 开源,目前取得 6.8k stars 和 1.4k forks,同时入选了 2021 年“科创中国”开源翻新榜单,并已在 10 多个其余公司商业化利用。

论文作者及援用信息

Chengfei Lv, Chaoyue Niu, Renjie Gu, Xiaotang Jiang, Zhaode Wang, Bin Liu, Ziqi Wu, Qiulin Yao, Congyu Huang, Panos Huang, Tao Huang, Hui Shu, Jinde Song, Bin zou, Peng Lan, Guohuan Xu, Fei Wu, Shaojie Tang, Fan Wu, and Guihai Chen, Walle: An End-to-End, General-Purpose, and Large-Scale Production System for Device-Cloud Collaborative Machine Learning, in Proceedings of the 16th USENIX Symposium on Operating Systems Design and Implementation (OSDI), Pages 249-265, Carlsbad, CA, USA, Jul. 11 – 13, 2022. https://www.usenix.org/confer…

论文相干材料

OSDI 2022- Walle 论文演讲 slides、paper 全文材料下载:https://files.alicdn.com/tpss…

退出移动版