一站式 AI 平台架构
产品架构
算法模型的研发具备很强的范式,首先是特色数据加工,选取一些数据作为特色。拿到特色之后,抉择一个模型并进行相干的训练。第三步是把训练好的模型部署到模型平台下面。最初,决策平台会做业务流程的编排。
如图是整个平台的产品架构图。下面是各类利用场景,包含智能调度、营销 & 增长、司乘匹配、根底算法等。平台接入层提供外部 SOA 协定的接入,下面有各种各样的服务,会对接咱们的平台。咱们的平台分为离 / 近线零碎和近 / 在线零碎,其中离 / 近线零碎包含特色平台和训练平台,近 / 在线零碎包含模型平台和决策平台。
技术架构
如图是 AI 平台的技术架构图。从上往下,决策平台层是在线服务的入口,除了算法在下面做一些流程编排,一个重要的职责是承当了在线业务流量的稳定性。为了减速模型推理的性能,咱们把模型间接跟特色绑定,拉取到本地。在这个过程中,如何把海量数据,大量的高维特色加载到本地机器上运行,让本地的模型间接读取,是有挑战性的中央。二是在线局部,分布式动静扩缩容、高可用、限流熔断,也是咱们的外围能力之一。三是模型平台,要面对各种各样的算法框架所开发出的模型,如 tensorflow 模型、pytorch 模型等,这些模型还会通过一些罕用的模型压缩算法,变成优化好的模型。咱们把这些模型加载起来,有 Tensorflow 集群、GPU 集群、Python 集群等。
接下来,底层的特色平台次要利用的是大数据技术。下面能够部署各种定时工作,这些工作是通过 spark 的脚本分发给数据平台,申请计算资源,最初进行算法的推理和计算。同时,咱们对 hive、数据湖都须要有肯定的理解。
最初是云原生相干技术的利用。训练平台用的是云原生的 docker 间接加载 jupyter notebook 镜像,把这些资源开释给算法同学应用,取得能效的晋升。
倒退过程
咱们在 2021 年做了平台化,2022 上半年进行稳定性治理和性能优化,下半年在自动化和实时化上发力。自动化是为了晋升效率,升高门槛;实时化是为了晋升算法成果和用户的体验。
自动化训练的实际
为什么须要自动化训练
机器学习有着固定的研发流程,问题形象、模型抉择、超参调优等比拟依赖算法工程师教训。
业内状况和倒退
AutoML 最早由 Google 在 2018 年初提出,次要分为 Auto FE(主动特色工程)、HPO(超参优化)、NAS(神经网络架构搜寻)。
华为、阿里、百度、美团等国内大厂纷纷跟进,利用于理论生产。
HPO 成果测试集
在上线之前,拿了外部实在的场景,对 AutoML 技术做了一些测评。通过 AutoML 里 HPO 的算法,去优化咱们的超参,优化后的成果有了小幅的晋升。
技术计划
基于开源我的项目 Ray Tune 与 NNI 提供的根底能力,通过 Python SDK 供算法代码应用,初期算法通过代码模板选取训练代码。
产品计划
编程式建模
交互式建模
自动化流程
赋能场景
AutoML 在哈啰广告 CTR 预测场景下上线,如图是哈啰 APP 首页腰封的营销广告。为了晋升广告的点击率,咱们进行了优化,应用的是 DeepFM 模型,在这个模型下以前没有用到超参搜寻。相似的场景还有很多,实际效果根本都失去了晋升。
将来瞻望和布局
一是数据和特色决定了机器学习的下限,模型和算法只是迫近这个下限而已,因而特色的生产和抉择很依赖教训,有肯定的晋升空间。二是在模型主动抉择上,算法能够代替人工教训,通过算法比照不同模型的成果,最终抉择最优解。前面咱们也有开源打算,目前在布局中。
咱们的愿景是人人都是算法工程师。算法代码有很强的范式,模型的开发和应用也趋近于稳固并积攒了大量教训,调参模型开发等机械的工作更多的被机器代替,咱们应该更专一于业务场景的剖析、问题的形象与定义、新技术 (AIGC) 工程化的实际等。
(本文作者:任天兵)