近年来随着大数据时代的到来和计算能力的晋升,人工智能在各个领域都获得了显著的停顿。原先在云端进行特色的存储与解决、模型的训练、在线推理,在客户端进行数据的展现的架构展现出越来越多的毛病和局限性。本文将联合端智能的劣势,联合哈啰一站式AI平台的现状,讲述一站式AI平台如何反对多端智能(服务端、flink端、挪动端)。

云端推理模式

具体流程

图1-1 云端推理模式流程图

  • 首先云端会将客户端上报的的离线特色和在线特色数据进行存储
  • 云端将离线特色数据喂给模型进行模型训练
  • 模型在云端训练结束后进行模型上线或者模型更新
  • 客户端触发在线推理申请调用云端进行在线预测
  • 云端在线推理联合特色数据和模型文件进行预测
  • 云端返回排序后果和数据在客户端展现

问题

  • 带宽和提早问题:所有客户端用户的申请都要先到云端进行推理后,能力在客户端进行展现,网络传输存在肯定耗时;若推理所需特色较大(如图片,视频等),会导致提早很高,以及网络带宽压力十分大
  • 数据安全:用户的数据都须要通过网络传输上传到云端,存在透露危险
  • 数据隐衷:局部数据为用户隐衷数据,无奈存储在云端
  • 老本问题:所有的在线推理都在云端,则云端须要部署大量服务器提供在线推理能力,老本微小
  • 中心化问题:所有的在线推理都须要走云端接口,若网络异样或者云端服务异样,则会导致推理能力生效

端智能模式

端智能技术是指将计算、存储和推理从中心化的云端转移到网络边缘设施(如智能手机、物联网设施等)的技术。

具体流程

图1-2 端智能推理模式流程图

  • 首先云端会将客户端上报的的离线特色和在线特色数据进行存储
  • 云端将原有的离线特色数据和新上报的离线特色数据喂给模型进行模型训练
  • 模型在云端训练结束后的模型进行模型上线或者模型更新
  • 客户端定时触发模型版本更新,云端辨认到客户端模板版本过旧会通知客户端须要更新模型
  • 客户端定时触发云端特色查问,会将云端查问的数据和历史数据存储起来
  • 客户端联合特色数据和模型文件进行在线推理
  • 客户端进行排序和后果展现

端智能劣势

  • 客户端的在线推理依赖的特色和模型都在本地运行,无网络带宽和提早问题
  • 数据本地化存储,无数据安全和隐衷问题
  • 在线推理本地化,云端故障或者网络故障不会导致无奈在线推理
  • 在线推理本地化,云端无需提供服务,可降低成本

哈啰一站式AI平台以后现状

整体架构

图2-1 一站式AI平台架构图

  • 一站式AI平台从划分来说划分为训练平台、模型平台、特色平台、决策平台
  • 训练平台
    提供离在线模型的训练、模型开发环境资源管控、模型训练资源管控、离线模型推理、离线模型治理、分布式训练、分布式预测
  • 模型平台
    提供tf1/tf2、pmml、python、python-gpu四类在线模型的模型治理、模型资源管控、在线推理能力
  • 特色平台
    提供离在线特色存储、实时特色计算、特色关联、特色加工、特征选择、特色荡涤、特色查问等能力
  • 决策平台
    基于DAG流程编排能力,提供了串联groovy脚本、多模型,多特色的流程编排,对立对外提供在线推理能力

整体流程

图2-2 AI平台繁难流程图

如图2-2所示,示意了繁难的一站式AI平台的流程图。

1.特色创立和变更

  • 在线特色存储:用户在AI平台先创立特色,将离线特色转为在线特色存储起来
  • 在线特色新增和变更:特色和特色存储的关系会通过AI平台的配置变更,同步给在线特色服务FeatureService

2.模型训练和创立,以及模型版本治理

  • 模型训练:用户在AI平台通过远端工作触发模型的训练,训练实现后产生模型文件,生成本地文件或者上传到oss
  • 新增模型:用户在AI平台通过新增模型模块将本地模型文件或者oss模型文件和模型绑定
  • 模型变更:用户可通过离线训练形式手动在AI平台更新模型,也能够通过定时工作训练模型后触发主动模型更新

3.在线推理

  • 用户在决策平台先绑定模型和特色的关系以及groovy规定的关系,生成决策
  • 业务服务调用决策服务,通过groovy规定、灰度、特色查问、特色预处理后传给模型进行在线推理
  • 决策服务将推理后果返回给业务零碎

挪动端智能

整体流程

图3-1 AI平台挪动端智能计划繁难流程图

如图3-1所示,示意了挪动端智能计划繁难流程图,和2-1比照差别点如下。

1.模型模块

  • 模型版本治理:原先模型版本治理是在一站式AI平台实现,业务调用方只须要给出决策id就能晓得可运行的模型,而端智能后,前端须要配合进行模型治理
  • 模型文件散发:原先模型文件产生后,会将模型文件散发到云端的模型服务ModelService,端智能后须要将模型文件散发到每个用户的挪动端
  • 模型运行环境:原先模型的运行环境是在ModelService集成的,当初模型在线推理在挪动端,须要在挪动端反对模型的运行环境

2.特色模块

  • 特色的存储原先只在云端,端智能后端上会存储数据
  • 在线推理不再依赖云端数据,而是依赖本地特色数据(端智能后挪动端会定时拉取云端特色到本地)

3.决策模块

  • 原先决策是作为服务给业务方调用,端智能后须要打成sdk包给挪动端调用
  • 决策服务原先只给后端服务调用,端智能后须要反对挪动端申请拜访

挑战和计划

  1. 端上版本更新挑战
    在端上运行模型会依赖特色数据、特色预处理逻辑、模型文件、groovy规定,依赖库会有依赖关系,如果局部是实时散发更新,局部是依赖挪动端发版,则可能会导致不统一,且依赖挪动版发版工夫。
  • 计划
    将能够动静公布的模型文件、特色预处理文件,groovy规定,依赖库打包成一个算法包,反对动静更新和对立版本治理
  1. 模型文件散发挑战
    从ModelService转为挪动端,数量大大增加。ModelService为云端零碎pod数,根本是几百,挪动端是用户收集app,则会在千万级别。
  • 计划
    云端通过用户手动或者主动训练完模型后更新的oss,用户关上App后定时check算法包是否存在更新,若存在更新,则从用户最近的CDN节点拉取算法包到app
  1. 包大小挑战
    因为端上资源无限,因而对新增的决策sdk包和模型文件大小以及计算资源会有肯定限度。
  • 计划
    决策:对决策做最大化的瘦身,只保留一站式决策可运行的最小版本能力(如:groovy规定、特色预处理)
    模型:管制模型的参数量级、拆分部署;基于MNN框架对模型进行压缩
  1. 适配挑战
    挪动端因为每个用户的设施都不一样,会有不同的适配老本。计划目前一期仅反对在基于MNN在安卓设施进行,IOS兼容计划仍在摸索中
  2. 模型运行挑战
    模型文件须要在端上运行,端侧得反对可运行模型文件的环境。
  • 计划

图3-4 基于MNN的运行结构图

基于淘宝MNN开源引擎,在端侧适配模型可运行的环境

flink端智能

整体流程

图4-1 AI平台flink端智能计划繁难流程图

如图4-1所示,示意了flink端智能计划繁难流程图,和2-1比照差别点如下。

1.触发逻辑

  • 原先云端的模型触发都是基于soa接口方式触发,改为flink端后,在线推理都是基于音讯触发

2.模型模块

  • 模型运行环境:原先模型的运行环境是在ModelService集成的,当初模型在线推理在flink,须要在flink端反对模型的运行
  • 模型更新交互变动:原先模型的加载都是ModelService中监听模型新增或者批改,当初模型的新增和更新须要在flink端监听apollo配置变动,在flink端替换新模型

3.特色模块特色

  • 存储介质变动:特色的存储原先只在云端的在线存储中,flink端智能后须要将特色存在在本地磁盘或者内存中
  • 特色更新交互变动:原先特色的新增或者批改都是在FeatureService监听特色的变动,将特色和存储的关系保护在特色服务中,当初须要在flink端监听特色变动,且须要将特色间接拉取到flink本地磁盘或者内存中

4.决策模块

  • 原先决策是作为服务给业务方调用,端智能后须要打成sdk包给flink端调用

挑战和计划

1.模型调用本地化

模型调用由SOA形式改为本地调用。

  • 计划

图4-2 模型调用本地化

flink会接入决策SDK,并通过tf for java将模型加载到本地,提供模型在线推理能力。模型更新后由AI治理平台更新apollo配置信息,flink端通过监听apollo形式进行模型更新。

2.特色本地化

通过将在线数据预加载到内存或者本地磁盘,进行特色的加工解决和本地调用。

  • RocksDB计划

图4-3 RocksDB计划

a. 特色变更

  • 特色散发零碎会监听hive表特色变更,在特色散发零碎将特色数据转成SST文件
  • 特色散发零碎会将SST文件上传到oss,并将配置变更告诉apollo配置核心
  • flink端监听apollo配置变更,将sst文件拉到本地磁盘

b. 特色查问
flink端执行在线推理会从RocksDB查问本地磁盘的数据

  • 内存存储的计划

图4-4 内存计划

通过flink hive connector的革新,将hive的离线数据,通过Partitioned的形式,让每个taskmanager只加载局部所需的维表数据。

  • 内存存储的优化挑战

a. Partition分区如何做?
基于用户id对数据进行预设分区

b. 内存如何优化?

图4-5 自研序列号计划

基于团队自研的fast_bytes序列化计划,能够将内存数据升高为之前的三分之一

利用端智能

利用端智能即在业务应用服务中,间接存储特色数据,运行模型进行在线推理。

整体流程

图5-1 业务利用端智能计划繁难流程图

如图5-1所示,示意了利用端智能计划繁难流程图,和2-1比照差别点如下。

1.模型模块

  • 模型运行环境:原先模型的运行环境是在ModelService集成的,当初模型在线推理在业务利用,须要在业务利用反对模型的运行
  • 模型更新交互变动:原先模型的加载都是ModelService中监听模型新增或者批改,当初模型的新增和更新须要在业务利用监听apollo配置变动,在业务利用替换新模型

2.特色模块

  • 特色存储介质变动:特色的存储原先只在云端的在线存储中,业务利用智能后须要将特色存在在本地磁盘
  • 特色更新交互变动:原先特色的新增或者批改都是在FeatureService监听特色的变动,将特色和存储的关系保护在特色服务中,当初须要在业务利用监听特色变动,且须要将特色间接拉取到业务利用本地磁盘或者内存中

3.决策模块

  • 原先决策是作为服务给业务方调用,端智能后须要打成sdk包给业务利用本地执行在线推理

挑战和计划

  1. SDK设计

图5-2 决策sdk设计图

如图5-2所示,展现了决策sdk的整体设计。

  • 模型服务将模型的加载,监听模型变更,优雅预热等逻辑打包成模型sdk
  • 特色服务将特色的加载,监听特色变更等逻辑打包成特色sdk
  • 决策在线服务将ABTest,流程编排,计算逻辑,特色预处理逻辑以及模型sdk,特色sdk逻辑打包为决策sdk,给业务利用调用
  1. 模型类型兼容挑战

以后的业务利用如为java利用,则在运行时,只反对tf和pmml模型,python和python-gpu模型无奈反对。

  • 计划
    目前短期解决方案为将局部python模型转为tf或者pmml模型打入业务利用进行运行,长期来说AI平台会摸索为各类模型提供一个对立的运行环境,或者可反对的转换工具反对各类模型在同一环境中运行
  1. 模型本地化

模型调用由SOA形式改为本地调用。

  • 模型运行计划

图5-3 模型调用本地化

业务利用会接入决策SDK,并通过tf for java将模型加载到本地,提供模型在线推理能力。模型更新后由AI治理平台更新apollo配置信息,业务利用通过监听apollo形式进行模型更新。

  • 模型生命周期治理

计划新增或者批改模型上传到oss,告诉apollo配置变更,应用服务监听配置变更,调用jni的tf接口加载模型到内存。在新老模型预热结束后调用api接口卸载模型。

  • 模型更新计划

a. 新老模型如何同步运行?
创立两个模型对象进行治理,反对同模型新老版本同时运行。

b. 新老版本更新的如何优雅预热?
基于模型历史一小时的rt均值,以及以后最近20次申请rt是否小于该均值进行判断是否预热胜利。如果预热胜利则新老模型切换。

  1. 特色本地化挑战

本地化特色存在特色数据过大,导致业务利用启动过慢,无奈疾速扩容等问题。

  • 计划
    将特色加载从单线程转为多线程加载,并最大限度用上ESSD盘或NAS盘的IO下限
  1. 在线特色挑战

在线特色如果业务利用间接调用,会存在连接池无奈管控,调用量无奈管控,在线存储压力过大导致相互影响等问题。

  • 计划

图5-4 在线特色治理图

通过AI平台对立的连接池治理,外围业务在线存储隔离以及限流机制防止在线存储的压力过大,相互影响问题。

目前一站式AI平台曾经可能反对在多端进行在线推理能力,然而很多细节点须要继续优化。后续一站式AI会基于以后问题对各端智能计划进行继续优化,也会基于业界支流的AI平台架构和计划,继续对AutoML、AutoFE、模型Fass化部署、分布式训练和预测进行继续的建设和演进工作。

(本文作者:柳健强)