关于人工智能:RTE2021-回顾丨实践中的摸爬滚打AI-OPS-落地之路

30次阅读

共计 3496 个字符,预计需要花费 9 分钟才能阅读完成。

本文整顿自声网 Agora SD – RTN 网络传输品质负责人于涛在 RTE2021 实时互联网大会上的演讲分享。他在演讲中针对传统 OPS 痛点、AI OPS 的劣势以及 AI OPS 工程化的难点进行了全面的剖析,并分享了声网研发团队对于 AI OPS 落地实际过程中的贵重教训。


▲图:声网 Agora SD – RTN 网络传输品质负责人于涛

01 为什么须要 AI OPS

需要往往是从生产中的痛点登程,每一项新技术都是从需要的孵化过程中诞生的。目前传统的 OPS 次要存在三大痛点:7 D × 24 H 无间断运维保障、运维执行的品质以及执行效率问题。

1. 7 D × 24 H

服务的高可用依赖 7 D × 24 H 的不间断运维保障,组建 7 D × 24 H 团队的难度大,老本高。而且随着业务规模的增长,以及产业的全球化,以上问题的难度会线性减少。

2. 品质

业务运维是一个绝对比拟“吃教训”的工作,这也就是为什么传统运维新人入职往往有比拟长的入职培训以及熟悉业务过程。教训的差别会引擎运维解决品质不统一,或导致异样没有捕获,或导致解决不到位,亦或解决过于激进,这都将间接影响客户的体验。这一点 AI OPS 是可能较好地补救的,训练良好的算法可能将执行品质迫近教训老道的运维人员群体决策的后果的同时,放弃执行后果的高一致性。

3. 效率

运维效率对用户的体验也至关重要。服务质量异样的时候,如果解决须要 1 小时,用户的体验就受损 1 小时;如果解决工夫只有 5 分钟,就只影响 5 分钟。以机房网络品质回退来说,经验丰富的人员从报警到解决实现的均匀耗时也在 15 分钟左右,加上线上服务规模之大,故障又是绝对随即产生的,让无限人数的团队监控如此大规模的服务集群的同时,还要保障所有异样高效地解决异样,传统运维曾经顾此失彼。然而自动化的 AI OPS 在执行效率上却有着先天的劣势。

回顾来看,这些传统人工 OPS 上的痛点恰巧是 AI OPS 最大的劣势所在:

  • 7 D × 24 小时:机器是不须要睡觉的。
  • 品质问题:经过训练的模型它的执行品质是稳固牢靠的。
  • 效率问题:自动化的 AI OPS 零碎效率远高于人工。

02 AI OPS 工程化的难点

在具体实际的过程中,AI OPS 的工程化落地还存着诸多的艰难。

标准化:从 AI OPS 行业来看,整个行业正处于冀望收缩期,技术和工具一直新陈代谢的同时行业不足规范,没有成熟稳固的平台和工具链。从公司倒退的角度来看,AI OPS 处于摸索阶段,在没有标准化的状况下进行工程化老本和危险都十分大。举个例子,这就好比咱们要将现有服务容器化上云,却没有现在曾经十分成熟的 Docker,K8S 工具,同时各云厂商也没有针对容器做各类适配和兼容,这会减少大量的架构设计和开发工作。这就是 AI OPS 落地过程中面临的第一个比拟辣手的问题。

冀望不统一:在企业中,业务、运维、算法乃至大数据团队对于 AI OPS 的了解往往是不一样的。过来几年智能驾驶的事变新闻大家应该都还有些印象,其中一个起因就是人们对智能驾驶的冀望是 ” 真正的主动驾驶 ”,然而以后阶段的 AI 是很难脱离人去齐全自主运行,当驾驶环境超出 AI 的能力边界的时候驾驶员没有接管,喜剧便产生了。目前 AI 是一个十分时尚的词,然而不同业余的人对其的冀望不一样,不统一的冀望导致信息差,不仅影响合作进度,还可能引起线上故障。

基础设施要求高:巧妇难为无米之炊,好的 AI 除了优良的算法,还依赖高质量的数据,AI OPS 也不例外。以全球化的云服务供应商为例,要做好 AI OPS 的根底是做好大数据,除了要做到实时高吞吐的数据中心,还要提供流式计算接口。

03 Agora 的 AI OPS 落地最佳实际

针对 AI OPS 落地的具体实际过程中呈现的问题,咱们研发团队又是如何解决的呢?

  • 短期与长期指标的制订

对齐长期指标,长期指标的制订可能帮忙团队明确倒退方向,有利于梳理前期工作重点。

短期指标是将长期指标拆解为阶段化指标,其次要作用是尽快把咱们的我的项目 AI 算法落地,还要为长期指标打基础,一些公共组建要建设起来。

  • 团队间对齐冀望,能力互补

因为 AI OPS 是多团队的合作,它是 SRE、业务、算法、大数据四个团队严密合作下的产物。在此过程中,对齐冀望做好团队合作至关重要。

首先是团队之间的能力了解。咱们业务团队须要被动理解算法团队的能力,算法团队除了实时的异样捕获能力、单指标的工夫序列异样辨认,还能提供用量预测能力,依据数据的品质和用量的法则,算法揣测甚至可能提供长达以周或者月为单位的预测。对于 SRE 来说,这在流量布局和老本管制方面可能带来很大的价值。

其次是边界的了解,这个很重要。对其余团队能力边界的含糊认知,可能会酿成线上故障或者是喜剧。机器学习的品质依赖于人工标注的数据品质,算法的能力边界可近似于标注人(群)的能力边界。如果业务团队对算法适度信赖,线上故障可能就不可避免了。假如业务团队将有问题的算法利用到一些十分外围的服务,并且齐全脱离人的束缚,这就好比齐全脱离人的主动驾驶,依据墨菲定理,必然出事。

当理解到能力和边界之后,团队间就须要通过互补来达到整体最优。AI 在其最善于的畛域做到高质高效升高人工精力耗费,传统运维则解决一些意外状况保障整体可用性。

  • 解耦业务,运维和算法

在落地的过程中至关重要的一步,就是将运维平台服务化和 API 化。

何为运维?何为落地?运维是指服务层 / 业务上的操作,那么 AI OPS 的落地就是算法后果作用于业务。然而如果在算法层间接调用业务运维接口或者间接批改数据库,那么首先危险是十分大的,其次耦合十分重大,反过来对于算法,业务和运维开发迭代效率都非常低。这对真正摸索阶段亟需疾速迭代的整个项目组来说,无疑是十分大的艰难。

为了解决下面的问题,咱们将 AI OPS 拆分成三层:

  • 第一层:AI 层
  • 第二层:决策层
  • 第三层:执行层

这三步做完之后,就能够把 AI 和运维解耦,其益处有 3 点:

一: 算法,决策,执行层能够独立开发,晋升模块研发效率。各模块尤其是算法能够进行疾速的迭代更新,同时能够防止 ” 牵一动员全身 ” 的状况,迭代的老本更低。对于摸索阶段 AI OPS,解耦是寻求落地的路上不可或缺的环节。

二: 零碎更强壮。决策层能够做更多防呆和安全策略,进步零碎鲁棒性。在面对繁多算法解体,或者后果输入异样,解决空间更大更优雅。

三: 可扩展性强。标准化的输出接口对于后续算法甚至其余自动化脚本的接入提供了更为便捷的接入办法。本质上在公司外部实现了 AI OPS 的标准化。

  • 将多指标转化为单个综合指标——化繁为简

多指标异样检测比单指标的更为简单,对数据品质和标注品质要求更高,其落地也更加艰巨。这时业务侧能够充分发挥互补能力,尽可能把多指标转换成一个综合指标。例如,延时、丢包和抖动都会影响网络传输体验,将其转化为一个综合指标优质传输率。该指标不仅可能精确反馈网络品质,对于算法团队训练单指标的算法模型也绝对比较简单,减速了 AI OPS 的落地。

  • “弱小”的算法不肯定是适合的算法

算法是 AI OPS 的外围。弱小的算法不肯定是最合适的算法,还关乎到成熟度和鲁棒性。

比方发动机是汽车的能源外围,弱小的发动机往往须要更高标号的汽油。同样地,更弱小的算法(例如深度学习)须要更高质量的数据。目前这个阶段,要求更高质量的数据,波及了一个很长的链路。在业务层要定义适合的指标;在传输的过程中,可能会有数据的失落,或者脏数据;在算法训练方面,须要大量的人工来标注。思考到这三点,在 AI OPS 晚期的挑战是相当大的,抉择以后阶段适宜业务的算法能更无效的推动落地。

此外还要思考业务。算法有两个要害指标:准确率、召回率。如果业务自身容错比拟大,能够放弃一些准确率,扩充一些召回率,这样对于用户体验也是比拟好的。

04 瞻望

基于长期指标思考,咱们心愿未来可能蕴含更多的摸索内容。一方面心愿把老本和效率思考进来,另一方面也心愿平台可能接入更多的服务。

往期回顾

RTE2021 回顾丨 HDR 技术产品实际与摸索

RTE2021 回顾丨基于 V-PCC 框架的点云视频编码与重构技术

RTE2021 回顾丨声网实时背景宰割算法钻研与利用落地

RTE2021 回顾丨智感超清:给你最优的视觉盛宴!

RTE2021 回顾丨 Flat 在线教室的开源初体验

RTE2021 回顾丨面向 RTE 场景的新一代 API 摸索和实际

RTE2021 回顾丨实时语音流动背地的品质监控

RTE2021 回顾丨一增两减,助力深度学习在实时推理场景中的利用

RTE2021 回顾丨面向 RTE 场景的新一代 API 摸索和实际

RTE2021 回顾丨实时语音流动背地的品质监控

RTE2021 回顾丨一增两减,助力深度学习在实时推理场景中的利用

RTE2021 回顾丨 WebRTC 漫漫成长路,下一个十年将走向何方?

RTE2021 回顾丨基于深度学习的音频编 / 解码的实现与落地挑战

正文完
 0