关于人工智能:如何解决AI落地难题构建统一协作的企业级AI平台

在国内政策疏导、企业产业智能降级的原生需要和疫情等多重因素作用下，中国的人工智能产业化利用在过来的5年间呈现出无可比拟的增长速度。2020年的中国人工智能软件市场规模曾经超过了230亿元人民币，即使在疫情等内部因素考验下，仍旧迎来了安稳的增长。

然而随着利用市场的下沉，市场上仍旧不足普惠的AI工具，即使在企业领有相干开发、建模人才的状况下，AI科学家和业务人员之间仍旧存在技术鸿沟。他们习惯应用各自的平台和工具进行数据分析或建模工作，这些数据资产被扩散在企业各个角落，造成了模型的反复构建和资源的孤岛林立。而这些人才无奈在同一个AI平台上一起合作，施展出他们各自的劣势能力，这是AI落地目前面临最大的挑战。

企业AI落地，到底难在哪里

企业在波及到人工智能业务时，其研发流程需经验从明确业务问题->数据采集及荡涤->特色工程->模型训练及打包->模型评估及验证->模型部署及上线->A/B test，以及模型监控和迭代的工作流程。整个链条十分长，容易波及到多个平台间的切换。在任何环节呈现性能短板或缺失，都会影响模型的开发效率和开发品质，或导致模型无奈及时在理论业务当中部署利用。

图片
图1：AI模型研发流程

在AI建模全生命周期中，波及到企业内各类角色的合作，如：行业/领域专家、数据科学家、数据工程师、开发者/DevOps专家等等。这些角色均有各自善于的技能，能够为AI建模的某些流程奉献智慧，如行业/领域专家对业务有深刻洞见，善于通过数据构建业务模型；数据科学家善于数据分析、特色加工、ML模型开发及测试；数据工程师善于进行数据收集、数据治理和数据加工；开发者/DevOps专家善于软件工具及基础设施的构建与保护，帮忙数据科学家将ML模型转化为理论生产力。

图片
图2：AI相干人才技能地图（起源：Gartner）

这些角色因为业余背景和职能的不同，都习惯应用各自的平台或工具推动工作，在流程连接方面会存在大量重复性数据、环境适配工作，造成AI模型开发的周期大大拉长，且无奈进行数据、模型等资源的对立治理和资产积淀。

星环科技推出Sophon MLOps——

模型落地和AI合作的加速器

为解决AI落地难的问题，星环科技的AI团队从用户需要端登程，倾力研发了一款基于云原生架构的企业级AI能力经营平台Sophon MLOps，助推AI模型落地，帮忙各种相干角色应用同一个平台进行模型构建和流程严密合作，并且为AI落地的每一环流程进行了优化，为所有使用者提供便捷的体验。

MLOps与DevOps相似，是机器学习过程治理的实践性方法论。MLOps平台为用户串联起了从模型设计、开发到经营的全生命周期，并提供自动化的性能，无效进步各环节的工作效率。

图片
图3：MLOps的定义

对于各用户角色而言，都能凭借Sophon Base根底建模平台及MLOps运维平台提供的个性化性能，取得不同工作环节上的效率晋升，比方：为业务剖析人员提供了低代码性能，封装了200多个算子可供点击应用；为数据科学家提供了高性能的分布式模型开发&训练环境及在线Notebook性能，不便其进行数据摸索、特色工程及模型构建工作；为数据工程师提供了不便的模型打包、上架和调试性能，不便其疾速将模型上架到理论生产环境；为前台业务人员提供了API调用、A/B test及报告生成性能，不便其疾速获取后果数据，并及时查看不同模型对业务的实际效果，并能够发送到数据科学家手中，进行后续的模型迭代和调优工作。

性能示例：

1、反对多个模型的简单推理图构建

Sophon MLOps反对对立纳管XGBoost、MLflow、TensorFlow、PyTorch、Scikit-learn等多种训练框架的模型，以及Sophon Base中通过可视化建模和编程式建模训练失去的模型。按模型推理逻辑，图形化搭建服务推理图，并对立利用模型文件。

▼

2、疾速配置资源参数，反对灰度公布

平台反对疾速配置CPU、内存、GPU等服务资源参数，并将推理图打包为服务镜像，公布为在线服务，且可配置服务弹性伸缩策略。服务部署反对灰度公布，可依据理论须要灵便配置流量分配比例。
▼

3、服务上线后的测试

对于已公布上线的模型服务，通过API接口对接上游业务零碎数据，实现模型实时预测。

▼

4、服务监控（查看运行状态、访问量、响应工夫、拜访记录等）

平台反对运维人员对立监控模型运行状态，管制生产环境危险，并多维度评估模型预测成果，为继续迭代模型提供参考。

▼

5、主动生成模型性能评估报告（反对A/B test比照报告）

反对模型性能评估报告查看、一键下载等性能，并反对抉择多个模型进行A/B test比照报告疾速生成，帮忙决策者对模型优劣进行基于量化性能指标的决策。

▼

6、模型服务审计性能

反对以单个服务维度查看的模型服务运行状态的审计性能。

▼

模型资产方面，Sophon MLOps提供了用户残缺的统计大屏，对于现有模型数量、运行状态、服务推理、模型评估、操作审计、节点状况高深莫测。企业所有的AI相干的模型资产均可汇聚到MLOps进行对立的纳管、运维、监控和利用，真正做到了AI维度上的买通。

图片
图4：MLOps用户大屏

云原生方面，Sophon MLOps基于云原生设计，提供容器云、微服务的架构，不便用户对服务/利用进行主动、疾速部署和调度，对集群进行不便的运维和平安管控。

流程治理方面，因为Sophon MLOps反对从数据集到模型开发、模型训练到模型上线的全过程，所有角色进行的逐个环节操作在平台上均有记录留存。一旦模型上线之后呈现问题，能够依据模型服务回溯到模型版本和模型训练的过程到训练数据集，能够实现“发现问题，疾速追溯”。

兼容性方面，Sophon MLOps提供了弱小的兼容性和可扩展性，其AI能力在将来会一直延长。Sophon MLOps兼容最新的开源算法框架、平台及基础设施，并与TDH、Sophon Base、Slipstream（数据实时接入）、FIDE（实时智能决策）高度兼容。数据类型方面，除了结构化数据建模之外，还反对图谱剖析及计算机视觉等延长性能。用户无需放心一旦有新的开源计算框架或运行环境呈现，现有平台不反对不兼容等问题。

图片
图5：Sophon MLOps性能架构

Sophon MLOps买通了AI的全生命周期，为企业的各类用户角色搭建了对立的AI合作平台。对于企业而言，MLOps规模化集成治理了多源异构的机器学习模型，并提供高效且保障隐衷平安的模型推理、监控预警及性能评估服务；对用户而言，能感触到操作上的快捷，AI利用与部署更是锦上添花。

将来，MLOps将持续迭代更加丰盛的性能，赋能企业AI更快、更好地落地。