关于人工智能:如何解决AI落地难题构建统一协作的企业级AI平台

26次阅读

共计 2707 个字符，预计需要花费 7 分钟才能阅读完成。

在国内政策疏导、企业产业智能降级的原生需要和疫情等多重因素作用下，中国的人工智能产业化利用在过来的 5 年间呈现出无可比拟的增长速度。2020 年的中国人工智能软件市场规模曾经超过了 230 亿元人民币，即使在疫情等内部因素考验下，仍旧迎来了安稳的增长。

然而随着利用市场的下沉，市场上仍旧不足普惠的 AI 工具，即使在企业领有相干开发、建模人才的状况下，AI 科学家和业务人员之间仍旧存在技术鸿沟。他们习惯应用各自的平台和工具进行数据分析或建模工作，这些数据资产被扩散在企业各个角落，造成了模型的反复构建和资源的孤岛林立。而这些人才无奈在同一个 AI 平台上一起合作，施展出他们各自的劣势能力，这是 AI 落地目前面临最大的挑战。

01

企业 AI 落地，到底难在哪里

企业在波及到人工智能业务时，其研发流程需经验从明确业务问题 -> 数据采集及荡涤 -> 特色工程 -> 模型训练及打包 -> 模型评估及验证 -> 模型部署及上线 ->A/B test，以及模型监控和迭代的工作流程。整个链条十分长，容易波及到多个平台间的切换。在任何环节呈现性能短板或缺失，都会影响模型的开发效率和开发品质，或导致模型无奈及时在理论业务当中部署利用。

图片
图 1：AI 模型研发流程

在 AI 建模全生命周期中，波及到企业内各类角色的合作，如：行业 / 领域专家、数据科学家、数据工程师、开发者 /DevOps 专家等等。这些角色均有各自善于的技能，能够为 AI 建模的某些流程奉献智慧，如行业 / 领域专家对业务有深刻洞见，善于通过数据构建业务模型；数据科学家善于数据分析、特色加工、ML 模型开发及测试；数据工程师善于进行数据收集、数据治理和数据加工；开发者 /DevOps 专家善于软件工具及基础设施的构建与保护，帮忙数据科学家将 ML 模型转化为理论生产力。

图片
图 2：AI 相干人才技能地图（起源：Gartner）

这些角色因为业余背景和职能的不同，都习惯应用各自的平台或工具推动工作，在流程连接方面会存在大量重复性数据、环境适配工作，造成 AI 模型开发的周期大大拉长，且无奈进行数据、模型等资源的对立治理和资产积淀。

02

星环科技推出 Sophon MLOps——

模型落地和 AI 合作的加速器

为解决 AI 落地难的问题，星环科技的 AI 团队从用户需要端登程，倾力研发了一款基于云原生架构的企业级 AI 能力经营平台 Sophon MLOps，助推 AI 模型落地，帮忙各种相干角色应用同一个平台进行模型构建和流程严密合作，并且为 AI 落地的每一环流程进行了优化，为所有使用者提供便捷的体验。

MLOps 与 DevOps 相似，是机器学习过程治理的实践性方法论。MLOps 平台为用户串联起了从模型设计、开发到经营的全生命周期，并提供自动化的性能，无效进步各环节的工作效率。

图片
图 3：MLOps 的定义

对于各用户角色而言，都能凭借 Sophon Base 根底建模平台及 MLOps 运维平台提供的个性化性能，取得不同工作环节上的效率晋升，比方：为业务剖析人员提供了低代码性能，封装了 200 多个算子可供点击应用；为数据科学家提供了高性能的分布式模型开发 & 训练环境及在线 Notebook 性能，不便其进行数据摸索、特色工程及模型构建工作；为数据工程师提供了不便的模型打包、上架和调试性能，不便其疾速将模型上架到理论生产环境；为前台业务人员提供了 API 调用、A/B test 及报告生成性能，不便其疾速获取后果数据，并及时查看不同模型对业务的实际效果，并能够发送到数据科学家手中，进行后续的模型迭代和调优工作。

性能示例：

1、反对多个模型的简单推理图构建

Sophon MLOps 反对对立纳管 XGBoost、MLflow、TensorFlow、PyTorch、Scikit-learn 等多种训练框架的模型，以及 Sophon Base 中通过可视化建模和编程式建模训练失去的模型。按模型推理逻辑，图形化搭建服务推理图，并对立利用模型文件。

▼

2、疾速配置资源参数，反对灰度公布

平台反对疾速配置 CPU、内存、GPU 等服务资源参数，并将推理图打包为服务镜像，公布为在线服务，且可配置服务弹性伸缩策略。服务部署反对灰度公布，可依据理论须要灵便配置流量分配比例。
▼

3、服务上线后的测试

对于已公布上线的模型服务，通过 API 接口对接上游业务零碎数据，实现模型实时预测。

▼

4、服务监控（查看运行状态、访问量、响应工夫、拜访记录等）

平台反对运维人员对立监控模型运行状态，管制生产环境危险，并多维度评估模型预测成果，为继续迭代模型提供参考。

▼

5、主动生成模型性能评估报告（反对 A /B test 比照报告）

反对模型性能评估报告查看、一键下载等性能，并反对抉择多个模型进行 A /B test 比照报告疾速生成，帮忙决策者对模型优劣进行基于量化性能指标的决策。

▼

6、模型服务审计性能

反对以单个服务维度查看的模型服务运行状态的审计性能。

▼

模型资产方面，Sophon MLOps 提供了用户残缺的统计大屏，对于现有模型数量、运行状态、服务推理、模型评估、操作审计、节点状况高深莫测。企业所有的 AI 相干的模型资产均可汇聚到 MLOps 进行对立的纳管、运维、监控和利用，真正做到了 AI 维度上的买通。

图片
图 4：MLOps 用户大屏

云原生方面，Sophon MLOps 基于云原生设计，提供容器云、微服务的架构，不便用户对服务 / 利用进行主动、疾速部署和调度，对集群进行不便的运维和平安管控。

流程治理方面，因为 Sophon MLOps 反对从数据集到模型开发、模型训练到模型上线的全过程，所有角色进行的逐个环节操作在平台上均有记录留存。一旦模型上线之后呈现问题，能够依据模型服务回溯到模型版本和模型训练的过程到训练数据集，能够实现“发现问题，疾速追溯”。

兼容性方面，Sophon MLOps 提供了弱小的兼容性和可扩展性，其 AI 能力在将来会一直延长。Sophon MLOps 兼容最新的开源算法框架、平台及基础设施，并与 TDH、Sophon Base、Slipstream（数据实时接入）、FIDE（实时智能决策）高度兼容。数据类型方面，除了结构化数据建模之外，还反对图谱剖析及计算机视觉等延长性能。用户无需放心一旦有新的开源计算框架或运行环境呈现，现有平台不反对不兼容等问题。

图片
图 5：Sophon MLOps 性能架构

Sophon MLOps 买通了 AI 的全生命周期，为企业的各类用户角色搭建了对立的 AI 合作平台。对于企业而言，MLOps 规模化集成治理了多源异构的机器学习模型，并提供高效且保障隐衷平安的模型推理、监控预警及性能评估服务；对用户而言，能感触到操作上的快捷，AI 利用与部署更是锦上添花。

将来，MLOps 将持续迭代更加丰盛的性能，赋能企业 AI 更快、更好地落地。

正文完