关于机器学习:机器学习模型集成管理介绍

3次阅读

共计 2987 个字符,预计需要花费 8 分钟才能阅读完成。

在本文中,我将尝试对 MLOps 进行敌对的介绍,并以简略的形式解释要害概念。作为一开始也感觉很难了解的人,我了解有必要对这个主题进行更简略的介绍。我心愿在浏览本文后,初学者可能更轻松地浏览无关 MLOps 的更高级文档。

1. MLOps 的动机

因为机器学习技术在各个钻研畛域的胜利,许多公司都试图将其纳入他们的软件系统,以提高效率和解决事实世界的问题。然而,对于许多公司而言,在生产环境中施行机器学习可能是一个具备挑战性且耗时的过程。此外,一旦部署,就必须治理和保护模型,并且必须监控其性能以确保其失常运行。这些工作在大型软件系统中尤其艰难。

另一方面,软件工程师应用 DevOps(开发和经营)范式,这是一组促成开发和经营团队之间合作和沟通的实际和工具,以开发和治理他们的零碎。这有助于放弃开发速度和品质。MLOps 旨在使这些 DevOps 准则实用于机器学习零碎。思考到这一背景,MLOps 到底是什么?

2. 定义

要定义 MLOps,让咱们从查看各种定义开始:

  1. “MLOps(机器学习操作)是一种范式,包含最佳实际、概念集以及机器学习的端到端概念化、施行、监控、部署和可扩展性方面的开发文化等方面产品。”
  2. “DevOps 办法的扩大,将机器学习和数据迷信资产作为 DevOps 生态中的一等公民”
  3. 咱们能够应用机器学习工程 (MLE) 的定义,其中 MLE 是应用机器学习和传统软件工程的迷信原理、工具和技术来设计和构建简单的计算零碎。MLE 涵盖从数据收集到模型构建的所有阶段,使模型可供产品或消费者应用。”(作者:A.Burkov)

基于后面的定义,咱们能够将 MLOps 了解为一组用于以高效、优化和有组织的形式设计、构建和部署机器学习模型的技术和实际。这些技术和实际通常在 MLOps 生命周期的上下文中进行探讨。

3. MLOps 生命周期

MLOps 生命周期由 MLOps 范例中波及的步骤和技术组成,从设计和开发机器学习模型到将其部署到生产环境中并随着工夫的推移对其进行监控和保护。它通常分为三个次要阶段:

  1. 第一阶段是设计过程,波及定义业务问题、模型的要求及其预期用例。这通常波及创立 AI/ML 画布。
  2. 第二阶段是模型开发过程,包含数据和模型工程。
  3. 第三阶段是涵盖模型部署和保护的操作过程。

在部署模型后,随着工夫的推移放弃模型的性能很重要,因而这些阶段通常以循环形式执行。这确保了模型运行良好并且依然满足第一阶段定义的需要。当初咱们曾经探讨了 MLOps 生命周期的各个阶段,让咱们检查一下 MLOps 工作流,它概述了在流程的每个阶段执行的特定工作和流动。

4. MLOps 工作流

MLOps 工作流概述了开发、部署和保护机器学习模型要遵循的步骤。在现实状况下,遵循工作流程就足够了:首先,理解业务问题,而后抉择、训练和部署模型。然而,在事实世界中状况并非总是如此。在任何时候,都可能须要返回到上一步。此外,在部署模型后,必须对其进行保护和监控,这就是了解 MLOps 生命周期和 MLOps 工作流很重要的起因。

4.1. 业务问题

MLOps 工作流程的第一步是理解业务问题,这波及定义模型的输出和输入,以及流程及其各种子工作。要构建此过程,您能够应用 AI(人工智能)画布或 ML(机器学习)画布,它们能够被视为组织 MLOps 工作流程的模板。AI 画布通常为 ML/AI 实现提供高级构造,而 ML 画布提供零碎的高级形容和细节。

让咱们举个例子!假如为了改良其产品,一家乳制品公司有趣味收集消费者的反馈。为此,须要对消费者对社交媒体平台上的产品的评论进行情绪剖析。机器学习技术可用于训练模型,将这些评论的情绪分类为侧面、负面或中性。这将使公司可能更好地理解客户对其产品的体验,并确定须要改良的中央。此业务问题形容已转换为 AI 画布和 / 或 ML 画布,以取得更清晰的示意:

  • 预测 / 预测工作:人工智能零碎将剖析文本输出并预测文本的情绪(侧面、负面或中性)。
  • 判断:零碎将应用自然语言解决技术来了解文本的含意和情感。
  • 口头 / 决策:基于预测的情绪,零碎可能会采取不同的口头,例如标记负面评论以供进一步审查或优先思考踊跃的社交媒体帖子以进行推广。
  • 后果:冀望的后果是零碎可能精确地对文本输出的情绪进行分类,从而进步客户满意度、更好的社交媒体参与度,或依据特定用例取得其余益处
  • 训练:零碎将在标记文本数据的数据集上进行训练,其中蕴含输出文本和相应的情感标签。
  • 输出 / 数据源:零碎将承受来自各种起源的文本输出,例如社交媒体帖子或客户评论。
  • 输入 / 做出预测:零碎将剖析文本输出并预测文本的情绪(侧面、负面或中性)。
  • 反馈:零碎可能会整合来自用户或利益相关者的反馈,以随着工夫的推移进步其性能,例如通过调整自然语言解决算法的参数或向训练数据集增加新数据。
  • 离线评估:零碎将应用精确度、召回率和 F1 分数等规范评估指标进行评估,以确保其精确地对文本输出的情感进行分类。
  • 实时监控:零碎将依据须要继续监控和更新,以确保它随着工夫的推移持续精确运行。

4.2. 数据工程

理解手头的业务问题后,MLOps 工作流程的下一步就是数据工程流程。这包含数据摄取、摸索和验证、数据清理、数据标记和数据拆分。

  • 数据摄取波及应用一组技术来收集数据、创立备份、爱护私人信息、创立元数据目录以及对测试集进行采样以防止数据窥探偏差。
  • 为了摸索和验证数据集,应用了一组统计和可视化技术。
  • 收集的数据通常有噪声、蕴含离群值和缺失值。这些问题会影响下一个过程,因而利用数据清理步骤来解决它们。
  • 当所选模型基于监督学习时,数据标记是必要的。此步骤能够手动、主动或半自动实现。
  • 数据拆分是此过程的最初一步,波及将数据划分为训练集、验证集和测试集。

4.3. 机器学习模型工程

MLOps 工作流程的第三步是机器学习工程,包含模型训练、模型评估、模型测试和模型打包。

  • 训练模型波及特色工程、代码审查和版本控制以及超参数调整。您可能想晓得为什么特色工程蕴含在这一步而不是上一步中。起因是在这一步测试了很多类型和架构的模型,所以所有模型的特色工程往往不一样。值得注意的是,在这一步抉择最合适的模型之前,训练和测试了几个模型。
  • 模型评估波及验证模型以确保它满足业务问题步骤中形容的业务指标。
  • 在模型测试步骤中,应用初始测试集进行模型验收测试。
  • 模型通过验证和测试后,最初一步是以特定格局导出模型,以便将其提供给业务应用程序。

4.4. 代码工程

在此步骤中,模型已筹备好部署到生产环境中。模型部署包含三个步骤:模型服务、性能监控和性能日志记录。

  • 要为模型提供服务,必须思考服务模式和部署策略。服务模式是指模型如何集成到软件中,例如将其集成为服务、作为依赖、应用预计算服务、按需服务或混合服务。部署策略是指用于包装模型的办法,例如将其部署为 Docker 容器或无服务器性能。
  • 监控模型波及察看模型的整体行为,例如其预测与先前模型性能的偏差。
  • 性能日志记录波及将模型预测的后果保留在日志记录中。

5. 总结

在本文中,咱们简要介绍了 MLOps。咱们探讨了对 MLOps 的需要,提出了各种定义,解释了 MLOps 生命周期,并形容了 MLOps 工作流程。如果您想理解无关 MLOps 的更多信息,我举荐 ml-ops.org 以获取更多信息。

这是对于 MLOps 的第一篇文章,当然不是最初一篇!我将编写更多对于 MLOps 及其各种技术的教程,并提供示例,敬请期待。如果您有任何问题或倡议,请随时在下方给我留言。

本文由 mdnice 多平台公布

正文完
 0