关于机器学习:机器学习模型的生命周期

20次阅读

共计 2144 个字符,预计需要花费 6 分钟才能阅读完成。

动动发财的小手,点个赞吧!

您的模型如何变动?Source

诞生

当咱们构建、训练、拟合或预计咱们的模型时,这些数字工具就诞生了。这个阶段简直从领有剖析指标、数据、计算机、算法以及数据科学家当初曾经十分理解的其余所有开始。无论您收集什么其余工具,永远不要遗记剖析或迷信指标,以便您的最终模型有意义并满足特定需要。你的模特什么时候出世的?当您实现培训并将其保留以供待业 / 部署时,该工具的生命周期就开始了。

这个新生儿有什么前途?这将取决于剖析指标,因而咱们在构建它时不能遗记这部分。该模型能够服务于预测工作、指标解释或假如情景模仿,以及许多其余抉择。这个工具将用于某些事件。能够是简略疾速的事件,也能够是简单、耗时和长期的事件。这种应用将决定该模型的残余寿命。如果该模型用于参数的一次性解释,那么生命就没有多少了。然而,如果该模型用于预测,并且旨在为具备在线数据收集的零碎提供服务,那么生命就在这个新生儿背后。接下来是什么?

保护

随着咱们持续应用该模型,反对模型训练的数据条件将开始发生变化。就在那个变动的时候,模型也开始经验变动。如果咱们在训练时建设一个预测精度高的散失预测模型,那么在不久或边远的未来,要预测的客户的条件或行为就会开始发生变化。这种变动挑战了咱们学习模型的预测性能。当这些变动产生时,咱们的模型进入一个新阶段,咱们称之为保护。

在维护阶段,咱们可能须要新数据。有了它,咱们能够更新模型的规格。这与应用另一台机器(例如汽车)并在机器无奈失常工作时调整整机没有什么不同。咱们不会深入探讨执行模型保护的策略或解决方案,但一般来说,咱们的模型须要经验一个调整过程能力使它们复原到令人满意的性能。

保护机器学习模型与从新训练模型并不完全相同。有些模型可能非常简单,以至于用更新的数据从新训练它们也同样简略。这可能是线性架构或具备很少层和神经元的网络的状况。然而当模型如此简单且具备大型和深层架构时,维护阶段须要比从新训练模型的费用简略得多。这是当今机器学习畛域最重要的主题之一,因为这些工具十分弱小,但从久远来看保护起来却十分低廉。

调整或更新模型后,它就能够复原应用了,因而模型正在服务的任何过程都能够持续应用更新后的版本。咱们的机器能够持续应用。尽管如此,这台机器曾经产生了变动。如果你违心的话,它曾经被应用、耗费,并且曾经转变为与原始状态略有不同的货色。就像铅笔一样,咱们的模型会遇到咱们须要削尖它们的尖端以爱护它们以便咱们能够持续应用它们的时刻。

迁徙

在机器学习的路线上,咱们可能须要走一个进口:转移。当我第一次看到有人调换他们的汽车轮胎在结冰的路上行驶时,我已经拜访过令人惊叹的冰岛。而后当他们回到城市时,他们又换回了一般轮胎。当我开始钻研迁徙学习时,这个概念变得如此清晰,同时还记得冰岛汽车轮胎的转换。当新的环境 / 畛域开始发挥作用时,咱们的模型会进入一个称为迁徙的新阶段。

正如同一辆汽车能够通过更换轮胎而无需购买另一辆独自的汽车来适应不同的高空一样,咱们能够增加或调整咱们模型的某些局部以服务于新畛域的新目标,而无需构建新模型。迁徙学习是机器学习文献中的另一个钻研子畛域,旨在优化模型的调整以简化新环境下训练模型的工作。风行的例子是图像识别模型。咱们用某些类别的图像训练它们,而后其他人转移这些模型以辨认新类别的图像。许多企业当初应用 RegNet、VGG、Inception 或 AlexNet 等模型来调整它们以满足本人的需要。

当咱们转移一个模型时,在某种程度上,一个新模型诞生了,它有本人的生命周期,与原来的模型离开。它将像原始模型一样须要保护。有了这个,咱们曾经从领有一个初始实体到可能创立一整套模型。毫无疑问,这些数字工具背地的确存在生命周期。

咱们的模型会死吗?

简短的答复是:是的。例如,当它们的剖析性能在零碎上不尽如人意,或者当它们变得如此宏大和如此不同以至于原始模型已成为过来时,它们的确能够进行存在。正如咱们在开始时所说,岩石、铅笔和汽车在某个时候都会进行存在。在这方面,模型与这些货色没有什么不同。

只管该模型可能会灭绝,但直到明天,对它们何时达到这一点的问题的答案是咱们在机器学习钻研社区中想要答复的最大问题。监控机器学习和模型保护性能的许多倒退都与模型何时不再起作用的问题无关。

这个答案不是微不足道的起因之一是因为咱们一直须要标签来量化性能的满意度。但机器和统计学习最大的悖论恰好是标签不可用,而咱们构建这些工具来预测它们。另一个起因是,定义性能变动的承受限度可能十分主观。尽管科学家能够提出一些限度,但企业可能有不同的容忍度。

以下是数据科学家在答复这个问题(以后未解决的问题)时也能够思考的一些要点:

  • 训练数据是否过期?(什么是“太过期了”)
  • 以后版本与模型的原始版本有多类似?(什么是“类似”?)
  • 输出特色的可变性和与指标变量的关系是否齐全漂移了?(协变量和概念漂移,机器学习保护钻研中的两个最大课题)。
  • 部署模型的物理过程是否还在应用?如果物理基础设施不再反对模型的部署,这无疑标记着其生命周期的完结。

不再为模特而活并不一定是消极的事件,更像是她们的一条进化之路。咱们须要理解它的生命周期,以使咱们的物理和数字零碎放弃最新状态并具备令人满意的性能。

本文由 mdnice 多平台公布

正文完
 0