关于人工智能:MindSpore跟着小Mi一起机器学习吧大规模机器学习

48次阅读

共计 2844 个字符,预计需要花费 8 分钟才能阅读完成。

一周未见,甚是惦记,明天小 Mi 带大家学习大规模机器学习 (Large Scale Machine Learning)!废话不多说,咱们开始吧~

1 大规模数据集的必要性

如果有一个低方差模型,减少数据集的规模能够帮忙取得更好的后果。咱们应该怎么应答一个有 100 万条记录的训练集?

以线性回归模型为例,每一次梯度降落迭代都须要计算训练集的误差平方和,通常 20 次迭代就曾经是十分大的计算量了。

当然啦,从逻辑上来说,咱们首先须要确认一个这么大规模的训练集是否真的有必要,兴许只用 1000 个训练集同样也能取得较好的成果,这时候绘制学习曲线就会起到很大的作用来帮忙判断。

2 随机梯度降落

如果上节中曾经确认必须应用大规模的训练集了,那么应该怎么解决呢?这时候就能够尝试应用随机梯度降落法来代替批量梯度降落法。

在随机梯度降落法中,定义代价函数为一个繁多训练实例的代价:

随机梯度降落算法:

首先对训练集随机“洗牌”,

而后:

随机梯度降落算法在每一次计算之后便更新参数,而不是先将所有的训练集求和,在梯度降落算法还没有实现一次迭代时,随机梯度降落算法便运行了很多步骤了。当然啦,every coin has two sides,这样的算法要害的问题是,并非每步都是朝着”正确”的方向迈出的。因而算法尽管会逐步走向全局最小值的地位,然而可能无奈达到最小值的那一点,只会在最小值点左近彷徨。

3 小批量梯度降落

小批量梯度降落算法是介于批量梯度降落算法和随机梯度降落算法之间的算法,每计算次训练实例,便更新一次参数。

通常令的数值在 2 -100 之间。这样能够用向量化的形式来循环个训练实例,如果用的线性代数函数库比拟好,可能反对平行解决,那么算法的总体体现将不受影响(与随机梯度降落雷同)。

4 随机梯度降落收敛

而随机梯度降落算法又该如何调试并选取习率呢?

在批量梯度降落中,令代价函数为迭代次数的函数,绘制图表,依据图表来判断梯度降落是否收敛。然而在大规模训练集的状况下,这是十分不事实的,因为计算代价太大了。

在随机梯度降落中,咱们在每一次更新之前都计算一次代价,而后每次迭代后,求出这次对训练实例计算代价的平均值,而后绘制这些平均值与次迭代的次数之间的函数图表。

当绘制这图表时,可能会失去一个平稳不平然而不会显著缩小的函数图像(如下面左下图中蓝线所示)。能够减少来使得函数更加平缓,兴许便能看出降落的趋势了(如下面左下图中红线所示);或者可能函数图表依然是平稳不平且不降落的(如粉红色线所示),那么模型自身可能就存在一些谬误。

如果失去的曲线如下面右下方所示,一直地回升,那么就须要抉择一个较小的学习率。

当然也能够令学习率随着迭代次数的减少而减小,例如:

随着一直地凑近全局最小值,通过减小学习率,使得算法收敛而不是在最小值左近彷徨。不过绝大多数状况下是并不需要这样做便曾经能有十分好的成果了,对进行调整所消耗的计算通常没必要啦。

也就是说,小 Mi 给大家介绍了一种办法:近似地监测出随机梯度降落算法在最优化代价函数中的体现,不须要定时地扫描整个训练集来算出整个样本集的代价函数,而是只须要每次对最初 1000 个,或者多少个样本求下平均值。利用这种办法,既能够保障随机梯度降落法在失常运行和收敛,也能够用它来调整学习速率的大小。

5 在线学习

当初有一种新的大规模的机器学习机制,叫做在线学习机制。在线学习机制让咱们能够模型化问题。

许多大型网站应用不同版本的在线学习机制算法,从少量的涌入又来到网站的用户身上进行学习。如果有一个由间断的用户流引发的间断数据流进入网站,那么就能够从数据流中学习用户的偏好,而后应用这些信息来优化一些对于网站的决策。

在线学习算法指的是对数据流而非离线的静态数据集的学习。许多在线网站都有继续一直的用户流,对于每一个用户,网站心愿能在不将数据存储到数据库中便顺利地进行算法学习。

假设某物流运输公司,用户们在该公司网站上查问把包裹从 A 地运到 B 地的服务,而后网站便会开出运输包裹的 **。比方,PLAN.C 打算收取 50RMB,PLAN.D 打算收取 20RMB,而后依据开给用户的价格,用户有时会承受这个运输服务,那么这就是个正样本,有时他们会走掉,回绝购买该公司的运输服务,这就是一个负样本。因而,咱们能够通过一个学习算法来帮忙该公司正当迷信地进行运输服务的定价。

倘若每当一个用户询问从地点 A 至地点 B 的费用时,给用户一个报价,该用户可能抉择承受或不承受。

当初,构建一个模型来预测用户承受报价应用该公司物流服务的可能性。因而报价是其中一个特色,其余特色比方间隔,起始地点,指标地点以及特定的用户数据。模型的输入是:。

在线学习的算法与随机梯度降落算法有些相似,对繁多的实例进行学习,而非对一个提前定义的训练集进行循环。

一旦对一个数据的学习实现了,便能够抛弃该数据并不再进行存储。这种形式的益处在于,算法能够很好地适应用户的倾向性,针对用户的以后行为一直地更新模型以适应该用户。

同时,每次交互事件并不只产生一个数据集,例如,一次性给用户提供 3 个物流选项,用户抉择 2 项,实际上取得的是 3 个新的训练实例,从而算法能够对这 3 个实例进行学习并不断更新模型。

这些问题中的任何一个都能够被归类到规范的,领有一个固定的样本集的机器学习问题中。当然也能够保留数据集,而后对其运行一个学习算法。然而更多更宏大的数据保留的代价就更大,真的没有必要来保留一个固定的数据集,取而代之的是能够应用在线学习算法来间断地学习,从这些用户一直产生的数据中来学习,这就是在线学习机制。该算法与随机梯度降落算法十分相似,惟一的区别的是不会应用一个固定的数据集,取而代之的是获取一个用户样本,从那个样本中学习,而后抛弃那个样本并继续下去。当然,在线学习还有一个长处就是,如果有一个变动的用户群,又或者网站在尝试预测的事件正在迟缓变动,在线学习算法就能够缓缓地调试学习到的假如,将其调节更新为最新的用户行为。

6 映射化简

映射化简对于大规模机器学习问题而言是十分重要的概念。如果用批量梯度降落算法来求解大规模数据集的最优解,须要对整个训练集进行循环,计算偏导数和代价,再求和,这样一来计算量将会十分大。如果可能将数据集调配给多台计算机,让每一台计算机解决数据集的一个子集,而后将计算的后果汇总再求和,这样的办法叫做映射简化。

具体而言,如果任何学习算法可能表白为,对训练集的函数的求和,那么便能将这个任务分配给多台计算机(或者同一台计算机的不同 CPU 外围),以达到减速解决的目标。

例如,有 400 个训练实例,能够将批量梯度降落的求和任务分配给 4 台计算机进行解决:

很多高级的线性代数函数库曾经可能利用多核 CPU 的多个外围来并行地解决矩阵运算,这也是算法的向量化实现如此重要的缘故(比调用循环快)。

以上便是小 Mi 给大家带来的对于大规模机器学习的介绍,下周小 Mi 带大家进行一个入手实际,而后咱们的机器学习系列也就要跟大家说再见啦,不过不必放心呦,小 Mi 的新系列也会随之上线!

咱们,下周再见呦(挥手十分钟!)

正文完
 0