关于程序员:半监督学习入门基础一

3次阅读

共计 1611 个字符,预计需要花费 5 分钟才能阅读完成。

半监督学习 (SSL) 是一种机器学习技术,其中工作是从一个小的带标签的数据集和绝对较大的未带标签的数据中学习失去的。SSL 的指标是要比独自应用有标记数据训练的监督学习技术失去更好的后果。这是半监督学习系列文章的第 1 局部,对这个机器学习的重要子畛域进行了简要的介绍。

辨别半监督学习,监督学习和无监督学习

整个数据集中可用于训练的有标记数据的范畴辨别了机器学习的这三个相干畛域。

监督学习 是机器学习中最风行的模式,在这种模式中,能够通过标签的模式取得残缺的监督。整个数据集都有标记,即一个标签与训练数据集中的每个样本相关联。机器学习模型应用这个标签数据集训练,并冀望对新的样本预测一个标签。

监督学习次要包含两类工作:分类和回归。分类问题要求算法预测一个离散值,而回归工作是须要从输出变量 (X) 迫近一个映射函数 (f) 到间断输入变量 (y)。
手写数字辨认 应用 (MNIST) 数据集。每个样本都有一个图像和对应的数字作为标签。工作是学习从图像中预测标签(即数字)。

另一个例子是情感分类,应用 IMDB 数据集。每条记录都蕴含一个评论和一个相应的标签 (侧面的或负面的)。这里的工作是预测给定评论的情绪。
房价预测是一个回归工作,其中标签 (房价) 是一个连续变量。
在无监督学习中,没有标记数据可用。训练数据集蕴含样本,但没有特定的冀望后果或标签。机器学习模型试图通过提取有用的特色并对其进行剖析来主动地在数据中找到构造。像聚类、异样检测、关联等工作属于无监督学习。
聚类 是将数据集划分为多个簇,使同一簇中的数据点与同一簇中的其余数据点更类似,与其余簇中的数据点不类似。例如,下图 (左) 中的数据点能够分成 3 个簇,如图 (右) 所示。留神,簇能够是任何形态。

半监督式学习(SSL),正如其名称所示,介于两个极其之间(监督式是指整个数据集被标记,而非监督式是指没有标记)。半监督学习工作具备一个标记和一个未标记的数据集。它应用未标记的数据来取得对数据结构的更多了解。通常,SSL 应用小的带标签数据集和较大的未带标签数据集来进行学习。

咱们的指标是学习一个预测器来预测将来的测试数据,这个预测器比独自从有标记的训练数据中学习的预测器更好。

为什么要关注半监督学习

在许多理论利用中,收集大的有标签数据集太低廉或者不可行,然而有大量的无标签数据可用。对于这种状况,半监督学习是一个完满的计划。SSL 技术能够利用带标签的数据,也能够从未带标签的数据派生构造,从而更好地解决总体工作。
典型的监督学习算法在标记数据集较小的状况下,容易呈现过拟合问题。SSL 通过在训练过程中了解未标记数据的构造来缓解这个问题。
此外,这种学习技术加重了构建大量标记数据集来学习工作的累赘。SSL 办法更靠近咱们人类的学习形式。
让咱们举个例子来直观地看看半监督学习的成果。在上面的图中,当只对标记数据 (大的黑点和白点) 进行训练 (即对标记数据进行监督学习) 时,决策边界 (虚线) 并不遵循数据“流形”的轮廓,这能够由额定的未标记数据 (小灰点) 来示意。
因而,SSL 的指标是利用未标记数据来生成决策边界,从而更好地反映数据的底层构造。

半监督学习的工作举例

CIFAR-10 — 它是由 10 个类的 32×32 像素的 RGB 图像组成的数据集,工作是图像分类。通常应用 Tiny Images 数据集中的随机图像来造成未标记数据集。
SVHN —  街景门牌号数据集由实在门牌号的 32×32 像素的 RGB 图像组成,工作是分类最两头的数字。它附带一个“SVHN-extra”数据集,该数据集由 531,131 个额定的数字图像组成,能够用作未标记数据。
Text-Classification Tasks — 亚马逊评论数据库,Yelp 评论数据集。

总结

半监督学习是一种乏味的办法,用于解决机器学习中不足标记数据的问题。SSL 算法还利用未标记数据来进步监督学习算法的性能。SSL 算法通常提供了一种从无标签示例中理解数据结构的办法,加重了对标签的需要。

正文完
 0