乐趣区

关于机器学习:sklearn-中的两个半监督标签传播算法-LabelPropagation和LabelSpreading

标签流传算法是一种半监督机器学习算法,它将标签调配给以前未标记的数据点。要在机器学习中应用这种算法,只有一小部分示例具备标签或分类。在算法的建模、拟合和预测过程中,这些标签被流传到未标记的数据点。

LabelPropagation

LabelPropagation 是一种在图中查找社区的疾速算法。它只应用网络结构作为领导来检测这些连贯,不须要预约义的指标函数或对于群体的先验信息。标签流传通过在网络中流传标签并基于标签流传过程造成连贯来实现。

靠近的标签通常会被赋予雷同的标签。单个标签能够在密集连贯的节点组中占主导地位,但在稠密连贯的区域中会遇到麻烦。标签将被限度在一个紧密连接的节点组中,当算法实现时,那些最终具备雷同标签的节点能够被视为同一连贯的一部分。该算法应用了图论,具体如下:-

LabelPropagation 算法以下列形式工作:-

  • 每个节点都应用惟一的标签进行初始化。
  • 这些标签通过网络流传。
  • 在每次流传迭代中,每个节点都会将其标签更新为最大街坊数所属的标签。
  • 当每个节点具备其街坊的少数标签时,标签流传算法达到收敛。
  • 如果达到收敛或用户定义的最大迭代次数,则标签流传算法进行。

为了演示 LabelPropagation 算法的工作原理,们应用 Pima Indians 的数据集,创立程序时,我导入了运行它所需的库

复制一份数据并且将 lable 列作为训练指标

应用 matplotlib 可视化:

应用随机数生成器随机化数据集中 70% 的标签。而后随机标签被调配 -1:-

在对数据进行预处理之后,定义因变量和自变量,别离为 y 和 X。y 变量是最初一列,X 变量是剩下的所有局部:-

应用 sklearn 的 LabelPropagation 数来标记所有未标记的数据点:-

准确率为发现它是 76.9%。

上面咱们看看另外一个算法 LabelSpreading。

LabelSpreading

LabelSpreading 也是一种风行的半监督学习办法。创立一个连贯训练数据集中样本的图,并通过图的边缘流传已知的标签来标记未标记的示例。

LabelSpreading 是由 Dengyong Zhou 等人在他们 2003 年题为“Learning with Local and Global Consistency”的论文中提出的的。半监督学习的要害是一致性的先验假如,这意味着:左近的点可能具备雷同的标签,并且同一构造上的点 (通常称为簇流形) 很可能具备雷同的标签。

LabelSpreading 能够认为是 LabelPropagation 的正则化模式。在图论中,拉普拉斯矩阵是图的矩阵示意,拉普拉斯矩阵的公式为:

L 是拉普拉斯矩阵,D 是度矩阵,A 是邻接矩阵。

上面是一个简略的无向图标记的例子和它拉普拉斯矩阵的后果

本文将应用 sonar 数据集演示如何应用 sklearn 的 LabelSpreading 函数。

这里的库比下面的多,所以简略解释一下:

  • Numpy 执行数值计算并创立 Numpy 数组
  • Pandas 解决数据
  • Sklearn 执行机器学习操作
  • Matplotlib 和 seaborn 来可视化数据,为可视化数据提供统计信息
  • Warning,用于疏忽程序执行期间呈现的正告

导入实现后应用 pandas 将读入数据集:

我应用 seaborn 创立了热图:-

先做一个就简略的预处理,删除具备高度相关性的列,这样将列数从 61 缩小到 58:

而后对数据进行打乱重排,这样在打乱的数据集中预测通常更精确,复制一个数据集的正本,并将 y_orig 定义为训练指标:

应用 matplotlib 来绘制数据点的 2D 散点图:-

应用随机数生成器随机化数据集中 60% 的标签。而后随机标签被调配 -1:-

在对数据进行预处理之后,定义因变量和自变量,别离为 y 和 X。y 变量是最初一列,X 变量是剩下的所有局部:-

而后应用 sklearn 的 LabelSpreading 算法对未标记的行进行训练和预测。

应用这种办法,可能达到 87.98% 的准确率:-

简略比照

1、labelspreading 中含有 alpha=0.2,alpha 称为夹紧系数,指的是采纳其街坊的信息而不是其初始标签的绝对量,若为 0,示意保留初始标签信息,若为 1,示意替换所有初始信息;设置 alpha=0.2,意味着始终保留 80% 的原始标签信息;

2、labelpropagation 应用从数据中结构的原始相似矩阵,不做批改;labelspreading 最小化具备正则化个性的损失函数,对噪声更加持重,迭代了原始图的修改版,并通过计算归一化拉普拉斯矩阵来标准化边权重。

3、同时 LabelSpreading 十分占用 CPU,物理内存占用率还好;LabelPropagation 的 CPU 占用率还好,十分占用物理内存,高纬度数据可能会有一些问题。

https://avoid.overfit.cn/post/928d67bc5c9146ee8b8b149301bbf8eb

作者:Tracyrenee

退出移动版