聚类 (Clustering) 是依照某个特定规范 (如间隔) 把一个数据集宰割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能汇集到一起,不同类数据尽量拆散。
聚类概述
聚类分析在机器学习和数据挖掘中起着不可或缺的作用。学习一个好的数据表示办法对于聚类算法是至关重要的。近年来,利用深度神经网络学习聚类敌对示意的深度聚类曾经广泛应用于各种聚类工作中。
咱们从数据源的角度对深度聚类进行剖析,
在不同数据源和初始条件下,从方法论、先验常识和体系结构等方面咱们能够将深度聚类办法分为四大类:
单视图深度聚类
半监督深度聚类
深度多视图聚类
深度转移聚类
如下图所示:
Deep single-view clustering
单视图深度聚类
对于传统的集群工作,咱们通常会假如数据具备雷同的模式和构造,那么这称为单视图或单模态数据。用深度神经网络 (DNNs) 提取这些数据的示意模式是深度聚类的一个重要特色。
那么,不同的利用深度学习的技术是与 DNN 的构造高度相干的。依据已有的论文提出的构造,咱们能够将算法具话为为五类:
基于 深度自编码器 (DAE) 的深度聚类
基于 深度神经网络 (DNN) 的深度聚类
基于 变分自编码器 (VAE) 的深度聚类
基于 生成反抗网络 (GAN) 的深度聚类
基于 图神经网络(GNN) 的深度聚类
Deep clustering based on semi-supervised learning
基于半监督学习的深度聚类
当遇到待处理的数据中蕴含有大量的先验束缚时,传统的聚类办法无奈无效的利用这些先验信息,然而半监督聚类是解决这一问题的无效办法。
通过在模型中增加附加信息作为束缚损失,能够使聚类办法成为半监督聚类办法。然而目前深度半监督聚类的钻研还未失去很好的摸索。
Deep clustering based on multi-view learning
基于多视图学习的深度聚类
在事实世界中,咱们遇到的数据通常来自不同的特色收集器或具备不同的构造,这些数据被称之为“多视图数据”或“多模态数据”,其中每个样本都有多个示意。
基于多视图学习的深度聚类,其目标是利用多视图数据中所蕴含的一致性和互补性信息来进步聚类性能。
目前深度多视图聚类能够大抵演绎为三大类:
基于深度嵌入聚类
基于子空间聚类
基于图神经网络聚类
Deep clustering based on transfer learning
基于迁徙学习的深度聚类
对于实例数量无限且维度较高的工作,有时咱们能够找一个助手来提供额定的信息。
例如,如果 工作 A 与另一个 工作 B 类似,而 工作 B 比 工作 A 具备更多的信息用于聚类(B 是有标记的 或 B 比 A 更容易聚类),那么将信息从 B 转移到 A 是有用的。
这就是常常遇到的无监督域适应 (unsupervised domain adaption, UDA) 迁徙学习,这种算法包含两个域:有标记的源域 和 无标记的指标域。
迁徙学习的指标是将从源工作中学到的常识或模式利用到不同但相干的指标工作中,基于迁徙学习的深度聚类办法旨在利用相干工作的信息进步以后聚类工作的性能。
相干函数映射关系