关于机器学习:MindSpore跟着小Mi一起机器学习吧聚类算法

33次阅读

共计 2511 个字符,预计需要花费 7 分钟才能阅读完成。

一周未见,甚是惦记!明天小 Mi 带大家学习聚类算法!也就是支流的监督学习算法咱们曾经学完了,本期咱们开始接触无监督学习算法。废话不多说,跟着小 Mi 开始学习吧~

1 无监督学习
什么是无监督学习呢?首先咱们先回顾下十分相熟的监督学习算法:通常典型的监督学习中会有一个带有标签的训练集,依据这个训练集能够拟合假如函数,从而找到可能辨别正样本和负样本的决策边界。那么无监督学习大家从字面上是不是曾经能够了解啦?顾名思义,无监督学习的数据没有附带任何标签,计算机须要自主学习无标签数据。

图中的训练集能够写成,没有标签。也就是说,在非监督学习中,将一系列无标签的训练数据,输出到一个算法中,而后通过算法找出数据的外在关联和构造。而上图中的数据看起来能够分成两个离开的点集(称为簇),如果算法能够找出这些点集,那么该算法就能够称之为聚类算法。

那么聚类算法个别用来做什么呢?

比方市场宰割——某金融机构数据库中存储了许多客户的信息,将他们分成不同的客户群,这样就能够对不同类型的客户别离销售产品或者别离提供更适宜的服务。社交网络分析:网络公司会关注用户的一些信息,比如说:你常常跟哪些人分割,而这些人又常常给哪些人发邮件,由此能够找到关系密切的人群。当然,还能够应用聚类算法来更好地治理数据中心、理解星系的造成等等。

2 K-Means
而聚类算法中比拟常见的有 K - 均值聚类算法——算法将一个未标记的数据会聚类成不同的组。

K- 均值是一个迭代算法,假如有一个无标签的数据集如图所示,将其分为两个簇,执行 K 均值算法,具体操作如下:

第一步随机生成两点,这两点就能够称之为聚类核心,也就是图上两个叉的地位。

K- 均值算法的次要工作就是簇调配和挪动聚类核心。每次内循环的第一步就是进行簇调配,也就是遍历每个样本(图上的每个绿点),而后依据每一个点是与红色聚类核心更近还是蓝色聚类核心更近来将每个数据点调配给两个聚类核心之一。

具体来说,就是遍历数据集,而后将每个点归为红色营垒还是蓝色营垒,这就是簇调配的工作内容。

而内循环的第二步就是挪动聚类核心,将两个聚类核心挪动到同色点的均值处,所以咱们须要找出所有的红点而后计算出它们的均值(红色点的均匀地位),而后把红色的聚类核心挪动过来,蓝色的聚类核心也同理。而后将这两个步骤始终循环,最终直至红色和蓝色聚类核心不再扭转,这时 K 均值便已聚合。

总结来说,K 均值聚类算法的工作步骤如下:

1. 随机初始化个聚类核心,;

2. 对于数据集中的训练样本(),计算与个中心点的间隔,与间隔最近的中心点关联起来,与同一个中心点关联的所有点聚成一类;

3. 计算每一组的平均值,并将该组所关联的中心点挪动到平均值的地位;

4. 反复步骤 2 和 3 至中心点不再变动。

3 随机初始化
在运行 K - 均值算法之前,须要随机初始化所有的聚类中心点:

1. 抉择,即聚类中心点的个数要小于所有训练集实例的数量

2. 随机抉择个训练实例,而后令个聚类核心别离与这个训练实例相等

K- 均值的一个问题在于,它有可能会停留在一个部分最小值处,而这取决于初始化的状况。

为了解决这个问题,通常须要屡次运行 K - 均值算法,每一次都从新进行随机初始化,最初再比拟屡次运行 K - 均值的后果,抉择代价函数最小的后果。这种办法在较小的时候(2–10)还是可行的,然而如果较大,这么做也可能不会有显著的改善。

4 指标优化
而在 K - 均值算法中的优化指标是须要最小化所有数据点与其所关联的聚类中心点之间的间隔之和,因而 K - 均值的代价函数(又称畸变函数 Distortion function)为:

其中代表与最近的聚类中心点,优化指标是找出使得代价函数最小的和。

因而 K- 均值迭代算法中,第一个循环是用于减小引起的代价,而第二个循环则是用于减小引起的代价。迭代的过程肯定会是每一次迭代都在减小代价函数,不然便是呈现了谬误。

5 聚类数的确定
如何抉择聚类数通常依据不同的问题,人工进行抉择。须要思考使用 K - 均值算法聚类的动机是什么,而后抉择能最好服务于该指标的聚类数。

抉择聚类数目的办法时,可能会波及“肘部法令”——咱们用一个聚类来运行 K 均值聚类办法,所有的数据都会分到一个聚类里,而后计算成本函数或者计算畸变函数。

扭转值,也就是聚类类别数目的总数,可能会失去一条相似于上图中的曲线,神似一个人的肘部,这就是“肘部法令”。图中畸变值会迅速降落,从 1 到 2,从 2 到 3 之后,在 3 的时候达到一个肘点;之后,畸变值就降落的十分慢,看起来就能够明确得悉应用 3 个聚类进行聚类是正确的。

例如,某工厂须要指定 T -shirt 尺寸的类型,能够分成 3 个尺寸,也能够分成 5 个尺寸,这样的抉择是建设在答复“聚类后制作的 T -shirt 是否能较好地适宜客户”这个问题的根底上作出的。

聚类算法须要参考的材料:

1. 类似度 / 间隔计算方法总结

A. 闵可夫斯基间隔 Minkowski/(其中欧式间隔:)

B. 杰卡德类似系数(Jaccard):

C. 余弦类似度(cosine similarity):

维向量和的夹角记做,依据余弦定理,其余弦值为:

D.Pearson 皮尔逊相关系数:

Pearson 相关系数行将、坐标向量各自平移到原点后的夹角余弦。

2. 聚类的掂量指标

A. 均一性:

相似于准确率,一个簇中只蕴含一个类别的样本,则满足均一性。其实也能够认为就是正确率(每个 聚簇中正确分类的样本数占该聚簇总样本数的比例和)

B. 完整性:

相似于召回率,同类别样本被归类到雷同簇中,则满足完整性; 每个聚簇中正确分类的样本数占该类型的总样本数比例的和

C.V-measure:

均一性和完整性的加权均匀

D. 轮廓系数

样本的轮廓系数:

簇内不类似度: 计算样本到同簇其它样本的均匀间隔为,应尽可能小。

簇间不类似度: 计算样本到其它簇的所有样本的均匀间隔,应尽可能大。

轮廓系数:值越靠近 1 示意样本聚类越正当,越靠近 -1,示意样本应该分类到另外的簇中,近似为 0,示意样本应该在边界上; 所有样本的的均值被成为聚类后果的轮廓系数。

E.ARI

数据集共有个元素,两个聚类后果别离是:

和的元素个数为:

记:

好啦,明天小 Mi 给大家带来的聚类算法就曾经介绍结束啦,下期咱们学习如何进行主成分剖析和数据降维。咱们下期,再见呦(挥手十分钟)!

正文完
 0