关于机器学习:K近邻算法机器学习萌新必学算法

摘要：K近邻（k-NearestNeighbor，K-NN）算法是一个有监督的机器学习算法，也被称为K-NN算法，由Cover和Hart于1968年提出，能够用于解决分类问题和回归问题。

1. 为什么要学习k-近邻算法

k-近邻算法，也叫KNN算法，是一个非常适合入门的算法

领有如下个性：

● 思维极度简略

● 利用数学知识少(近乎为零)

● 对于各位开发者来说，很多不善于数学，而KNN算法简直用不到数学专业知识

● 成果好

○ 尽管算法简略，但成果出奇的好

○ 毛病也是存在的，前面会进行解说

● 能够解释机器学习算法应用过程中的很多细节问题

○咱们会利用KNN算法买通机器学习算法应用过程，钻研机器学习算法应用过程中的细节问题

● 更残缺的刻画机器学习利用的流程

○ 比照经典算法的不同之处

○ 利用pandas、numpy学习KNN算法

2. 什么是K-近邻算法

上图中的数据点是散布在一个特色空间中的，通常咱们应用一个二维的空间演示

横轴示意肿瘤大小，纵轴示意发现工夫。

恶性肿瘤用蓝色示意，良性肿瘤用红色示意。

此时新来了一个病人

如上图绿色的点，咱们怎么判断新来的病人(即绿色点)是良性肿瘤还是恶性肿瘤呢？

k-近邻算法的做法如下：

取一个值k=3(此处的k值前面介绍，当初大家能够了解为机器学习的使用者依据教训获得了一个教训的最优值)。

k近邻判断绿色点的根据就是在所有的点中找到间隔绿色点最近的三个点，而后让最近的点所属的类别进行投票，咱们发现，最近的三个点都是蓝色的，所以该病人对应的应该也是蓝色，即恶性肿瘤。

实质：两个样本足够类似，那么他们两个就具备更高概率属于同一个类别。

但如果只看一个，可能不精确，所以就须要看K个样本，如果K个样本中大多数属于同一个类别，则被预测的样本就很可能属于对应的类别。这里的相似性就依附举例来掂量。

这里我再举一个例子

● 上图中和绿色的点间隔最近的点蕴含两个红色和一个蓝色，此处红色点和蓝色点的数量比为2:1，则绿色点为红色的概率最大，最初判断后果为良性肿瘤。

● 通过上述发现，K近邻算法长于解决监督学习中的分类问题

点击关注，第一工夫理解华为云陈腐技术~

关于机器学习:K近邻算法机器学习萌新必学算法

1. 为什么要学习k-近邻算法

2. 什么是K-近邻算法

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于机器学习:K近邻算法机器学习萌新必学算法

1. 为什么要学习k-近邻算法

2. 什么是K-近邻算法

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复