摘要:K 近邻(k-NearestNeighbor,K-NN)算法是一个有监督的机器学习算法,也被称为 K -NN 算法,由 Cover 和 Hart 于 1968 年提出,能够用于解决分类问题和回归问题。
1. 为什么要学习 k - 近邻算法
k- 近邻算法,也叫 KNN 算法,是一个非常适合入门的算法
领有如下个性:
● 思维极度简略
● 利用数学知识少(近乎为零)
● 对于各位开发者来说,很多不善于数学,而 KNN 算法简直用不到数学专业知识
● 成果好
○ 尽管算法简略,但成果出奇的好
○ 毛病也是存在的,前面会进行解说
● 能够解释机器学习算法应用过程中的很多细节问题
○咱们会利用 KNN 算法买通机器学习算法应用过程,钻研机器学习算法应用过程中的细节问题
● 更残缺的刻画机器学习利用的流程
○ 比照经典算法的不同之处
○ 利用 pandas、numpy 学习 KNN 算法
2. 什么是 K - 近邻算法
上图中的数据点是散布在一个特色空间中的,通常咱们应用一个二维的空间演示
横轴示意肿瘤大小,纵轴示意发现工夫。
恶性肿瘤用蓝色示意,良性肿瘤用红色示意。
此时新来了一个病人
如上图绿色的点,咱们怎么判断新来的病人 (即绿色点) 是良性肿瘤还是恶性肿瘤呢?
k- 近邻算法的做法如下:
取一个值 k =3(此处的 k 值前面介绍,当初大家能够了解为机器学习的使用者依据教训获得了一个教训的最优值)。
k 近邻判断绿色点的根据就是在所有的点中找到间隔绿色点最近的三个点,而后让最近的点所属的类别进行投票,咱们发现,最近的三个点都是蓝色的,所以该病人对应的应该也是蓝色,即恶性肿瘤。
实质:两个样本足够类似,那么他们两个就具备更高概率属于同一个类别。
但如果只看一个,可能不精确,所以就须要看 K 个样本,如果 K 个样本中大多数属于同一个类别,则被预测的样本就很可能属于对应的类别。这里的相似性就依附举例来掂量。
这里我再举一个例子
● 上图中和绿色的点间隔最近的点蕴含两个红色和一个蓝色,此处红色点和蓝色点的数量比为 2:1,则绿色点为红色的概率最大,最初判断后果为良性肿瘤。
● 通过上述发现,K 近邻算法长于解决监督学习中的分类问题
点击关注,第一工夫理解华为云陈腐技术~