共计 4131 个字符,预计需要花费 11 分钟才能阅读完成。
作者 |SUNIL RAY
编译 |Flin
起源 |analyticsvidhya
介绍
如果你要问我机器学习中 2 种最直观的算法——那就是 k 最近邻(kNN)和基于树的算法。两者都易于了解,易于解释,并且很容易向人们展现。乏味的是,上个月咱们对这两种算法进行了技能测试。
如果你不相熟机器学习,请确保在理解这两种算法的根底上进行测试。它们尽管简略,然而功能强大,并且在工业中失去宽泛应用。此技能测试将帮忙你在 k 最近邻算法上进行自我测试。它是专为你测试无关 kNN 及其应用程序的常识而设计的。
超过 650 人注册了该测试。如果你是错过这项技能测试的人之一,那么这篇文章是测试问题和解决方案。这是参加考试的参与者的排行榜。
- https://datahack.analyticsvid…
有用的资源
这里有一些资源能够深刻理解该主题。
机器学习算法的基本知识(带有 Python 和 R 代码):R 语言进行 Logistic 回归的简略指南
- https://www.analyticsvidhya.c…
K- 最近邻(kNN)算法
- https://www.analyticsvidhya.c…
技能测试问答
1)k-NN 算法在测试工夫而不是训练工夫上进行了更多的计算。
A)真
B)假
解决方案:A
该算法的训练阶段仅包含存储训练样本的特征向量和类别标签。
在测试阶段,通过调配最靠近该查问点的 k 个训练样本中最频繁应用的标签来对测试点进行分类——因而须要更高的计算量。
2)假如你应用的算法是 k 最近邻算法,在上面的图像中,____将是 k 的最佳值。
A)3
B)10
C)20
D)50
解决方案:B
当 k 的值为 10 时,验证误差最小。
3)在 k -NN 中不能应用以下哪个间隔度量?
A) Manhattan
B) Minkowski
C) Tanimoto
D) Jaccard
E) Mahalanobis
F)都能够应用
解决方案:F
所有这些间隔度量都能够用作 k -NN 的间隔度量。
4)对于 k -NN 算法,以下哪个选项是正确的?
A)可用于分类
B)可用于回归
C)可用于分类和回归
解决方案:C
咱们还能够将 k -NN 用于回归问题。在这种状况下,预测能够基于 k 个最类似实例的均值或中位数。
5)对于 k -NN 算法,以下哪个陈说是正确的?
- 如果所有数据的比例均雷同,则 k -NN 的成果会更好
- k-NN 在多数输出变量(p)下工作良好,但在输出数量很大时会遇到困难
- k-NN 对所解决问题的函数模式没有任何假如
A)1 和 2
B)1 和 3
C)仅 1
D)以上所有
解决方案:D
以上陈说是 kNN 算法的假如
6)下列哪种机器学习算法可用于估算分类变量和连续变量的缺失值?
A)K-NN
B)线性回归
C)Logistic 回归
解决方案:A
k-NN 算法可用于估算分类变量和连续变量的缺失值。
7)对于曼哈顿间隔,以下哪项是正确的?
A)可用于连续变量
B)可用于分类变量
C)可用于分类变量和连续变量
D)无
解决方案:A
曼哈顿间隔是为计算理论值特色之间的间隔而设计的。
8)对于 k -NN 中的分类变量,咱们应用以下哪个间隔度量?
- 汉明间隔
- 欧氏间隔
- 曼哈顿间隔
A)1
B)2
C)3
D)1 和 2
E)2 和 3
F)1,2 和 3
解决方案:A
在连续变量的状况下应用欧氏间隔和曼哈顿间隔,而在分类变量的状况下应用汉明间隔。
9)以下哪个是两个数据点 A(1,3)和 B(2,3)之间的欧几里得间隔?
A)1
B)2
C)4
D)8
解决方案:A
sqrt((1-2)^ 2 +(3-3)^ 2)= sqrt(1 ^ 2 + 0 ^ 2)= 1
10)以下哪个是两个数据点 A(1,3)和 B(2,3)之间的曼哈顿间隔?
A)1
B)2
C)4
D)8
解决方案:A
sqrt(mod((1-2))+ mod((3-3)))= sqrt(1 + 0)= 1
内容:11-12
假如你给出了以下数据,其中 x 和 y 是 2 个输出变量,而 Class 是因变量。
以下是散点图,显示了 2D 空间中的上述数据。
11)假如你要应用 3 -NN 中的欧氏间隔来预测新数据点 x = 1 和 y = 1 的类别。该数据点属于哪个类别?
A)+ 类
B)– 类
C)不能判断
D)这些都不是
解决方案:A
所有三个最近点均为 + 类,因而此点将归为 + 类。
12)在上一个问题中,你当初要应用 7 -NN 而不是 3 -KNN,以下 x = 1 和 y = 1 属于哪一个?
A)+ 类
B)– 类
C)不能判断
解决方案:B
当初,此点将归类为 – 类,因为在最近的圆圈中有 4 个 – 类点和 3 个 + 类点。
内容 13-14:
假如你提供了以下 2 类数据,其中“+”代表正类,“-”代表负类。
13)k-NN 中 k 的以下哪个 k 值会最小化留一法穿插验证的准确性?
A)3
B)5
C)两者都雷同
D)没有一个
解决方案:B
5-NN 将至多留下一个穿插验证谬误。
14)以下哪一项是 k = 5 时不进行穿插验证的准确性?
A)2/14
B)4/14
C)6/14
D)8/14
E)以上都不是
解决方案:E
在 5 -NN 中,咱们将有 10/14 的穿插验证精度。
15)对于 k -NN 中的 k,依据偏差,以下哪一项是正确的?
A)当你减少 k 时,偏差会减少
B)当你缩小 k 时,偏差会减少
C)不能判断
D)这些都不是
解决方案:A
大 K 示意简略模型,简略模型始终被视为高偏差
16)对于方差 k -NN 中的 k,以下哪一项是正确的?
A)当你减少 k 时,方差会减少
B)当你缩小 k 时,方差会减少
C)不能判断
D)这些都不是
解决方案:B
简略模型将被视为方差较小模型
17)以下两个间隔(欧几里得间隔和曼哈顿间隔)曾经给出,咱们通常在 K -NN 算法中应用这两个间隔。这些间隔在点 A(x1,y1)和点 B(x2,Y2)之间。
你的工作是通过查看以下两个图形来标记两个间隔。对于下图,以下哪个选项是正确的?
A)左为曼哈顿间隔,右为欧几里得间隔
B)左为欧几里得间隔,右为曼哈顿间隔
C)左或右都不是曼哈顿间隔
D)左或右都不是欧几里得间隔
解决方案:B
左图是欧几里得间隔的工作原理,右图是曼哈顿间隔。
18)当你在数据中发现噪声时,你将在 k -NN 中思考以下哪个选项?
A)我将减少 k 的值
B)我将缩小 k 的值
C)噪声不能取决于 k
D)这些都不是
解决方案:A
为了确保你进行的分类,你能够尝试减少 k 的值。
19)在 k -NN 中,因为维数的存在,很可能适度拟合。你将思考应用以下哪个选项来解决此问题?
- 降维
- 特征选择
A)1
B)2
C)1 和 2
D)这些都不是
解决方案:C
在这种状况下,你能够应用降维算法或特征选择算法
20)以下是两个陈说。以下两个陈说中哪一项是正确的?
- k-NN 是一种基于记忆的办法,即分类器会在咱们收集新的训练数据时立刻进行调整。
- 在最坏的状况下,新样本分类的计算复杂度随着训练数据集中样本数量的减少而线性减少。
A)1
B)2
C)1 和 2
D)这些都不是
解决方案:C
21)假如你给出了以下图像(左 1,中 2 和右 3),当初你的工作是在每个图像中找出 k -NN 的 k 值,其中 k1 代表第 1 个图,k2 代表第 2 个图,k3 是第 3 个图。
A)k1 > k2 > k3
B)k1 < k2
C)k1 = k2 = k3
D)这些都不是
解决方案:D
k 值在 k3 中最高,而在 k1 中则最低
22)在下图中,下列哪一个 k 值能够给出最低的留一法穿插验证精度?
A)1
B)2
C)3
D)5
解决方案:B
如果将 k 的值放弃为 2,则穿插验证的准确性最低。你能够本人尝试。
23)一家公司建设了一个 kNN 分类器,该分类器在训练数据上取得 100%的准确性。当他们在客户端上部署此模型时,发现该模型基本不精确。以下哪项可能出错了?
留神:模型已胜利部署,除了模型性能外,在客户端没有发现任何技术问题
A)可能是模型过拟合
B)可能是模型未拟合
C)不能判断
D)这些都不是
解决方案:A
在一个过拟合的模块中,它仿佛会在训练数据上体现良好,但它还不够广泛,无奈在新数据上给出雷同的后果。
24)你给出了以下 2 条语句,发现在 k -NN 状况下哪个选项是正确的?
- 如果 k 的值十分大,咱们能够将其余类别的点包含到邻域中。
- 如果 k 的值太小,该算法会对噪声十分敏感
A)1
B)2
C)1 和 2
D)这些都不是
解决方案:C
这两个选项都是正确的,并且都是显而易见的。
25)对于 k -NN 分类器,以下哪个陈说是正确的?
A)k 值越大,分类精度越好
B)k 值越小,决策边界越润滑
C)决策边界是线性的
D)k-NN 不须要显式的训练步骤
解决方案:D
选项 A:并非总是如此。你必须确保 k 的值不要太高或太低。
选项 B:此陈说不正确。决策边界可能有些参差不齐
选项 C:与选项 B 雷同
选项 D:此说法正确
26)判断题:能够应用 1 -NN 分类器结构 2 -NN 分类器吗?
A)真
B)假
解决方案:A
你能够通过组合 1 -NN 分类器来实现 2 -NN 分类器
27)在 k -NN 中,减少 / 缩小 k 值会产生什么?
A)K 值越大,边界越润滑
B)随着 K 值的减小,边界变得更平滑
C)边界的光滑性与 K 值无关
D)这些都不是
解决方案:A
通过减少 K 的值,决策边界将变得更平滑
28)以下是针对 k -NN 算法给出的两条陈说,其中哪一条是真的?
- 咱们能够借助穿插验证来抉择 k 的最优值
- 欧氏间隔对每个特色厚此薄彼
A)1
B)2
C)1 和 2
D)这些都不是
解决方案:C
两种说法都是正确的
内容 29-30:假如你曾经训练了一个 k -NN 模型,当初你想要对测试数据进行预测。在取得预测之前,假如你要计算 k -NN 用于预测测试数据类别的工夫。
留神:计算两个观测值之间的间隔将破费工夫 D。
29)如果测试数据中有 N(十分大)的观测值,则 1 -NN 将破费多少工夫?
A)N * D
B)N D 2
C)(N * D)/ 2
D)这些都不是
解决方案:A
N 的值十分大,因而选项 A 是正确的
30)1-NN,2-NN,3-NN 所破费的工夫之间是什么关系。
A)1-NN > 2-NN > 3-NN
B)1-NN < 2-NN < 3-NN
C)1-NN ~ 2-NN ~ 3-NN
D)这些都不是
解决方案:C
在 kNN 算法中,任何 k 值的训练工夫都是雷同的。
总体散布
以下是参与者的分数散布:
你能够在此处(https://datahack.analyticsvid…)拜访分数。超过 250 人加入了技能测试,取得的最高分是 24。
原文链接:https://www.analyticsvidhya.c…
欢送关注磐创 AI 博客站:
http://panchuang.net/
sklearn 机器学习中文官网文档:
http://sklearn123.com/
欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/