共计 8796 个字符,预计需要花费 22 分钟才能阅读完成。
作者 |ANKIT GUPTA
编译 |Flin
起源 |analyticsvidhya
介绍
机器学习是近来最受欢迎的技能之一。咱们组织了各种技能测试,以便数据科学家能够查看本人的这些要害技能。这些测试包含机器学习,深度学习,工夫序列问题和概率。本文将为机器学习技能测试提供解决方案。如果你错过了上述任何一项技能测试,依然能够通过上面的链接查看问题和答案。
机器学习
- https://courses.analyticsvidh…
深度学习
- https://www.analyticsvidhya.c…
工夫序列问题
- https://www.analyticsvidhya.c…
概率
- https://www.analyticsvidhya.c…
在机器学习技能测试中,有 1350 多人报名加入了该测试。该测试旨在测试你是否把握了机器学习中的概念常识。如果你错过了实时测试,依然能够浏览本文,并理解如何正确答复这些问题。
这是所有参与者的排行榜排名。
- https://datahack.analyticsvid…
这些问题,以及其余数百个问题,都是咱们“Ace 数据迷信访谈”课程(https://courses.analyticsvidh…)的一部分。这是一个综合指南,有大量的资源。如果你刚刚开始你的数据迷信之旅,那么看看咱们最受欢迎的课程——“数据迷信导论”!(https://courses.analyticsvidh…)
总分
以下是散布得分,它们将帮忙你评估本人的问题。
你能够在此处(https://datahack.analyticsvid…)拜访最终问题。超过 210 人加入了技能测试,取得的最高分是 36。以下是无关分数的一些统计数据。
均匀得分:19.36
中位数得分:21
模式得分:27
有用的资源
- https://www.analyticsvidhya.c…
- https://courses.analyticsvidh…
- https://courses.analyticsvidh…
- https://www.analyticsvidhya.c…
- https://www.analyticsvidhya.c…
问题与解决方案
问题背景
特色 F1 代表大学学生的等级,能够取特定值:A,B,C,D,E 和 F。
1)在以下状况下,以下哪一项是正确的?
A)特色 F1 是定类变量的示例。
B)特色 F1 是定序变量的示例。
C)它不属于上述任何类别。
D)这两个都是
解决方案:(B)
定序变量是在其类别中具备某些程序的变量。例如,应将 A 级视为比 B 级更高的等级。
2)以下哪个是确定性算法的示例?
A)PCA
B)K-Means
C)以上都不是
解决方案:(A)
确定性算法是在不同的运行中,其输入不会扭转的算法。如果咱们再次运行,PCA 会给出雷同的后果,但 K -Means 不会。
3) [对或错] 两个变量之间的皮尔逊相关性为零,但它们的值依然能够彼此相干。
A)对
B)错
解决方案:(A)
Y = X2。请留神,它们不仅相干,而且一个变量是另一个变量的函数,并且它们之间的皮尔逊相关性为零。
4)对于梯度降落(GD)和随机梯度降落(SGD),以下哪个陈说是正确的?
- 在 GD 和 SGD 中,你以迭代形式更新一组参数以最小化误差函数。
- 在 SGD 中,你必须遍历训练集中的所有样本,能力在每次迭代中一次更新参数。
- 在 GD 中,你能够应用整个数据或训练数据的子集在每次迭代中更新参数。
A)仅 1
B)只有 2
C)只有 3
D)1 和 2
E)2 和 3
F)1,2 和 3
解决方案:(A)
在每次迭代的 SGD 中,通常抉择蕴含随机数据样本的批次,但对于 GD,每次迭代均蕴含所有训练观测值。
5)下列哪个超参数减少时,可能会导致随机森林适度拟合数据?
- 树数
- 树深
- 学习率
A)仅 1
B)只有 2
C)只有 3
D)1 和 2
E)2 和 3
F)1, 2 和 3
解决方案:(B)
通常,如果咱们减少树的深度,将导致适度拟合。学习率不是随机森林中的超参数。树的数量减少将导致拟合有余。
6)设想一下,你正在应用“Analytics Vidhya”,并且你想开发一种机器学习算法,该算法能够预测文章的观看次数。
你的剖析基于诸如作者姓名,同一位作者过来在 Analytics Vidhya 上撰写的文章数之类的特色以及其余一些特色。在这种状况下,你会抉择以下哪个评估指标?
- 均方误差
- 准确性
- F1 分数
A)仅 1
B)只有 2
C)只有 3
D)1 和 3
E)2 和 3
F)1 和 2
解决方案:(A)
能够认为文章的观看次数是属于回归问题的间断指标变量。因而,均方误差将被用作评估指标。
7)上面给出了三个图像(1,2,3)。以下哪个选项对这些图像正确?
A)
B)
C)
A)1 是 tanh,2 是 ReLU,3 是 SIGMOID 激活函数。
B)1 是 SIGMOID,2 是 ReLU,3 是 tanh 激活函数。
C)1 是 ReLU,2 是 tanh,3 是 SIGMOID 激活函数。
D)1 是 tanh,2 是 SIGMOID,3 是 ReLU 激活函数。
解决方案:(D)
SIGMOID 函数的范畴是 [0,1]。
tanh 函数的范畴是 [-1,1]。
RELU 函数的范畴是 [0,infinity]。
因而,选项 D 是正确的答案。
8)以下是训练文件中指标变量的 8 个理论值。
[0,0,0,1,1,1,1,1]
指标变量的熵是多少?
A) -(5/8 log(5/8) + 3/8 log(3/8))
B) 5/8 log(5/8) + 3/8 log(3/8)
C) 3/8 log(5/8) + 5/8 log(3/8)
D) 5/8 log(3/8) – 3/8 log(5/8)
解决方案:(A)
熵的公式是
所以答案是 A。
9)假如你正在应用分类特色,但尚未查看测试数据中分类变量的散布。你要在分类特色上利用独热编码(OHE)。如果将 OHE 利用于训练数据集的分类变量,可能会面临哪些挑战?
A)分类变量的所有类别都不在测试数据集中。
B)与测试数据集相比,类别中的频率散布在训练集中有所不同。
C)训练集和测试集始终具备雷同的散布。
D)A 和 B
E)这些都不是
解决方案:(D)
两者都是正确的,OHE 将无奈对测试集中存在但不在训练集中的类别进行编码,因而这可能是利用 OHE 时的次要挑战之一。如果在训练和测试中的频率散布不雷同,则选项 B 中的挑战也的确存在,你在利用 OHE 时须要更加小心。
10)Skip gram 模型是 Word2vec 算法中用于词嵌入的最佳模型之一。下列哪个模型形容了 Skip gram 模型?
A)A
B)B
C)A 和 B
D)这些都不是
解决方案:(B)
Word2vec 算法中应用了两个模型(model1 和 model2)。model1 代表 CBOW 模型,而 Model2 代表 Skip gram 模型。
11)假如你正在神经网络的暗藏层中应用激活函数 X。对于任何给定的输出,在特定的神经元处,你失去的输入为“-0.0001”。X 能够代表以下哪个激活函数?
A) ReLU
B) tanh
C) SIGMOID
D)这些都不是
解决方案:(B)
该函数为 tanh,因为此函数的输入范畴在(-1,-1)之间。
12)对数损失评估指标能够具备负值。
A)真
B)假
解决方案:(B)
对数损失不能为负值。
13)对于“Type1”和“Type2”谬误,以下哪个陈说是正确的?
- Type1 被称为误报,Type2 被称为漏报。
- Type1 被称为漏报,Type2 被称为误报。
- 当咱们回绝原假如为空的假如时,就会产生 Type1 谬误。
A)仅 1
B)只有 2
C)只有 3
D)1 和 2
E)1 和 3
F)2 和 3
解决方案:(E)
在统计假设检验中,I 型谬误是对实在无效假设(“误报”)的谬误回绝,而 II 型谬误则是谬误地保留了虚伪假如(“漏报”)。
14)以下哪项是对基于 NLP 的我的项目中的文本进行预处理的重要步骤之一?
- 词干提取
- 删除进展词
- 对象标准化
A)1 和 2
B)1 和 3
C)2 和 3
D)1,2 和 3
解决方案:(D)
词干提取是从单词中去除后缀(“ing”,“ly”,“es”,“s”等)的基于规定的根本过程。
进展词是那些与数据上下文无关的词,例如 is / am / are。
对象标准化也是预处理文本的好办法之一。
15)假如你要将高维数据投影到低维。此处应用的两种最驰名的降维算法是 PCA 和 t -SNE。假如你别离对数据“X”利用了这两种算法,并且取得了数据集“X_projected_PCA”,“X_projected_tSNE”。
对于“X_projected_PCA”和“X_projected_tSNE”,以下哪种说法正确?
A)X_projected_PCA 将在最近邻空间中进行解释。
B)X_projected_tSNE 将在最近邻空间中进行解释。
C)两者都将在最近邻空间中进行解释。
D)他们都不会在最近邻空间进行解释。
解决方案:(B)
t-SNE 算法思考最近邻点以缩小数据的维数。因而,在应用 t -SNE 之后,咱们能够认为放大的维数也将在最近邻空间中失去解释。然而对于 PCA 则不是这样。
问题:16-17
上面给出的是两个特色的三个散点图。
16)在上图中,以下哪个是多重共线特色的示例?
A)图片 1 中的函数
B)图片 2 中的函数
C)图片 3 中的函数
D)图片 1 和 2 中的函数
E)图片 2 和 3 中的函数
F)图片 3 和 1 中的函数
解决方案:(D)
在图像 1 中,特色具备高正相关性,而在图像 2 中,特色之间具备高负相关性,因而在两个图像中,特色对都是多重共线特色的示例。
17)在上一个问题中,假如你已确定多重共线特色。你接下来要执行以下哪个操作?
- 删除两个共线变量。
- 删除两个共线变量中的一个变量。
- 删除相干变量可能会导致信息失落。为了保留这些变量,咱们能够应用惩办回归模型,例如岭回归或套索回归。
A)仅 1
B)仅 2
C)仅 3
D)1 或 3
E)2 或 3
解决方案:(E)
你不能同时删除这两个特色,因为在删除这两个特色之后,你将失落所有信息,因而你应该删除仅一个特色,或者能够应用 L1 和 L2 等正则化算法。
18)将不重要的特色增加到线性回归模型中可能会导致___。
- R 平方减少
- R 平方缩小
A)只有 1 正确
B)只有 2 正确
C)1 或 2
D)这些都不是
解决方案:(A)
在特色空间中增加特色后,无论该特色是重要特色还是不重要特色,R 平方始终会减少。
19)假如给定三个变量 X,Y 和 Z。(X,Y),(Y,Z)和(X,Z)的皮尔逊相关系数别离为 C1,C2 和 C3。
当初,你在 X 的所有值中加了 2(即新值变为 X + 2),从 Y 的所有值中减去了 2(即新值是 Y -2),Z 放弃不变。(X,Y),(Y,Z)和(X,Z)的新系数别离由 D1,D2 和 D3 给出。D1,D2 和 D3 的值与 C1,C2 和 C3 有什么关系?
A)D1 = C1,D2 < C2,D3 > C3
B)D1 = C1,D2 > C2,D3 > C3
C)D1 = C1,D2 > C2,D3 < C3
D)D1 = C1,D2 < C2,D3 < C3
E)D1 = C1,D2 = C2,D3 = C3
F)无奈确定
解决方案:(E)
如果你在特色中增加或减去一个值,则特色之间的相关性不会扭转。
20)设想一下,你正在解决类别高度不均衡的分类问题。在训练数据中,大多数类别有 99%的工夫被察看到。
对测试数据进行预测后,你的模型具备 99%的准确性。在这种状况下,以下哪一项是正确的?
- 对于类别不均衡问题,准确性度量不是一个好主见。
- 精度度量是解决类别不均衡问题的一个好主见。
- 准确性和召回率指标对于解决类别不均衡问题很有用。
- 精度和召回率指标不适用于类别不均衡问题。
A)1 和 3
B)1 和 4
C)2 和 3
D)2 和 4
解决方案:(A)
参考本文中的问题 4。
- https://www.analyticsvidhya.c…
21)在集成学习中,你汇总了弱学习模型的预测,因而与单个模型的预测相比,这些模型的集成将提供更好的预测。
对于集成模型中应用的弱学习模型,以下哪个陈说是正确的?
- 他们通常不会过拟合。
- 他们有很高的偏差,所以不能解决简单的学习问题
- 他们通常过拟合。
A)1 和 2
B)1 和 3
C)2 和 3
D)仅 1
E)只有 2
F)以上都不是
解决方案:(A)
弱学习模型会确定问题的特定局部。因而,他们通常不会过拟合,这意味着学习能力弱的学习模型具备较低的方差和较高的偏差。
22)对于 K-fold 穿插验证,以下哪个选项是正确的?
- K 的减少将导致穿插验证后果所需的工夫更长。
- 与较低的 K 值相比,较高的 K 值将导致穿插验证后果的置信度较高。
- 如果 K = N,则称为“留一法 (穿插验证法)”,其中 N 是察看数。
A)1 和 2
B)2 和 3
C)1 和 3
D)1,2 和 3
解决方案:(D)
k 值越大,意味着对高估实在预期误差的偏差就越小(因为训练倍数将更靠近于总数据集),而运行工夫则更长(随着你越来越靠近极限状况:留一法穿插验证)。抉择 k 时,咱们还须要思考 k 倍精度之间的方差。
问题上下文 23-24
** 穿插验证是机器学习中超参数调整的重要步骤。假如你正在通过应用 5 折穿插验证从基于树的模型的 10 个不同深度值(值大于 2)中抉择 GBM 来调整 GBM 的超参数“max_depth”。
一个算法(在最大深度为 2 的模型上)4 折的训练工夫是 10 秒,剩下 1 折的预测工夫是 2 秒。
留神:公式中疏忽硬件依赖性。**
23)对于具备 10 个不同“max_depth”值的 5 折穿插验证的总体执行工夫,以下哪个选项是正确的?
A)少于 100 秒
B)100 – 300 秒
C)300 – 600 秒
D)大于或等于 600 秒
E)以上都不是
F)无奈估算
解决方案:(D)
5 折穿插验证中深度“2”的每次迭代将破费 10 秒进行训练,而测试则须要 2 秒。
因而,5 折将破费 12 5 = 60 秒。因为咱们正在搜寻 10 个深度值,因而该算法将破费 60 10 = 600 秒。
然而,在深度大于 2 的状况下训练和测试模型所破费的工夫将比深度为“2”破费更多的工夫,因而总体计时将大于 600 秒。
24)在上一个问题中,如果你训练雷同的算法来调整 2 个超参数,比方“最大深度”和“学习率”。
你想针对最大深度(从给定的 10 个深度值)和学习率(从给定的 5 个不同的学习率)中抉择正确的值。在这种状况下,以下哪项将代表总工夫?
A)1000-1500 秒
B)1500-3000 秒
C)大于或等于 3000 秒
D)这些都不是
解决方案:(D)
与问题 23 雷同。
25)上面给出了针对机器学习算法 M1 的训练误差 TE 和验证误差 VE 的计划。你要基于 TE 和 VE 抉择一个超参数(H)。
H | TE | VE |
---|---|---|
1 个 | 105 | 90 |
2 | 200 | 85 |
3 | 250 | 96 |
4 | 105 | 85 |
5 | 300 | 100 |
你将依据上表抉择哪个 H 值?
解决方案:(D)
依据表格,抉择 D 是最好的
26)你将在 PCA 中做什么以失去与 SVD 雷同的预测?
A)将数据转换为均值零
B)将数据转换为中位数零
C)不可能
D)这些都不是
解决方案:(A)
当数据的平均值为零时,向量 PCA 的预测将与 SVD 雷同,否则,在获取 SVD 之前必须先将数据居中。
问题 27-28
假如有一个黑盒算法,该算法应用具备多个观测值(t1,t2,t3,……..tn)和一个新观测值(q1)的训练数据。黑盒输入 q1 的最近邻(例如 ti)及其对应的类别标签 ci。
你还能够认为该黑盒算法与 1 -NN(1- 最近邻)雷同。
27)能够仅基于此黑盒算法来结构 k -NN 分类算法。
留神:与 k 相比,n(训练观测值的数量)十分大。
A)真
B)假
解决方案:(A)
第一步,你在黑盒算法中传递了一个察看值(q1),因而该算法将返回最近邻的察看值及其类标签。
在第二步中,你将其从训练数据中选出最靠近的观测值,而后再次输出观测值(q1)。黑盒算法将再次返回最近邻观测值及其类标签。
你须要反复此过程 k 次
28)咱们不想应用 1 -NN 黑盒,而是要应用 j -NN(j> 1)算法作为黑盒。对于应用 j -NN 查找 k -NN,以下哪个选项是正确的?
- J 必须是 k 的适当因子
- J > k
- 不可能
A)1
B)2
C)3
解决方案:(A)
与问题 27 雷同
29)假如你失去 7 个散点图 1 -7(从左到右),并且你想比拟每个散点图变量之间的皮尔逊相关系数。
以下哪项是正确的程序?
- 1 < 2 < 3 <4
- 1 > 2 > 3 > 4
- 7 < 6 < 5 <4
- 7 > 6 > 5 > 4
A)1 和 3
B)2 和 3
C)1 和 4
D)2 和 4
解决方案:(B)
从图像 1 到 4 的相关性正在升高(绝对值)。然而从图像 4 到 7,相关性在减少,但其相关性值是正数(例如 0,-0.3,-0.7,-0.99)。
30)你能够应用不同的指标(例如准确性,对数损失,F 分数)来评估二进制分类问题的性能。假如你正在应用对数损失函数作为评估指标。对于将对数损失解释为评估指标,以下哪个选项是正确的?
如果分类器对谬误分类有信念,那么对数损失会对其进行严格惩办。- 对于特定的察看后果,分类器为正确的类别调配了很小的概率,那么对数损失的相应奉献将十分大。
- 对数损失越低,模型越好。
A)1 和 3
B)2 和 3
C)1 和 2
D)1,2 和 3
解决方案:(D)
问题 31-32
以下是数据集中给出的五个样本。
留神:图像中各点之间的视觉间隔代表理论间隔。
31)以下哪项是 3 -NN(3 个最近邻)的留一法穿插验证准确性?
A)0
D)0.4
C)0.8
D)1
解决方案:(C)
在“留一法”穿插验证中,咱们将抉择(n-1)个用于训练的察看值和 1 个验证察看值。将每个点视为穿插验证点,而后找到该点最近的 3 个点。
因而,如果你对所有的点反复这个过程,你将失去正确的分类,所有正类在上图中给出,但负类将被谬误分类。因而你将失去 80% 的准确率。
32)以下 K 值中,哪一个具备最小的留一法穿插验证精度?
A)1NN
B)3NN
C)4NN
D)都有雷同的留一法谬误
解决方案:(A)
每个点在 1 -NN 中将始终被谬误分类,这意味着你将取得 0%的精度。
33)假如你取得了以下数据,并且你想应用逻辑回归模型将其分类为两个给定的类。
你正在应用具备 L1 正则化的逻辑回归。
其中 C 是正则化参数,w1 和 w2 是 x1 和 x2 的系数。
当你将 C 的值从零减少到十分大的值时,以下哪个选项是正确的?
A)首先 w2 变为零,而后 w1 变为零
B)首先 w1 变为零,而后 w2 变为零
C)两者同时变为零
D)即便 C 值很大,两者也不能为零
解决方案:(B)
通过查看图像,咱们发现即便仅应用 x2,咱们也能够无效地执行分类。因而,首先,w1 将变为 0。随着正则化参数的减少,w2 将越来越靠近于 0。
34)假如咱们有一个数据集,该数据集能够在深度为 6 的决策树的帮忙下以 100%的精度进行训练。当初思考上面这些点,并依据这些点抉择选项。
留神:所有其余超级参数雷同,其余因素不受影响。
1. 深度 4 将具备高偏差和低方差
2. 深度 4 将具备低偏差和低方差
A)仅 1
B)只有 2
C)1 和 2
D)以上都不是
解决方案:(A)
如果此类数据适宜深度为 4 的决策树,则可能会导致数据拟合有余。因而,在拟合有余的状况下,将具备较高的偏差和较低的方差。
35)以下哪些选项可用于获取 k -Means 算法的全局最小值?
1. 尝试运行用于不同质心初始化的算法
2. 调整迭代次数
3. 找出最佳集群数
A)2 和 3
B)1 和 3
C)1 和 2
D)以上
解决方案:(D)
能够调整所有选项以找到全局最小值。
36)假如你正在开发一个我的项目,该我的项目是二进制分类问题。你在训练数据集上训练了模型,并在验证数据集上取得了以下混同矩阵。
根据上述混同矩阵,抉择以下哪个选项能够为你提供正确的预测?
1. 准确度约为 0.91
2. 谬误分类率约为 0.91
3. 误报率约为 0.95
4. 真阳率为〜0.95
A)1 和 3
B)2 和 4
C)1 和 4
D)2 和 3
解决方案:(C)
准确性(正确分类)是(50 + 100)/ 165,简直等于 0.91。
真阳率是你正确预测阳性分类的次数,因而真阳率将为 100/105 = 0.95,也称为“敏感度”或“召回率”
37)对于以下哪个超参数,决策树算法的值越高越好?
1. 用于拆分的样本数
2. 树的深度
3. 叶子节点样本数
A)1 和 2
B)2 和 3
C)1 和 3
D)1、2 和 3
E)不能判断
解决方案:(E)
对于所有三个选项 A,B 和 C,没有必要减少参数的值来进步性能。例如,如果咱们具备十分高的树深度值,则生成的树可能会使数据过拟合,并且不能很好地泛化应用。另一方面,如果咱们的值很低,则树可能不足以包容数据。因而,咱们不能必定地说“越高越好”。
问题 38-39
设想一下,你有一个 28 28 的图像,并且在其上运行了 3 3 的卷积神经网络,输出深度为 3,输入深度为 8。
留神:“步幅”为 1,并且你应用的是雷同的填充。
38)应用给定参数时,输入特色图的尺寸是多少?
A)宽度 28,高度 28 和深度 8
B)宽度 13,高度 13 和深度 8
C)宽度 28,高度 13 和深度 8
D)宽度 13,高度 28 和深度 8
解决方案:(A)
计算输入大小的公式是
输入尺寸 =(N – F)/ S + 1
其中,N 是输出大小,F 是过滤器大小,S 是跨度。
浏览本文以取得更好的了解。
- https://www.analyticsvidhya.c…
39)应用以下参数时,输入特色图的尺寸是多少?
A)宽度 28,高度 28 和深度 8
B)宽度 13,高度 13 和深度 8
C)宽度 28,高度 13 和深度 8
D)宽度 13,高度 28 和深度 8
解决方案:(B)
同上题。
40)假如,咱们正在绘制 SVM 算法中不同 C 值(惩办参数)的可视化图。因为某些起因,咱们遗记了用可视化标记 C 值。在这种状况下,对于径向基函数核,以下哪个选项最能阐明以下图像的 C 值?
(从左到右为 1,2,3,所以 C 值对于 image1 为 C1,对于 image2 为 C2,对于 image3 为 C3)。
A)C1 = C2 = C3
B)C1 > C2 > C3
C)C1 < C2 < C3
D)这些都不是
解决方案:(C)
误差项的惩办参数 C。它还管制平滑决策边界和正确分类训练点之间的衡量。对于较大的 C 值,将抉择边距较小的超平面进行优化。
在这里浏览更多:https://www.analyticsvidhya.c…
原文链接:https://www.analyticsvidhya.c…
欢送关注磐创 AI 博客站:
http://panchuang.net/
sklearn 机器学习中文官网文档:
http://sklearn123.com/
欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/