共计 9366 个字符,预计需要花费 24 分钟才能阅读完成。
来自 Amazon,google,Meta, Microsoft 等的面试问题,问题很多所以对问题进行了分类整理,本文蕴含基础知识和数据分析相干问题
基础知识
1、什么是数据迷信? 列出监督学习和非监督学习的区别。
数据迷信是各种工具、算法和机器学习办法的混合,其指标是从原始数据中发现暗藏的模式。这与统计学家多年来始终在做的事件类似然而有什么不同? 下图解释了数据分析和数据迷信的区别:
监督学习和无监督学习的区别如下:
有监督学习:输出数据是有标记的,次要用于预测。例如分类和回归等
无监督学习:输出数据是没有标记的,多用于剖析。密度估计和降维等
2、什么是抉择偏差?
选择性偏差溯源英文为 Selection Bias,指的是在钻研过程中因样本抉择的非随机性而导致失去的论断存在偏差, 也称选择性偏差为选择性效应(Selection Effect)。它是因为采集样本的办法造成的统计分析的失真。如果没有思考到抉择偏差,那么钻研的一些论断可能不精确。
选择性偏差是指这样一种认知偏向:人们喜爱把事物分为典型的几个类别,而后在对事件进行概率预计时,过分强调这种典型类别的重要性,而不顾无关其余潜在可能性的证据。选择性偏差的结果势必使人们偏向于在实际上是随机的数据序列中“洞察”到某种模式,从而造成系统性的预测偏差。
3、什么是偏差 - 方差衡量?
偏差: 偏差是因为机器学习算法过于简化而在模型中引入的谬误。它会导致不适应。当你在那个时候训练你的模型时,模型会简化假如,使指标函数更容易了解。
低偏差机器学习算法有:决策树,k-NN 和 SVM,高偏差机器学习算法有:线性回归,逻辑回归
方差: 方差是因为简单的机器学习算法在模型中引入的误差,模型会从训练数据集学习噪声,在测试数据集上体现很差。它会导致高灵敏度和过拟合。
通常,当减少模型的复杂性时,会看到因为模型中较低的偏差而导致的误差的缩小。然而,这种状况只会在特定的点产生。当模型变得更简单时,最终会适度拟合型,因而你的模型将开始变为 i 高方差。
任何监督机器学习算法的指标都是具备低偏差和低方差,能力达到良好的预测性能。在机器学习中,偏见和方差之间的关系不可避免。减少偏差会缩小方差。减少方差会缩小偏差。
4、任意语言,编写一个程序输入从 1 到 50 的数字
打印 1 到 50 之间的数字的 python 代码如下 -
for i in range(1,51):
print(i)
5、什么是混同矩阵?
混同矩阵是一个 2X2 表,蕴含由二分类器提供的 4 个输入。错误率、准确率、精确度、查全(召回)率等指标都由它来掂量。混同矩阵
用于性能评估的数据集称为测试数据集。它应该蕴含正确的标签和预测的标签。
如果分类器的性能是完满的,预测的标签将完全相同。
但实际上模型预测的标签通常与事实场景中局部察看到的标签相匹配。
分类器预测测试数据集的所有数据实例为正或负。这产生了四种后果
真阳性(TP) - 正确的阳性预测
假阳性(FP) - 不正确的阳性预测
真负(TN) - 正确的负预测
假阴性(FN) - 谬误的阴性预测
由混同矩阵推导出的根本度量有以下概念
错误率 = (FP+FN)/(P+N)
精度 = (TP + TN) / (P + N)
敏感度(Sensitivity真阳性率)= TP/P
特异度 (Specificity 真阴性率)= TN/N
精度(阳性预测值)= TP/(TP+FP)
F-Score(精度和查全率的和谐平均值)= (1+b)(PREC.REC)/(b²PREC+REC)其中 b 通常为 0.5,1,2。
6、怎么了解真阳性率和假阳性率?
真阳性率 (TPR) 是真阳性与真阳性和假阴性的比率。它是理论阳性后果被测试为阳性的概率。
TPR = TP /(TP + FN)
假阳性率 (FPR) 是假阳性与所有阳性 (真阳性和假阳性) 的比率。它是虚惊一场的概率,也就是说,当它实际上是负的时候,会给出一个正的后果。
FPR= FP /(TP + FP)
7、简述马尔可夫链
马尔可夫链是一种随机过程。在马尔可夫链中,任何状态的将来概率只取决于以后状态。
上图示意了一个马尔可夫链模型,其中每个步骤都有一个输入,只依赖于以后状态。
例如文字举荐。当咱们输出一个段落时,这个模型会提醒下一个单词,它只依赖于前一个单词,而不依赖于它之前的任何单词。马尔科夫链模型之前在一个相似的段落上进行训练,其中给定单词的下一个单词存储在训练数据中的所有单词上。依据这个训练数据输入,倡议接下来的单词。
8、ROC 曲线是什么?
ROC 曲线是假阳性率 (x 轴) 和真阳性率 (y 轴) 之间的曲线。真阳性率是指真阳性率与阳性样本总数之比。假阳性率是假阳性与阴性样本总数之比。在几个阈值上绘制 FPR 和 TPR,构建 ROC 曲线。ROC 曲线下的面积范畴为 0 ~ 1。齐全随机模型的 ROC 为 0.5,用直线示意。ROC 曲线偏离这条直线越多,模型越好。ROC 曲线用于二元分类。下图展现了 ROC 曲线的一个例子。
9、什么是降维及其益处?
缩小给定数据集的特色数量被称为降维。有许多技术用于升高维度,如 -
- 特征选择
- 矩阵合成
- Manifold 学习
- Autoencoder 办法
- 线性判别分析(LDA)
- 主成分剖析(PCA)
降维的次要起因之一是“降维魔咒”。当特色的数量减少时,模型变得更加简单。但如果数据点较少,模型将开始学习过拟合数据。模型不会泛化。这就是家喻户晓的“维度咒骂”。
升高维度的其余益处包含 -
- 缩小了工夫和存储空间。
- 用 2D 或 3D 可视化和可视化示意数据变得更容易了。
- 空间复杂度升高。
10、如何在线性回归模型中找到 RMSE 和 MSE ?
采纳均方根误差 (RMSE) 来测验线性回归模型的性能。它评估在最佳拟合线上散布了多少数据。MSE 的公式是
f_i 是预测值
Y_i 是输入变量的理论值。
N 是数据点的个数
均方误差 (MSE) 示意直线与理论数据的靠近水平。取直线与数据点的差值并平方。对于一个好的模型,MSE 值应该很低。这意味着理论输入值和预测输入值之间的误差应该很低。
11、如何解决不均衡的二元分类?
在进行二分类时,如果数据集不均衡,仅应用 R2 评分无奈正确预测模型的精度。例如,如果属于其中一个类的数据在数量上比属于另一个类的数据少得多,那么传统的精度将在较小的类中占很小的百分比。如果只有 5% 的示例属于较小的类,而模型将属于其余类的所有输入分类,精度依然在 95% 左右。但这是谬误的。为了解决这个问题,咱们能够这样做
- 应用其余办法来计算模型性能,如精度 / 召回率,F1 评分等。
- 应用以下技术对数据从新采样(缩小较大类的样本大小)、过采样(应用反复、SMOTE 和其余此类技术减少较小类的样本大小)。
- 应用 K -fold 穿插验证
- 应用集成学习,使每棵决策树思考小类的整个样本,而只思考大类的一个子集。
12、箱线图和直方图的区别是什么
直方图和箱线图都用于直观地示意某一特征值的频率。下图显示了一个直方图。
下图为箱线图事实的雷同数据
直方图用于理解数据的潜在概率分布。箱线图更多地用于比拟多个数据集。箱线图比直方图有更少的细节和占用更少的空间。
13、NLP 都有什么次要的工作?
NLP 代表自然语言解决。它是对计算机编程来学习大量文本数据的钻研。NLP 的例子包含标记化、进行词去除、词根提取、情感剖析等。
14、概率论的基本原理
在所有可能的后果中,某一事件产生的可能性被称为其概率。事件产生的概率总是在(包含)0 和 1 之间。
加法规定:P(A 或 B)= P(A) + P(B) – P(A 和 B)
条件概率:它是事件 B 产生的概率,假如事件 A 曾经产生。
P(A and B)= P(A)。P (B |)
核心极限定理:当咱们从一个大总体中抽取随机样本,而后取这些样本的均值,它们造成一个正态分布。
15、形容不同的正则化办法,如 L1 和 L2 正则化
有 3 种重要的正则化办法如下 -
L2 正则化 -(Ridge 回归)- 在 L2 正则化中,咱们将所有权重的平方和,乘以一个值 lambda,加到损失函数。Ridge 回归公式为 -
能够看到,如果某一特定数据点和特色的权值乘以数据值变得十分大,那么原始的损失就会变得很小。然而增加值乘以权重平方和也会变大。同样如果原来的损失价值变得很大,那么减少的价值就会变小。因而它将管制最终值不变得太大或太小。
L1 正则化 -(Lasso 回归)- 在 L1 正则化中,咱们将所有权重的绝对值加和,乘以一个值 lambda,到损失函数。Lasso 回归公式为 -
损失函数和优化算法使参数趋近于零而不是理论为零,而 lasso 则打消了不太重要的特色,并将各自的权重值设置为零。
Dropout 用于神经网络的正则化。全连贯层更容易过拟合。Dropout 丢掉了神经网络中一些概率为 1 - p 的神经元。Dropout 缩小了过拟合,进步了训练速度,使模型更强壮。
16、应该如何保护已部署的模型?
在一个模型被部署之后,它输出的数据可能会随工夫而扭转。例如,在预测房价的模型中,房价可能会随着工夫的推移而上涨,也可能会因为其余一些因素而稳定。所以模型在新数据上的准确性能够被记录下来。一些确保准确性的罕用办法包含 -
- 应常常通过输出阴性试验数据对模型进行查看。如果模型给出的精度较低且测试数据为负,则阐明须要更新。
- 建设主动编码器,利用异样检测技术,AE 模型计算重构误差值。如果重构谬误值很高,这意味着新数据没有遵循模型学习到的旧模式。
- 如果模型对新数据显示出较好的预测精度,则阐明新数据遵循模型对旧数据学习到的模式或泛化。因而,能够依据新数据对模型进行从新训练。如果新数据的准确性不是很好,那么能够应用对数据特色和旧数据进行特色工程的办法对新数据从新训练模型。
- 如果准确性不好,模型可能须要从头开始训练。
17、写出公式,计算准确率和召回率。
Precision = True Positives / (True Positives + False Positives)
Recall = True Positives / (True Positives + False Negatives)
18、如何在 NumPy 中测量两个数组之间的欧氏间隔?
2 个阵列 A[1,2,3,]和 b[8,9,10]之间的欧氏间隔能够通过别离取每个点的欧氏间隔来计算。应用 numpy. linalgy .norm()-
19、误差和残余误差的区别是什么?
误差是指预测值与理论值之间的差值。数据迷信中最罕用的误差计算方法是均匀绝对误差 (MAE)、均方误差(MSE) 和均方根误差(RMSE)。而残余误差是一组观测值与其算术平均值之间的差。误差通常是不可察看的,而残余误差能够在图上显示进去。误差示意观测数据与理论总体的差别。而残余误差则示意察看数据与样本总体数据的差别。
20、归一化和标准化的区别?
归一化,也称为最小 - 最大缩放,是一种将所有数据值转换为介于 0 和 1 之间的技术。
归一化公式是 -
X_max 是该个性的最大值
X_min 是该特色的最小值
标准化是指将咱们的数据进行转换,使其具备均值为 0,标准差为 1 的正态分布。
标准化的公式是 -
因而,尽管标准化只将数据缩放到 0 到 1 的范畴,但标准化确保数据遵循规范的正态分布。
21、你对正态分布有什么了解?
数据通常以不同的形式散布,有向左或向右的偏差,也可能全副混淆在一起。
然而,也有可能数据分布在核心值四周,没有任何向左或向右的偏差,并以钟形曲线的模式达到正态分布。
正态分布的性质如下;
单峰,左右镜像对称,钟形 - 最大高度 (模式) 在平均值,均值、众数和中位数都位于核心
22、什么是统计学上的相关性和协方差?
协方差和相干是两个数学概念; 这两种办法在统计学中被宽泛应用。相干和协方差都建设了关系,也掂量两个随机变量之间的依赖性。尽管从数学的角度来说,这两者的工作是类似的,但他们彼此不同。
相关性: 相干被认为或形容为测量和预计两个变量之间的定量关系的最佳技术。相关性掂量的是两个变量的相关性有多强。
协方差: 在协方差中,两个我的项目一起变动,它是一个掂量两个随机变量在周期变动的水平。这是一个统计术语; 它解释了一对随机变量之间的零碎关系,其中一个变量的变动与另一个变量的相应变动互为倒数。
23、点估计和置信区间的区别是什么?
点估计给咱们一个特定的值作为总体参数的预计。采纳矩量法和极大似然预计法导出了总体参数的点估计。
置信区间为咱们提供了一个可能蕴含总体参数的值范畴。通常首选置信区间,因为它通知咱们这个区间蕴含总体参数的可能性有多大。这种可能性或概率称为置信水平或相信系数,用 1 – alpha 示意,其中 alpha 是显著性程度。
24、A/ B 测试的指标是什么?
这是对一个有两个变量 a 和 B 的随机试验的假设检验。
A/ B 测试的指标是辨认变动,以最大限度地找到扭转试验动作后对后果产生的影响。
25、P 值是什么?
当在统计学中进行假设检验时,p 值能够帮忙您确定后果的强度。p 值是 0 到 1 之间的一个数字。它将依据值示意后果的强度。这个正在试验的主张被称为零假如。
较低的 p 值 (≤0.05) 意味着咱们能够回绝原假如。高 p 值 (≥0.05) 这意味着能够承受零假如,p 值为 0.05 表明假如能够双向。
26,概率计算:在任何 15 分钟的距离内,有 20% 的概率你会看到至多一颗流星。你在一小时内看到至多一颗流星的概率是多少?
十五分钟内看不到流星的概率是
= 1 – P(看到一颗流星)= 1-0.2 = 0.8
在一小时内看不到任何流星的概率
= (0.8) ^ 4 = 0.4096
在一小时内看到至多一颗流星的概率
= 1 – P(看不到任何流星)= 1-0.4096 = 0.5904
27、如何用一个骰子产生 1 - 7 之间的随机数?
任何骰子有从 1 到 6 有 6 个面。一次掷骰子不可能失去 7 个雷同的后果。如果咱们掷骰子两次,思考两次的事件,咱们当初有 36 种不同的后果。为了失去 7 个相等的后果咱们要把 36 化简成能被 7 整除的数。因而能够只思考 35 种后果,并排除其中的一种。
一个简略的场景便是排除组合 (6,6),即如果 6 呈现两次便再次掷骰子。从(1,1) 到(6,5)的所有残余组合能够分为 7 个局部,每个局部 5。这样七组后果都是等可能的。
28、一对夫妇通知你他们有两个孩子,其中至多有一个是女孩。他们有两个女孩的概率是多少?
在两个孩子的状况下,有 4 种等可能的事件
BB、BG、GB、GG;
其中 B = 男孩,G = 女孩,第一个字母示意第一个孩子。
从问题中,咱们能够排除第一种 BB。因而,从 BG, GB, BB 剩下的 3 种可能性中,咱们必须找出两个女孩的状况的概率。
因而,P(有两个女孩给一个女孩)= 1 / 3
29、一个罐子有 1000 枚硬币,其中 999 枚是失常的,1 枚的两面都是侧面。随机抉择一枚硬币,投掷 10 次。假如你看到 10 个侧面,那枚硬币下一次扔出来也是侧面的概率是多少?
抉择硬币有两种办法。一种是选出一枚失常的硬币,另一种是选出两个侧面的硬币。
抉择失常硬币的概率 = 999/1000 = 0.999
抉择非正常硬币的概率 = 1/1000 = 0.001
间断抉择 10 个侧面 = 抉择失常硬币 * 失去 10 个失常 + 抉择一枚非正常硬币
P (A) = 0.999 (1/2)⁵= 0.999 (1/1024)= 0.000976
P (b) = 0.001 * 1 = 0.001
P(a / a + b) = 0.000976 / (0.000976 + 0.001) = 0.4939
P(b / a + b) = 0.001 / 0.001976 = 0.5061
抉择另一个侧面的概率 = P(A/A+B) 0.5 + P(B/A+B) 1 = 0.4939 * 0.5 + 0.5061 = 0.7531
30、你对敏感度(Sensitivity)的统计能力有什么了解? 你如何计算它?
敏感度通常被用来验证分类器的准确性(Logistic, SVM, Random Forest 等)。
敏感度是“预测的实在事件 / 总事件”。实在事件是指实在的事件模型也预测了它们是实在的。
计算非常简单。敏感度(Sensitivity真阳性率)= TP/P
31、为什么要重采样?
- 通过应用可拜访数据的子集或从一组数据点中随机抽取替换数据来预计样本统计数据的准确性
- 执行显著性测验时,在数据点上替换标签
- 通过应用随机子集 (bootstrapping, cross-validation) 来验证模型
32、过拟合和欠拟合有什么区别?
在统计学和机器学习中,最常见的工作之一就是将模型拟合到一组训练数据中,从而可能对个别的未经训练的数据做出牢靠的预测。
在过拟合中,统计模型形容的是随机误差或噪声,而不是潜在的关系。过拟合产生在一个模型过于简单的时候,比方绝对于观测数据有太多的参数。过拟合的模型预测性能较差,因为它对训练数据的渺小稳定反馈适度。
当统计模型或机器学习算法无奈捕获数据的潜在趋势时,就会产生欠拟合。例如,当用线性模型拟合非线性数据时,就会呈现欠拟合。这种模型的预测性能也很差。
33、防止反抗过拟合和过拟合?
为了防止过拟合和欠拟合,能够重采样数据来预计模型的准确性(k 倍穿插验证),并通过验证数据集来评估模型。
34、什么是正则化? 为什么它有用?
正则化能够避免过拟合。个别状况下是通过在现有的权重向量上加上一个常数倍数来实现的。这个常数通常是 L1(Lasso)或 L2(ridge)。而后模型预测应该最小化在正则化训练集上计算的损失函数。
35、什么是大数定律?
这个定理,形容了进行大量雷同试验的后果。这个定理形成了频率式思维的根底:样本均值,样本方差和样本标准差收敛于他们试图预计的值。
36、什么是混同的变量?
在统计数据中,混同因素是一个影响因变量和独立变量的变量。混同变量 (Confounding Variable) 是指与自变量和因变量均相干的变量,该变量使自变量和因变量间产生虚伪的关系(Meinert, 1986)。
例如,如果您正在钻研不足运动会导致体重增加,
不足静止 = 自变量
体重增加 = 分支变量。
这里的混同变量将是影响这两个变量的任何变量例如受试者的年龄。
37、抽样过程中可能产生的偏差都有哪些类型?
- Selection bias
- Under coverage bias
- Survivorship bias
38、什么是生存偏差(Survivorship bias)?
这是一个逻辑上的谬误,即专一于反对幸存某些过程的方面,而疏忽那些因为它们不突出而不起作用的方面。这可能会以各种不同的形式得出谬误的论断。
39、什么是抉择偏差(Selection bias)?
当取得的样本不能代表要剖析的总体时,就会呈现抉择偏差。
40、解释 ROC 曲线是如何工作的?
ROC 曲线是各种阈值下实在阳性率和假阳性率比照的图形示意。它常常被用作敏感性 (真阳性率) 和假阳性率之间衡量的规范。
41、什么是 TF/IDF?
TF-IDF 是 term frequency-inverse document frequency, 的缩写,是反映一个词对汇合或语料库中的文档的重要性的统计数字。在信息检索和文本开掘中,它常常被用作加权因子。
TF-IDF 值与单词在文档中呈现的次数成比例减少,但会被单词在语料库中的呈现频率所对消,这有助于调整某些单词在个别状况下呈现的频率更高的事实。
42、为什么咱们个别应用 Softmax 非线性函数作为网络最初一个操作?
这是因为它采纳了实数的向量并返回概率分布。它的定义如下。令 X 为实数的向量(正,负,无论如何,没有束缚)。
则 Softmax(x)的第 i 个重量为 -
输入是概率分布:每个元素都是非负散布,所有重量的总和为 1。
数据分析
43、数据清理如何在剖析中施展重要作用?
数据清理能够帮忙剖析,因为:
- 清理来自多个源的数据有助于将其转换为数据分析师或数据科学家能够应用的格局。
- 在机器学习中,数据荡涤有助于进步模型的准确性。
- 这是一个繁琐的过程,因为随着数据源数量的减少,因为数据源的数量和这些数据源生成的数据量,清理数据所需的工夫呈指数增长。
- 清理数据可能要花费多达 80% 的工夫,这使得它成为剖析工作的要害局部。
44、单变量、双变量和多变量剖析。
单变量剖析是一种描述性统计分析技术,能够依据在给定的工夫点所波及的变量的数量进行辨别。例如,基于地区的销售饼图只波及一个变量,剖析能够称为单变量剖析。
双变量剖析试图在散点图中了解两个变量在同一时间的差别。例如,剖析销售和收入的数量能够被认为是双变量剖析的一个例子。
多变量剖析波及两个以上变量的钻研,以理解变量对反馈的影响。
45、解释星型模型
它是具备核心表的传统数据库模式。从属表将 ID 映射到物理名称或形容,能够应用 ID 字段连贯到核心事实表; 这些表被称为查找表,次要用于实时应用程序,因为它们能够节俭大量内存。有时星型模式波及多个汇总层以更快地获取相应的信息。
46、什么是整群抽样(Cluster sampling)?
整群抽样是指整群地抽选样本单位,对被抽选的各群进行全面考察的一种抽样组织形式。例如,测验某种整机的品质时,不是一一抽取整机,而是随机抽若干盒 (每盒装有若干个整机),对所抽各盒整机进行全面测验。如果全及总体划分为单位数目相等的 R 个群,用不反复抽样办法,从 R 群中抽取 r 群进行考察。
47、什么是系统抽样(Systematic Sampling)?
先将总体的全副单元依照肯定顺序排列,采纳简略随机抽样抽取第一个样本单元(或称为随机终点),再程序抽取其余的样本单元,这类抽样办法被称为等距抽样(Systematic Sampling)。等距抽样又称为机械抽样、系统抽样。等距抽样往往不能给出估计量的预计方差。
48、什么是特征向量(Eigenvectors)和特征值(Eigenvalues)?
特征向量用于了解线性变换。在数据分析中,通常计算相干或协方差矩阵的特征向量。特征向量是特定线性变换通过翻转、压缩或拉伸作用的方向。
特征值能够被认为是在特征向量方向上的变换强度或压缩产生的因子。
49、你能举出一些假阳性比假阴性重要的例子吗?
假阳性是指谬误地将非事件分类为事件,也就是第一类谬误。假阴性是指谬误地将事件归类为非事件的状况,也就是第二类谬误。
在医疗畛域,例如癌症查看他的癌症检测呈阳性,但他实际上没有癌症。这是一个假阳性的案例。在这个病人没有癌症的状况下对他进行化疗是十分危险的。在没有癌细胞的状况下,化疗会对他失常衰弱的细胞造成肯定的侵害,可能导致重大的疾病,甚至癌症。
50、你能举出一些假阴性比假阳性重要的例子吗?
假如有一个机场安检如果一个真正有威逼的客户被机场模型标记为无威逼,陪审团或法官决定开释立功的罪犯都是这种状况
51、你能举出一些假阳性和假阴性同样重要的例子吗?
在银行业,贷款是赚钱的次要起源,如果你的还款率不好,银行向你贷款面临微小的损失危险。银行不想失去好客户,也不想取得差客户。在这种状况下假阳性和假阴性都变得十分重要。
52、您能解释一下验证集和测试集之间的区别吗?
验证集能够被认为是训练集的一部分,因为它用于参数抉择和防止模型的过拟合。测试集用于测试或评估训练好的机器学习模型的性能。
简略地说,区别能够概括为; 训练集是拟合参数,验证集是测试训练集的成果; 测试集是评估模型的性能
53、解释穿插验证
穿插验证是一种模型验证技术,用于评估统计分析后果如何推广到独立数据集。次要用于预测指标和预计模型在实践中实现的准确性的背景。
穿插验证的指标是定义一个数据集来在训练阶段测试模型(即验证数据集),以限度过拟合等问题,并深刻理解模型将如何推广到一个独立的数据集。
https://avoid.overfit.cn/post/fb11966065864830a1bbd5990e201f8d