共计 1273 个字符,预计需要花费 4 分钟才能阅读完成。
数据处理:如何处理缺失数据 (missing value)? 各种处理方法有什么利弊?
数据处理:如何将描述变量 (categorical variables) 转为连续变量 (continuous variables)?
如何处理有序变量?
如何处理无序变量?
数据处理:如何进行选择特征选择?如何进行数据压缩?
特征选择:包裹式,过滤式,嵌入式
数据压缩:主成分分析,自编码等
模型解释: 试解释什么是欠拟合与过拟合?如何应对这两种情况?
模型解释: 什么是偏差与方差分解 (Bias Variance Decomposition)?与欠拟合和过拟合有什么联系?
评估模型一般有什么手段?
分类模型评估方法?
回归问题评估方法?
数据不均衡的评估方法?
深度学习是否比其他学习模型都好?为什么?
在只有少量的有标签数据的情况下,如何构建一个反保险欺诈系统?
如果面试者回答先用监督学习来做,那么我们可能问:
这种情况下数据是不均衡的,你是采用过采样还是欠采样?如何调整代价函数和阈值?
如果面试者提到了集成学习,那么也会追问一下问什么集成学习适合数据不平衡。
如果面试者回答用无监督学习,那我们可能会问:
比如使用 One-class SVM?那么我们可能会追问一下 SVM 相关的问题,比如什么是最大间隔分类器啊什么是 Kernel,如何选择 Kernel 等。
为什么 K -Means 不适合异常值检测?K-Means 和 GMM 是什么关系?是否可以用 FMM 来直接拟合异常值。
如何可以得到无监督学习中的分类规则?
- 让面试者有所收获 & 如何准备机器学习面试
面试不该是一场单纯的考试,在参加面试的过程中,也是一个学习过程。抛砖引玉,对于机器学习的岗位面试我有几点小建议:
5.1. 根据岗位,准备一份项目策划书。
这个乍听下来有点虚,但我曾无数次使用这个小技巧得到良好的面试反馈和机会。假设你今天面试的岗位是我提到的保险公司的反诈骗组,那么如果你可以写一个如何使用机器学习进行反诈骗的项目策划书。这个过程对于面试者也是一个练习: a. 阅读论文和新闻收集材料的能力 b. 总结分析的能力 c. 总结的能力。
以我曾经面试过的一个人力资源相关的岗位为例,我准备了一份如何用机器学习来进行员工离职预测的策划书 (中间省略掉了几页并马赛克处理了敏感的地方):
在策划书中,你可以分析项目需求,提出相关解法,并建议后续计划和列出相关文献。这样的行为不仅可以让雇主看到你的诚意,并看到你的的领域知识和独立分析问题能力。
在适当的时机(比如开始面试的时候或者谈到岗位职责的时候),你拿出准备好的策划书,开始谈你的思路。这种做法我曾做过几次,效果都很惊艳,因为反被动为主动,从被考察变成了讲解你所了解的知识。作为一个面试官,如果被面试者能做到这个程度,我会在内心对录取他比较有信心。
5.3. 确保自己对基本的概念有所了解
对基本的数据处理方法有所了解
对基本的分类器模型有所了解并有所使用 (调包),大概知道什么情况使用什么算法较好
对基本的评估方法有所掌握,知道常见评估方法的优劣势
有基本的编程能力,能够独立的完成简单的数据分析项目
有基本的数据挖掘能力,可以对模型进行调参并归纳发现