共计 3297 个字符,预计需要花费 9 分钟才能阅读完成。
摘要:机器学习模型中有许多种不同方法可以用来解决分类和回归问题。在此尝试对每种模型的算法模式进行简要总结,希望能帮助你找着适合特定问题的解决方法。
机器学习模型中有许多种不同方法可以用来解决分类和回归问题。对同一个问题来说,这些不同模型都可以被当成解决问题的黑箱来看待。然而,每种模型都源自于不同的算法,在不同的数据集上的表现也各不相同。最好的方法是使用交叉比对的方式来决定在待测试数据上哪种模型的效果最好。在此尝试对每种模型的算法模式进行简要总结,希望能帮助你找着适合特定问题的解决方法。
常用机器学习模型
1. 朴素贝叶斯模型
朴素贝叶斯模型是一个简单却很重要的模型,它是一种生成模型,也就是它对问题进行联合建模,利用概率的乘法法则,我们可以得到:
由于上述形式复杂,因此朴素贝叶斯作出一个假设,也就是在给定 y 的条件下,x1,…,xn 之间的生成概率是完全独立的,也就是:
注意此处并不是说 x1,…,xn 的生成概率是相互独立的,而是在给定 y 的条件下才是独立的,也就是这是一种”条件独立”。了解概率图模型的同学,下面的图模型就可以很好地阐述这个问题:
既然我们说朴素贝叶斯是一种生成模型,那它的生成过程是怎样的呢?对于邮件垃圾分类问题,它的生成过程如下:
- 首先根据 p(y)采用得到 y,从而决定当前生成的邮件是垃圾还是非垃圾
- 确定邮件的长度 n,然后根据上一步得到的 y,再由 p(xi|y)采样得到 x1,x2,…,xn
这就是朴素贝叶斯模型。显然,朴素贝叶斯的假设是一种很强的假设,实际应用中很少有满足这种假设的的情况,因为它认为只要在确定邮件是垃圾或者非垃圾的条件下,邮件内容地生成就是完全独立地,词与词之间不存在联系。
朴素贝叶斯模型优、缺点
- 优点:对小规模的数据表现很好,适合多分类任务,适合增量式训练。
- 缺点:对输入数据的表达形式很敏感。
2. 决策树模型
决策树模型是一种简单易用的非参数分类器。它不需要对数据有任何的先验假设,计算速度较快,结果容易解释,而且稳健性强。
在复杂的决策情况中,往往需要多层次或多阶段的决策。当一个阶段决策完成后,可能有 m 种新的不同自然状态发生;每种自然状态下,都有 m 个新的策略可选择,选择后产生不同的结果并再次面临新的自然状态,继续产生一系列的决策过程,这种决策被称为序列决策或多级决策。
此时,如果继续遵循上述的决策准则或采用效益矩阵分析问题,就容易使相应的表格关系十分复杂。决策树是一种能帮助决策者进行序列决策分析的有效工具,其方法是将问题中有关策略、自然状态、概率及收益值等通过线条和图形用类似于树状的形式表示出来。
决策树模型就是由决策点、策略点 (事件点) 及结果构成的树形图,一般应用于序列决策中,通常以最大收益期望值或最低期望成本作为决策准则,通过图解方式求解在不同条件下各类方案的效益值,然后通过比较,做出决策。
决策树模型优、缺点
- 优点:浅层的 (Shallow) 决策树视觉上非常直观,而且容易解释;是对数据的结构和分布不需作任何假设;是可以捕捉住变量间的相互作用(Interaction)。
- 缺点:深层的 (Deep) 决策树视觉上和解释上都比较困难;决策树容易过分微调于样本数据而失去稳定性和抗震荡性;决策树对样本量 (Sample Size) 的需求比较大;处理缺失值的功能非常有限。
3.KNN 算法
KNN 即最近邻算法,核心思想是如果一个样本在特征空间中的 k 个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。kNN 方法在类别决策时,只与极少量的相邻样本有关。由于 kNN 方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN 方法较其他方法更为适合。其主要过程为:
1. 计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);
2. 对上面所有的距离值进行排序;
3. 选前 k 个最小距离的样本;
4. 根据这 k 个样本的标签进行投票,得到最后的分类类别;
如何选择一个最佳的 K 值,这取决于数据。一般情况下,在分类时较大的 K 值能够减小噪声的影响。但会使类别之间的界限变得模糊。一个较好的 K 值可通过各种启发式技术来获取,比如,交叉验证。另外噪声和非相关性特征向量的存在会使 K 近邻算法的准确性减小。
近邻算法具有较强的一致性结果。随着数据趋于无限,算法保证错误率不会超过贝叶斯算法错误率的两倍。对于一些好的 K 值,K 近邻保证错误率不会超过贝叶斯理论误差率。
KNN 算法优、缺点
- 优点:简单,易于理解,易于实现,无需估计参数,无需训练;理论成熟,既可以用来做分类也可以用来做回归;可用于非线性分类;适合对稀有事件进行分类;准确度高,对数据没有假设,对 outlier 不敏感。
- 缺点:计算量大;样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少);需要大量的内存;可理解性差,无法给出像决策树那样的规则。
4.SVM 算法
SVM(Support Vector Machine)指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。
SVM 的主要思想可以概括为两点:
1. 它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。
2. 它基于结构风险最小化理论之上在特征空间中构建最优超平面,使得学习器得到全局最优化,并且在整个样本空间的期望以某个概率满足一定上界。
SVM 算法优、缺点
- 优点:可用于线性 / 非线性分类,也可以用于回归;低泛化误差;容易解释;计算复杂度较低。
- 缺点:对参数和核函数的选择比较敏感;原始的 SVM 只比较擅长处理二分类问题。
5.logistic 回归模型
logistic 回归又称 logistic 回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。
以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过 logistic 回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。
Logistic 回归模型的适用条件:
1. 因变量为二分类的分类变量或某事件的发生率,并且是数值型变量。但是需要注意,重复计数现象指标不适用于 Logistic 回归。
2. 残差和因变量都要服从二项分布。二项分布对应的是分类变量,所以不是正态分布,进而不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。
3. 自变量和 Logistic 概率是线性关系
4. 各观测对象间相互独立。
Logistic 回归实质:发生概率除以没有发生概率再取对数。就是这个不太繁琐的变换改变了取值区间的矛盾和因变量自变量间的曲线关系。究其原因,是发生和未发生的概率成为了比值,这个比值就是一个缓冲,将取值范围扩大,再进行对数变换,整个因变量改变。
不仅如此,这种变换往往使得因变量和自变量之间呈线性关系,这是根据大量实践而总结。所以,Logistic 回归从根本上解决因变量要不是连续变量怎么办的问题。还有,Logistic 应用广泛的原因是许多现实问题跟它的模型吻合。例如一件事情是否发生跟其他数值型自变量的关系。
logistic 回归模型优、缺点
- 优点:实现简单;分类时计算量非常小,速度很快,存储资源低。
- 缺点:容易欠拟合,一般准确度不太高;能处理两分类问题(在此基础上衍生出来的 softmax 可以用于多分类),且必须线性可分。
点击关注,第一时间了解华为云新鲜技术~