各类监督方法流行趋势分析

jiezi

6 年前

摘要：想知道目前最流行的监督学习方法是哪一类吗？本文统计每种类型的出版物数量的历史数据回答了该问题，一睹为快吧！
又到一年的年末了，到了进行总结并展望来年的时候了，在这里预祝各位新的一年顺利。闲话少叙，本文将对有监督学习方法进行总结。
机器学习领域在过去几十年中经历了巨大的变化，不可否认的是，虽然有些方法已经存在了很长时间，但仍然是该领域的主要内容。例如，最小二乘法（least squares）的概念在 19 世纪早期由勒让德和高斯提出，最基本的形式的神经网络（neural networks）早在 1958 年就引入的，并在过去的几十年中大幅提升、支持向量机（SVM）等方法则更是较新的方法，这些方法仍然占据了机器学习领域应用中的半壁江山。
随着科研的进行，有大量可用的监督学习方法被发明。使用者通常会提出以下问题：什么是最好的模型？众所周知，这个问题没有标准答案，因为模型的有用性取决于手头的数据以及具体处理的问题，合适的就是最好的。那么，可以转换下思路，换成这个问题：最受欢迎的模型是什么？这将是本文的关注点。
衡量机器学习模型的流行程度
出于本文的目的，使用频率论方法定义流行度。更确切地说，将使用提及个人监督学习模型的科学出版物的数量表示受欢迎的程度。当然，这种方法有一些限制：

可能有比出版物数量更准确的表示方法；
分析受所使用的搜索术语的影响；
文献数据库并不完美；

因此，对于这篇文章进行了两次分析。第一个分析是对出版频率的纵向分析，而第二个分析则比较了不同领域与机器学习模型相关的出版物总数。
在第一次分析中，通过从谷歌学术搜索中搜索数据来确定出版物的数量，该数据考虑出版物的标题和摘要。为了确定与个人监督学习方法相关的出版物数量，统计 1950 年至 2017 年期间谷歌学术搜索的点击次数。由于抓取谷歌学术的数据非常困难，所以本文参考 ScrapeHero 提供的有用建议来收集数据。
在分析中包含了 13 种监督方法：神经网络、深度学习、SVM、随机森林、决策树、线性回归、逻辑回归、泊松回归、岭回归、套索回归（lasso regression）、k- 最近邻、线性判别分析、以及对数线性模型。其中，对于套索回归，搜索时考虑了 lasso regression 和套 lasso model；对于最近邻方法，搜索时术语有 k -nearest neighbor 和 k -nearest neighbour，得到的数据集表示从 1950 年到现在，每个监督模型相关的出版物的数量。
从 1950 年到现在使用的监督模型
为了分析纵向数据，将时间段划分为两个时期：机器学习的早期阶段（1950 年至 1980 年），几乎没有可用模型；以及形成时期（1980 年至今），开发了许多新模型。
早期：线性回归占优势

从图 1 中可以看出，线性回归是 1950 年至 1980 年间的主导方法。相比之下，科学文献中极少提及其他机器学习模型。然而，从 20 世纪 60 年代开始，可以看到神经网络和决策树的普及开始增长。此外，还可以看到逻辑回归尚未广泛应用，在 20 世纪 70 年代末的数量仅略有增加。

形成年代：神经网络的多样化和兴起
图 2 表明，从 20 世纪 80 年代后期开始，出版物中提到的监督模型变得更加多样化。重要的是，文献中提到的机器学习模型的比率一直稳步增加，直到 2013 年。该图具体显示了线性回归、逻辑回归和神经网络的普及。正如之前所见，线性回归在 1980 年之前已经流行。然而，从 1980 年开始，神经网络和逻辑回归的普及开始迅速增长。虽然逻辑回归的流行度在 2010 年达到顶峰，该方法几乎变得像线性回归一样受欢迎，但近年来，神经网络和深度学习的流行程度甚至超过了 2015 年线性回归的流行程度。
神经网络已经变得非常受欢迎，因为它们已经在机器学习应用方面取得了突破，例如图像识别（ImageNet，2012）、人脸识别（DeepFace，2014）和游戏（AlphaGo，2016）等。来自谷歌学术的数据表明，文章中提到神经网络的频率在过去几年中略有下降（图 2 中未显示）。这可能是因为术语深度学习（多层神经网络）在某种程度上取代了术语神经网络的使用。
另外可以看到，稍微不那么受欢迎的监督方法是决策树和 SVM。与前三种方法相比，提到这些方法的频率明显较小。另一方面，文献中提到这些方法的频率似乎也有较小的波动。值得注意的是，决策树和 SVM 的流行度都没有下降。在决策树和 SVM 之间，SVM 似乎表现出更有利的增长趋势，因为 SVM 在发明后仅仅 15 年就成功超越了决策树。
不同领域的监督学习模型的受欢迎程度
在第二个分析中，想调查不同的领域是否依赖于不同的机器学习技术。为此，查询了三个科学出版物库：谷歌学术出版物、计算机科学出版物的 dblp 和生物医学科学出版物的 PubMed。在三个库中统计了 13 个机器学习模型的命中频率。结果如图 3 所示。

图 3 表明，许多方法对各个领域都非常具体，下面分析每个领域中最流行的模型。
整体使用监督学习模型
根据谷歌学术搜索表明，最常用的五种监督模型如下所示：

线性回归：3,580,000（34.3%）篇论文；
逻辑回归：2,330,000（22.3%）篇论文；
神经网络：1,750,000（16.8%）篇论文；
决策树：875,000（8.4%）份论文；
支持向量机：684,000（6.6%）篇论文；

总体而言，线性模型显然占主导地位，占监督模型的统计率的 50%以上。单非线性方法并不落后：神经网络占所有论文的 16.8%，其次是决策树（8.4%的论文）和 SVM（6.6%的论文）。
在生物医学科学中使用模型
根据 PubMed，在生物医学科学中，最受欢迎的五种机器学习模型如下所示：

逻辑回归：229,956（54.5%）篇论文；
线性回归：84,850（20.1%）篇论文；
Cox 回归：38,801（9.2%）篇论文；
神经网络：23,883（5.7%）篇论文；
泊松回归：12,978（3.1%）篇论文；

在生物医学科学中，可以看到与线性模型相关的提及次数偏多：五种最流行的方法中有四种是线性的，这可能是由于两个原因造成的。首先，在医疗环境中，样本数量通常太小，无法拟合复杂的非线性模型。其次，模型解释结果的能力对医疗应用至关重要。由于非线性方法通常难以解释，因此它们不太适合医疗应用。
逻辑回归在 PubMed 数据库中的流行可能是由于大量出版物的临床研究。在这些研究中，通常使用逻辑回归分析分类结果（即治疗成功），因为它非常适合于解释特征对结果的影响。Cox 回归在 PubMed 数据库中也非常流行，因为它常用于分析 Kaplan-Meier 生存数据。
在计算机科学中使用的模型
从 dblp 中检索到，计算机科学书目中最受欢迎的五个模型是：

神经网络：63,695（68.3%）篇论文；
深度学习：10,157（10.9%）篇论文；
支持向量机：7,750（8.1%）篇论文；
决策树：4,074（4.4%）篇论文；
最近邻居：3,839（2.1%）篇论文；

计算机科学出版物中提到的机器学习模型的分布是截然不同的：大多数出版物似乎都涉及最近的非线性方法（例如神经网络、深度学习和支持向量机），如果将深度学习算作神经网络的一种，则超过四分之三的检索计算机科学出版物都涉及神经网络。
行业之间的差别

图 4 总结了文献中提到的参数和非参数模型的百分比。柱形图表明，在机器学习研究中调查的模型（计算机科学出版物）和应用的模型类型（生物医学和整体出版物）之间存在很大差异。虽然超过 90%的计算机科学出版物涉及非参数模型，但大约 90%的生物医学出版物涉及参数模型，这表明机器学习研究主要集中在最先进的方法，如深度神经网络，而机器学习的用户往往依赖于更多可解释的参数模型，如逻辑回归等。
总结
对科学文献中有监督学习模型的流行度分析表明了人工神经网络的受欢迎程度。但是，也看到不同的领域使用不同类型的机器学习模型。特别是生物医学科学的研究人员仍然严重依赖参数模型，但这种情况逐渐在发生改变，随着可解释模型的研究更加深入，更复杂的模型一定会在生物医学领域得到广泛应用。

本文作者：【方向】阅读原文
本文为云栖社区原创内容，未经允许不得转载。