关于数据挖掘:为什么我基于开源包建的模型效果不好

机器学习倒退到明天曾经有泛滥优良前辈给咱们奉献了各种各种现成的开源包

以最风行的 Scikit-learn 为例，提供了包含回归 (Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering) 等办法的开源包，使用者能够灵便的实现各种建模操作。然而也有人发现了，同样的开源包不同的人建出的模型成果是不一样的，甚至天壤之别。为什么大牛就能建出高质量模型，而我基于开源包建的模型成果总是不尽人意呢？次要起因有以下三点：

首先是 数据自身品质差。数据挖掘就像挖金矿，含金量高，那么开掘难度就小，出金率就高，反之含金量低，那么就会难度大成果差。数据问题大略能够从 2 个方面来思考，首先要检查数据量是否短缺，大部分的机器学习算法都须要一定量的数据能力失常工作，太少的数据量会导致建模失败或模型成果不好，尤其要留神不均衡样本中阳性样本的数量；其次要剖析参加建模的数据样本和特色别离是否具备代表性，例如要通过民调来预测美国总统大选，那么民调的样本要具备全面的代表性，不能只抽查偏差某一方的人群或地区，除了样本要有代表性数据特色也要有短缺的相关性才容易建出好的模型。

然而，我和大牛应用的是同样数据，建出的模型仍然不好，又是怎么回事？

第二个起因是 预处理没做好。原始数据往往是不能拿来间接建模，还须要做预处理，预处理做的是否适合会对模型后果产生很大影响。但同时预处理也是一件非常头大的工作，因为它没有固定的办法可言，数据特点和散布不同预处理的办法也就不同，须要一直地去尝试，这也正是为什么咱们应用开源包复制了他人的流程，也仍然成果不好的。以简略的缺失值解决为例，比方在年龄的变量中，5% 的顾客没有指定年龄，那么你必须决定是整体的疏忽这些特色，还是疏忽这部分有缺失的实例，又或者是将缺失值补充残缺（比方，填写年龄值的中位数还是平均数或是更简单的形式填充），或者是训练一个带这个特色的模型，再训练一个不带这个特色的模型，等等，以及，当缺失率达到 90% 时是否还能采纳雷同的解决办法。再例如原始数据可能会存在谬误、异样值和噪声，算法也是很难检测到数据法则的，还有高基数变量，非正态分布，工夫特色等等都是须要解决的。

花工夫来预处理数据是十分值得的投入，事实上，大多数数据科学家也都会破费相当多的工夫来做这项工作。而要做好预处理是须要深厚的统计学根底和丰盛的数据处理教训，并且通过屡次尝试能力做好的。机械的应用开源包复制他人的预处理流程甚至简直不做什么预处理间接就开始建模，模型成果当然就只能看运气了。

除了预处理外，还有 算法参数抉择不当 的问题。数据挖掘算法和数据库运算中用到的排序、分组算法有很大不同，后者是确定的算法，同样的数据进来就会出同样的后果，也没多少参数可调。而数据挖掘算法有许多教训因素，同样的数据进去，设置不同的参数来训练模型，后果很可能是不一样，甚至可能差异很大。以罕用的 GBDT 算法为例，须要的参数有十几个，如下图所示，这些参数示意什么含意，如何去设置，如何能疾速找到最佳值，当模型成果不好时如何去调参, 这都须要建模师对算法原理和利用场景有粗浅的了解能力顺利进行。况且算法也不是只有这一种，在建模时用哪种算法，是用一种还是多种组合用，都是建模师要须要思考的。

开源包的特点是灵便，简直能够实现任何操作，但毛病是模型成果取决于使用者的程度，尽管都能建出模型，然而如果没有背地的统计学、微积分、概率论等数学实践反对，不懂得如何正当的解决数据，选模型，选参数，做评估等等，也很难建出好模型。打个形象点的比喻，开源包里的算法和函数就如同是一堆模块化的建筑材料，而要盖一座大楼仅仅有这些原料是远远不够的，还要懂得修建构造，资料，机械，流体力学，暖通工程等实践能力建出适宜住户需要且平安的大楼；否则只能叫搭房子，至于搭进去的房子能不能住人、会不会倒，常常是看运气。

那么，对于咱们一般的初学者或者程序员是不是就很难做数据挖掘了？也不是，近年来衰亡的主动建模技术就能够帮到咱们。主动建模技术是将统计学家和数学家的数据处理教训和实践融入到软件中，使得软件可能智能的去实现数据预处理，建模型，选参数，做评估等一系列的工作。对于使用者来讲只须要将数据丢进主动建模工具，并且配置好指标，工具就可能主动建出优质模型。因而无论是业务人员还是一般的 IT 程序员都能够通过主动建模技术来做数据挖掘业务，连简略的 Python 都不必再学就能够享受 AI 技术带来的福利。

对进一步数据挖掘和 AI 技术感兴趣的同学还能够搜寻“乾学院”，下面有面向小白的零根底“数据挖掘”收费课程，或者间接点上面的链接也能够：
http://www.raqsoft.com.cn/wx/course-data-mining.html