关于数据清洗:机器学习建模高级用法构建企业级AI建模流水线-⛵
作者:韩信子@ShowMeAI 机器学习实战系列: https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-detail/287 申明:版权所有,转载请分割平台与作者并注明出处 珍藏ShowMeAI查看更多精彩内容机器学习与流水线(pipeline)简介咱们晓得机器学习利用过程蕴含很多步骤,如图所示『规范机器学习利用流程』,有数据预处理、特色工程、模型训练、模型迭代优化、部署预估等环节。 在简略剖析与建模时,能够对每个板块进行独自的构建和利用。但在企业级利用中,咱们更心愿机器学习我的项目中的不同环节有序地构建成工作流(pipeline),这样不同流程步骤更易于了解、可重现、也能够避免数据透露等问题。 罕用的机器学习建模工具,比方 Scikit-Learn,它的高级性能就笼罩了 pipeline,蕴含转换器、模型和其余模块等。 对于 Scikit-Learn 的利用办法能够参考ShowMeAI 机器学习实战教程 中的文章 SKLearn最全利用指南,也能够返回 Scikit-Learn 速查表 获取高密度的知识点清单。然而,SKLearn 的繁难用法下,如果咱们把内部工具库,比方解决数据样本不平衡的 imblearn合并到 pipeline 中,却可能呈现不兼容问题,比方有如下报错: TypeError: All intermediate steps should be transformers and implement fit and transform or be the string ‘passthrough’ ‘SMOTE()’ (type <class ‘imblearn.over_sampling._smote.base.SMOTE’>) doesn’t本文以『客户散失』为例,解说如何构建 SKLearn 流水线,具体地说蕴含: 构建一个流水线(pipeline) ,会笼罩到 Scikit-Learn、 imblearn 和 feature-engine 工具的利用在编码步骤(例如 one-hot 编码)之后提取特色构建特色重要度图最终解决方案如下图所示:在一个管道中组合来自不同包的多个模块。 咱们上面的计划流程,笼罩了上述的不同环节: 步骤 ①:数据预处理:数据荡涤步骤 ②:特色工程:数值型和类别型特色解决步骤 ③:样本解决:类别非均衡解决步骤 ④:逻辑回归、xgboost、随机森林 及 投票集成步骤 ⑤:超参数调优与特色重要度剖析 ...