关于数据清洗:机器学习建模高级用法构建企业级AI建模流水线-⛵

作者:韩信子@ShowMeAI 机器学习实战系列: https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-detail/287 申明:版权所有,转载请分割平台与作者并注明出处 珍藏ShowMeAI查看更多精彩内容机器学习与流水线(pipeline)简介咱们晓得机器学习利用过程蕴含很多步骤,如图所示『规范机器学习利用流程』,有数据预处理、特色工程、模型训练、模型迭代优化、部署预估等环节。 在简略剖析与建模时,能够对每个板块进行独自的构建和利用。但在企业级利用中,咱们更心愿机器学习我的项目中的不同环节有序地构建成工作流(pipeline),这样不同流程步骤更易于了解、可重现、也能够避免数据透露等问题。 罕用的机器学习建模工具,比方 Scikit-Learn,它的高级性能就笼罩了 pipeline,蕴含转换器、模型和其余模块等。 对于 Scikit-Learn 的利用办法能够参考ShowMeAI 机器学习实战教程 中的文章 SKLearn最全利用指南,也能够返回 Scikit-Learn 速查表 获取高密度的知识点清单。然而,SKLearn 的繁难用法下,如果咱们把内部工具库,比方解决数据样本不平衡的 imblearn合并到 pipeline 中,却可能呈现不兼容问题,比方有如下报错: TypeError: All intermediate steps should be transformers and implement fit and transform or be the string ‘passthrough’ ‘SMOTE()’ (type <class ‘imblearn.over_sampling._smote.base.SMOTE’>) doesn’t本文以『客户散失』为例,解说如何构建 SKLearn 流水线,具体地说蕴含: 构建一个流水线(pipeline) ,会笼罩到 Scikit-Learn、 imblearn 和 feature-engine 工具的利用在编码步骤(例如 one-hot 编码)之后提取特色构建特色重要度图最终解决方案如下图所示:在一个管道中组合来自不同包的多个模块。 咱们上面的计划流程,笼罩了上述的不同环节: 步骤 ①:数据预处理:数据荡涤步骤 ②:特色工程:数值型和类别型特色解决步骤 ③:样本解决:类别非均衡解决步骤 ④:逻辑回归、xgboost、随机森林 及 投票集成步骤 ⑤:超参数调优与特色重要度剖析 ...

August 9, 2022 · 4 min · jiezi

关于数据清洗:思迈特软件Smartbi数据清洗我们到底要洗掉什么

数据荡涤对数据进行从新审查和校验的过程,目标在于删除反复信息、纠正存在的谬误,并提供数据一致性,是企业在做数据分析时必不可少的步骤。 那么,数据荡涤咱们须要“洗”的数据有哪些呢? 1、谬误数据 这一类谬误产生的起因是业务零碎不够健全,在接管输出后没有进行判断间接写入后盾数据库造成的,比方数值数据输成全角数字字符、字符串数据前面有一个回车操作、日期格局不正确、日期越界等。这一类数据也要分类,对于相似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的形式找进去,而后要求客户在业务零碎修改之后抽取。日期格局不正确的或者是日期越界的这一类谬误会导致ETL运行失败,这一类谬误须要去业务零碎数据库用SQL的形式挑出来,交给业务主管部门要求限期修改,修改之后再抽取。 2、完好数据 这一类数据次要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务零碎中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容别离写入不同Excel文件向客户提交,要求在规定的工夫内补全。补全后才写入数据仓库。 3、反复数据 数据荡涤是一个重复的过程,不可能在几天内实现,只有一直的发现问题,解决问题。对于是否过滤,是否修改个别要求客户确认,对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期能够每天向业务单位发送过滤数据的邮件,促使他们尽快地修改谬误,同时也能够做为未来验证数据的根据。数据荡涤须要留神的是不要将有用的数据过滤掉,对于每个过滤规定认真进行验证,并要用户确认。 对于呈现的这种状况,数据荡涤罕用办法有以下4个: 1、抛弃 这种办法简单明了,间接删除带有缺失值的行记录或者列字段,缩小趋势数据记录对总体数据的影响。但失落意味着会消减数据特色,以下场景都不宜采纳抛弃的办法:数据集总体存在大量的数据记录不残缺状况;带有缺失值的数据记录大量存在着显著的数据分布规定或特色。 2、补全 绝对于抛弃而言,补全是更加罕用的缺失值解决形式,通过肯定的办法将缺失的数据补上,从而造成残缺的数据记录对于后续的数据处理、剖析和建模直观重要。 3、不解决 在数据预处理阶段,对于具备缺失值的数据记录不做任何解决,也是一种思路。这种思路次要看前期的数据分析和建模利用,很多模型对于缺失值有容忍度或灵便的解决办法,因而在预处理阶段能够不做解决。 4、真值转换法 抵赖缺失值的存在,并且把数据缺失也作为数据分布法则的一部分,这将变量的理论值和缺失都作为输出维度参加后续数据处理和模型计算。然而变量的理论值能够作为变量值参加模型计算,而缺失值通常无奈参加运算,因而须要对缺失值进行真值转换。 以上就是思迈特软件明天分享的数据荡涤相干信息。感谢您的浏览,更多常识,请持续关注咱们,下期再见!思迈特软件Smartbi是国家认定的“高新技术企业”,专一于商业智能(BI)与大数据分析软件产品和服务。咱们在BI畛域具备15年以上产品研发教训,提供残缺的大数据分析软件产品、解决方案、以及配套的征询、施行、培训及保护服务。

June 2, 2021 · 1 min · jiezi